除了網(wǎng)上的教程外,還要特別注意,當(dāng)運(yùn)算中有浮點(diǎn)的數(shù)字時(shí)要把,數(shù)字后面加上一個(gè)f。例如表達(dá)式中有4.321參與運(yùn)算。。當(dāng)你不在4.321后加f時(shí),stm32F405的片子不知道把他當(dāng)做單精度f(wàn)loat用FPU來(lái)運(yùn)算,,默認(rèn)可能是當(dāng)做double來(lái)運(yùn)算(我不確定),運(yùn)算速度還是很慢。。切記所有浮點(diǎn)數(shù)字后面加上f,,,,有時(shí)候keil會(huì)提示warning: #1035-D: single-precision operand implicitly converted to double-precision 這句話的意思就是單精度運(yùn)算隱式轉(zhuǎn)換成了雙精度運(yùn)算了。這個(gè)時(shí)候就要在單精度數(shù)字后面加個(gè)f
?
keilmdk的設(shè)置中完整的define是USE_STDPERIPH_DRIVER,STM32F4XX,__FPU_PRESENT=1,__FPU_USED =1,ARM_MATH_CM4,__CC_ARM
要在MDK中有個(gè)選項(xiàng)設(shè)置 usr FPU
STM32F4之FPU性能的充分發(fā)揮-設(shè)置要點(diǎn)
浮點(diǎn)運(yùn)算一直是定點(diǎn)CPU的難題,比如一個(gè)簡(jiǎn)單的1.1+1.1,定點(diǎn)CPU必須要按照IEEE-754標(biāo)準(zhǔn)的算法來(lái)完成運(yùn)算,對(duì)于8位單片機(jī)來(lái)說(shuō)已經(jīng)完全是噩夢(mèng),對(duì)32為單片機(jī)來(lái)說(shuō)也不會(huì)有多大改善。雖然將浮點(diǎn)數(shù)進(jìn)行Q化處理能充分發(fā)揮32位單片機(jī)的運(yùn)算性能,但是精度受到限制而不會(huì)太高。對(duì)于有FPU(浮點(diǎn)運(yùn)算單元)的單片機(jī)或者CPU來(lái)說(shuō),浮點(diǎn)加法只是幾條指令的事情。
現(xiàn)在又FPU或者硬件浮點(diǎn)運(yùn)算能力的主要有高端DSP(比如TI F28335/C6000/DM6XX/OMAP等),通用CPU(X87數(shù)學(xué)協(xié)處理器)和高級(jí)的ARM+DSP處理器等。
STM32-F4屬于Cortex-M4F構(gòu)架,這和M0、M3的最大不同就是多了一個(gè)F-float,即支持浮點(diǎn)指令集,因此在處理數(shù)學(xué)運(yùn)算時(shí)能比M0/M3高出數(shù)十倍甚至上百倍的性能,但是要充分發(fā)揮FPU的數(shù)學(xué)性能,還需要一些小小的設(shè)置:
1.編譯控制選項(xiàng):雖然STM32F4XX固件庫(kù)的例程之system_stm32f4XXX.c文件中添加了對(duì)應(yīng)的代碼,但給用戶評(píng)估使用的STM32F4-Discovery例程中卻沒(méi)有,因此MDK4.23編寫浮點(diǎn)運(yùn)算程序時(shí),雖然編譯器正確產(chǎn)生了V指令來(lái)進(jìn)行浮點(diǎn)運(yùn)算,但是因?yàn)閟ystem_stm32f4XXX.c文件沒(méi)有啟用FPU,因此CPU執(zhí)行時(shí)只認(rèn)為是遇到非法指令而跳轉(zhuǎn)到HardFault_Handler()中斷中原地踏步。因此要保證這個(gè)錯(cuò)誤不發(fā)生,必須要在system_init()函數(shù)里面添加如下代碼:
#if (__FPU_PRESENT == 1) && (__FPU_USED == 1)
SCB-》CPACR |= ((3UL 《《 10*2)|(3UL 《《 11*2));
#endif
因?yàn)檫@個(gè)選項(xiàng)是有條件編譯控制的,因此需要在工程選項(xiàng)(Project-》Options for target “XXXX”)中的C/C++選項(xiàng)卡的Define中加入如下的語(yǔ)句:__FPU_PRESENT=1,__FPU_USED =1。這樣編譯時(shí)就加入了啟動(dòng)FPU的代碼,CPU也就能正確高效的使用FPU進(jìn)行簡(jiǎn)單的加減乘除了。
但這還遠(yuǎn)遠(yuǎn)不夠。對(duì)于復(fù)雜運(yùn)算,比如三角函數(shù),開(kāi)方等運(yùn)算,如果編程時(shí)還是使用math.h頭文件,那是沒(méi)法提升效率的:因?yàn)閙ath.h頭文件是針對(duì)所有ARM處理器的,其運(yùn)算函數(shù)都是基于定點(diǎn)CPU和標(biāo)準(zhǔn)算法(IEEE-754),并沒(méi)有預(yù)見(jiàn)使用FPU的情況,需要很多指令和復(fù)雜的過(guò)程才能完成運(yùn)算,也就增加了運(yùn)算時(shí)間。因此要充分發(fā)揮M4F的浮點(diǎn)功能,就需要使用固件庫(kù)自帶的arm_math.h,這個(gè)文件根據(jù)編譯控制項(xiàng)(__FPU_USED == 1)來(lái)決定是使用那一種函數(shù)方法:如果沒(méi)有使用FPU,那就調(diào)用keil的標(biāo)準(zhǔn)math.h頭文件中定義的函數(shù);如果使用了FPU,那就是用固件庫(kù)自帶的優(yōu)化函數(shù)來(lái)解決問(wèn)題。
在arm_math的開(kāi)頭部分是有這些編譯控制信息:
#ifndef _ARM_MATH_H
#define _ARM_MATH_H
#define __CMSIS_GENERIC
#if defined (ARM_MATH_CM4)
#include “core_cm4.h”
#elif defined (ARM_MATH_CM3)
#include “core_cm3.h”
#elif defined (ARM_MATH_CM0)
#include “core_cm0.h”
#else
#include “ARMCM4.h”
#warning “Define either ARM_MATH_CM4 OR ARM_MATH_CM3.。.By Default building on ARM_MATH_CM4.。..?!?/p>
#endif
#undef__CMSIS_GENERIC
#include “string.h”
#include “math.h”
就是說(shuō)如果不使用CMSIS的,就會(huì)調(diào)用keil自帶的標(biāo)準(zhǔn)庫(kù)函數(shù)。否則就用CMSIS的定義。這里因?yàn)槭怯玫腟TM32F4,所以應(yīng)該要ARM_MATH_CM4控制,即加入core_cm4.h,否則就用使用ARMCM4.h——但在編譯時(shí)keil會(huì)提示找不到這文件。因此需要在工程選項(xiàng)之C/C++選項(xiàng)卡的define中繼續(xù)加入語(yǔ)句ARM_MATH_CM4。
加入上述編譯控制項(xiàng)之后,高級(jí)數(shù)學(xué)函數(shù)的使用基本沒(méi)問(wèn)題了,比如正余弦三角函數(shù)的計(jì)算。但需要注意,如果你直接使用sin()、cos()、sqrt()這樣的函數(shù),那結(jié)果還算調(diào)用keil的math.h,你可以在debug時(shí)看對(duì)應(yīng)的代碼,其匯編指令為BL.W __hardfp_xxx。因此這時(shí)要完成三角函數(shù)的計(jì)算就要使用arm_sin_f32()或者arm_cos_f32(),用法不變,這兩個(gè)函數(shù)的原型分別在arm_sin_f32.c和arm_cos_f32.c中。通過(guò)對(duì)256點(diǎn)三角函數(shù)表的查詢和插值算法得到任意角度的精確函數(shù)值,這就比“原裝”的sin()、cos()快多了。
當(dāng)然有些例外的是開(kāi)發(fā)函數(shù)sqrt(),在arm_math.h中是這么定義的:
static __INLINE arm_statusarm_sqrt_f32(float32_t in, float32_t *pOut)
{
if(in 》 0)
{
//#if __FPU_USED
#if (__FPU_USED == 1) && defined ( __CC_ARM)
*pOut = __sqrtf(in);
#else
*pOut = sqrtf(in);
#endif
return (ARM_MATH_SUCCESS);
}
else
{
*pOut = 0.0f;
return (ARM_MATH_ARGUMENT_ERROR);
}
}
評(píng)論