视频一区色眯眯视频在线,国产日韩性毛片

網(wǎng)上關(guān)于算力的文章，如果提到某個(gè)芯片或某個(gè)智算中心的算力，都會(huì)寫(xiě)：在FP32精度下，英偉達(dá)H100的算力大約為 0.9 PFlops。在FP16精度下，某智算中心的算力是 6.7 EFlops。在INT8精度下，驍龍8Gen1的算力是 9 TOPS?！?/span>那么，評(píng)估算力的大小，為什么要加上FP32、FP16、INT8這樣的前提？它們到底是什么意思？其實(shí)，F(xiàn)P32、FP16、INT8，都是數(shù)字在計(jì)算機(jī)中存儲(chǔ)的格式類(lèi)型，是計(jì)算機(jī)內(nèi)部表示數(shù)字的方式。大家都知道，數(shù)字在計(jì)算機(jī)里是以二進(jìn)制（0和1）的形式進(jìn)行存儲(chǔ)和處理。但是，數(shù)字有大有小、有零有整，如果只是簡(jiǎn)單地進(jìn)行二進(jìn)制的換算，就會(huì)很亂，影響處理效率。所以，我們需要一個(gè)統(tǒng)一的“格式”，去表達(dá)這些數(shù)字。

FP32、FP16

我們先來(lái)說(shuō)說(shuō)最常見(jiàn)的FP32和FP16。FP32和FP16，都是最原始的、由IEEE定義的標(biāo)準(zhǔn)浮點(diǎn)數(shù)類(lèi)型（Floating Point）。
浮點(diǎn)數(shù)，是表示小數(shù)的一種方法。所謂浮點(diǎn)，就是小數(shù)點(diǎn)的位置不固定。與浮點(diǎn)數(shù)相對(duì)應(yīng)的，是定點(diǎn)數(shù)，即小數(shù)點(diǎn)的位置固定。

浮點(diǎn)數(shù)先看看FP32。FP32是一種標(biāo)準(zhǔn)的32位浮點(diǎn)數(shù)，它由三部分組成：

符號(hào)位（Sign）：表示數(shù)字的正負(fù)，0表示正數(shù)，1 表示負(fù)數(shù)。

指數(shù)位（Exponent）：用于表示數(shù)字的大小范圍（也叫動(dòng)態(tài)范圍，dynamic range），可以表示從非常小到非常大的數(shù)。

尾數(shù)位（Mantissa）：也叫小數(shù)位（fraction），用于表示數(shù)字的精度（precision，相鄰兩個(gè)數(shù)值之間的間隔）。

這三個(gè)部分的位數(shù)，分別是：1、8、23。加起來(lái)，剛好是32位。

十進(jìn)制和FP32之間的轉(zhuǎn)換有一個(gè)公式，過(guò)程有點(diǎn)復(fù)雜。需要具體了解的，可以看下面的灰字和圖。數(shù)學(xué)不好的童鞋，直接跳過(guò)吧：

轉(zhuǎn)換公式：

轉(zhuǎn)換過(guò)程示例：

下面這個(gè)網(wǎng)址，可以直接幫你換算：

https://baseconvert.com/ieee-754-floating-point

FP32的表示范圍非常廣泛，大約是±3.4×103?，精度可以達(dá)到小數(shù)點(diǎn)后7位左右。

再看看FP16。

FP16的位數(shù)是FP32的一半，只有16位。三部分的位數(shù)，分別是符號(hào)位（1位）、指數(shù)位（5位）、尾數(shù)位（10位）。

FP16的表示范圍是±65504（±6.55×10?），精度只能達(dá)到小數(shù)點(diǎn)后3位左右。也就是說(shuō)，1.001和1.0011在FP16下的表示是相同的。
FP16的十進(jìn)制換算過(guò)程如下：很顯然，F(xiàn)P32的位數(shù)更長(zhǎng)，表達(dá)的范圍更大，精度也更高。

FP64、FP8、FP4

除了常見(jiàn)的FP32和FP16之外，還有FP64、FP8、FP4。

圖我就懶得畫(huà)了。列個(gè)表，方便對(duì)比：

大家肯定能看出來(lái)，F(xiàn)P64所表示的動(dòng)態(tài)范圍最大，精度最高。FP4反之。

FP32通常稱(chēng)為單精度浮點(diǎn)數(shù)，F(xiàn)P16被稱(chēng)為半精度浮點(diǎn)數(shù)。其它的命名，上面表格也有。

FP8有點(diǎn)特別，有E4M3（4位指數(shù)和3位尾數(shù)）和E5M2（5位指數(shù)和2位尾數(shù)）兩種表示方式。E4M3精度更高，而E5M2范圍更寬。

不同格式的應(yīng)用區(qū)別

好了，問(wèn)題來(lái)了——為什么要搞這么多的格式呢？不同的格式，會(huì)帶來(lái)什么樣的影響呢？

簡(jiǎn)單來(lái)說(shuō)，位數(shù)越多，范圍越大，精度越高。但是，占用內(nèi)存會(huì)更多，計(jì)算速度也會(huì)更慢。

舉個(gè)例子，就像圓周率π。π可以是小數(shù)點(diǎn)后無(wú)數(shù)位，但一般來(lái)說(shuō)，我們都會(huì)取3.14。這樣雖然會(huì)損失一點(diǎn)精度，但能夠大幅提升計(jì)算的效率。

換言之，所有的格式類(lèi)型，都是在“精度”和“效率”之間尋找平衡。不同的應(yīng)用場(chǎng)景有不同的需求，采用不同的格式。

FP64的精度最高，在基礎(chǔ)科學(xué)、金融建模、氣候模擬、醫(yī)學(xué)研究、軍事應(yīng)用等領(lǐng)域會(huì)用得比較多。這些場(chǎng)景對(duì)誤差比較敏感。

FP32是通用計(jì)算的“全能選手”，也是早期主要的數(shù)據(jù)類(lèi)型。它的平衡性更強(qiáng)，精度和速度適中，適合圖形渲染等很多任務(wù)。

FP16也是應(yīng)用非常普遍的一種格式。它非常適合AI領(lǐng)域的應(yīng)用，可以覆蓋大多數(shù)深度學(xué)習(xí)任務(wù)的數(shù)值需求。這幾年，F(xiàn)P16一直是智算場(chǎng)景下性?xún)r(jià)比最優(yōu)的方案，配合Tensor Core（張量核心）算力利用率超92%。

FP16也很適合圖像渲染。例如，GPU的著色器就大量使用了FP16，用于計(jì)算光照（如游戲中的人物陰影）、紋理映射，可以更好地平衡畫(huà)面質(zhì)量與幀率。

FP8和FP4是最近幾年才崛起的新興低精度浮點(diǎn)數(shù)格式。FP8于2022年9月由英偉達(dá)等多家芯片廠商共同定義。FP4則是2023年10月由某學(xué)術(shù)機(jī)構(gòu)定義。

這幾年全社會(huì)關(guān)注算力，主要是因?yàn)锳I，尤其是AIGC大模型訓(xùn)練推理帶來(lái)的需求。FP32和FP16的平衡性更強(qiáng)，占用內(nèi)存比FP64更小，計(jì)算效率更高，非常適合這類(lèi)需求，所以關(guān)注度和出鏡率更高。

舉個(gè)例子：如果一個(gè)神經(jīng)網(wǎng)絡(luò)有10億（1 billion）個(gè)參數(shù)，一個(gè)FP32格式數(shù)占4字節(jié)數(shù)（32bit÷8=4byte），F(xiàn)P16占2字節(jié)。那么，F(xiàn)P32格式下，占用內(nèi)存（顯存）大約是4000MB（10億×4byte÷1024÷1024）。FP16格式下，則是約2000MB。

更小的內(nèi)存占用，允許模型使用更大的Batch Size（批量樣本數(shù)），提升梯度估計(jì)的穩(wěn)定性。運(yùn)算速度越快，訓(xùn)練周期越短，成本越低，能耗也越低。

那么，這里提一個(gè)問(wèn)題——不同的數(shù)據(jù)類(lèi)型，有不同的特點(diǎn)。那么，有沒(méi)有辦法，可以將不同數(shù)據(jù)類(lèi)型的優(yōu)點(diǎn)進(jìn)行結(jié)合呢？

當(dāng)然可以。這里，就要提到兩個(gè)重要概念——多精度與混合精度。

在計(jì)算領(lǐng)域，多精度計(jì)算與混合精度計(jì)算是兩種重要的優(yōu)化策略。

多精度計(jì)算，是在應(yīng)用程序或系統(tǒng)的不同場(chǎng)景下，固定選用不同的精度模式，以此匹配計(jì)算需求。

混合精度計(jì)算，更為巧妙。它在同一操作或步驟中，巧妙動(dòng)態(tài)融合多種精度級(jí)別，進(jìn)行協(xié)同工作。

例如，在大模型的訓(xùn)練推理任務(wù)中，就可以采用FP16和FP32的混合精度訓(xùn)練推理。FP16，可以用于卷積、全連接等核心計(jì)算（減少計(jì)算量）。FP32，則可以用于權(quán)重更新、BatchNorm統(tǒng)計(jì)量等計(jì)算（避免精度損失）。

現(xiàn)在主流的AI計(jì)算框架，例如PyTorch、TensorFlow，都支持自動(dòng)將部分計(jì)算（如矩陣乘法）切換至FP16，同時(shí)保留FP32主權(quán)重用于梯度更新。

大家需要注意，并不是所有的硬件都支持新的低精度數(shù)據(jù)格式！

像我們的消費(fèi)級(jí)顯卡，F(xiàn)P64就是閹割過(guò)的，F(xiàn)P16/FP32性能強(qiáng)，F(xiàn)P64性能弱。

英偉達(dá)的A100/H100，支持TF32（注意區(qū)別，不是FP32）、FP64、FP8，專(zhuān)為AI和高性能計(jì)算優(yōu)化。

AMD GPU，CDNA架構(gòu)（如MI250X）側(cè)重FP64，RDNA架構(gòu)（如RX 7900XTX）側(cè)重FP32/FP16。

FP8最近幾年熱門(mén)，也是源于對(duì)計(jì)算效率的極致追求。

英偉達(dá)GPU從Ada架構(gòu)和Hopper架構(gòu)開(kāi)始提供了對(duì)FP8格式的支持，分別是前面提到的E4M3和E5M2。到了Blackwell架構(gòu)，開(kāi)始支持名為MXFP8的新FP8，其實(shí)就是之前的傳統(tǒng)FP8基礎(chǔ)上增加了Block Scaling能力。

TF32、BF16

除了FP64/FP32/FP16/FP8/FP4之外，業(yè)界還推出了一些“改進(jìn)型”的浮點(diǎn)數(shù)類(lèi)型。例如剛才提到的TF32（及TF16），還有BF16。

TF32和TF16，是英偉達(dá)針對(duì)機(jī)器學(xué)習(xí)設(shè)計(jì)的一種特殊數(shù)值類(lèi)型，用于替代FP32。TF，是指Tensor Float，張量浮點(diǎn)數(shù)。

TF32的組成：1位符號(hào)位，8位指數(shù)位（對(duì)齊FP32），10位小數(shù)位（對(duì)齊FP16），實(shí)際有效位數(shù)為19位。

BF16由Google Brain提出，也是用于機(jī)器學(xué)習(xí)。BF，是指Brain Float。

BF16的組成：1位符號(hào)位，8位指數(shù)位（和FP32一致），7位小數(shù)位（低于FP16），實(shí)際有效位數(shù)為16位。

雖然BF16的精度低于FP16（犧牲尾數(shù)精度），但表示范圍和FP32一致（指數(shù)范圍相同），易于與FP32轉(zhuǎn)換，適用于深度學(xué)習(xí)推理。

INT8、INT4

最后，我們?cè)賮?lái)說(shuō)說(shuō)INT8/INT4。

剛才介紹的，都是浮點(diǎn)數(shù)。INT是Integer的縮寫(xiě)，即整數(shù)類(lèi)型。什么是整數(shù)？不用我解釋了吧？沒(méi)有小數(shù)的，就是整數(shù)（例如1、2、3）。

INT8，是用8位二進(jìn)制數(shù)表示整數(shù)，范圍（有符號(hào)數(shù)）是-128到127。INT4，是用4位二進(jìn)制數(shù)來(lái)表示整數(shù)，范圍（有符號(hào)數(shù)）是-8到7。

INT比FP更簡(jiǎn)單，對(duì)數(shù)據(jù)進(jìn)行了“粗暴”的截?cái)唷＠鏔P32中的0.7，會(huì)變成1（若采用四舍五入），或0（若采用向下取整）。

這種方式肯定會(huì)引入誤差。但是，對(duì)某些任務(wù)（如圖像分類(lèi)）影響較小。因?yàn)檩斎霐?shù)據(jù)（例如像素值0-255）本身已經(jīng)是離散的，模型輸出的類(lèi)別概率只需要“足夠接近”即可。

這里，我們就要提到一個(gè)重要的概念——量化。

將深度學(xué)習(xí)模型中的權(quán)重和激活值從高精度浮點(diǎn)數(shù)（例如FP32）轉(zhuǎn)換為低精度（INT8）表示的過(guò)程，就是“量化”。

量化的主要目的，是為了減少模型的存儲(chǔ)需求和計(jì)算復(fù)雜度，同時(shí)盡量減少精度損失。

舉個(gè)例子，量化就像是把一幅高分辨率的畫(huà)變成一幅低分辨率的畫(huà)，既要減少體積，也要盡可能降低精度損失。當(dāng)你網(wǎng)速慢的時(shí)候，720p視頻也能看。

INT8量化是目前應(yīng)用最廣泛的量化方法之一，行業(yè)關(guān)注度很高。因?yàn)樗诒３州^高精度的同時(shí)，大大減少了模型的尺寸和計(jì)算需求。大多數(shù)深度學(xué)習(xí)框架和硬件加速器，都支持INT8量化。INT8的走紅，和AI端側(cè)應(yīng)用浪潮也有密切關(guān)系。端側(cè)和邊緣側(cè)的設(shè)備，內(nèi)存更小，算力更弱，顯然更加適合采用INT8這樣的量化數(shù)據(jù)格式（否則可能無(wú)法加載）。而且，這類(lèi)設(shè)備通常是移動(dòng)設(shè)備，對(duì)功耗更加敏感，需要盡量省電。
端側(cè)和邊緣側(cè)，主要是進(jìn)行推理任務(wù)。量化模型在推理時(shí)的計(jì)算量更少，能夠加快推理速度。大家會(huì)注意到，GPU算卡和數(shù)據(jù)中心的算力，通常是FLOPS（每秒浮點(diǎn)運(yùn)算次數(shù)）為單位。而手機(jī)終端的算力，通常是TOPS（每秒萬(wàn)億次操作）為單位，沒(méi)有FL。這正是因?yàn)槭謾C(jī)終端、物聯(lián)網(wǎng)模組以INT8量化數(shù)據(jù)類(lèi)型（整數(shù)運(yùn)算）為主。手機(jī)里面的NPU，往往還會(huì)專(zhuān)門(mén)針對(duì)INT8進(jìn)行優(yōu)化。

INT4量化，是一種更為激進(jìn)的量化方式。但是，在實(shí)際應(yīng)用中相對(duì)較少見(jiàn)。

因?yàn)檫^(guò)低的精度，可能導(dǎo)致模型性能顯著下降。此外，并不是所有的硬件都支持INT4操作，需要考慮硬件的兼容性。

需要特別注意的是，在實(shí)際應(yīng)用中，存在量化和反量化過(guò)程。

例如，在大模型訓(xùn)練任務(wù)中，會(huì)先將神經(jīng)網(wǎng)絡(luò)的參數(shù)（weight）、特征圖（activation）等原本用浮點(diǎn)表示的量值，換成用定點(diǎn)（整型）表示。后面，再將定點(diǎn)數(shù)據(jù)反量化回浮點(diǎn)數(shù)據(jù)，得到結(jié)果。

量化包括很多種算法（如權(quán)重量化、激活量化、混合精度量化等），以及量化感知訓(xùn)練（QAT）、訓(xùn)練后量化（PTQ）等類(lèi)型。具體的過(guò)程還是非常復(fù)雜的。限于篇幅，這里就不多介紹了，大家感興趣可以自行檢索。

結(jié)語(yǔ)

好啦，以上就是關(guān)于FP32、FP16、INT8等數(shù)據(jù)格式類(lèi)型的介紹。

現(xiàn)在整個(gè)社會(huì)的算力應(yīng)用場(chǎng)景越來(lái)越多，不同的場(chǎng)景會(huì)用到不同的數(shù)據(jù)類(lèi)型。這就給廠商們提出了難題——需要讓自家的算卡，盡可能支持更多的數(shù)據(jù)類(lèi)型。

所以，今年以來(lái)，包括國(guó)產(chǎn)品牌在內(nèi)的一些算卡廠商，都提出了全場(chǎng)景、全數(shù)據(jù)類(lèi)型、全功能GPU（NPU）的說(shuō)法。也就是說(shuō)，自家的算卡，需要能夠通吃所有的應(yīng)用場(chǎng)景，支持所有的數(shù)據(jù)類(lèi)型。

未來(lái)，隨著AI浪潮的發(fā)展，F(xiàn)P4、INT4甚至二值化（Binary/Temary）的更低精度數(shù)據(jù)類(lèi)型，會(huì)不會(huì)更加普及呢？會(huì)不會(huì)取代FP32/FP16/INT8？

讓我們拭目以待！

參考文獻(xiàn)：

1、《從精度到效率，數(shù)據(jù)類(lèi)型如何重塑計(jì)算世界？》，不完美的代碼，CSDN；

2、《大模型精度：FP32、TF32、FP16、BF16、FP8、FP4、NF4、INT8》，知乎；

3、《現(xiàn)在談?wù)摯竽Ｐ蛥?shù)，其中的“fp8”是什么意思？》，Edison Chen，知乎；

4、《GPU服務(wù)器計(jì)算精度是什么？FP32、FP16和INT8全解析》，熵云智能中心，知乎；

5、《大模型涉及到的精度有多少種？》，一步留神，知乎；

6、百度百科、維基百科、騰訊元寶。

文章來(lái)源于鮮棗課堂，作者小棗君

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴