chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種越來(lái)越多被應(yīng)用于加速機(jī)器學(xué)習(xí)應(yīng)用的浮點(diǎn)格式bfloat16

倩倩 ? 來(lái)源:lq ? 作者:TechEdge科技邊界 ? 2019-09-20 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Arm早前曾宣布其ArmV8-A架構(gòu)的下一版本將包括對(duì)bfloat16的支持,現(xiàn)在透露了更多細(xì)節(jié)。

bfloat16是一種越來(lái)越多被應(yīng)用于加速機(jī)器學(xué)習(xí)應(yīng)用的浮點(diǎn)格式。谷歌、英特爾和不少新創(chuàng)公司都將bfloat16作為其AI加速架構(gòu)的核心功能之一。

Bfloat16是由Google發(fā)明,最初在其第三代Tensor處理單元(TPU)中導(dǎo)入,作為加速機(jī)器學(xué)習(xí)之用。英特爾也認(rèn)為該格式在未來(lái)AI計(jì)算中也有龐大的應(yīng)用潛力,因此整合到其即將推出的“Cooper Lake”Xeon SP處理器,以及“Spring Crest”神經(jīng)網(wǎng)絡(luò)處理器中,未來(lái)的Xe GPU也會(huì)支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新創(chuàng)公司也采用了支持該計(jì)算格式的定制AI處理器。

bfloat16的主要想法是提供動(dòng)態(tài)范圍與標(biāo)準(zhǔn)IEEE-FP32相同的16位浮點(diǎn)格式,精度較低。相當(dāng)于將8位的FP32指數(shù)字段的大小匹配,并將FP32分?jǐn)?shù)字段的大小縮小到7位。

根據(jù)Arm首席架構(gòu)師和研究員Nigel Stephens的說(shuō)法,在大多數(shù)情況下,bfloat16格式與FP32一樣準(zhǔn)確,用于神經(jīng)網(wǎng)絡(luò)計(jì)算,但是以一半的位址就可以完成任務(wù)。因此,與32位相比,吞吐量可以翻倍,內(nèi)存需求可以減半。在多數(shù)情況下,blfloat16可以成為這些機(jī)器學(xué)習(xí)算法中FP32的“插入式”替代品。由于神經(jīng)網(wǎng)絡(luò)的計(jì)算性質(zhì),只要數(shù)據(jù)類型具有足夠的范圍和精度,就可以很好地適應(yīng)少量噪聲,精準(zhǔn)的完成模型訓(xùn)練工作。

Arm將bfloat16的支持被放到ArmV8-A下的所有浮點(diǎn)處理的相關(guān)指令集,包含SVE(可擴(kuò)展矢量擴(kuò)展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通過(guò)相關(guān)擴(kuò)展的支持,加速基于Arm的客戶端和服務(wù)器的機(jī)器學(xué)習(xí)推理和培訓(xùn)練過(guò)程。雖然Arm服務(wù)器市占率仍然很小,但其在智能手機(jī)等客戶端方面擁有幾乎絕對(duì)的統(tǒng)治地位,這意味著未來(lái)的手持式和物聯(lián)網(wǎng)設(shè)備將很快能夠利用更緊湊的數(shù)字格式來(lái)處理機(jī)器學(xué)習(xí)。

當(dāng)然,Arm如果越強(qiáng),那么采用自有AI架構(gòu)的芯片設(shè)計(jì)業(yè)者壓力其實(shí)也會(huì)越大,就好比華為先后使用寒武紀(jì)與達(dá)芬奇架構(gòu),都是封閉的專有架構(gòu),高通也是采用DSP結(jié)合NPU計(jì)算,如果Arm官方架構(gòu)性能有飛躍性的改進(jìn),那么這些采用定制AI架構(gòu)的芯片設(shè)計(jì)者可能最終會(huì)被迫放棄自己的封閉架構(gòu),轉(zhuǎn)而擁抱Arm的開(kāi)放架構(gòu)。而這也有助于發(fā)展整體AI生態(tài),畢竟使用相同開(kāi)發(fā)環(huán)境的硬件基數(shù)越大,就能吸引更多應(yīng)用開(kāi)發(fā)者共同耕耘相關(guān)生態(tài)。

值得注意的是,Arm決定在SVE中加入bfloat16的支持這點(diǎn)。由于SVE是專門針對(duì)高性能計(jì)算的矢量指令集,截至目前為止,僅有富士通一家采用,并應(yīng)用于其A64FX芯片上。Arm方面表示,由于HPC用戶對(duì)機(jī)器學(xué)習(xí)的興趣持續(xù)增加,過(guò)去只能依靠GPU方案來(lái)進(jìn)行加速,若能在單一架構(gòu)處理完機(jī)器學(xué)習(xí)的工作,那么就不用再額外花費(fèi)成本添購(gòu)專用的加速硬件。

使用bfloat16還有另一個(gè)好處,那就是它具有與FP32相同的動(dòng)態(tài)范圍,這使得轉(zhuǎn)換現(xiàn)有使用FP32的現(xiàn)有計(jì)算代碼非常簡(jiǎn)單,可以大規(guī)模無(wú)痛轉(zhuǎn)換既有的FP32應(yīng)用到blfloat16數(shù)據(jù)格式下。

然而,SVE原本就可以針對(duì)從128位到2048位等不同的矢量長(zhǎng)度來(lái)實(shí)現(xiàn)計(jì)算工作,理論上,bfloat16應(yīng)該放在128位的Neon計(jì)算單元內(nèi)比較合理。但實(shí)際上,數(shù)據(jù)的吞吐量其實(shí)還是要取決于硬件的實(shí)現(xiàn)選擇,比如說(shuō)SVE執(zhí)行單元的數(shù)量,以及Neon計(jì)算單元的數(shù)量。

而隨著Arm增加了bfloat16這個(gè)數(shù)據(jù)格式的支持,借以加速AI計(jì)算,這也讓GPU成為目前主流機(jī)器學(xué)習(xí)加速硬件中唯一不支持這種數(shù)據(jù)格式的架構(gòu),而英特爾即將推出的Xe GPU也會(huì)加入該格式的支持,包含AMD或NVIDIA,應(yīng)該都會(huì)在下一代產(chǎn)品中增加此數(shù)據(jù)格式的支持。

根據(jù)ARM做的模擬,不同類型的運(yùn)算中bfloat16帶來(lái)的性能提升不等,少的有1.6倍性能,多的可達(dá)4倍性能,性能成長(zhǎng)相當(dāng)驚人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9507

    瀏覽量

    389044
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4829

    瀏覽量

    106880
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8541

    瀏覽量

    136271
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何使用 ARM FPU 加速浮點(diǎn)計(jì)算?

    和硬件兩。 對(duì)于不帶 FPU 的處理器,ARM提供了個(gè)「浮點(diǎn)支持軟件庫(kù)」用于計(jì)算浮點(diǎn)數(shù):fplib。 fplib提供的 API 以__a
    發(fā)表于 11-19 06:51

    risc-v中浮點(diǎn)運(yùn)算單元的使用及其設(shè)計(jì)考慮

    RISC-V浮點(diǎn)運(yùn)算單元(floating-point unit,簡(jiǎn)稱FPU)是一種專門用于執(zhí)行浮點(diǎn)運(yùn)算的硬件加速器,其作用是提高
    發(fā)表于 10-21 14:46

    學(xué)習(xí)物聯(lián)網(wǎng)怎么入門?

    隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來(lái)越多的人開(kāi)始關(guān)注學(xué)習(xí)領(lǐng)域。但是對(duì)于初學(xué)者來(lái)說(shuō),物聯(lián)網(wǎng)似乎是個(gè)龐雜的概念,學(xué)習(xí)起來(lái)很困難。因此,從哪里開(kāi)始
    發(fā)表于 10-14 10:34

    FPGA技術(shù)為什么越來(lái)越牛,這是有原因的

    最近幾年,F(xiàn)PGA這個(gè)概念越來(lái)越多地出現(xiàn)。例如,比特幣挖礦,就有使用基于FPGA的礦機(jī)。還有,之前微軟表示,將在數(shù)據(jù)中心里,使用FPGA“代替”CPU,等等。其實(shí),對(duì)于專業(yè)人士來(lái)說(shuō),F(xiàn)PGA并不陌生
    的頭像 發(fā)表于 08-22 11:39 ?3861次閱讀
    FPGA技術(shù)為什么<b class='flag-5'>越來(lái)越</b>牛,這是有原因的

    為什么越來(lái)越多的場(chǎng)所選擇智能閘口控制系統(tǒng)?它有哪些優(yōu)勢(shì)?

    在物流行業(yè)快速發(fā)展的今天,傳統(tǒng)人工閘口已難以滿足高效通行的需求。智能閘口控制系統(tǒng)憑借AI、物聯(lián)網(wǎng)等先進(jìn)技術(shù),正逐漸成為港口、物流園區(qū)、海關(guān)等場(chǎng)所的首選方案。那么,智能閘口究竟有哪些優(yōu)勢(shì),讓越來(lái)越多
    的頭像 發(fā)表于 08-14 10:56 ?320次閱讀

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    ,越來(lái)越多應(yīng)用于機(jī)器學(xué)習(xí)任務(wù)中。本文將探討 FPGA 在機(jī)器
    的頭像 發(fā)表于 07-16 15:34 ?2653次閱讀

    為什么越來(lái)越多政府單位用上了國(guó)產(chǎn)云終端?它比你想的更能打

    國(guó)產(chǎn)化進(jìn)程不斷加速越來(lái)越多政府單位在信息化升級(jí)中將目光投向更輕巧、安全的國(guó)產(chǎn)云終端。在配合云桌面系統(tǒng)后,它的安全性、運(yùn)維效率上更勝籌。國(guó)產(chǎn)電腦vs非國(guó)產(chǎn)化電腦:安全性與政策導(dǎo)向過(guò)去,我國(guó)電腦長(zhǎng)期
    的頭像 發(fā)表于 06-13 11:34 ?852次閱讀
    為什么<b class='flag-5'>越來(lái)越多</b>政府單位用上了國(guó)產(chǎn)云終端?它比你想的更能打

    國(guó)產(chǎn)地物光譜儀為什么越來(lái)越多科研團(tuán)隊(duì)選擇?

    地物光譜儀為什么越來(lái)越多科研團(tuán)隊(duì)選擇?原因并不復(fù)雜,但值得細(xì)講。 、性能接近國(guó)際主流,滿足科研需求 國(guó)產(chǎn)地物光譜儀在核心技術(shù)上,近年來(lái)取得了質(zhì)的進(jìn)步: 1. 波段范圍齊全 常規(guī)科研所需的 350–2500nm全波段 (覆蓋
    的頭像 發(fā)表于 06-10 15:44 ?447次閱讀
    國(guó)產(chǎn)地物光譜儀為什么<b class='flag-5'>越來(lái)越多</b><b class='flag-5'>被</b>科研團(tuán)隊(duì)選擇?

    RK3576 vs RK3588:為何越來(lái)越多的開(kāi)發(fā)者轉(zhuǎn)向RK3576?

    瑞芯微(Rockchip)最新發(fā)布的 RK3576 經(jīng)推出,就吸引了大量原本關(guān)注 RK3588 的開(kāi)發(fā)者。RK3588 作為旗艦級(jí)芯片,性能固然強(qiáng)大,但 RK3576 憑借其超高的能效比、優(yōu)化
    發(fā)表于 05-30 08:46

    Matter 智能家居的通用語(yǔ)言

    語(yǔ)言”,統(tǒng)了Thread、Wi-Fi 和以太網(wǎng)(外加用于將新設(shè)備調(diào)試到網(wǎng)絡(luò)的外加用于將新設(shè)備調(diào)試到網(wǎng)絡(luò)的[低功耗藍(lán)牙。 Matter 標(biāo)準(zhǔn)得到越來(lái)越多的企業(yè)采用,已迅速獲得了廣泛的關(guān)
    發(fā)表于 05-19 15:35

    基于雙向塊浮點(diǎn)量化的大語(yǔ)言模型高效加速器設(shè)計(jì)

    本文提出雙向塊浮點(diǎn)(BBFP)量化格式及基于其的LLMs加速器BBAL,通過(guò)雙向移位與重疊位設(shè)計(jì)顯著降低量化誤差,提升非線性計(jì)算效率,實(shí)現(xiàn)精度、吞吐量和能效的顯著優(yōu)化,相關(guān)成果國(guó)際頂
    的頭像 發(fā)表于 05-14 13:40 ?2128次閱讀
    基于雙向塊<b class='flag-5'>浮點(diǎn)</b>量化的大語(yǔ)言模型高效<b class='flag-5'>加速</b>器設(shè)計(jì)

    詳解原子層沉積薄膜制備技術(shù)

    CVD 技術(shù)是一種在真空環(huán)境中通過(guò)襯底表面化學(xué)反應(yīng)來(lái)進(jìn)行薄膜生長(zhǎng)的過(guò)程,較短的工藝時(shí)間以及所制備薄膜的高致密性,使 CVD 技術(shù)越來(lái)越多應(yīng)用于薄膜封裝工藝中無(wú)機(jī)阻擋層的制備。
    的頭像 發(fā)表于 05-14 10:18 ?1119次閱讀
    詳解原子層沉積薄膜制備技術(shù)

    為什么聊自動(dòng)駕駛的越來(lái)越多,聊無(wú)人駕駛的越來(lái)越少?

    “無(wú)人駕駛”與“自動(dòng)駕駛”,傻傻分不清楚?就在之前的篇文章中,引用了王傳福的句話,其說(shuō)的是無(wú)人駕駛是“扯淡”( 相關(guān)閱讀: 無(wú)人駕駛是“扯淡”?是皇帝的新裝?),隨后也有小伙伴問(wèn),無(wú)人駕駛
    的頭像 發(fā)表于 02-23 10:52 ?1028次閱讀
    為什么聊自動(dòng)駕駛的<b class='flag-5'>越來(lái)越多</b>,聊無(wú)人駕駛的<b class='flag-5'>越來(lái)越</b>少?

    利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來(lái)

    越來(lái)越多的企業(yè)開(kāi)始采用加速計(jì)算,從而滿足生成式 AI、5G 電信和主權(quán)云的需求。NVIDIA 推出了 DOCA 平臺(tái)框架(DPF),該框架提供了基礎(chǔ)構(gòu)建模塊來(lái)釋放 NVIDIA BlueField
    的頭像 發(fā)表于 01-24 09:29 ?1311次閱讀
    利用NVIDIA DPF引領(lǐng)DPU<b class='flag-5'>加速</b>云計(jì)算的未來(lái)

    應(yīng)用于活細(xì)胞成像的次性細(xì)胞培養(yǎng)芯片

    盡管最近幾年我們對(duì)細(xì)胞內(nèi)過(guò)程的了解越來(lái)越多,但近期內(nèi)100年來(lái)細(xì)胞培養(yǎng)的基本過(guò)程沒(méi)有根本性的改變。然而,觀察細(xì)胞的方法,卻在近些年進(jìn)行場(chǎng)革命,如相差,差分干涉對(duì)照,共聚集和熒光等都應(yīng)用于所有細(xì)胞
    的頭像 發(fā)表于 12-17 09:41 ?708次閱讀