在數(shù)字化高速發(fā)展的當(dāng)下,人工智能、大數(shù)據(jù)處理、物聯(lián)網(wǎng)等前沿技術(shù)日新月異,現(xiàn)代計(jì)算需求面臨著嚴(yán)峻挑戰(zhàn)。海量數(shù)據(jù)的爆發(fā)式增長(zhǎng),讓傳統(tǒng)計(jì)算架構(gòu)在處理大規(guī)模數(shù)據(jù)時(shí)顯得力不從心,效率低下、能耗過(guò)高、處理速度瓶頸等問(wèn)題愈發(fā)突出。以人工智能領(lǐng)域?yàn)槔?a href="http://www.brongaenegriffin.com/v/tag/448/" target="_blank">深度學(xué)習(xí)模型訓(xùn)練需要進(jìn)行海量矩陣運(yùn)算和復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算,對(duì)計(jì)算設(shè)備的計(jì)算能力和并行處理能力要求極高;在大數(shù)據(jù)分析場(chǎng)景中,快速處理TB甚至PB級(jí)數(shù)據(jù),傳統(tǒng)架構(gòu)難以在可接受時(shí)間內(nèi)完成任務(wù)。這些挑戰(zhàn)迫切需要計(jì)算架構(gòu)創(chuàng)新,以突破現(xiàn)有局限,滿足不斷增長(zhǎng)的計(jì)算需求。
為應(yīng)對(duì)上述難題,向量擴(kuò)展(Vector Extension,RVV)作為RISC-V指令集架構(gòu)的重要拓展被正式引入。RISC-V指令集架構(gòu)以其開(kāi)源開(kāi)放特性著稱(chēng),賦予了開(kāi)發(fā)者在設(shè)計(jì)處理器時(shí)極大的靈活性與可擴(kuò)展性,可針對(duì)不同應(yīng)用場(chǎng)景進(jìn)行定制化設(shè)計(jì)。RVV向量擴(kuò)展通過(guò)引入向量指令,實(shí)現(xiàn)了對(duì)多個(gè)數(shù)據(jù)元素的并行處理,為提升計(jì)算性能提供了全新的途徑。相較于傳統(tǒng)的標(biāo)量計(jì)算模式,向量計(jì)算在多媒體數(shù)據(jù)處理、科學(xué)計(jì)算等領(lǐng)域展現(xiàn)出顯著優(yōu)勢(shì),能夠有效減少指令執(zhí)行次數(shù),進(jìn)而降低計(jì)算延遲,全面提升系統(tǒng)整體性能。RVV的出現(xiàn),為開(kāi)發(fā)者提供了一種高效、靈活且具有成本效益的解決方案,有力推動(dòng)了計(jì)算架構(gòu)的創(chuàng)新發(fā)展,在諸多領(lǐng)域呈現(xiàn)出巨大的應(yīng)用潛力。在RVV發(fā)展浪潮中,賽昉科技昉·天樞-83(Dubhe-83) CPU IP 嶄露頭角。
昉·天樞-83 RISC-V CPU IP
Dubhe-83是一款能效卓越的處理器,具備諸多先進(jìn)特性:
1. 指令集支持
全面兼容RVA23與RVV Crypto指令集,賦予芯片卓越的指令處理能力,從容應(yīng)對(duì)復(fù)雜計(jì)算任務(wù)。在加密應(yīng)用場(chǎng)景中,RVV Crypto指令集提供硬件級(jí)加密加速,極大提升數(shù)據(jù)加密與解密效率,為數(shù)據(jù)安全提供堅(jiān)實(shí)保障。
2. 前端取指和分支預(yù)測(cè)策略
前端取指和分支預(yù)測(cè)采用Decouple策略,將取指和分支預(yù)測(cè)兩個(gè)關(guān)鍵操作解耦,更高效地處理指令流。同時(shí),分支預(yù)測(cè)采用業(yè)界先進(jìn)的TAGE-Style算法,能更精準(zhǔn)預(yù)測(cè)程序分支走向,減少因分支預(yù)測(cè)錯(cuò)誤導(dǎo)致的流水線停頓,提升處理器執(zhí)行效率。
3. 流水線設(shè)計(jì)
擁有10-14 Stage的Pipeline,合理的流水線深度設(shè)計(jì)在保障指令處理效率的同時(shí),兼顧硬件復(fù)雜度與成本。通過(guò)多級(jí)流水線操作,指令可在不同階段并行處理,加快指令執(zhí)行速度。
4. 解碼和提交機(jī)制
采用3-Way Decode/Rename/Commit機(jī)制,可同時(shí)對(duì)三條指令進(jìn)行解碼、重命名和提交操作,進(jìn)一步提升指令處理并行度,提高處理器整體性能。
5. 性能表現(xiàn)
在Benchmark SPECint2006測(cè)試中,Dubhe-83分?jǐn)?shù)達(dá)9.4/GHz,充分展現(xiàn)其在整數(shù)計(jì)算性能方面的出色表現(xiàn),能滿足多種對(duì)整數(shù)運(yùn)算要求較高的應(yīng)用場(chǎng)景。
Dubhe-83在RVV上具有顯著的技術(shù)亮點(diǎn)和優(yōu)勢(shì):
1. 向量計(jì)算單元設(shè)計(jì)
Dubhe-83的Vector的VLEN=DLEN=256,配備2條128-bit的計(jì)算單元。此設(shè)計(jì)大幅提升向量計(jì)算能力,可同時(shí)處理2x128-bit的數(shù)據(jù)元素,在向量運(yùn)算中充分發(fā)揮并行計(jì)算優(yōu)勢(shì),加速數(shù)據(jù)處理。
2. 存儲(chǔ)加載單元(LSU)設(shè)計(jì)
LSU采用2條Pipeline實(shí)現(xiàn)方式,Vector Load/Store和 Scalar Load/Store深度融合。Vector Load/Store帶寬為2x128-bit,這種融合設(shè)計(jì)在滿足高帶寬需求的同時(shí)盡可能節(jié)省資源(面積)的開(kāi)銷(xiāo),在數(shù)據(jù)加載和存儲(chǔ)過(guò)程中,無(wú)論是向量數(shù)據(jù)還是標(biāo)量數(shù)據(jù),均可高效傳輸和處理,減少數(shù)據(jù)訪問(wèn)延遲,提高數(shù)據(jù)處理效率。
3. 向量工作方式與指令實(shí)現(xiàn)
Vector支持LMUL工作方式,每條Vector宏指令采用拆分uop實(shí)現(xiàn)方式。只要uop的所有Element在連續(xù)兩個(gè)Cache Line范圍內(nèi),則該 uop可一次性完成讀/寫(xiě)操作。該設(shè)計(jì)優(yōu)化了向量指令執(zhí)行過(guò)程,減少指令執(zhí)行周期,提升向量帶寬。
4. 向量Load/Store uop實(shí)現(xiàn)優(yōu)勢(shì)
Vector Load/Store采用拆分uop實(shí)現(xiàn)方式,相較于一些廠商拆分Element的實(shí)現(xiàn)方式,在絕大多數(shù)應(yīng)用場(chǎng)景中具有絕對(duì)性能優(yōu)勢(shì)。這種實(shí)現(xiàn)方式能更高效利用存儲(chǔ)帶寬,減少數(shù)據(jù)傳輸次數(shù),提高數(shù)據(jù)加載和存儲(chǔ)效率,進(jìn)而提升整個(gè)系統(tǒng)性能。
5. 亂序執(zhí)行機(jī)制
不僅Scalar采用深度亂序?qū)崿F(xiàn)方式,Vector也采用深度亂序?qū)崿F(xiàn)機(jī)制。與Vector按序?qū)崿F(xiàn)方式相比,亂序方式能天然解決許多數(shù)據(jù)依賴(lài)場(chǎng)景。在實(shí)際應(yīng)用中,數(shù)據(jù)間存在復(fù)雜依賴(lài)關(guān)系,按序執(zhí)行可能因數(shù)據(jù)未準(zhǔn)備好導(dǎo)致流水線停頓,而亂序執(zhí)行可靈活調(diào)整指令執(zhí)行順序,優(yōu)先執(zhí)行不依賴(lài)未就緒數(shù)據(jù)的uop,顯著提升性能。
6. RVV性能表現(xiàn)
與市場(chǎng)上一些通過(guò)In-Order實(shí)現(xiàn)的RVV產(chǎn)品相比,Dubhe-83在RiVEC基準(zhǔn)測(cè)試套件(RiVEC Benchmark Suite,是一個(gè)由來(lái)自不同領(lǐng)域的數(shù)據(jù)并行應(yīng)用程序組成的集合,該套件專(zhuān)注于對(duì)向量微架構(gòu)進(jìn)行基準(zhǔn)測(cè)試,各個(gè)case的描述詳見(jiàn)下表格)上有著顯著的性能提升,提升從最少22%(Pathfinder)到最高817%(Matmul),其中,應(yīng)用于高性能計(jì)算領(lǐng)域的幾個(gè)BLAS算子模型的平均性能提升為357.55%,應(yīng)用于金融分析/物理仿真/數(shù)據(jù)挖掘等領(lǐng)域的幾個(gè)Dense Linear Algebra算子模型的平均性能提升為315.70%。這些實(shí)際應(yīng)用場(chǎng)景中的性能優(yōu)勢(shì),充分證明 Dubhe-83在RVV架構(gòu)和微架構(gòu)上的先進(jìn)性和卓越性能表現(xiàn),能更好滿足用戶對(duì)高性能計(jì)算的需求。
RiVEC Benchmark Suite
-
處理器
+關(guān)注
關(guān)注
68文章
19896瀏覽量
235310 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249607 -
RISC-V
+關(guān)注
關(guān)注
46文章
2573瀏覽量
48851
發(fā)布評(píng)論請(qǐng)先 登錄
知合計(jì)算:RISC-V架構(gòu)創(chuàng)新,阿基米德系列劍指高性能計(jì)算
RISC-V架構(gòu)下的編譯器自動(dòng)向量化

評(píng)論