chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于7nm工藝的FPGA加速芯片-ACAP

454398 ? 來源:AI加速微信公眾號 ? 作者:AI加速微信公眾號 ? 2020-11-05 14:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

隨著人工智能5G的興起,數(shù)據(jù)處理對芯片的算力和帶寬要求更高。為了布局未來,助力人工智能和5G,賽靈思也推出了自己的FPGA加速芯片-ACAP。ACAP是一款基于7nm工藝,集成了通用處理器(PS),F(xiàn)PGA(PL),math engine以及network-on-chip的革命性芯片。特別是新增的ME結(jié)構(gòu),是一個(gè)類似于GPU的多核并發(fā)計(jì)算單元,可以大大提高數(shù)據(jù)處理能力。同時(shí)ME支持軟件語言C,C++,這有利于擴(kuò)大FPGA的使用用戶,同時(shí)方便了設(shè)計(jì)開發(fā)。

ME結(jié)構(gòu)簡介

ME結(jié)構(gòu)由很多ME核組成的二維陣列結(jié)構(gòu),核之間可以實(shí)現(xiàn)數(shù)據(jù)通信。ME陣列通過NoC可以和PL以及PS端進(jìn)行通信,NoC是一種互聯(lián)總線,其提供了ME陣列到PL側(cè)的高帶寬通路。ME核包含了BRAM,DSP以及控制邏輯。ME具有以下特點(diǎn):

1) 有一個(gè)RISC處理器,能夠支持32bit標(biāo)量數(shù)據(jù)運(yùn)算,包括sin/cos,開方,乘法等操作;

2) 向量乘法計(jì)算單元。這是一個(gè)由DSP組成的陣列,能夠支持32個(gè)16bitx8bit,64個(gè)16x8bit,128個(gè)8x8bit計(jì)算。還支持8個(gè)單精度乘法計(jì)算;

3) 指令控制結(jié)構(gòu)支持load和save,向量乘法等操作,這些操作統(tǒng)一用一個(gè)指令字段描述;

4) 含有多路AXI stream,可以實(shí)現(xiàn)高速數(shù)據(jù)通信;

5) 含有一個(gè)128bit寬1K深的程序存儲器,支持指令壓縮,可通過AXI-MM進(jìn)行配置;

6) 含有多個(gè)數(shù)據(jù)存儲器,分成多個(gè)bank,共有32KB容量;

7) 含有配置接口,用于ME核的配置和調(diào)試;

8) 含有debug/trace/profile功能,用于程序追蹤和調(diào)試;

ME核的工作頻率達(dá)到1GHz,電壓0.7V,具有較低功耗。ME支持多種形式的數(shù)據(jù)傳送,包括AXI-MM,AXI-stream,以及ME之間共享的bank進(jìn)行數(shù)據(jù)直接交互。

為了保證性能的可預(yù)測性,ME之間數(shù)據(jù)通信不存在緩存一致性。但是ME和PS之間通信是需要緩存一致性功能的,ME和PS端共享DDR中一段內(nèi)存。當(dāng)PS處理完數(shù)據(jù)發(fā)送給ME時(shí),是要保證處理的數(shù)據(jù)都已經(jīng)存儲到DDR中了。而ME處理完數(shù)據(jù)寫到DDR中后,也要讓PS知道數(shù)據(jù)已經(jīng)寫完。ME可以使用虛擬地址去訪問PS的存儲或者DDR,ME地址會經(jīng)過PS端的MMU進(jìn)行解析。

為了保證某些過程的安全性(比如對TrustZone的保護(hù),或者防止ME陣列的重要信息被讀?。?,ME提供了一些保護(hù)措施。主要包括對ME訪問的保護(hù),AXI-MM傳輸?shù)陌踩员Wo(hù),AXI-stream數(shù)據(jù)訪問的保護(hù)等。

ME陣列可以在功能上被分割成多個(gè)子陣列使用,這可以用于一些需要ME陣列完成多種功能的任務(wù)。其中ME核,AXI-stream,數(shù)據(jù)存儲訪問等模塊都可以被分割。只有AXI-MM不能被分割。NoC中可以支持對控制信息的修改,從而可以給不同子陣列發(fā)送不同的控制信息。每個(gè)ME核含有256Kb的數(shù)據(jù)存儲器和128Kb的程序存儲器,對于一個(gè)300個(gè)ME核的芯片就含有77Mb數(shù)據(jù)存儲和38Mb程序存儲,這么大的空間,保證數(shù)據(jù)準(zhǔn)確性是很關(guān)鍵的。因此不論是數(shù)據(jù)存儲器還是程序存儲器都提供了ECC校驗(yàn),以防止軟件錯誤產(chǎn)生的數(shù)據(jù)錯誤問題。程序存儲器每144bit包含128bit有效數(shù)據(jù)和8bitECC校驗(yàn)位。8bit校驗(yàn)位可以在每64bit數(shù)據(jù)中糾正1bit數(shù)據(jù)和檢測出2bit數(shù)據(jù)錯誤。存儲數(shù)據(jù)出錯會生成錯誤事件,反饋給debug或者profile模塊報(bào)告這些錯誤。

ME陣列被分配了4個(gè)1GB的地址映射區(qū)域,目前芯片只有一個(gè)ME陣列,所以只使用了1GB地址映射空間。ME的地址含有整體陣列的offset,陣列的行列編號,以及ME核中存儲地址。這些信息可以確定往哪個(gè)ME中的存儲位置讀寫數(shù)據(jù)。

ME中有4個(gè)時(shí)鐘:ME核時(shí)鐘,高頻,可到1GHz,用于ME中的數(shù)據(jù)傳輸和運(yùn)算。NoC時(shí)鐘,數(shù)據(jù)時(shí)鐘,用于從PL到ME的數(shù)據(jù)輸送。PL側(cè)時(shí)鐘以及NPI時(shí)鐘,NPI時(shí)鐘用于調(diào)試追蹤等。

數(shù)據(jù)傳輸結(jié)構(gòu)

為了保證不同設(shè)備之間的數(shù)據(jù)交換,我們需要滿足兩個(gè)條件:一個(gè)是數(shù)據(jù)實(shí)際的流通,這個(gè)包含數(shù)據(jù)傳輸通路和數(shù)據(jù)存儲;當(dāng)然也不必包含有存儲,流水線處理的數(shù)據(jù)只有數(shù)據(jù)流通;另外一個(gè)是發(fā)送者和收發(fā)者之間的同步。接受者接收數(shù)據(jù)只有在發(fā)送者發(fā)出數(shù)據(jù)之后,同時(shí)發(fā)送者發(fā)送數(shù)據(jù)必須等接受者準(zhǔn)備好接收數(shù)據(jù)。因此一些同步信號是必須的。

ME陣列中能夠?qū)崿F(xiàn)數(shù)據(jù)交互的設(shè)備有:

1) 本地存儲bank。每個(gè)ME包含8個(gè)bank,這些bank可以用于和周圍4個(gè)ME進(jìn)行數(shù)據(jù)通信。ME通過load和save指令來讀寫本地存儲器。如果ME的寫和另外一個(gè)ME的讀同時(shí)發(fā)生,可以通過ping/pong操作同步。

2) Stream-network可用于所有ME之間數(shù)據(jù)交互。而且stream本身是具有同步信號的,所以無需增加額外同步信號。

3) AXI-MM接口能夠用于ME和PL端甚至是外部存儲器進(jìn)行通信。

保證數(shù)據(jù)同步的裝置有:

1) ME本地原子鎖。這個(gè)鎖可以保證生產(chǎn)者和消費(fèi)者的數(shù)據(jù)訪問沖突解決。如果鎖被置為1,表示可以被讀,如果為0表示可以寫。

2) Shim-DMA鎖。用于同步不同DMA通道,或者DMA通道和AXI-MM通道;

3) 信號量機(jī)制。對于ME和PS端的數(shù)據(jù)通信,還可以通過軟件層次的信號量機(jī)制來進(jìn)行同步,因?yàn)镻S端可以通過AXI-MM接口實(shí)現(xiàn)和ME之間的數(shù)據(jù)同步;

4) Stream網(wǎng)絡(luò)自身附帶的同步特性,用于不同ME之間交換數(shù)據(jù)。

PL和ME由于處于不同時(shí)鐘區(qū)域,ME是高頻時(shí)鐘,而PL側(cè)時(shí)鐘頻率較低。為了實(shí)現(xiàn)數(shù)據(jù)跨時(shí)鐘域傳輸,芯片提供了shim接口,shim中含有異步FIFO。FPGA可以以64bit或者32bit將數(shù)據(jù)寫入FIFO,而ME將FIFO中數(shù)據(jù)讀出進(jìn)行運(yùn)算。ME獲得數(shù)據(jù)有兩種方式,一種是通過DMA將數(shù)據(jù)讀出寫入到ping/pong buffer,這樣可以實(shí)現(xiàn)ME核中兩個(gè)函數(shù)的計(jì)算任務(wù)。如果ME中不需要ping/pong操作,可以不同各國DMA將數(shù)據(jù)存儲到buffer??梢詮膕tream直接獲得數(shù)據(jù)進(jìn)行計(jì)算。

接下來我們看看ME內(nèi)部數(shù)據(jù)如何通信:

1) ME內(nèi)部不同操作之間可以使用shared memory來進(jìn)行數(shù)據(jù)交互,但是每次只允許一個(gè)操作來訪問shared memory,即讀寫無法同時(shí)進(jìn)行;

2) 兩個(gè)相鄰ME可以通過shared memory來進(jìn)行數(shù)據(jù)交互,通過ping/pong buffer可以實(shí)現(xiàn)一個(gè)寫一個(gè)讀;

3) 對于不相鄰的ME,也可以使用ping/pong buffer。但是這個(gè)時(shí)候ME無法直接去訪問另外一個(gè)ME的存儲,但是每個(gè)ME都可以建立自己的ping/pong buffer,這兩組buffer可以通過DMA進(jìn)行數(shù)據(jù)交互;

4) 不同的ME之間還可以通過AXI-stream接口進(jìn)行數(shù)據(jù)交互;

5) 有時(shí)候一個(gè)大型計(jì)算要在幾個(gè)ME之間完成,這就需要不同ME之間進(jìn)行高速數(shù)據(jù)通信,相鄰的ME之間還有級聯(lián)總線,可以實(shí)現(xiàn)兩個(gè)ME之間的累加運(yùn)算,這個(gè)總線位寬達(dá)到384bit;

6) ME還可以直接從外部存儲器中獲得數(shù)據(jù),它將數(shù)據(jù)請求包發(fā)送給ME-shim,這個(gè)請求包含有包頭和數(shù)據(jù)請求信息,包頭中有原和目的地址,數(shù)據(jù)請求中含有數(shù)據(jù)長度信息。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1645

    文章

    22050

    瀏覽量

    618590
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4948

    瀏覽量

    131256
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249586
  • 數(shù)據(jù)存儲器

    關(guān)注

    1

    文章

    69

    瀏覽量

    17992
  • ACAP
    +關(guān)注

    關(guān)注

    1

    文章

    54

    瀏覽量

    8422
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    主流汽車電子SoC芯片對比分析

    分析。 一、技術(shù)參數(shù)對比 芯片型號 制造商 制程工藝 CPU算力(DMIPS) GPU算力(GFLOPS) NPU算力(TOPS) 存儲帶寬(GB/s) 車規(guī)認(rèn)證 高通SA8295P 高通 5nm
    的頭像 發(fā)表于 05-23 15:33 ?1898次閱讀

    雷軍:小米自研芯片采用二代3nm工藝 雷軍分享小米芯片之路感慨

    Ultra,小米首款SUV小米yu7 等。 雷軍還透露,小米玄戒O1,采用第二代3nm工藝制程,力爭躋身第一梯隊(duì)旗艦體驗(yàn)。此次小米發(fā)布會的最大亮點(diǎn)之一肯定是小米自研手機(jī)SoC芯片「玄
    的頭像 發(fā)表于 05-19 16:52 ?438次閱讀

    Xilinx Ultrascale系列FPGA的時(shí)鐘資源與架構(gòu)解析

    Ultrascale是賽靈思開發(fā)的支持包含步進(jìn)功能的增強(qiáng)型FPGA架構(gòu),相比7系列的28nm工藝,Ultrascale采用20nm
    的頭像 發(fā)表于 04-24 11:29 ?1026次閱讀
    Xilinx Ultrascale系列<b class='flag-5'>FPGA</b>的時(shí)鐘資源與架構(gòu)解析

    北京市最值得去的十家半導(dǎo)體芯片公司

    A股上市,獲中國移動、紅杉資本等投資,技術(shù)應(yīng)用于大模型訓(xùn)練與圖形渲染。 4. 昆侖芯(Kunlunxin) *領(lǐng)域 :AI芯片 亮點(diǎn) :前身為百度智能芯片部門,7nm工藝的昆侖芯2代已
    發(fā)表于 03-05 19:37

    聯(lián)發(fā)科采用AI驅(qū)動Cadence工具加速2nm芯片設(shè)計(jì)

    近日,全球知名的EDA(電子設(shè)計(jì)自動化)大廠Cadence宣布了一項(xiàng)重要合作成果:聯(lián)發(fā)科(MediaTek)已選擇采用其人工智能驅(qū)動的Cadence Virtuoso Studio和Spectre X Simulator工具,在英偉達(dá)(NVIDIA)的加速計(jì)算平臺上進(jìn)行2nm
    的頭像 發(fā)表于 02-05 15:22 ?663次閱讀

    芯片封裝中的FOPLP工藝介紹

    ,行業(yè)對載板和晶圓制程金屬化產(chǎn)品的需求進(jìn)一步擴(kuò)大。 由于摩爾定律在7nm以下的微觀科技領(lǐng)域已經(jīng)難以維持之前的發(fā)展速度,優(yōu)異的后端封裝工藝對于滿足低延遲、更高帶寬和具有成本效益的半導(dǎo)體芯片的需求變得越來越重要。 ? 而扇出型封裝因
    的頭像 發(fā)表于 01-20 11:02 ?1603次閱讀
    <b class='flag-5'>芯片</b>封裝中的FOPLP<b class='flag-5'>工藝</b>介紹

    芯片制造的7個(gè)前道工藝

    本文簡單介紹了芯片制造的7個(gè)前道工藝。 ? 在探索現(xiàn)代科技的微觀奇跡中,芯片制造無疑扮演著核心角色,它不僅是信息技術(shù)飛速發(fā)展的基石,也是連接數(shù)字世界與現(xiàn)實(shí)生活的橋梁。本文將帶您深入
    的頭像 發(fā)表于 01-08 11:48 ?1905次閱讀
    <b class='flag-5'>芯片</b>制造的<b class='flag-5'>7</b>個(gè)前道<b class='flag-5'>工藝</b>

    7納米工藝面臨的各種挑戰(zhàn)與解決方案

    本文介紹了7納米工藝面臨的各種挑戰(zhàn)與解決方案。 一、什么是7納米工藝? 在談?wù)?b class='flag-5'>7納米工藝之前,我
    的頭像 發(fā)表于 12-17 11:32 ?1456次閱讀

    助力AIoT應(yīng)用:在米爾FPGA開發(fā)板上實(shí)現(xiàn)Tiny YOLO V4

    工藝甚至更低節(jié)點(diǎn)的制程下實(shí)現(xiàn)高效的硬件加速。米爾的 ZU3EG 開發(fā)板憑借其可重構(gòu)架構(gòu)為 AI 和計(jì)算密集型任務(wù)提供了支持,同時(shí)避免了 7nm 工藝對國產(chǎn)
    發(fā)表于 12-06 17:18

    比亞迪發(fā)布采用4nm工藝的自研汽車芯片,跑分高達(dá)115萬

    自動駕駛芯片。而近日,國產(chǎn)汽車巨頭,推出了一顆國內(nèi)最先進(jìn)的汽車芯片,采用的是4nm工藝,用于智能座艙。用于其方程豹豹這款車型上,這款車型以強(qiáng)大的配置陣容和創(chuàng)新的科技應(yīng)
    的頭像 發(fā)表于 11-22 16:35 ?1654次閱讀
    比亞迪發(fā)布采用4<b class='flag-5'>nm</b><b class='flag-5'>工藝</b>的自研汽車<b class='flag-5'>芯片</b>,跑分高達(dá)115萬

    臺積電產(chǎn)能爆棚:3nm與5nm工藝供不應(yīng)求

    臺積電近期成為了高性能芯片代工領(lǐng)域的明星企業(yè),其產(chǎn)能被各大科技巨頭瘋搶。據(jù)最新消息,臺積電的3nm和5nm工藝產(chǎn)能利用率均達(dá)到了極高水平,其中3nm
    的頭像 發(fā)表于 11-14 14:20 ?953次閱讀

    S7t-VG6 VectorPath加速卡的特性和功能

    S7t-VG6 VectorPath加速卡是Achronix公司聯(lián)合BittWare公司(Molex旗下的領(lǐng)先企業(yè)級FPGA加速器產(chǎn)品供應(yīng)商)推出的一類全新的、面向高性能計(jì)算和數(shù)據(jù)
    的頭像 發(fā)表于 11-14 11:19 ?827次閱讀

    今日看點(diǎn)丨 傳蘋果2025年采用自研Wi-Fi芯片 臺積電7nm制造;富士膠片開始銷售用于半導(dǎo)體EUV光刻的材料

    半年的新產(chǎn)品(例如iPhone 17)計(jì)劃采用自家的Wi-Fi芯片,采用臺積電N77nm工藝制造,支持最新的Wi-Fi 7規(guī)格。蘋果預(yù)計(jì)
    發(fā)表于 11-01 10:57 ?1292次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例: 一、基于
    的頭像 發(fā)表于 10-25 09:22 ?1238次閱讀

    所謂的7nm芯片上沒有一個(gè)圖形是7nm

    最近網(wǎng)上因?yàn)楣饪虣C(jī)的事情,網(wǎng)上又是一陣熱鬧。好多人又開始討論起28nm/7nm的事情了有意無意之間,我也看了不少網(wǎng)上關(guān)于國產(chǎn)自主7nm工藝的文章。不過這些文章里更多是抒情和遐想,卻很少
    的頭像 發(fā)表于 10-08 17:12 ?828次閱讀
    所謂的<b class='flag-5'>7nm</b><b class='flag-5'>芯片</b>上沒有一個(gè)圖形是<b class='flag-5'>7nm</b>的