chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

揭秘賽靈思計算平臺ACAP技術細節(jié)

電子工程師 ? 來源:FPGA技術江湖 ? 作者:FPGA技術江湖 ? 2021-01-04 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在日前召開的FPGA領域的學術頂會--2019年“FPGA國際研討會”上,賽靈思發(fā)表了兩篇長論文,詳細介紹了賽靈思“自適應計算加速平臺”ACAP的系統(tǒng)架構和技術細節(jié)。本文將對ACAP的主要架構創(chuàng)新進行深入解讀,讓各位先睹為快。

ACAP是賽靈思在2018年推出的新一代計算平臺。在發(fā)布伊始,賽靈思新任掌門人Victor Peng就再三強調,ACAP并不是FPGA,而是整合了硬件可編程邏輯單元、軟件可編程處理器、以及軟件可編程加速引擎的計算平臺產(chǎn)品,是賽靈思“發(fā)明FPGA以來最卓越的工程成就”,足可見這個產(chǎn)品系列的重要性。

與其說ACAP是某種具體的芯片產(chǎn)品,不如說它像FPGA一樣,代指一種芯片架構。而賽靈思這次發(fā)表的論文,主要介紹的是基于ACAP架構的首款產(chǎn)品,名為Versal,并將基于臺積電的7納米工藝制造。相比傳統(tǒng)的FPGA架構,Versal ACAP在系統(tǒng)架構、電路結構、互聯(lián)方式等很多方面進行了大膽革新,這也是本文將要討論的重點。

芯片架構

Versal ACAP的芯片布局如下圖所示??傮w來看,它與傳統(tǒng)FPGA結構非常類似,主要包含可編程邏輯部分、高速I/O與收發(fā)器、嵌入式處理器、存儲器控制等FPGA的常見硬件資源與模塊。

f9a2f7b4-4b7e-11eb-8b86-12bb97331649.jpg

值得注意的是,ACAP架構與傳統(tǒng)FPGA有兩點主要區(qū)別:

芯片頂端(北側)包含了AI加速引擎陣列,它們主要用來加速機器學習和無線網(wǎng)絡等應用中常見的數(shù)學計算。然而,關于AI引擎的具體結構,在這篇論文中并未提及。

在傳統(tǒng)FPGA片上互聯(lián)技術的基礎上,ACAP采用了固化的片上網(wǎng)絡(NoC),這主要是針對高帶寬、高吞吐量的應用場景,如存儲器控制和AI應用等,在上圖中也可以清晰的看到NoC與這些應用模塊的緊密互聯(lián)。

關于NoC的具體技術細節(jié),在本次會議有另外一篇論文進行詳細闡述,見下圖。本文將對其進行簡單概述,并會在下篇文章中深入解析。

除NoC以外,ACAP選擇將很多常用的IP固化在芯片上,以提高性能、穩(wěn)定性,并減少額外的可編程邏輯資源的使用。除了常見的PCIe、DDR控制器、以太網(wǎng)MAC之外,ACAP還選擇將嵌入式處理器和芯片管理單元進行固化,這令人有些意外。

在論文中介紹,在亞馬遜AWS F1實例中使用的片上管理單元占據(jù)了芯片面積的很大部分,如下圖所示,而這也是賽靈思選擇在ACAP上對這類邏輯進行固化的主要原因。

在可編程芯片上固化邏輯其實是一把雙刃劍,在提升性能和降低邏輯單元使用率的同時,犧牲的是被固化單元的靈活性。因此,往往只會選擇固化已經(jīng)由成熟標準的邏輯單元,比如上文提到的通信接口與內存控制器等。對于芯片管理單元,固化后是否仍能適用于不同的應用場景?是否比集成ARM等硬核處理器更有效?這些問題就需要通過實際使用得到答案。

Versal ACAP架構的一個主要的創(chuàng)新之處,就是采用了非常規(guī)整的可編程邏輯陣列和時鐘域分布。老石之前曾介紹過一種名為“Overlay”的FPGA虛擬化技術,它的本質就是在FPGA的硬件層之上,抽象出一層虛擬的Overlay結構,如下圖所示。Overlay層基于CGRA等規(guī)整的邏輯結構,對應用層非常友好,但對不規(guī)整的FPGA底層架構而言,實現(xiàn)起來勢必會造成資源的浪費和性能的損失。

fa1cb5cc-4b7e-11eb-8b86-12bb97331649.jpg

ACAP架構采用了更加規(guī)整的可編程邏輯陣列,以及分布均勻的時鐘域,理論上這是極其有用的創(chuàng)新,特別是對于布局布線后的設計而言。通過這種方式,使得IP接口可以復用,即把一個IP從一個位置挪到另一個位置時,不需要對整個設計重新編譯,只需要單獨處理修改的部分即可。

更重要的是,這使得用戶可以重復使用已經(jīng)完成布局布線的“半成品”或“模板”,只需要在事先保留的區(qū)域內加入新設計即可,這樣可以極大的減少編譯時間。這個創(chuàng)新與目前FPGA已有的劃分可編程區(qū)域等技術類似,但更進一步。只可惜,在這篇論文中沒有給出這個創(chuàng)新的任何實例或數(shù)據(jù),因此很難確定這項技術是否已經(jīng)實現(xiàn),還是僅僅停留在理論層面。

CLB微結構

CLB是可編程邏輯塊的縮寫,它包含了多個可編程邏輯單元及其互聯(lián)。與傳統(tǒng)FPGA相比,Versal ACAP對它的CLB微結構進行了重大革新,用“翻天覆地”來形容也不為過。其中,最主要的架構變化有以下四點。

首先,CLB的容量相較UltraScale FPGA架構擴大了四倍,包含32個LUT和64個寄存器,見下圖。

fa481096-4b7e-11eb-8b86-12bb97331649.jpg

這樣做的主要目的,是為了減少全局布線資源的使用。ACAP為每個CLB設置了單獨的內部高速互聯(lián),與全局布線相比,這些內部互聯(lián)更加快速,布線邏輯也更簡單,從而減輕了全局布線的壓力與擁擠。如下圖所示,采用了大CLB后,有18%的布線可以通過內部互聯(lián)完成。而對于傳統(tǒng)FPGA,只有7%的布線能在CLB內完成,其他都需要占用全局布線資源。

fabd2b38-4b7e-11eb-8b86-12bb97331649.jpg

第二,每個查找表結構(LUT)增加了一個額外的輸出,這是一個重要的架構變化。傳統(tǒng)FPGA的LUT結構為6輸入、2輸出,如下圖所示,可以實現(xiàn)任意的6輸入邏輯,或者兩個5輸入邏輯。當添加了一個新的輸出O5_2之后,就可以實現(xiàn)兩個獨立的6輸入邏輯功能。

fb75966e-4b7e-11eb-8b86-12bb97331649.jpg

這種結構的另外一個好處,是允許更多的邏輯功能進行合并,以減少LUT的使用量。FPGA設計工具會根據(jù)兩個LUT的距離,判斷這兩個LUT里的邏輯能否進行合并。例如,與UltraScale架構相比,當兩個LUT之間的距離小于5個Slice網(wǎng)格距離時,Versal ACAP架構能多合并21.5%的邏輯功能,從而減少相應的硬件資源使用。

fc047fe6-4b7e-11eb-8b86-12bb97331649.jpg

作為代價,在UltraScale架構中存在的Wide Function功能被移走。因此如果需要實現(xiàn)諸如32:1的選擇器時,就可能會擴展到多個Slice,對時序造成負面影響,并且需要額外的硬件資源支持。

第三,每個Slice的進位鏈邏輯結構進行了徹底修改,如下圖所示。事實上,一直是現(xiàn)代FPGA標配的固化進位鏈被完全移除,取而代之的是使用LUT中新增加的cascade_in和LUT邏輯完成加法結構。

fc89e03c-4b7e-11eb-8b86-12bb97331649.jpg

論文中對這部分的討論過于簡單,對這個重要的架構改變沒有給出詳細原因,對上圖中Versal進位鏈的具體實現(xiàn)結構也含糊不清。老石猜測,這個改變的主要原因還是由于新增加的第二個LUT輸出,如果繼續(xù)保留進位鏈邏輯,會導致LUT間延時過大,從而影響時序。但是,這種新的進位鏈結構是否會對算術運算的性能產(chǎn)生負面影響,賽靈思并未在論文中給出數(shù)據(jù)佐證。

第四,引入了名為“Imux寄存器”的新結構。這種新寄存器架構很明顯是用來對標英特爾的HyperFlex架構。Imux寄存器共有四種模式,如下圖所示。

fcd1e03a-4b7e-11eb-8b86-12bb97331649.jpg

這種架構只在CLB之前引入了用于優(yōu)化時序、增加流水線的寄存器。同時,這些寄存器包含了復位、初始化、時鐘使能等常見寄存器功能。這與HyperFlex的海量寄存器架構有著明顯不同,如下圖。Imux沒有在全部布線資源上都設置寄存器,因此引入的額外延時會更小。但在深度流水線設計中,這種結構的絕對性能應該不如HyperFlex架構。

fd8bd008-4b7e-11eb-8b86-12bb97331649.png

上面的四種Imux使用模式在本文中不再贅述,例如下圖展示了其中的Time Borrowing、Pipelining、以及二者結合的模式。但這幾種方式與傳統(tǒng)的流水線和Retiming方式并沒有本質區(qū)別。

fde77c1e-4b7e-11eb-8b86-12bb97331649.jpg

關于Imux寄存器架構,這篇論文最嚴重的問題在于實測數(shù)據(jù)和對比很少。這樣的實驗和論述,使得這部分內容更像一篇白皮書,而非高端學術論文。嚴謹?shù)膶W術方法是需要兼顧可重復性和標準性,例如,選取一些標準的參考設計和Benchmark,分別使用英特爾的HyperFlex架構、賽靈思的UltraScale架構,以及這里提出的Imux架構,進行實現(xiàn),并測量這些在這些架構上分別能得到多快的運行頻率。很顯然,這篇論文在很多地方都存在這樣的問題。

3D芯片制造技術SSIT

ACAP采用了賽靈思的第四代硅片堆疊技術SSIT。關于這個技術的細節(jié),老石在之前的文章中詳細介紹過。這個技術本質上是將多個小型硅片,放置在一個大的無源硅中介層上,然后通過硅通孔和芯片連線進行互聯(lián),從而組成一個大芯片。

fe59cc9c-4b7e-11eb-8b86-12bb97331649.jpg

這種技術非常適合在每代半導體工藝的發(fā)展早期,特別是制造大型硅片的良率較低的情況。另外,SSIT的靈活性比較高,技術思路比較直接,發(fā)展至今已有四代,已經(jīng)比較成熟。

不過,這種技術的主要問題非常明顯,主要有以下幾點:

當工藝成熟后,這種方式帶來的良率提升就不甚明顯,綜合成本反而會上升。

將多枚硅片通過硅中間層組合,可能會帶來明顯的性能降低。這主要受制于硅片間的互聯(lián)資源,以及互聯(lián)導線的巨大延遲。

該技術會限制FPGA配置的靈活性,因為它相當于人為的增加了多個設計區(qū)域和邊界。這也對設計工具的優(yōu)化能力造成了很大的挑戰(zhàn)。

在這篇論文中,Versal ACAP主要針對上面的第二和第三點進行了優(yōu)化和改進。例如,在Versal架構中,采用了更多的硅片間的互聯(lián)通道(SLL channel),如下圖所示。同時,這些互聯(lián)通道的傳輸延時也得到了進一步優(yōu)化,相比傳統(tǒng)連線的延時下降了30%。

feac25fa-4b7e-11eb-8b86-12bb97331649.jpg

片上網(wǎng)絡NoC

片上網(wǎng)絡是ACAP的主要技術革新之一。對于諸如DDR、高速網(wǎng)絡、PCIe等高速接口與應用來說,通常有著很高的帶寬要求。這一方面需要采用高位寬的總線,另一方面需要高速時鐘。因此,傳統(tǒng)的FPGA設計方法都是通過對總線進行深度流水線來實現(xiàn)。但對于一個大型設計而言,這種方法會很快造成片上布線資源的擁擠。這就需要尋找有效的方法,同時解決高速數(shù)據(jù)傳輸和低擁堵布線兩個問題。

ACAP采用了片上網(wǎng)絡(Network-on-Chip,NoC)技術應對上述問題。在傳統(tǒng)的FPGA布線資源之外,引入了NoC網(wǎng)絡,將需要進行高速數(shù)據(jù)傳輸?shù)膬热蒉D化成基于數(shù)據(jù)包的形式,通過NoC的交換機邏輯實現(xiàn)數(shù)據(jù)交換,如下圖所示。與網(wǎng)絡應用類似,這種片上網(wǎng)絡也能對各類的傳輸進行服務質量控制(QoS)。

ff1191a6-4b7e-11eb-8b86-12bb97331649.jpg

這種方法最大的優(yōu)點是在系統(tǒng)層面,將數(shù)據(jù)傳輸與數(shù)據(jù)計算進行了分離,從而在保證帶寬的基礎上,緩解了系統(tǒng)的布局布線壓力。例如,數(shù)據(jù)計算可以在AI引擎或片上其他部分實現(xiàn),而不需緊靠DDR控制器等高速接口。

不過,這種方法的主要問題是引入了額外的傳輸延時,這對于需要固定延時或者低延時的應用可能會有影響。在這篇論文中,并沒有提及延時的數(shù)據(jù)。此外,片上網(wǎng)絡的位寬是固定的,無法對應用進行優(yōu)化,這也有可能對不同應用的系統(tǒng)性能造成負面影響。

結語

ACAP作為賽靈思重磅推出的下一代計算平臺,從發(fā)布之初就備受矚目。究竟ACAP是不是FPGA,這個問題其實并不重要,重要的是ACAP的本質仍然是基于可編程邏輯陣列的異構計算芯片。與傳統(tǒng)FPGA架構相比,ACAP帶來了諸多系統(tǒng)和微結構的換代和革新,這也讓人們看到了業(yè)界為了延續(xù)摩爾定律的發(fā)展所做的不懈努力。

就這篇論文而言,雖然很多地方的學術嚴謹性有待提高,但瑕不掩瑜。作為第一篇完整的介紹Versal ACAP架構細節(jié)的論文,它還是為我們帶來了很多對ACAP新結構、新技術的詳細闡述和討論,也讓我們得以一窺ACAP的技術細節(jié)。

原文標題:賽靈思計算平臺ACAP技術細節(jié)全揭秘

文章出處:【微信公眾號:FPGA技術江湖】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1653

    文章

    22271

    瀏覽量

    629804
  • 賽靈思
    +關注

    關注

    33

    文章

    1797

    瀏覽量

    133125
  • ACAP
    +關注

    關注

    1

    文章

    54

    瀏覽量

    8656

原文標題:賽靈思計算平臺ACAP技術細節(jié)全揭秘

文章出處:【微信號:HXSLH1010101010,微信公眾號:FPGA技術江湖】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Sapphire SoC中RISC-V平臺級中斷控制器深度解析

    隨著 RISC -V處理器在 FPGA 領域的廣泛應用,易 FPGA 的 Sapphire RISC-V 內核憑借軟硬核的靈活支持,為開發(fā)者提供多樣選擇。本文深入探討 Sapphire SoC 中 RISC - V 平臺
    的頭像 發(fā)表于 11-08 09:35 ?6362次閱讀
    易<b class='flag-5'>靈</b><b class='flag-5'>思</b>Sapphire SoC中RISC-V<b class='flag-5'>平臺</b>級中斷控制器深度解析

    有哪些具體的技術細節(jié)需要企業(yè)在選擇電能質量在線監(jiān)測裝置數(shù)據(jù)存儲方式時注意?

    ? 企業(yè)選擇電能質量在線監(jiān)測裝置數(shù)據(jù)存儲方式時,需重點關注 **“數(shù)據(jù)不丟、能用、安全、可擴展”** 四大核心目標,對應的技術細節(jié)多隱藏在 “數(shù)據(jù)格式適配、同步機制、安全加密、硬件可靠性、運維兼容性
    的頭像 發(fā)表于 10-30 09:56 ?96次閱讀

    PCIe 7.0技術細節(jié)曝光

    6 月 11 日 PCI SIG官宣 PCI Express 7.0(PCIe 7.0)規(guī)范最終版已制定完畢,但幾乎沒有公開任何技術細節(jié)。不過,在 7 月 16 日,PCI-SIG 通過 BrightTalk 公開了一些更詳細的技術信息,下面就為大家介紹這些內容。
    的頭像 發(fā)表于 09-08 10:43 ?2236次閱讀
    PCIe 7.0<b class='flag-5'>技術細節(jié)</b>曝光

    特威第二屆機器視覺方案大會圓滿收官

    近日,由易特威聯(lián)合舉辦的第二屆機器視覺方案大會在深圳福田會展中心成功舉行。本次大會以技術驅動與應用落地為核心,匯聚了行業(yè)專家、合作伙伴與資深工程師,共同探討了機器視覺領域的前沿
    的頭像 發(fā)表于 09-02 12:51 ?657次閱讀

    特威第二屆機器視覺大會即將舉辦

    去年盛夏,首屆易特威機器視覺技術大會點燃了行業(yè)創(chuàng)新的火花。易驚艷亮相的 TJ375
    的頭像 發(fā)表于 08-13 09:53 ?661次閱讀

    揭秘徐工新能源重卡的技術細節(jié)

    對于一臺新能源重卡而言,無論在安全方面多做多少努力都不為過。徐工汽車將新能源重卡的“安全”筑入整車的結構設計中,融進控制系統(tǒng)每一個響應邏輯里,更深藏技術細節(jié)的每一行代碼之后。
    的頭像 發(fā)表于 08-11 11:45 ?961次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家

    的版本區(qū)別, 深入了解Deepseek的技術細節(jié),快速掌握大模型領域的前沿知識,洞察對行業(yè)應用的影響,提升自身在該領域的專業(yè)水平和競爭力。 本書流程非常清晰,先認識Deepseek性能,然后講解原理,底層
    發(fā)表于 07-22 22:14

    SMA連接器名稱由來:SubMiniature Version A 的技術細節(jié)

    SMA連接器名稱中的“SubMiniature Version A”,精準概括了其小型化、開創(chuàng)性的設計理念,而德索精密工業(yè)以卓越的技術細節(jié)和嚴謹?shù)闹圃旃に?,為SMA連接器的高性能連接提供了有力支撐,讓這一經(jīng)典連接器在射頻與微波連接領域持續(xù)煥發(fā)新的光彩。
    的頭像 發(fā)表于 06-24 11:30 ?474次閱讀
    SMA連接器名稱由來:SubMiniature Version A 的<b class='flag-5'>技術細節(jié)</b>

    比亞迪 · 超級e平臺 · 技術方案的全面揭秘 | 第三曲: 30000轉驅動電機 · 12項核心技術揭秘

    比亞迪 · 超級e平臺 · 技術方案的全面揭秘 | 第三曲: 30000轉驅動電機 · 12項核心技術揭秘
    的頭像 發(fā)表于 06-08 07:20 ?1687次閱讀
    比亞迪 · 超級e<b class='flag-5'>平臺</b> · <b class='flag-5'>技術</b>方案的全面<b class='flag-5'>揭秘</b> | 第三曲: 30000轉驅動電機 · 12項核心<b class='flag-5'>技術</b><b class='flag-5'>揭秘</b>

    精準計算工具與干擾預判系統(tǒng)——計算工具介紹

    SESSaishengOnline盛在線學習及工具應用平臺平臺核心基于技術20年EMC工程經(jīng)驗,打造集學習、工具、案例與智能一體的綜合
    的頭像 發(fā)表于 03-28 16:23 ?656次閱讀
    精準<b class='flag-5'>計算</b>工具與干擾預判系統(tǒng)——<b class='flag-5'>賽</b>盛<b class='flag-5'>計算</b>工具介紹

    索尼IP編碼板:技術細節(jié)與應用探索

    索尼IP編碼板的技術細節(jié),并探討其在不同領域的應用價值。 技術細節(jié):卓越性能與高效傳輸 索尼IP編碼板作為連接硬件與軟件的橋梁,集成了精密的電路設計與先進的芯片技術。它不僅能夠接收并處理來自傳感器、攝像頭等外部設備
    的頭像 發(fā)表于 03-20 10:10 ?842次閱讀

    云AICP平臺成功通過海光CPU與DCU生態(tài)兼容性認證

    近日,國內領先的智能技術提供商捷通華聲宣布,其自主研發(fā)的云AICP(全智能能力平臺)已成功完成了與海光信息技術股份有限公司(簡稱“海光”)的CPU處理器及DCU(數(shù)據(jù)
    的頭像 發(fā)表于 01-18 14:11 ?1917次閱讀

    SONY編碼板測試:技術細節(jié)與性能評估

    和信號轉換,其性能優(yōu)劣直接影響到整個產(chǎn)品的運行效率和穩(wěn)定性。本文將深入探討SONY編碼板的測試過程,從技術細節(jié)到性能評估,全面解析這一關鍵組件的重要性。 一、SONY編碼板概述 SONY編碼板,作為連接硬件與軟件的橋梁,集成了復
    的頭像 發(fā)表于 01-15 16:37 ?681次閱讀

    低溫失效的原因,有沒有別的方法或者一些見解?

    低溫失效的原因,有沒有別的方法或者一些見解。就是芯片工作溫度在100°--40°區(qū)間,然后呢我們到了0°以下就不工作了,然后在低溫的情況下監(jiān)測了電流和電壓都正常,頻率也都正常,頻率不是FPGA的頻率是晶振的頻率,焊接的話七
    發(fā)表于 12-30 16:28

    FPGA產(chǎn)品的主要特點

    近年來,全球半導體供應鏈屢受挑戰(zhàn),芯片短缺問題一度對行業(yè)產(chǎn)生深遠影響。易通過優(yōu)化供應鏈管理、強化產(chǎn)能規(guī)劃,確保客戶的FPGA需求得到及時滿足。面向工業(yè)控制、機器視覺、醫(yī)療影像、消費電子、汽車智駕等一眾終端領域,易
    的頭像 發(fā)表于 12-04 14:20 ?2154次閱讀
    易<b class='flag-5'>靈</b><b class='flag-5'>思</b>FPGA產(chǎn)品的主要特點