核心提示:從工藝選擇到設(shè)計(jì)直至投產(chǎn),設(shè)計(jì)人員關(guān)注的重點(diǎn)是以盡可能低的功耗獲得最佳性能。Altera在功耗和性能上的不斷創(chuàng)新,那其28nm高端FPGA如何實(shí)現(xiàn)功耗和性能的平衡?具體有何優(yōu)勢(shì)?
從工藝選擇到設(shè)計(jì)直至投產(chǎn),設(shè)計(jì)人員關(guān)注的重點(diǎn)是以盡可能低的功耗獲得最佳性能。利用Altera在功耗和性能上的不斷創(chuàng)新,設(shè)計(jì)人員能夠?yàn)樗麄兊淖罱K客戶開發(fā)獨(dú)具優(yōu)勢(shì)的高性能系統(tǒng)。特別是與其他高端FPGA相比,Altera的28nm高端FPGA功耗降低了15%,而性能卻提高了1 個(gè)速率等級(jí),更具有功耗優(yōu)勢(shì)。
Altera認(rèn)識(shí)到,滿足所有需求的方法并不適用于28nm節(jié)點(diǎn)。設(shè)計(jì)人員在其目標(biāo)應(yīng)用中需要合適的器件,因此,Altera為其高端FPGA選擇了臺(tái)積電公司(TSMC)的28nm高性能(28HP)工藝,在低成本和中端系列中采用了28nm低功耗(28LP)工藝。
為其Stratix V FPGA選擇了28HP工藝之后,Altera做出了幾項(xiàng)開發(fā)選擇以降低器件功耗。本文將介紹從工藝選擇到工具以及建模的步驟,保證了在很有競(jìng)爭(zhēng)力的電源布局下支持實(shí)現(xiàn)高性能。設(shè)計(jì)人員擁有合適的器件和工具,就能夠以很低的功耗實(shí)現(xiàn)高性能,對(duì)設(shè)計(jì)進(jìn)行較為精確的早期功耗估算。
功耗和性能考慮
定義28nm高端器件的結(jié)構(gòu)時(shí),需要作出很多決定(參考表1),以盡可能低的功耗實(shí)現(xiàn)最佳性能。
表1 功耗和性能考慮
以低功耗實(shí)現(xiàn)高性能的結(jié)構(gòu)
在過去幾年中,低功耗技術(shù)越來越重要,在結(jié)構(gòu)規(guī)劃階段就開始考慮降低功耗。Altera以前不斷降低功耗的創(chuàng)新是可編程功耗技術(shù)及更多地使用了嵌入式硬核知識(shí)產(chǎn)權(quán)(IP)。在28nm節(jié)點(diǎn),以低功耗實(shí)現(xiàn)高性能的新方法包括對(duì)于不使用的模塊關(guān)斷SRAM、低電壓(0.85 V)結(jié)構(gòu)以及部分重新配置功能等。
使用合適的工藝
工藝選擇是Altera 28nm器件系列的關(guān)鍵考慮。如前所述,目標(biāo)是幫助設(shè)計(jì)人員針對(duì)特定的目標(biāo)市場(chǎng)和應(yīng)用來定制功耗。在28nm系列產(chǎn)品上采用兩種不同的半導(dǎo)體工藝,與前一代同類產(chǎn)品相比,Altera的28nm FPGA功耗降低了40%。
圖1顯示了TSMC提供的三種28nm工藝選擇。在這些工藝中,大量晶體管具有較大的靜態(tài)功耗范圍。左側(cè)的晶體管靜態(tài)功耗較低,而右側(cè)的較大。這也體現(xiàn)了靜態(tài)功耗與這些晶體管性能之間的關(guān)系??傮w上,晶體管性能越好,靜態(tài)功耗也就越高。
圖1 TSMC 28nm工藝選擇
據(jù)TSMC資料,28HP工藝是使用高k金屬門(HKMG)工藝技術(shù)的首選。28HP工藝具有優(yōu)異的速度和性能,主要面向CPU、GPU、FPGA、PC、網(wǎng)絡(luò)和消費(fèi)類電子應(yīng)用。在同樣的漏電/電路門條件下,28HP工藝比40G工藝的速度提高了45%。
Altera選擇TSMC 28HP HKMG工藝,借助與TSMC長(zhǎng)達(dá)20年的合作關(guān)系,優(yōu)化了Stratix V FPGA低功耗工藝。表2詳細(xì)介紹了Altera使用高性能工藝降低功耗的步驟。
表2 28HP工藝技術(shù)降低了功耗,提高了性能
說明:(1)專門提供僅供Altera 使用的工藝。
大部分TSMC客戶必須使用標(biāo)準(zhǔn)工藝,而Altera與TSMC近20年的密切協(xié)作使得兩家公司能夠一起工作開發(fā)實(shí)現(xiàn)Altera的專用功能。對(duì)于28HP工藝,Altera采用可編程功耗技術(shù),聯(lián)合開發(fā)了定制低漏電晶體管和減小了器件體漏電。這兩項(xiàng)功能與高性能晶體管相結(jié)合,可以調(diào)整每一設(shè)計(jì)模塊,以盡可能低的功耗實(shí)現(xiàn)最合適的性能。
在28nm時(shí)代,Altera繼續(xù)采用以前Altera獲得專利的創(chuàng)新可編程功耗技術(shù),不需要更多的FPGA設(shè)計(jì)投入,降低了靜態(tài)功耗。 Altera的Quartus II開發(fā)軟件在時(shí)間關(guān)鍵通路上應(yīng)用可選的反向偏壓,調(diào)整邏輯電壓閾值,在需要的地方實(shí)現(xiàn)高性能,同時(shí)降低了所有其他邏輯的靜態(tài)功耗。這種可調(diào)整能力保證了 Stratix V FPGA設(shè)計(jì)人員降低了整個(gè)設(shè)計(jì)的靜態(tài)功耗,同時(shí)實(shí)現(xiàn)了高性能。
以低功耗實(shí)現(xiàn)高性能
FPGA中的每一IP模塊都針對(duì)功耗和性能進(jìn)行了設(shè)計(jì),目的是以盡可能低的功耗達(dá)到特定的性能目的。目標(biāo)是降低每一工藝代IP模塊的功耗。不論是M20K SRAM模塊、數(shù)字信號(hào)處理器(DSP)模塊、架構(gòu)和布線,還是收發(fā)器,重點(diǎn)都是以盡可能低的功耗實(shí)現(xiàn)合適的性能。
在時(shí)序關(guān)鍵通路上使用高性能晶體管,而對(duì)于不需要高性能的地方,則使用低漏電晶體管。設(shè)計(jì)團(tuán)隊(duì)在所有不需要高性能的地方使用Altera特有低漏電晶體管或者較長(zhǎng)的電路門晶體管。
這種靈活性的一個(gè)例子是配置能力極強(qiáng)的收發(fā)器。不論是運(yùn)行在6.5G、14.1G還是28G,Altera收發(fā)器都具有優(yōu)異的性能和最低的功耗。在28G時(shí),每通道功耗是200mW。圖2對(duì)比了幾種不同收發(fā)器配置時(shí)的delta功耗。
圖2 收發(fā)器功耗對(duì)比
實(shí)現(xiàn)功耗監(jiān)控設(shè)計(jì)流程
從工具的角度看,必須同時(shí)考慮功耗和性能。以太高的功耗滿足性能要求,或者功耗較低但是沒有達(dá)到性能目標(biāo),這都是不可使用的設(shè)計(jì)。因此,Quartus II軟件還必須能夠在性能和功耗上很好地達(dá)到均衡。在沒有用戶干預(yù)的情況下,工具會(huì)自動(dòng)只在需要的地方使用高速塊,盡可能降低功耗泄漏以滿足性能要求,同時(shí)使得所有其他塊進(jìn)入低功耗狀態(tài)以減小泄漏。此外,還采取了以下降低功耗的措施:
? 邏輯、RAM 分析、重新規(guī)劃,以降低動(dòng)態(tài)功耗
? 群布局減小了走線長(zhǎng)度,降低了動(dòng)態(tài)布線功耗
? 優(yōu)化布局以減小時(shí)鐘功耗以及非關(guān)鍵通路信號(hào)布線功耗
建模是重要的步驟,因?yàn)樗WC了功耗模型的正確性,不是最差也不是最樂觀。公司可以選擇保守、激進(jìn)或者正確的方式。最終,最適合設(shè)計(jì)人員的唯一選項(xiàng)是正確地建模。保守選擇導(dǎo)致了估算的功耗在市場(chǎng)上看起來并不具有競(jìng)爭(zhēng)優(yōu)勢(shì)。激進(jìn)的選擇導(dǎo)致最終功耗與工具估算的功耗不具有可比性。做到正確的選擇盡可能接近硅片實(shí)際測(cè)量的功耗,同時(shí)滿足了供應(yīng)商和客戶的要求。
在制造過程中降低功耗,提高性能
提高制造能力,大批量交付器件是提高產(chǎn)量、嚴(yán)格工藝的關(guān)鍵。Altera早期以標(biāo)準(zhǔn)功耗指標(biāo)發(fā)售器件,以幫助前沿的客戶滿足早期原型開發(fā)和生產(chǎn)進(jìn)度要求,然后,嚴(yán)格曲線指標(biāo),盡快實(shí)現(xiàn)利益,以幫助這些用戶滿足其產(chǎn)品進(jìn)度和功效目標(biāo)。Altera采用這一嚴(yán)格的工藝來交付低靜態(tài)功耗的新L(低功耗)器件。
如圖3示,減小工藝變化使得靜態(tài)功耗降低了35%,從而降低了總功耗。由于結(jié)溫增大和漏電增加是一種指數(shù)函數(shù)關(guān)系,因此,這一方法在較高結(jié)溫時(shí)極大地降低了功耗,滿足了當(dāng)今很多系統(tǒng)設(shè)計(jì)的要求。
圖3 工藝降低了靜態(tài)功耗
在28HP制造工藝降低功耗的結(jié)果非常顯著,因此,Altera立即將其應(yīng)用于獨(dú)具優(yōu)勢(shì)的FPGA上,在產(chǎn)品代碼中標(biāo)以“L”。這種突出顯示的訂購(gòu)碼旨在將產(chǎn)品立即應(yīng)用于對(duì)功耗敏感的設(shè)計(jì)中,然后,在所有28 nm產(chǎn)品中繼續(xù)發(fā)揮同樣的工藝優(yōu)勢(shì)。
在FPGA 設(shè)計(jì)中使功耗和性能達(dá)到均衡
設(shè)計(jì)人員能夠使用高端器件,當(dāng)這些工具具備了各種低功耗功能以及支持功耗預(yù)知的情況下,設(shè)計(jì)人員自己會(huì)確定怎樣均衡其每一設(shè)計(jì)的性能和功耗。他們從選擇正確的FPGA系列開始。當(dāng)需要最佳性能或者最大容量時(shí),選用Stratix V FPGA。在Stratix V系列中,可用的型號(hào)包括沒有收發(fā)器的器件、有收發(fā)器的器件,以及重點(diǎn)是DSP應(yīng)用的器件。
選擇好器件后,在FPGA設(shè)計(jì)過程中,可以使用幾種設(shè)計(jì)方法來降低功耗,包括,邏輯和RAM時(shí)鐘通道以及部分重新配置等。
即使采用了最佳設(shè)計(jì)方法、模型和軟件,也只有提供了輸入后才能進(jìn)行功耗估算。大部分設(shè)計(jì)人員熟悉基本動(dòng)態(tài)功耗方程:CV2F X (觸發(fā)率)。設(shè)計(jì)工具計(jì)算電容(C),已知電壓(V)和頻率(F)是已知的,但是不知道設(shè)計(jì)的觸發(fā)率。確定觸發(fā)率的最佳方法是運(yùn)行代表實(shí)際系統(tǒng)使用情況的仿真,得到.vcd文件后,使用PowerPlay功耗分析器工具。次優(yōu)的方法是為I/O建立合適的觸發(fā)率,根據(jù)得到的估算,使用 PowerPlay功耗分析器來產(chǎn)生內(nèi)部觸發(fā)率。第三好的方法是使用早期功耗估算器 (EPE),使用以前相似設(shè)計(jì)的觸發(fā)率。最不精確的方法是以默認(rèn)觸發(fā)率使用EPE。功耗估算的精度與默認(rèn)觸發(fā)率和設(shè)計(jì)實(shí)際觸發(fā)率之間的差值相關(guān)。 Altera建議使用 PowerPlay功耗分析器,通過矢量獲得最佳功耗估算。
設(shè)計(jì)實(shí)例
設(shè)計(jì)過程中一個(gè)重要的早期步驟是,為Stratix V FPGA下載最新的EPE,選擇器件 (功耗指標(biāo)最低的L器件),為設(shè)計(jì)輸入信息。與競(jìng)爭(zhēng)產(chǎn)品相比,Altera的L器件既有動(dòng)態(tài)功耗優(yōu)勢(shì),又具有總功耗和性能優(yōu)勢(shì)。
下面的例子包括競(jìng)爭(zhēng)對(duì)手以前分析的兩個(gè)設(shè)計(jì),使用14.2 XPE和Quartus II 12.0SP2 EPE進(jìn)行了更新,以及一個(gè)使用VCC(內(nèi)核)電源的新例子,針對(duì)Altera的雙100G轉(zhuǎn)發(fā)器設(shè)計(jì)進(jìn)行了測(cè)量和預(yù)測(cè)。
100GbE OTU4轉(zhuǎn)發(fā)器實(shí)例
在這個(gè)例子中,運(yùn)行時(shí)用戶相關(guān)的結(jié)溫是100℃,使用了最大工藝指標(biāo)?;诟?jìng)爭(zhēng)對(duì)手白皮書中設(shè)定的資源使用情況,表3供了I/O和收發(fā)器數(shù)據(jù),表4提供了輸入到XPE (14.2)和 EPE (12.0 SP2)中的信息。
表3 100GbE OTU4 轉(zhuǎn)發(fā)器 I/O 和收發(fā)器信息
表4 100GbE OTU4轉(zhuǎn)發(fā)器資源使用情況
圖4對(duì)比了獲得的新L器件結(jié)果和以前報(bào)告的結(jié)果,表明,與Virtex-7 FPGA相比,Stratix V FPGA降低了功耗,同時(shí)提高了性能。
圖4 使用L器件,更新后的100GbE OTU4轉(zhuǎn)發(fā)器功耗對(duì)比
數(shù)據(jù)流管理實(shí)例
在這個(gè)例子中,運(yùn)行時(shí)用戶相關(guān)的結(jié)溫是100℃,使用了最大工藝指標(biāo)?;诟?jìng)爭(zhēng)對(duì)手白皮書中設(shè)定的資源使用情況,表5提供了I/O和收發(fā)器數(shù)據(jù),表6提供了輸入到XPE (14.2)和 EPE (12.0 SP2)中的信息。
表5 數(shù)據(jù)流管理器I/O和收發(fā)器信息
表6 數(shù)據(jù)流管理器資源使用情況
圖5對(duì)比了獲得的新L器件結(jié)果和以前報(bào)告的結(jié)果,再次表明,與Virtex-7 FPGA相比,Stratix V FPGA降低了功耗,同時(shí)提高了性能。
圖5 使用L器件,更新后的數(shù)據(jù)流管理器功耗對(duì)比
這個(gè)例子顯示了3%的功耗優(yōu)勢(shì),100GbE OTU4轉(zhuǎn)發(fā)器實(shí)例顯示了8%的功耗優(yōu)勢(shì),還有客戶設(shè)計(jì)表明有15%的功耗優(yōu)勢(shì)。Stratix V器件還具有1個(gè)速率等級(jí)性能優(yōu)勢(shì)。
雙 100G轉(zhuǎn)發(fā)器實(shí)例
EPE的精度如何?或者換句話說,上面對(duì)比的結(jié)果有多可靠?第三個(gè)例子對(duì)比了測(cè)量值和EPE估算值。正如前面所提到的,最終功耗估算的次優(yōu)方法獲得了正確的輸入觸發(fā)率,在無矢量模式中使用了PowerPlay功耗分析器。這一方法是用于開發(fā)以下Altera100G雙轉(zhuǎn)發(fā)器設(shè)計(jì)的方法。對(duì)于這一設(shè)計(jì),按照引腳連接指南中的建議,將VCC、VCCHIP和VCCHSSI連接起來。設(shè)計(jì)電路板時(shí),使用0.9 V ES器件,在供電通路(12.01 V)上采用0.01 1%電阻連接電壓穩(wěn)壓器。運(yùn)行時(shí),電路板處理OTN數(shù)據(jù)流幾個(gè)小時(shí),達(dá)到穩(wěn)定工作溫度后,進(jìn)行以下測(cè)量:
? 穩(wěn)壓器輸入電壓:12.01 V
? 穩(wěn)壓器輸出電壓:0.989 V
? 電阻上的壓降:1.19 A
然后,器件停止工作(所有時(shí)鐘都停止),進(jìn)行另一次測(cè)量,獲得同一結(jié)溫時(shí)設(shè)置的器件泄漏電流,作為總電流。測(cè)量的電阻壓降是11.9 mV。使用了下面的計(jì)算:
???
穩(wěn)壓器效率基于數(shù)據(jù)圖表,外推為 0.9 V。
0.9V電源上的動(dòng)態(tài)電流(I cc+ Icchssi + Icchip) = 22.7 – 13.6 = 9.1 A
PCIE引腳由PCB供電,但是并沒有在內(nèi)核中例化HIP。
從 Quartus II軟件導(dǎo)入CSV文件后,從12.0 SP2 EPE中得到相應(yīng)的結(jié)果是10.1 A的總動(dòng)態(tài)電流。
最終結(jié)果是,使用來自Quartus II軟件的無矢量分析CSV文件,EPE比測(cè)量值9.1 A高出1 A(11%)。對(duì)于早期功耗估算,這一分析結(jié)果非常精確。
結(jié)論
在客戶設(shè)計(jì)中,從器件體系結(jié)構(gòu)定義中關(guān)注功耗和性能的均衡,以盡可能低的功耗實(shí)現(xiàn)最佳性能和帶寬,與其他28 nm產(chǎn)品相比,降低了功耗。通過Stratix V FPGA以下的功能,設(shè)計(jì)人員實(shí)現(xiàn)的系統(tǒng)具有明顯的優(yōu)勢(shì):
? Altera定制的TSMC 的28HP工藝
? 低電壓(0.85 V)體系結(jié)構(gòu)
? 功能模塊的硬關(guān)斷
? 大量的硬核IP
? 可編程功耗技術(shù)
? 寬帶高功效收發(fā)器
? I/O創(chuàng)新實(shí)現(xiàn)了高功效存儲(chǔ)器接口
? Quartus II軟件功耗優(yōu)化
? 邏輯和RAM時(shí)鐘選通
? 使用方便的部分重新配置功能
評(píng)論