摘要
將PCI Express用于計(jì)算應(yīng)用(服務(wù)器、組網(wǎng)、筆記本電腦等)的連通性方面在一段時(shí)間內(nèi)相當(dāng)流行,同時(shí),在較小的、電池動(dòng)力裝置(電話、平板電腦、手表等)內(nèi)的使用正變得更加廣泛。由于計(jì)算應(yīng)用環(huán)境下設(shè)備之間數(shù)據(jù)通信量的增加,產(chǎn)生較大的功率要求,正是由于該原因,設(shè)計(jì)人員致力于尋找降低其SOC在低強(qiáng)度或空閑時(shí)期功率的方法。較小的、電池動(dòng)力裝置常處于空閑和深度睡眠模式,但對(duì)于這類深度節(jié)電模式,其代價(jià)是,切換回正常工作模式時(shí)恢復(fù)時(shí)間較長(zhǎng)。
對(duì)于使用PCI Express的設(shè)計(jì)人員,通過(guò)將PCI Express IP集成在其SOC中,對(duì)其目標(biāo)應(yīng)用的功率產(chǎn)生了積極的影響,這是因?yàn)槌藚f(xié)議所提供的節(jié)能技術(shù)之外,還有高級(jí)功率管理技術(shù)可以控制功耗。采用時(shí)鐘門控技術(shù)可以處理動(dòng)態(tài)功耗事宜,但對(duì)靜態(tài)功耗無(wú)任何作用。電源門控技術(shù)是實(shí)現(xiàn)最大程度節(jié)能的理想選擇,這是因?yàn)樗芙档鸵蚩s小的特征尺寸而導(dǎo)致更大的靜態(tài)功耗。在深度節(jié)電模式下,電源門控PCI Express IP在典型情況下需要PCI Express鏈路再訓(xùn)練或再配置,并將延長(zhǎng)恢復(fù)時(shí)間,這在很多情形下是不希望的,所以是一項(xiàng)重大挑戰(zhàn)。
在本文中,以PCI Express IP為例,介紹了三種節(jié)能技術(shù),以及設(shè)計(jì)人員如何使用協(xié)議和設(shè)計(jì)工具的功率管理特性來(lái)為需要快速恢復(fù)的裝置提供高能效SoC的方法。
1. 時(shí)鐘門控技術(shù):綜合工具
現(xiàn)代綜合工具提供了數(shù)種時(shí)鐘功率管理技術(shù),如傳統(tǒng)的時(shí)鐘門控和自門控。在傳統(tǒng)時(shí)鐘門控方面,綜合工具尋找條件,將其組合在一起以形成時(shí)鐘使能(EN),這樣可以關(guān)斷時(shí)鐘到觸發(fā)器的通路。這里介紹集成式時(shí)鐘門控(ICG)單元,使用EN,對(duì)系列觸發(fā)器的時(shí)鐘進(jìn)行關(guān)斷,如圖1所示。對(duì)于自門控技術(shù),如果觸發(fā)器的輸入不變,將關(guān)斷觸發(fā)器時(shí)鐘;觸發(fā)器的的輸出與輸入異或,用作ICG中的時(shí)鐘使能(EN)。
?
圖1. 傳統(tǒng)的時(shí)鐘門控(左)與自門控(右)
本策略導(dǎo)致了高能效CE,但由于額外的邏輯開(kāi)銷,面積略有增大。綜合工具通常在插入傳統(tǒng)時(shí)鐘門后使用自門控,以增強(qiáng)CE,針對(duì)面積權(quán)衡,進(jìn)一步降低能耗。使用功率分析工具,可對(duì)該自動(dòng)方法進(jìn)行評(píng)估和優(yōu)化,它能通報(bào)已有時(shí)鐘門的效率,并揭示進(jìn)一步插入時(shí)鐘門的機(jī)會(huì)。對(duì)于數(shù)種使用情形,這類報(bào)告可用于進(jìn)一步優(yōu)化時(shí)鐘門插入。
優(yōu)化的傳統(tǒng)時(shí)鐘門控和PCI Express IP能實(shí)現(xiàn)至少40%的節(jié)能效果,并會(huì)將28納米技術(shù)節(jié)點(diǎn)上的面積降低約9%。
傳統(tǒng)時(shí)鐘門插入之后的自門控策略能夠降低至少5%的能耗,并會(huì)使面積增大約1%。在16納米FinFET (16FF)技術(shù)節(jié)點(diǎn)上,綜合工具時(shí)鐘門控(傳統(tǒng)時(shí)鐘門控+自門控)能達(dá)到25%的節(jié)能效果。圖2。
?
圖2. 時(shí)鐘門控工具的節(jié)能效果
2. 時(shí)鐘門控技術(shù): PCI Express IP
雖然工具插入式時(shí)鐘節(jié)能技術(shù)能夠顯著降低功耗,它們并未完全考慮設(shè)計(jì)層次。從設(shè)計(jì)方面獲取的CE僅作用于觸發(fā)器上,僅在每一觸發(fā)器的時(shí)鐘輸入處選通時(shí)鐘,如圖3所示。存在這方面的抱怨,工具插入式時(shí)鐘門控過(guò)于“細(xì)微”,未考慮穿過(guò)整個(gè)層次的時(shí)鐘樹(shù)。
時(shí)鐘樹(shù)包括分布在整個(gè)設(shè)計(jì)中的時(shí)鐘驅(qū)動(dòng)和時(shí)鐘門控單元,切換與驅(qū)動(dòng)邏輯無(wú)關(guān)。對(duì)于高度復(fù)雜的設(shè)計(jì),時(shí)鐘樹(shù)會(huì)消耗至少25%的待機(jī)功耗。在層次結(jié)構(gòu)的根部關(guān)斷時(shí)鐘,可降低功耗,原因在于時(shí)鐘樹(shù)切換,這是一種需要考慮到架構(gòu)的設(shè)計(jì)決定。
?
圖3. 時(shí)鐘脈沖門插入后的典型設(shè)計(jì)
作為示例,考慮PCI Express IP設(shè)計(jì)和ARM? AMBA?接口以及3個(gè)時(shí)鐘域,如圖4所示。AMBA主設(shè)備接收PCI Express請(qǐng)求,并將其轉(zhuǎn)換為AMBA事務(wù),所述事務(wù)將被發(fā)送至AMBA主時(shí)鐘上的應(yīng)用層。AMBA從設(shè)備處理從應(yīng)用層傳出的AMBA事務(wù),在AMBA從時(shí)鐘上將其轉(zhuǎn)換為PCI Express請(qǐng)求。剩余塊執(zhí)行具體的PCI Express功能,對(duì)在核時(shí)鐘或參考時(shí)鐘線上的往返請(qǐng)求進(jìn)行處理。
?
圖4. PCI Express IP和3個(gè)時(shí)鐘域
存在多種具有AMBA主/從空閑的場(chǎng)景,完全獨(dú)立于PCI Express鏈路狀態(tài):
1. 對(duì)于從線路來(lái)的入站請(qǐng)求,需要本地核時(shí)鐘域和AMBA主時(shí)鐘域,以保持運(yùn)行,同時(shí)關(guān)斷AMBA從時(shí)鐘。
2. 對(duì)于來(lái)自應(yīng)用層的出站請(qǐng)求,需要AMBA從時(shí)鐘和本地核時(shí)鐘域保持運(yùn)行,同時(shí)關(guān)斷AMBA主時(shí)鐘。
3. 對(duì)于不需要應(yīng)用邏輯干預(yù)的入站/出站請(qǐng)求,僅需要本地核時(shí)鐘域,與此同時(shí),可關(guān)斷AMBA主和從時(shí)鐘。
結(jié)構(gòu)模塊中的時(shí)鐘門控不需要遵守PCI Express的鏈路功率管理狀態(tài)。如果在特定方向上沒(méi)有未決請(qǐng)求,可斷開(kāi)待機(jī)結(jié)構(gòu)模塊的時(shí)鐘。在AMBA主從時(shí)鐘塊中,可在根部關(guān)斷時(shí)鐘,從而降低特定時(shí)鐘樹(shù)消耗的功率。對(duì)于情形3,在PCI Express IP中實(shí)施相同方案能夠節(jié)省至少10%的功率,并將待機(jī)處理效率提高至少10%。
在表1中,介紹了滿負(fù)荷通信和待機(jī)狀態(tài)下的功耗,采用和未采用結(jié)構(gòu)化時(shí)鐘門控實(shí)施。
?
表1. 關(guān)于結(jié)構(gòu)化時(shí)鐘門控實(shí)施的功耗比較
3. 時(shí)鐘門控和電源門控技術(shù):PCI Express協(xié)議
PCI Express協(xié)議允許實(shí)施功率優(yōu)化,其方式是通過(guò)更精細(xì)的鏈路狀態(tài)實(shí)現(xiàn),L0、L1(子狀態(tài))和L2/L3,根據(jù)規(guī)范將其定義為功率管理狀態(tài)。要想退出L2和L3狀態(tài),需恢復(fù)電源并再次對(duì)鏈路進(jìn)行訓(xùn)練,從而導(dǎo)致更長(zhǎng)的恢復(fù)時(shí)間。在L0和L1(子狀態(tài))下,采用時(shí)鐘門控技術(shù)以便將恢復(fù)時(shí)間降至最低。考慮在章節(jié)2中介紹的PCI Express IP設(shè)計(jì),在L0下,可選通AMBA主從時(shí)鐘,具體情況取決于L0下的路徑方向,而在L1子狀態(tài)下不需要參考時(shí)鐘。因此,即使在不停止鎖相環(huán)(PLL)的情況下也能斷開(kāi)本地核心時(shí)鐘,PLL可生成核心時(shí)鐘以避免重啟PLL時(shí)的延遲。該情形下的功耗是所有時(shí)鐘門控技術(shù)中最低的,僅在數(shù)字和模擬電路中存在泄漏功率。
如果能夠容忍高至5倍的恢復(fù)時(shí)間,就能在L1.1子狀態(tài)下斷開(kāi)PLL和發(fā)送器/接收器,與僅具有時(shí)鐘門控的L1.1子狀態(tài)相比,可實(shí)現(xiàn)高至97.5%的節(jié)能效果。如果能夠容忍高至15倍的恢復(fù)時(shí)間,在L1.2子狀態(tài)下甚至能斷開(kāi)共模電壓,將功耗降至0.05%。
PCI Express提供了基于消息的系統(tǒng)功率處理協(xié)助技術(shù),如延遲容許通報(bào)(LTR)和優(yōu)化緩沖清除/填滿(OBFF)。使用LTR,能夠?qū)⑾掠窝b置容許的最大延遲傳遞到上游,使得主機(jī)軟件能夠了解無(wú)縫鏈路操作所需的恢復(fù)時(shí)間。使用OBFF,主機(jī)軟件能夠?qū)⑾到y(tǒng)狀態(tài)傳輸至具有主線總控能力的下游裝置,使用它們來(lái)優(yōu)化傳輸排程,并使系統(tǒng)在節(jié)能模式下工作的時(shí)間更長(zhǎng)。例如,如果系統(tǒng)處于低功率狀態(tài),例行DMA傳輸會(huì)出現(xiàn)延遲。對(duì)于從LTR收集的信息,它能用于決定將待機(jī)時(shí)間延長(zhǎng)多少,以便允許更高的貌似可行的節(jié)能。
結(jié)論
在具有預(yù)期快速恢復(fù)時(shí)間的零散通信和待機(jī)過(guò)程中,功率管理對(duì)于裝置尤為重要。采用基于工具的設(shè)計(jì)相關(guān)和協(xié)議相關(guān)時(shí)鐘門控技術(shù),對(duì)于諸如PCI Express的接口IP設(shè)計(jì),可實(shí)現(xiàn)最大節(jié)能。當(dāng)需要近乎為零的恢復(fù)時(shí)間時(shí),時(shí)鐘門控解決方案可達(dá)到優(yōu)異的結(jié)果。通過(guò)避免PCI Express鏈路再訓(xùn)練和再配置,可實(shí)現(xiàn)最大節(jié)能和更快的恢復(fù)時(shí)間。
對(duì)于Synopsys針對(duì)PCI Express技術(shù)的DesignWare IP解決方案,它利用了基于工具的時(shí)鐘門插入技術(shù)的優(yōu)點(diǎn)。
包括依賴并獨(dú)立于PCI Express鏈路功率狀態(tài)的結(jié)構(gòu)化時(shí)鐘門控塊;
支持L1子狀態(tài)下的PCI Express時(shí)鐘功率管理;
提供電源門控解決方案,以及針對(duì)L1.2子狀態(tài)的功率島和寄存器保持方法(避免鏈路再訓(xùn)練),支持功率管理協(xié)助特性,如延遲容許通報(bào)(LTR)和優(yōu)化緩沖清除/填滿(OBFF)。
支持所有的PCI Express功率管理功能,包含更長(zhǎng)的恢復(fù)時(shí)間,如動(dòng)態(tài)上下鏈路配置和L2/L3功率門控。
使用支持這些特性的PCI Express IP,可幫助設(shè)計(jì)人員提供高能效SoC。
https://www.synopsys.com/Company/Publications/DWTB/Pages/dwtb-L1-substat...
評(píng)論