chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用SLX FPGA優(yōu)化人臉檢測數(shù)據(jù)中心的OpenCL AI內(nèi)核?

電子工程師 ? 來源:虹科FPGA團(tuán)隊 ? 作者:虹科FPGA團(tuán)隊 ? 2021-05-08 14:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本案例介紹了如何使用Silexica的SLX FPGA優(yōu)化人臉檢測數(shù)據(jù)中心的OpenCL AI內(nèi)核。

引言

FPGA正越來越多地被用作數(shù)據(jù)中心的協(xié)處理器。這一轉(zhuǎn)變背后的驅(qū)動力是利用FPGA的并行特性的AI應(yīng)用。Xilinx Alveo系列加速器卡使用PCI Express接口連接到x86處理器,在這個領(lǐng)域非常流行。對于這些加速器卡的編程,你可以使用自上而下的方法,從頂級的C/C++和OpenCL應(yīng)用程序開始,然后向低級別的內(nèi)核工作,或者使用自下而上的方法,將內(nèi)核塊編譯成Xilinx對象(.xo),然后可以在以后的階段連接成二進(jìn)制。

與自頂向下的流相比,自底向上的流程有幾個優(yōu)點。(1) 它允許將內(nèi)核的設(shè)計、驗證和優(yōu)化與主應(yīng)用程序分開。(2) 它通過將設(shè)計分割成更小的組件,為內(nèi)核的開發(fā)和優(yōu)化提供更快的迭代周期。(3) 它有利于重復(fù)使用;一個(.xo)文件的集合可以像庫一樣被重復(fù)使用。

在本應(yīng)用案例中,我們使用人臉檢測應(yīng)用作為參考設(shè)計,展示設(shè)計者在使用Vitis自下而上流程時,如何使用SLX FPGA來優(yōu)化內(nèi)核。請注意,同樣的方法也適用于從頭開始設(shè)計內(nèi)核或從Vitis HLS導(dǎo)入現(xiàn)有內(nèi)核。

開發(fā)流程

創(chuàng)建該應(yīng)用需要使用Silexica和Xilinx的以下開發(fā)工具。

● SLX FPGA版本2020.4-sp1● VitisLibraries 2020.2版● Vitis高級合成2020.2版

● Vitis統(tǒng)一軟件平臺2020.2版

整個端到端流程如圖1所示。該流程從創(chuàng)建一個新的SLX項目開始。但是,如果您有一個現(xiàn)有的Vitis HLS項目,SLX FPGA可以直接導(dǎo)入它。

54e32fa6-a9f6-11eb-9728-12bb97331649.png

圖1:Vitis自底向上項目的SLX FPGA工作流程

一、創(chuàng)建并配置SLX FPGA項目

54baee24-a9f6-11eb-9728-12bb97331649.png啟動SLX FPGA,點擊“New SLX project”圖標(biāo),啟動項目創(chuàng)建向?qū)?。?chuàng)建一個新的SLX FPGA項目,如圖2所示。下一步是配置這個項目。

5536701c-a9f6-11eb-9728-12bb97331649.png

圖2:創(chuàng)建一個新的SLX FPGA項目

當(dāng)你創(chuàng)建一個新的項目時,配置編輯器會自動出現(xiàn),但你也可以通過點擊橙色的齒輪按鈕隨時調(diào)出它。如圖3所示,將你的應(yīng)用程序源文件拖放到項目的spec文件夾中。在本案例中,我們從Rosette基準(zhǔn)1中抽取人臉檢測應(yīng)用。接下來,你需要指定FPGA部件號和構(gòu)建選項。對于這個應(yīng)用,我們的目標(biāo)是Alveo U280 FPGA。在FPGA部件欄,選擇xcu280-fsvh2892-2L-e。要設(shè)置構(gòu)建選項,輸入clean、build和run命令,如圖3所示。對于‘make’項目,如圖,請確認(rèn)makefile沒有使用硬編碼編譯器,而是使用(CC)和(CXX)環(huán)境變量來分別引用C和C++編譯器。SLX將在不同的分析階段用其專有的編譯器覆蓋這些變量。Run命令執(zhí)行testbench(也包括在基準(zhǔn)套件中),以確保功能的正確性,也用于分析應(yīng)用程序的動態(tài)行為。

5560afda-a9f6-11eb-9728-12bb97331649.png

圖3:配置一個新的SLX FPGA項目

54baee24-a9f6-11eb-9728-12bb97331649.png這些基本配置完成后,我們可以繼續(xù)為我們的應(yīng)用程序選擇頂級硬件函數(shù),并設(shè)置正確的接口。點擊“函數(shù)映射”按鈕,打開功能映射編輯器。如果你確定頂層硬件函數(shù),檢查它的可綜合性問題,并使用函數(shù)映射編輯器中的右鍵菜單將其映射到FPGA上。或者,運行自動選擇FPGA功能,讓SLX自動選擇頂層的硬件函數(shù)。對于這個人臉識別應(yīng)用,我們選擇face_detect_sw作為我們的頂級硬件函數(shù)。一旦正確選擇了頂層硬件函數(shù),函數(shù)映射編輯器將看起來像圖4,所有映射到FPGA的函數(shù)將有一個紅色邊框。

557e236c-a9f6-11eb-9728-12bb97331649.png

圖4:SLX FPGA函數(shù)映射編輯器

現(xiàn)在我們準(zhǔn)備為這個函數(shù)選擇接口。在函數(shù)映射編輯器中選擇頂級硬件函數(shù)后,點擊properties標(biāo)簽,用左側(cè)的菜單打開接口選擇,如圖5所示。為所有數(shù)組和指針接口選擇axi_m接口,為標(biāo)量選擇s_axilite接口。這將生成在Alveo加速器卡上使用Xilinx對象所需的接口pragmas。此外,SLX的優(yōu)化引擎現(xiàn)在意識到了接口限制,并相應(yīng)地選擇了優(yōu)化原則。

559d341e-a9f6-11eb-9728-12bb97331649.png

圖5:SLX FPGA接口選擇

在正確選擇了所有接口后,我們現(xiàn)在設(shè)置使用SLX FPGA優(yōu)化和生成pragmas。

二、在SLX FPGA中生成HLS pragmas

54baee24-a9f6-11eb-9728-12bb97331649.png

生成HLS pragmas有兩個步驟:

1. 在FPGA中查找并并行化循環(huán)

2. 生成插入HLS注釋的代碼

在第一步中,SLX的優(yōu)化引擎搜索可能的解決方案的設(shè)計空間,以確定最優(yōu)的實用程序和參數(shù)集。設(shè)計空間包括:(1)循環(huán)的不同并行化選項,即針對不同展開因子采用流水線或unroll;(2)數(shù)組的多維分割和重構(gòu)選項(完全分割或循環(huán)分割);

(3)函數(shù)層次結(jié)構(gòu):內(nèi)聯(lián)或阻塞。

對于這個特定的例子,這將導(dǎo)致大約1.32 x e19的設(shè)計點,SLX的優(yōu)化引擎將在70秒內(nèi)收斂到一個解決方案。

55cd78b8-a9f6-11eb-9728-12bb97331649.png

圖6:SLX FPGA提示視圖

圖6顯示了SLX FPGA提示視圖。提示視圖中的第四列和第五列顯示了應(yīng)用程序中不同函數(shù)和循環(huán)的CPU總成本和FPGA總成本。FPGA總成本是對特定功能或回路的延遲估計。這對于幫助開發(fā)人員集中精力進(jìn)行優(yōu)化特別有用。例如,第33行(圖6)上的weekClassifier函數(shù)在純軟件實現(xiàn)中花費24.4%的CPU時間。然而,它對FPGA實現(xiàn)中的關(guān)鍵路徑延遲的貢獻(xiàn)僅為3.63%。

相比之下,在純軟件實現(xiàn)中,cascadeClassifier函數(shù)的第4行上的循環(huán)(圖6)花費了79.9%的CPU時間,但貢獻(xiàn)了97.2%的FPGA關(guān)鍵路徑延遲。提示視圖還突出顯示了攜帶依賴關(guān)系的關(guān)鍵循環(huán)。請注意,SLX FPGA不認(rèn)為所有的lcd都是相等的,并將可以忽略的lcd(例如,歸納和縮減變量)從關(guān)鍵的lcd中分離出來。這些信息可以幫助開發(fā)人員節(jié)省時間,使他們能夠?qū)⒕性贔PGA實現(xiàn)中真正重要的應(yīng)用程序部分。

55de6cfe-a9f6-11eb-9728-12bb97331649.png

圖7:顯示自動編譯插入的SLX FPGA代碼生成向?qū)螕簟癎enerate HLS Code”按鈕 將打開代碼轉(zhuǎn)換向?qū)?,如圖7所示。在這里,用戶可以檢查生成的代碼與原始版本的代碼并選擇/取消代碼生成的pragmas,以便對實現(xiàn)進(jìn)行微調(diào)。

三、在Vitis應(yīng)用項目中導(dǎo)入Xilinx對象

54baee24-a9f6-11eb-9728-12bb97331649.png在一個SLX FPGA項目的hls文件夾包含一個Vitis hls項目SLX優(yōu)化的源代碼。我們使用VitisHLS打開這個項目,并將RTL導(dǎo)出為Xilinx對象,如圖8所示。在導(dǎo)出到Vitis之前,我們需要添加Extern“C”包裝器以確保C鏈接。

55f760b0-a9f6-11eb-9728-12bb97331649.png

圖8:從Vitis HLS導(dǎo)出Xilinx對象

在Vitis工作空間中,創(chuàng)建一個新的應(yīng)用程序,使用一個alveso U280卡作為目標(biāo)設(shè)備,如圖9所示。

56066d3a-a9f6-11eb-9728-12bb97331649.png

圖9:在Vitis統(tǒng)一平臺中創(chuàng)建應(yīng)用程序項目創(chuàng)建項目之后,我們將.xo文件導(dǎo)入內(nèi)核的src文件夾,如圖10所示。導(dǎo)入.xo文件后,單擊“添加硬件功能”按鈕,并選擇列表face_detect_sw。

562db9bc-a9f6-11eb-9728-12bb97331649.png

圖10:在Vitis應(yīng)用程序項目中導(dǎo)入內(nèi)核開發(fā)人員現(xiàn)在可以利用加速的face_detect_sw內(nèi)核創(chuàng)建更廣泛的應(yīng)用程序,該應(yīng)用程序運行在x86主機上。

5655493c-a9f6-11eb-9728-12bb97331649.png

圖11:Vitis Analyzer系統(tǒng)圖

性能改進(jìn)

在綜合設(shè)計的基礎(chǔ)上,對SLX優(yōu)化后的內(nèi)核與未優(yōu)化前的內(nèi)核的性能和資源利用率進(jìn)行了比較。對于這個特殊的設(shè)計,我們允許SLX FPGA使用選定設(shè)備上的所有可用資源;但是,如果有必要,還可以添加其他約束。表1顯示了結(jié)果的摘要。我們發(fā)現(xiàn)LUT增加3倍,延遲減少7.8倍,F(xiàn)F增加2.4倍,DSP塊增加2.7倍。對于alveso卡來說,這種資源利用率的增加并不是一個大問題,因為所有資源的利用率仍然低于5%。如果需要更高的性能,SLXFPGA中可以提供大量額外的分析功能,以幫助指導(dǎo)設(shè)計者更快更有效地重構(gòu)他們的代碼。

結(jié)論

本案例展示了如何利用Vitis自下而上的內(nèi)核流程,將SLX FPGA用于優(yōu)化針對PCIe連接Alveo卡的內(nèi)核。在這個例子中,SLX FPGA能夠減少一個常用的人工智能內(nèi)核的延遲,用于人臉檢測。該方法可應(yīng)用于大多數(shù)基于賽靈思的數(shù)據(jù)中心應(yīng)用,包括亞馬遜F1實例。無論是從頭開始開發(fā)應(yīng)用,還是重復(fù)使用現(xiàn)有的設(shè)計并根據(jù)需求進(jìn)行定制,都可以應(yīng)用這種方法。

原文標(biāo)題:虹科方案 | 使用HLS優(yōu)化人臉識OpenCL AI內(nèi)核

文章出處:【微信公眾號:FPGA技術(shù)支持】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1650

    文章

    22207

    瀏覽量

    626930
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    37052

    瀏覽量

    290155
  • Vitis
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    8200

原文標(biāo)題:虹科方案 | 使用HLS優(yōu)化人臉識OpenCL AI內(nèi)核

文章出處:【微信號:HK-FPGA_Dep,微信公眾號:FPGA技術(shù)支持】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    引領(lǐng)AI時代網(wǎng)絡(luò)變革:睿海光電的核心競爭力 在AI時代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構(gòu)向AI工廠與AI云的轉(zhuǎn)型。
    發(fā)表于 08-13 19:01

    華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案

    在華為數(shù)據(jù)通信創(chuàng)新峰會2025拉美站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能”為主題的分論壇上,華為面向拉美地區(qū)發(fā)布全新升級的星河AI
    的頭像 發(fā)表于 08-11 10:42 ?1630次閱讀

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應(yīng)用場景的詳細(xì)分析:一、性能優(yōu)化:突破帶寬瓶頸,提升計算效率 鏈路帶寬利用率分析 場景:在AI訓(xùn)練集群中,GPU通過PCIe與CPU交換數(shù)據(jù)
    發(fā)表于 07-29 15:02

    是德科技推出用于大規(guī)模AI數(shù)據(jù)中心的系列解決方案

    ·?為AI基礎(chǔ)設(shè)施提供商提供從物理層到應(yīng)用層數(shù)據(jù)中心模擬和優(yōu)化解決方案 ·?驗證和優(yōu)化系統(tǒng)級性能,確保AI
    的頭像 發(fā)表于 04-10 08:51 ?401次閱讀
    是德科技推出用于大規(guī)模<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>的系列解決方案

    是德科技推出AI數(shù)據(jù)中心構(gòu)建器以驗證和優(yōu)化網(wǎng)絡(luò)架構(gòu)和主機設(shè)計

    : KEYS )推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進(jìn)的軟件套件,通過模擬真實工作負(fù)載來評估新算法、組件和協(xié)議對AI訓(xùn)練性能的影響。KAI數(shù)據(jù)中心構(gòu)建器的工
    的頭像 發(fā)表于 04-10 08:50 ?409次閱讀

    適用于數(shù)據(jù)中心AI時代的800G網(wǎng)絡(luò)

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計算和網(wǎng)絡(luò)壓力。從大語言模型(LLM)訓(xùn)練到生成式AI應(yīng)用,海量數(shù)據(jù)處理需求推動了網(wǎng)絡(luò)帶寬的快速增長。在此背景下,800G網(wǎng)
    發(fā)表于 03-25 17:35

    華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    在華為中國合作伙伴大會2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能”為主題的數(shù)據(jù)中心網(wǎng)絡(luò)分論壇圓滿落幕。本次論壇匯聚了來自全國的300多位客戶和伙伴,共同探討
    的頭像 發(fā)表于 03-24 14:46 ?741次閱讀

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    一種經(jīng)濟高效的方式,實現(xiàn)更大的帶寬傳輸。 800G有源光纜 800G有源光纜通過增加帶寬、降低延遲并減少功耗來優(yōu)化性能,非常適合去中心數(shù)據(jù)中心和云環(huán)境。此外,VCSEL與PAM4 DSP技術(shù)
    發(fā)表于 03-24 14:20

    Cadence顛覆AI數(shù)據(jù)中心設(shè)計

    日前舉辦的英偉達(dá) GTC 2025 開發(fā)者大會匯聚了眾多行業(yè)精英,共同探討人工智能的未來。而人工智能正在重塑全球數(shù)據(jù)中心的格局。據(jù)預(yù)測,未來將有 1 萬億美元用于 AI 驅(qū)動的數(shù)據(jù)中心升級。然而
    的頭像 發(fā)表于 03-21 15:43 ?685次閱讀

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......

    制程、異構(gòu)計算、高帶寬內(nèi)存和可重構(gòu)架構(gòu)展開,應(yīng)用領(lǐng)域涵蓋 AI、5G、數(shù)據(jù)中心、自動駕駛和工業(yè)物聯(lián)網(wǎng)。通過優(yōu)化生態(tài)系統(tǒng)、制定有效市場策略、應(yīng)對挑戰(zhàn),FPGA 將在多個領(lǐng)域繼續(xù)發(fā)揮關(guān)鍵作
    發(fā)表于 03-03 11:21

    韓國將建全球最大AI數(shù)據(jù)中心

    據(jù)最新報道,韓國即將啟動一項雄心勃勃的計劃——建設(shè)全球最大的人工智能(AI)數(shù)據(jù)中心。該數(shù)據(jù)中心不僅在規(guī)模上令人矚目,更在技術(shù)和投資上展現(xiàn)了韓國的強大實力。 據(jù)悉,該數(shù)據(jù)中心的電力容量
    的頭像 發(fā)表于 02-20 09:24 ?790次閱讀

    當(dāng)我問DeepSeek AI爆發(fā)時代的FPGA是否重要?答案是......

    ,這為AI的持續(xù)創(chuàng)新提供了有力支持。 6.數(shù)據(jù)中心與云計算加速 ? 在云計算和數(shù)據(jù)中心中,FPGA被用作AI計算加速器,尤其是針對深度學(xué)習(xí)工
    發(fā)表于 02-19 13:55

    數(shù)據(jù)中心中的FPGA硬件加速器

    ? 再來看一篇FPGA的綜述,我們都知道微軟包括國內(nèi)的云廠商其實都在數(shù)據(jù)中心的服務(wù)器中部署了FPGA,所以這篇論文就以數(shù)據(jù)中心的視角,來看下FPGA
    的頭像 發(fā)表于 01-14 10:29 ?997次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>中的<b class='flag-5'>FPGA</b>硬件加速器

    亞馬遜云科技發(fā)布全新數(shù)據(jù)中心組件

    設(shè)計等多個方面進(jìn)行深度優(yōu)化和創(chuàng)新,成功構(gòu)建了一個更加高效節(jié)能的數(shù)據(jù)中心。這些創(chuàng)新不僅提升了數(shù)據(jù)中心的運行效率,更為客戶在AI等領(lǐng)域的進(jìn)一步創(chuàng)新提供了堅實的基礎(chǔ)。 據(jù)悉,亞馬遜云科技將在
    的頭像 發(fā)表于 12-24 15:05 ?691次閱讀

    Meta AI數(shù)據(jù)中心網(wǎng)絡(luò)用了哪家的芯片

    ? 在Meta,我們相信開放的硬件會推動創(chuàng)新。在當(dāng)今世界,越來越多的數(shù)據(jù)中心基礎(chǔ)設(shè)施致力于支持新興的AI技術(shù),開放硬件在協(xié)助分解方面發(fā)揮著重要作用。通過將傳統(tǒng)數(shù)據(jù)中心技術(shù)分解為其核心組件,我們可以
    的頭像 發(fā)表于 11-25 10:05 ?1652次閱讀
    Meta <b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>網(wǎng)絡(luò)用了哪家的芯片