chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

超級計(jì)算機(jī)和FPGA

e9Zb_gh_8734352 ? 來源:FPGA技術(shù)聯(lián)盟 ? 作者:FPGA技術(shù)聯(lián)盟 ? 2020-11-02 18:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

超級計(jì)算機(jī)和FPGA

1、超算?

大數(shù)據(jù)、基因科學(xué)、金融工程、人工智能、新材料設(shè)計(jì)、制藥和醫(yī)療工程、氣象災(zāi)害預(yù)測等領(lǐng)域所涉及的計(jì)算處理,家用個人計(jì)算機(jī)級別的性能是遠(yuǎn)遠(yuǎn)不夠的。超級計(jì)算機(jī)(以下簡稱超算)就是為了解決這種超大規(guī)模的問題而開發(fā)的。超算并沒有一個明確的定義, 通常所說的超算大致是性能在家用計(jì)算機(jī)的1000倍以上,或者理論性能在50 TFLOPST以上的系統(tǒng)。

FPGA作為可以提高超算能效比的通用器件受到了廣泛關(guān)注。從性能、靈活性和功耗效率方面,CPU、FPGA和ASIC里面FPGA走的是中間路線。FPGA的功耗效率是高于CPU的,靈活性高于ASIC;從功耗效率、性能保障性和算法適用性來看,F(xiàn)PGA應(yīng)該是碾壓GPU的。GPU適用的算法非常有限,拿到一個算法,能否達(dá)到最終的性能是有風(fēng)險(xiǎn)的;早期GPU的實(shí)現(xiàn)算法非常容易,但是自從Xilinx在高層次綜合HLS方面深度耕耘后,F(xiàn)PGA的編程容易度也降低了很多。其優(yōu)勢是不但可以作為運(yùn)算加速器,還可以作為連接器件讓超算中眾多的運(yùn)算處理器和運(yùn)算加速器更緊密地結(jié)合。此外,IoT技術(shù)正在推動硬件基礎(chǔ)設(shè)施的升級,今后運(yùn)算和數(shù)據(jù)的集中化和分散化進(jìn)程都會加速發(fā)展。在這個進(jìn)程當(dāng)中,為了運(yùn)用超算技術(shù),也要求數(shù)據(jù)中心具備更加嶄新和有效的方法和技術(shù)口。除了大規(guī)模計(jì)算以外,從強(qiáng)化升級社會IT基礎(chǔ)建設(shè)的角度上看,超算技術(shù)也越來越必要。因此,PLD/FPGA必將會在超算中得到更廣泛的運(yùn)用。

02

超算中的FPGA應(yīng)用案例

1、首先是筑波大學(xué)20世紀(jì)70年代開始研發(fā)用于科學(xué)計(jì)算的并行計(jì)算機(jī)PACS/PAX,而HA-PACS是該系列的第8代。PACS/PAX系列自開發(fā)之初就以實(shí)現(xiàn)了CPU和內(nèi)存間的高速互聯(lián)架構(gòu)而聞名。HA-PACS是PACS/PAX系列中首次采用GPU作為運(yùn)算加速器的超算。用GPU提高超算性能,還必須要實(shí)現(xiàn)能夠充分發(fā)揮GPU高運(yùn)算性能的并行系統(tǒng)架構(gòu)。然而,HA-PACS開發(fā)時的GPU存在些問題,導(dǎo)致難以實(shí)現(xiàn)高效的并行系統(tǒng)架構(gòu)。例如在多個GPU間共享數(shù)據(jù)時,傳輸前后需要在宿主CPU的主存中進(jìn)行數(shù)據(jù)復(fù)制。還有將數(shù)據(jù)傳輸從PCle轉(zhuǎn)為其他通信方式時,很難削減通信延遲。為了改善這些問題,HA-PACS系統(tǒng)基于PEARL ( PCI Express Adaptive and Reliable Link)概念提出了TCA ( Tightly Coupled Accelerato-rs) 技術(shù),并開始開發(fā)實(shí)現(xiàn)TCA的PEACH2板卡。

那么由CPU+GPU+FPGA組成的異構(gòu)系統(tǒng)的性能又如何呢? HA-PACS/TCA是一個只有64個節(jié)點(diǎn)的小規(guī)模系統(tǒng),理論性能為364.3TFLOPS,實(shí)測性能為277.1 TFLOPS, 2013年11月位列TOP500的第134名。另外,由于該系統(tǒng)達(dá)到了3.52 GFLOPS/W的高能效比,在2013年11月和2014年6月的Green500榜中位列第3名。HA-PACS/TCA的基礎(chǔ)部分采用GPU和CPU組合來實(shí)現(xiàn)高性能、低功耗的運(yùn)算,再加上基于FPGA的PEACH2的使用,進(jìn)一步提高了跨學(xué)科合作應(yīng)用中的運(yùn)算性能。

PEACH2提供了可以讓多個GPU直接互聯(lián)通信的框架。具體來說,PEACH2擴(kuò)展了PCle通信連接,并實(shí)現(xiàn)了GPU間的直接通信,從而達(dá)到了提高數(shù)據(jù)傳輸效率的目的”。技術(shù)上,PEACH2實(shí)現(xiàn)了一種路由,可以將PCIe協(xié)議中Root Complex和多個End Point間的數(shù)據(jù)包在多個節(jié)點(diǎn)間傳輸。

原本的數(shù)據(jù)傳輸路徑GPUmem→CPUmem→(InfiniBand/MPI)→CPUmem→GPU mem, 縮短為了GPU mem→(PCIe/PEACH2)→GPU mem,即GPU間的直連傳輸。此外,通信協(xié)議的統(tǒng)一也實(shí)現(xiàn)了比InfiniBand更低的延遲。

下面一起看一下PEACH2的通信性能。PEACH2具備4個PCleGen2 x8 (8通路)端口。這里的端口數(shù)量上的限制并非源于PEACH2本身,而是因?yàn)樗捎玫腇PGA器件的物理限制,這點(diǎn)可以通過FPGA制造技術(shù)的提升而改善。PEACH2中GPU對GPU的DMAPing-pong延遲為2.0us ( 100萬分之2秒),CPU對CPU的延遲為1.8 us,可以說通信延遲十分小了。PEACH2能達(dá)到這種性能要?dú)w功于使用了PLD/FPGA,正因如此它才能將傳輸開銷降低到2.0 us的程度。這個性能和MVAPICH2 v2.0-GDR ( 帶GDR : 4.5us ;不帶GDR : 19 us) 相比已經(jīng)足夠了。FPGA的采用實(shí)現(xiàn)了輕量化協(xié)議、多RootComplex互聯(lián)、Block-Stride通信硬件,從而獲得了高應(yīng)用性能。此外,在Ping-pong帶寬方面,PEACH2 的CPU對CPU的DMA傳輸性能約為3.5 GB/s,達(dá)到了理論性能的95%;GPU對GPU的DMA性能約為2.8GB/s。然而,當(dāng)負(fù)載大小超過512 KB時MVAPICH2 v2.0-GDR的性能更高,可以在實(shí)際應(yīng)用時根據(jù)需求進(jìn)行選擇。綜上,無論研究領(lǐng)域或商業(yè)系統(tǒng),今后都會繼續(xù)探索能夠發(fā)揮PLD/FPGA優(yōu)勢的高效方法,從而提高系統(tǒng)的整體性能。

2、其次是Cray Research,該公司的超級計(jì)算機(jī):XD1就有用上FPGA,XD1用的是Xilinx(賽靈思)公司的VIRTEX系列FPGA。XD1機(jī)內(nèi)有所謂的FPGA應(yīng)用程序加速模塊(FPGA ApplicaTIon AcceleraTIon Module),模塊等于是機(jī)內(nèi)的一個小型輔助運(yùn)算系統(tǒng),VIRTEX是模塊內(nèi)的主控芯片,等于是一個協(xié)同處理器(Co-Processor),只不過這個協(xié)同處理器與ASIC型式的協(xié)同處理器不同,F(xiàn)PGA具有可程序化的功效,因此VIRTEX是一顆可程序化的協(xié)同處理器。運(yùn)算模塊內(nèi)除了有FPGA的協(xié)同處理器外,處理器也必須搭配內(nèi)存才能行使運(yùn)算,所以FPGA會再連接4顆QDR II SRAM(極高速性的內(nèi)存),然后模塊一方面用HyperTransport與XD1的主處理器相連,另一方面也連往XD1的特有高速I/O界面:RapidArray。

接著,由于高效運(yùn)算多是執(zhí)行大量重復(fù)性的運(yùn)算,例如氣象預(yù)測、風(fēng)洞測試等,所以可以將執(zhí)行的應(yīng)用程序轉(zhuǎn)化成FPGA內(nèi)的組態(tài)(ConfiguraTIon)程序,以硬件線路方式來執(zhí)行運(yùn)算,如此將比過往用純軟件方式執(zhí)行快上數(shù)倍至數(shù)十倍的效能,甚至在特定的應(yīng)用運(yùn)算上能達(dá)一百倍以上的效能。

更仔細(xì)而言,其實(shí)是將整個應(yīng)用程序中重復(fù)性最高、且最經(jīng)常用的函數(shù)庫進(jìn)行轉(zhuǎn)化,并以FPGA的硬件線路執(zhí)行,如此就能獲得最大的加速效果。

Cray如此,與Cray同為高效運(yùn)算市場的另一家業(yè)者:SGI(視算科技)也實(shí)行相同的作法,SGI提出所謂的RASC(Reconfigurable ApplicaTIon Specific Computing,可組態(tài)化應(yīng)用程序性運(yùn)算,)RASC也是以模塊方式讓原有的超級計(jì)算機(jī)能獲得加速效果。

SGI的作法與Cray有部分相同也有部分不同,Cray是將模塊設(shè)置在原有超級計(jì)算機(jī)的機(jī)內(nèi),而SGI則是運(yùn)用既有超級計(jì)算機(jī)機(jī)箱的上部來加搭加速模塊,不過就功效機(jī)制而言兩者異曲同工,此外兩者都使用Xilinx的VIRTEX系列FPGA,但是內(nèi)存與I/O部分兩家也實(shí)行不同的設(shè)計(jì),Cray是使用QDR II SRAM,SGI則是可實(shí)行QDR SRAM,或者也可用DDR2 SDRAM,前者容量少(80MB)但速度快,后者容量大(20GB)而速度慢,提供兩種選擇的原因是可依據(jù)不同的應(yīng)用程序特性來選用。

另外,高效運(yùn)算業(yè)者通常有獨(dú)門的機(jī)內(nèi)通訊傳輸技術(shù),RapidArray即是Cray的獨(dú)家技術(shù),而SGI自身也有獨(dú)家的傳輸技術(shù),即NUMAlink 4(已是第四代技術(shù)),所以SGI的RASC不是使用RapidArray,而是使用NUMAlink 4。

其實(shí)Cray系統(tǒng)內(nèi)所用的FPGA模塊是與DRC Computer公司技術(shù)合作而成,因此DRC Computer自身也有提供相近方案,DRC的RPU(Reconfigurable Processor Units)同樣也是用FPGA來加速,一樣是用Xilinx VIRTEX FPGA,但與主系統(tǒng)間的連接接口改成AMD Opteron處理器的接座接口,如此一般使用AMD Opteron處理器的x86服務(wù)器也可以加裝RPU來提升高效運(yùn)算的效能。

原文標(biāo)題:FPGA應(yīng)用案例——超級計(jì)算機(jī)

文章出處:【微信公眾號:FPGA技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1655

    文章

    22286

    瀏覽量

    630296
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7764

    瀏覽量

    92682
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49735

    瀏覽量

    261533

原文標(biāo)題:FPGA應(yīng)用案例——超級計(jì)算機(jī)

文章出處:【微信號:gh_873435264fd4,微信公眾號:FPGA技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA技術(shù)驅(qū)動的超級計(jì)算機(jī)助力開放科學(xué)研究

    五個備受矚目的 HPC 獎決賽入圍項(xiàng)目憑借 Alps、JUPITER 和 Perlmutter 超級計(jì)算機(jī)的支持在氣候建模、流體模擬等領(lǐng)域取得了重大突破。
    的頭像 發(fā)表于 11-25 11:17 ?428次閱讀

    奧士康召開DGX Spark AI超級計(jì)算機(jī)項(xiàng)目表彰大會

    2025年9月22日,奧士康科技股份有限公司隆重召開DGXSparkAI超級計(jì)算機(jī)項(xiàng)目表彰大會,以表彰在客戶開發(fā)、產(chǎn)品研發(fā)、工程設(shè)計(jì)和批量生產(chǎn)等方面作出突出貢獻(xiàn)的核心團(tuán)隊(duì)。
    的頭像 發(fā)表于 09-24 10:51 ?596次閱讀

    NVIDIA助力AI超級計(jì)算機(jī)Isambard-AI投入使用

    英國布里斯托大學(xué)的超級計(jì)算機(jī) Isambard-AI 采用 NVIDIA Grace Hopper 超級芯片,其 AI 算力達(dá)到了 21 ExaFLOPS,不僅是英國最快的系統(tǒng),同時也是全球能效最高的系統(tǒng)之一。
    的頭像 發(fā)表于 07-28 15:07 ?918次閱讀

    自動化計(jì)算機(jī)經(jīng)過加固后有什么好處?

    讓我們討論一下部署堅(jiān)固的自動化計(jì)算機(jī)的一些好處。1.溫度范圍寬自動化計(jì)算機(jī)經(jīng)過工程設(shè)計(jì),配備了支持寬溫度范圍的組件,使自動化計(jì)算解決方案能夠在各種不同的極端環(huán)境中運(yùn)行。自動化計(jì)算機(jī)能夠
    的頭像 發(fā)表于 07-21 16:44 ?420次閱讀
    自動化<b class='flag-5'>計(jì)算機(jī)</b>經(jīng)過加固后有什么好處?

    自動化計(jì)算機(jī)的功能與用途

    工業(yè)自動化是指利用自動化計(jì)算機(jī)來控制工業(yè)環(huán)境中的流程、機(jī)器人和機(jī)械,以制造產(chǎn)品或其部件。工業(yè)自動化的目的是提高生產(chǎn)率、增加靈活性,并提升制造過程的質(zhì)量。工業(yè)自動化在汽車制造中體現(xiàn)得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?531次閱讀
    自動化<b class='flag-5'>計(jì)算機(jī)</b>的功能與用途

    工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些

    工業(yè)計(jì)算機(jī)是一種專為工廠和工業(yè)環(huán)境設(shè)計(jì)的計(jì)算系統(tǒng),具有高可靠性和穩(wěn)定性,能夠應(yīng)對惡劣環(huán)境下的自動化、制造和機(jī)器人操作。其特點(diǎn)包括無風(fēng)扇散熱技術(shù)、無電纜連接和防塵防水設(shè)計(jì),使其在各種工業(yè)自動化場景中
    的頭像 發(fā)表于 07-10 16:36 ?517次閱讀
    工業(yè)<b class='flag-5'>計(jì)算機(jī)</b>與商用<b class='flag-5'>計(jì)算機(jī)</b>的區(qū)別有哪些

    NVIDIA驅(qū)動的現(xiàn)代超級計(jì)算機(jī)如何突破速度極限并推動科學(xué)發(fā)展

    現(xiàn)代高性能計(jì)算不僅使得更快的計(jì)算成為可能,它正驅(qū)動著 AI 系統(tǒng)解鎖更多領(lǐng)域的科學(xué)突破。 高性能計(jì)算經(jīng)歷了多次迭代,每一次都源于對技術(shù)的創(chuàng)造性再利用。例如,早期的超級
    的頭像 發(fā)表于 06-26 19:39 ?980次閱讀
    NVIDIA驅(qū)動的現(xiàn)代<b class='flag-5'>超級</b><b class='flag-5'>計(jì)算機(jī)</b>如何突破速度極限并推動科學(xué)發(fā)展

    Blue Lion超級計(jì)算機(jī)將在NVIDIA Vera Rubin上運(yùn)行

    德國萊布尼茨超算中心(LRZ)將迎來全新超級計(jì)算機(jī) Blue Lion,其算力比該中心現(xiàn)有的 SuperMUC-NG 高性能計(jì)算機(jī)提升了約 30 倍。這臺新的超級
    的頭像 發(fā)表于 06-12 15:39 ?831次閱讀

    NVIDIA技術(shù)賦能歐洲最快超級計(jì)算機(jī)JUPITER

    NVIDIA 宣布,搭載 NVIDIA Grace Hopper 平臺的 JUPITER 超級計(jì)算機(jī)成為歐洲最快超級計(jì)算機(jī),其運(yùn)行 HPC 和 AI 工作負(fù)載的速度是第二名的兩倍以上。
    的頭像 發(fā)表于 06-12 15:33 ?1039次閱讀

    NVIDIA助力全球最大量子研究超級計(jì)算機(jī)

    NVIDIA 宣布將開設(shè)量子-AI 技術(shù)商業(yè)應(yīng)用全球研發(fā)中心(G-QuAT),該中心部署了全球最大量子計(jì)算研究專用超級計(jì)算機(jī) ABCI-Q。
    的頭像 發(fā)表于 05-22 09:44 ?677次閱讀

    計(jì)算機(jī)網(wǎng)絡(luò)入門指南

    計(jì)算機(jī)網(wǎng)絡(luò)是指將地理位置不同且具有獨(dú)立功能的多臺計(jì)算機(jī)及其外部設(shè)備,通過通信線路連接起來,在網(wǎng)絡(luò)操作系統(tǒng)、網(wǎng)絡(luò)管理軟件及網(wǎng)絡(luò)通信協(xié)議的管理和協(xié)調(diào)下,實(shí)現(xiàn)資源共享和信息傳遞的計(jì)算機(jī)系統(tǒng)。
    的頭像 發(fā)表于 04-22 14:29 ?1860次閱讀
    <b class='flag-5'>計(jì)算機(jī)</b>網(wǎng)絡(luò)入門指南

    NVIDIA 宣布推出 DGX Spark 個人 AI 計(jì)算機(jī)

    臺式超級計(jì)算機(jī)由 NVIDIA Grace Blackwell 驅(qū)動,為開發(fā)者、研究人員和數(shù)據(jù)科學(xué)家提供加速 AI 功能;系統(tǒng)由頭部計(jì)算機(jī)制造商(包括華碩、Dell Technologies、HP
    發(fā)表于 03-19 09:59 ?504次閱讀
       NVIDIA 宣布推出 DGX Spark 個人 AI <b class='flag-5'>計(jì)算機(jī)</b>

    NVIDIA推出個人AI超級計(jì)算機(jī)Project DIGITS

    NVIDIA 推出個人 AI 超級計(jì)算機(jī) NVIDIA Project DIGITS,全球的 AI 研究員、數(shù)據(jù)科學(xué)家和學(xué)生都可獲取 NVIDIA Grace Blackwell 平臺的強(qiáng)大功能。
    的頭像 發(fā)表于 01-08 11:03 ?1159次閱讀

    NVIDIA發(fā)布高性價比生成式AI超級計(jì)算機(jī)

    NVIDIA近日推出了一款全新的生成式AI超級計(jì)算機(jī)——Jetson Orin Nano Super開發(fā)者套件,這款超級計(jì)算機(jī)不僅體積小巧,而且性價比極高,為商業(yè)AI開發(fā)者、科技愛好者
    的頭像 發(fā)表于 12-24 10:44 ?1008次閱讀

    云端超級計(jì)算機(jī)使用教程

    云端超級計(jì)算機(jī)是一種基于云計(jì)算的高性能計(jì)算服務(wù),它將大量計(jì)算資源和存儲資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的
    的頭像 發(fā)表于 12-17 10:19 ?948次閱讀