chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用Chiplet解決ASIC在LLM上的成本問題

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2023-07-18 00:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))雖說最近靠著GPT大語言模型的熱度,英偉達(dá)之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢了。未來隨著LLM的繼續(xù)發(fā)展,訓(xùn)練與推理如果要花費(fèi)同樣的硬件成本,那么即便是大廠也難以負(fù)擔(dān)。

所以不少廠商都在追求如何削減TCO(總擁有成本)的辦法,有的從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),有的從自研ASIC出發(fā)的,但收效甚微,到最后還是得花大價(jià)錢購置更多的GPU。而來自華盛頓大學(xué)和悉尼大學(xué)的幾位研究人員,在近期鼓搗出的Chiplet Cloud架構(gòu),卻有可能顛覆這一現(xiàn)狀。

TCO居高不下的因素

對于大部分廠商來說,純粹的TCO并不是他們考慮的首要因素,他們更關(guān)注的是同一性能下如何實(shí)現(xiàn)更低的TCO。當(dāng)下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是內(nèi)存帶寬。

比如在更小的batch size和普通的推理序列長度下,內(nèi)存帶寬就會(huì)限制對模型參數(shù)的讀取,比如把參數(shù)從HBM加載到片上寄存器,因?yàn)槿B接層中的GeMM(通用矩陣乘)計(jì)算強(qiáng)度不高,幾乎每次計(jì)算都需要加載新的參數(shù)。

而Chiplet Cloud為了獲得更好的TCO與性能比,選擇了片上SRAM而不是HBM的外部內(nèi)存方案,將所有模型參數(shù)和中間數(shù)據(jù)(比如K和V向量等)緩存到片上內(nèi)存中去,從而實(shí)現(xiàn)了比傳統(tǒng)的DDR、HBM2e更好的單Token TCO表現(xiàn),同時(shí)也獲得了更大的內(nèi)存帶寬。

Chiplet Cloud,作為基于chiplet的ASIC AI超算架構(gòu),正是專為LLM減少生成單個(gè)Token所需的TCO成本設(shè)計(jì)的。從他們給出的評估數(shù)據(jù)對比來看,與目前主流的GPU和TPU對比,只有Chiplet Cloud對于TCO/Token做了極致的優(yōu)化。比如在GPT-3上,32個(gè)Chiplet Cloud服務(wù)器相較32個(gè)DGX A100服務(wù)器的TCO成本改善了94倍,在PaLM 540B上,30個(gè)Chiplet Cloud服務(wù)器相較64個(gè)TPUv4芯片將TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更靈活的Chiplet方案

為什么選擇Chiplet呢?我們先來看一個(gè)極端的堆片上內(nèi)存的例子,也就是直接選擇晶圓級的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。該芯片基于7nm工藝下的一整片12英寸晶圓打造,集成了2.6萬億個(gè)晶體管,面積達(dá)到46255mm2,片上內(nèi)存更是達(dá)到了40GB。

但這樣的巨芯設(shè)計(jì)意味著高昂的制造成本,所以Chiplet Cloud的研究人員認(rèn)為更大的SRAM應(yīng)該與相對較小的芯片對應(yīng),這樣才能減少制造成本,所以他們選擇了chiplet的設(shè)計(jì)方式。近來流行的Chiplet方案提高了制造良率,也減少了制造成本,允許在不同的系統(tǒng)層級上進(jìn)行設(shè)計(jì)的重復(fù)利用。

以臺積電7nm工藝為例,要想做到0.1/cm2的缺陷密度,一個(gè)750mm2芯片的單價(jià)是一個(gè)150mm2芯片單價(jià)的兩倍,所以Chiplet的小芯片設(shè)計(jì)成本更低。重復(fù)利用的設(shè)計(jì)也可以進(jìn)一步降低成本,加快設(shè)計(jì)周期,為ASIC芯片提供更高的靈活性。

Chiplet Cloud更適合哪些廠商

雖然論文中提到了不少Chiplet Cloud的優(yōu)點(diǎn),但這依然是一個(gè)尚未得到實(shí)際產(chǎn)品驗(yàn)證的架構(gòu),擁有驗(yàn)證實(shí)力的公司往往也只有微軟、谷歌、亞馬遜以及阿里巴巴這類具備芯片設(shè)計(jì)實(shí)力的公司。況且ASIC終究是一種特化的方案,最清楚云平臺計(jì)算負(fù)載需要哪些優(yōu)化,還得是云服務(wù)廠商自己。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    462

    文章

    53503

    瀏覽量

    458628
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1269

    瀏覽量

    124014
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    482

    瀏覽量

    13490
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    340

    瀏覽量

    1256
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【CIE全國RISC-V創(chuàng)新應(yīng)用大賽】+ 一種基于LLM的可通過圖像語音控制的元件庫管理工具

    成本下長時(shí)間的維持運(yùn)營一個(gè)良好的庫存環(huán)境。本項(xiàng)目實(shí)現(xiàn)了多模態(tài)同步,項(xiàng)目中聯(lián)合調(diào)用了CV(OCR),ASR,LLM。 主要功能構(gòu)想 ? 1.實(shí)現(xiàn)用戶將采購單或元器件標(biāo)簽或元器件(下文稱輸入資料)放置或
    發(fā)表于 11-12 19:32

    DeepSeek R1 MTPTensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?3945次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>中的實(shí)現(xiàn)與優(yōu)化

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1281次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    Chiplet技術(shù)消費(fèi)電子領(lǐng)域的應(yīng)用前景

    探討Chiplet技術(shù)如何為智能手機(jī)、平板電腦等消費(fèi)電子產(chǎn)品帶來更優(yōu)的性能和能效比。
    的頭像 發(fā)表于 04-09 15:48 ?775次閱讀
    <b class='flag-5'>Chiplet</b>技術(shù)<b class='flag-5'>在</b>消費(fèi)電子領(lǐng)域的應(yīng)用前景

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。LLM中實(shí)施和改進(jìn)推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1219次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀

    Chiplet:芯片良率與可靠性的新保障!

    Chiplet技術(shù),也被稱為小芯片或芯粒技術(shù),是一種創(chuàng)新的芯片設(shè)計(jì)理念。它將傳統(tǒng)的大型系統(tǒng)級芯片(SoC)分解成多個(gè)小型、功能化的芯片模塊(Chiplet),然后通過先進(jìn)的封裝技術(shù)將這些模塊連接在一起,形成一個(gè)完整的系統(tǒng)。這一技術(shù)的出現(xiàn),源于對摩爾定律放緩的應(yīng)對以及對芯片
    的頭像 發(fā)表于 03-12 12:47 ?1978次閱讀
    <b class='flag-5'>Chiplet</b>:芯片良率與可靠性的新保障!

    無法OVMS運(yùn)行來自Meta的大型語言模型 (LLM),為什么?

    無法 OVMS 運(yùn)行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    2.5D集成電路的Chiplet布局設(shè)計(jì)

    隨著摩爾定律接近物理極限,半導(dǎo)體產(chǎn)業(yè)正在向2.5D和3D集成電路等新型技術(shù)方向發(fā)展。2.5D集成技術(shù)中,多個(gè)Chiplet通過微凸點(diǎn)、硅通孔和重布線層放置中介層。這種架構(gòu)
    的頭像 發(fā)表于 02-12 16:00 ?2018次閱讀
    2.5D集成電路的<b class='flag-5'>Chiplet</b>布局設(shè)計(jì)

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語言模型(LLM性能、成本和應(yīng)用前景的快速發(fā)展,越來越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)
    的頭像 發(fā)表于 01-09 12:12 ?1544次閱讀
    小白學(xué)大模型:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    Neuchips展示大模型推理ASIC芯片

    領(lǐng)先的AI專用集成電路(ASIC)解決方案提供商N(yùn)euchipsCES 2024展示了其革命性的Raptor Gen AI加速芯片(以前稱為N3000)和Evo PCIe加速卡LLM
    的頭像 發(fā)表于 01-06 17:30 ?1274次閱讀

    Chiplet技術(shù)革命:解鎖半導(dǎo)體行業(yè)的未來之門

    隨著半導(dǎo)體技術(shù)的飛速發(fā)展,芯片設(shè)計(jì)和制造面臨著越來越大的挑戰(zhàn)。傳統(tǒng)的單芯片系統(tǒng)(SoC)設(shè)計(jì)模式追求高度集成化的同時(shí),也面臨著設(shè)計(jì)復(fù)雜性、制造成本、良率等方面的瓶頸。而Chiplet技術(shù)的出現(xiàn),為這些問題提供了新的解決方案。本
    的頭像 發(fā)表于 12-26 13:58 ?1773次閱讀
    <b class='flag-5'>Chiplet</b>技術(shù)革命:解鎖半導(dǎo)體行業(yè)的未來之門

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?1220次閱讀
    <b class='flag-5'>在</b>NVIDIA TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的一些變化

    Chiplet在先進(jìn)封裝中的重要性

    Chiplet標(biāo)志著半導(dǎo)體創(chuàng)新的新時(shí)代,封裝是這個(gè)設(shè)計(jì)事業(yè)的內(nèi)在組成部分。然而,雖然Chiplet和封裝技術(shù)攜手合作,重新定義了芯片集成的可能性,但這種技術(shù)合作并不是那么簡單和直接。 芯片封裝中
    的頭像 發(fā)表于 12-10 11:04 ?1112次閱讀
    <b class='flag-5'>Chiplet</b>在先進(jìn)封裝中的重要性

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會(huì)選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速基于 Arm 架構(gòu)的處理器運(yùn)行 LLM 的性能。Arm 通過將 Kle
    的頭像 發(fā)表于 12-03 17:05 ?1921次閱讀
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理性能

    FPGA與ASIC的區(qū)別 FPGA性能優(yōu)化技巧

    FPGA與ASIC的區(qū)別 FPGA(現(xiàn)場可編程門陣列)和ASIC(專用集成電路)是兩種不同的集成電路技術(shù),它們多個(gè)方面存在顯著的區(qū)別: FPGA ASIC 基本定義 由通用的邏輯單元
    的頭像 發(fā)表于 12-02 09:51 ?1658次閱讀