電子發(fā)燒友網(wǎng)綜合報(bào)道 近期,加拿大多倫多初創(chuàng)公司Taalas正式發(fā)布首款AI推理芯片HC1,將大模型權(quán)重直接蝕刻到芯片的金屬互連層中,實(shí)現(xiàn)推理速度達(dá)17000 tokens/秒。
Taalas 于 2023 年成立,由 Tenstorrent 前聯(lián)合創(chuàng)始人、前 AMD 和英偉達(dá)架構(gòu)師柳比薩?巴伊奇(Ljubisa Bajic)攜手工程師 Drago Ignjatovic、Lejla Bajic 共同創(chuàng)立。目前,Taalas 已通過三輪融資籌集超 2 億美元。
巴伊奇曾主導(dǎo) Tenstorrent 可擴(kuò)展 AI 加速器研發(fā),2023 年 3 月離開后創(chuàng)立 Taalas,其核心使命是“將人工智能商品化”。他表示:“人工智能像電力,是不可或缺的必需品,必須向所有人提供。而實(shí)現(xiàn)這一目標(biāo)需要對(duì)計(jì)算能力和效率進(jìn)行 1000 倍提升,靠當(dāng)前漸進(jìn)式手段無法達(dá)成?!?br />
這種“非漸進(jìn)式”思路,使 Taalas 一開始就走上與英偉達(dá)對(duì)立的道路。2023 年 8 月至 2024 年 3 月,Taalas 完成兩輪融資,首輪 5000 萬美元由皮埃爾?拉蒙德和 Quiet Capital 牽頭,后續(xù)融資讓公司總估值達(dá) 2.19 億美元。投資人皮埃爾?拉蒙德評(píng)價(jià)團(tuán)隊(duì)經(jīng)驗(yàn)業(yè)內(nèi)頂級(jí),認(rèn)為其方向能實(shí)現(xiàn) 1000 倍成本改善,推動(dòng) AI 成為基礎(chǔ)設(shè)施級(jí)能力。
?
Taalas宣稱的1000倍效率提升,并非故弄玄虛,而是源于對(duì)傳統(tǒng)AI芯片架構(gòu)的徹底革新。不同于通用GPU“內(nèi)存加載模型、軟件調(diào)度運(yùn)行”的模式,Taalas采用“Model Based”架構(gòu),將特定大模型的訓(xùn)練結(jié)果直接固化在晶體管層面,構(gòu)建出物理意義上的“硬核模型”。
其HC1芯片運(yùn)用臺(tái)積電6nm工藝與Mask ROM技術(shù),把Llama 3.1 8B模型的權(quán)重硬編碼在硅片上,從物理層面消除計(jì)算與存儲(chǔ)間的數(shù)據(jù)搬運(yùn)。據(jù)Taalas公布的數(shù)據(jù),HC1的token處理速度約為英偉達(dá)B200的48倍,硬件成本僅為傳統(tǒng)GPU方案的1/20,功耗降至1/10,且無需液冷和HBM顯存,僅靠空氣冷卻就能運(yùn)行。
不過,極致性能的代價(jià)是通用性的完全喪失。HC1只能運(yùn)行特定的Llama 3.1 8B模型,模型更新芯片就需重新流片。Taalas雖宣稱能將新模型轉(zhuǎn)化為定制芯片的周期壓縮至兩個(gè)月,但在AI模型快速迭代的當(dāng)下,這仍是該方案面臨的核心挑戰(zhàn)?!耙荒P鸵恍酒蹦J揭罂蛻魧?duì)特定模型長期承諾,一旦行業(yè)轉(zhuǎn)向全新架構(gòu),現(xiàn)有專用硬件將迅速貶值。Taalas的應(yīng)對(duì)之策是押注Llama等開源架構(gòu)的長期主導(dǎo)地位,同時(shí)借助LoRA微調(diào)技術(shù)優(yōu)化芯片固化模型的適應(yīng)性。
生態(tài)系統(tǒng)短板也是Taalas的一大難題。英偉達(dá)的優(yōu)勢(shì)在于CUDA軟件生態(tài)和開發(fā)者的深度依賴,而Taalas的專用芯片缺乏配套開發(fā)工具鏈,開發(fā)者需重新適配,這提高了客戶的遷移成本。如何快速構(gòu)建自身生態(tài),成為Taalas能否規(guī)?;涞氐年P(guān)鍵。
實(shí)際測(cè)試中,HC1雖能“2000字回復(fù)秒出”,但回復(fù)質(zhì)量存在明顯缺陷,簡單運(yùn)算出錯(cuò),復(fù)雜問題“胡編亂造”。根源在于初代產(chǎn)品采用的定點(diǎn)數(shù)格式無法滿足復(fù)雜推理的精度需求。為應(yīng)對(duì)此問題,Taalas已規(guī)劃第二代產(chǎn)品HC2,將改用標(biāo)準(zhǔn)4 - bit浮點(diǎn)格式改善精度,同時(shí)將模型支持規(guī)模提升至200億參數(shù),計(jì)劃2026年底前覆蓋GPT - 5級(jí)別系統(tǒng)。
中國科學(xué)院計(jì)算技術(shù)研究所副研究員趙永威高度評(píng)價(jià)這一技術(shù)路線,認(rèn)為雖目前Taalas尚無應(yīng)用價(jià)值,但會(huì)成為有歷史意義的芯片,這種硬連線模式是未來芯片發(fā)展趨勢(shì),Taalas扛起質(zhì)疑,將讓后來者推廣相關(guān)概念更輕松。
隨著AI發(fā)展重心從訓(xùn)練轉(zhuǎn)向推理,定制化AI芯片正"脫穎而出"。在AI推理芯片賽道上,Taalas并非唯一的探索者。Etched將Transformer架構(gòu)固化為ASIC電路,Groq以純SRAM架構(gòu)打造LPU,Cerebras則將整塊晶圓作為單顆芯片,各家都在通過放棄某一傳統(tǒng)設(shè)計(jì)要素,換取推理環(huán)節(jié)的性能突破。
Taalas 于 2023 年成立,由 Tenstorrent 前聯(lián)合創(chuàng)始人、前 AMD 和英偉達(dá)架構(gòu)師柳比薩?巴伊奇(Ljubisa Bajic)攜手工程師 Drago Ignjatovic、Lejla Bajic 共同創(chuàng)立。目前,Taalas 已通過三輪融資籌集超 2 億美元。
巴伊奇曾主導(dǎo) Tenstorrent 可擴(kuò)展 AI 加速器研發(fā),2023 年 3 月離開后創(chuàng)立 Taalas,其核心使命是“將人工智能商品化”。他表示:“人工智能像電力,是不可或缺的必需品,必須向所有人提供。而實(shí)現(xiàn)這一目標(biāo)需要對(duì)計(jì)算能力和效率進(jìn)行 1000 倍提升,靠當(dāng)前漸進(jìn)式手段無法達(dá)成?!?br />
這種“非漸進(jìn)式”思路,使 Taalas 一開始就走上與英偉達(dá)對(duì)立的道路。2023 年 8 月至 2024 年 3 月,Taalas 完成兩輪融資,首輪 5000 萬美元由皮埃爾?拉蒙德和 Quiet Capital 牽頭,后續(xù)融資讓公司總估值達(dá) 2.19 億美元。投資人皮埃爾?拉蒙德評(píng)價(jià)團(tuán)隊(duì)經(jīng)驗(yàn)業(yè)內(nèi)頂級(jí),認(rèn)為其方向能實(shí)現(xiàn) 1000 倍成本改善,推動(dòng) AI 成為基礎(chǔ)設(shè)施級(jí)能力。
?Taalas宣稱的1000倍效率提升,并非故弄玄虛,而是源于對(duì)傳統(tǒng)AI芯片架構(gòu)的徹底革新。不同于通用GPU“內(nèi)存加載模型、軟件調(diào)度運(yùn)行”的模式,Taalas采用“Model Based”架構(gòu),將特定大模型的訓(xùn)練結(jié)果直接固化在晶體管層面,構(gòu)建出物理意義上的“硬核模型”。
其HC1芯片運(yùn)用臺(tái)積電6nm工藝與Mask ROM技術(shù),把Llama 3.1 8B模型的權(quán)重硬編碼在硅片上,從物理層面消除計(jì)算與存儲(chǔ)間的數(shù)據(jù)搬運(yùn)。據(jù)Taalas公布的數(shù)據(jù),HC1的token處理速度約為英偉達(dá)B200的48倍,硬件成本僅為傳統(tǒng)GPU方案的1/20,功耗降至1/10,且無需液冷和HBM顯存,僅靠空氣冷卻就能運(yùn)行。
不過,極致性能的代價(jià)是通用性的完全喪失。HC1只能運(yùn)行特定的Llama 3.1 8B模型,模型更新芯片就需重新流片。Taalas雖宣稱能將新模型轉(zhuǎn)化為定制芯片的周期壓縮至兩個(gè)月,但在AI模型快速迭代的當(dāng)下,這仍是該方案面臨的核心挑戰(zhàn)?!耙荒P鸵恍酒蹦J揭罂蛻魧?duì)特定模型長期承諾,一旦行業(yè)轉(zhuǎn)向全新架構(gòu),現(xiàn)有專用硬件將迅速貶值。Taalas的應(yīng)對(duì)之策是押注Llama等開源架構(gòu)的長期主導(dǎo)地位,同時(shí)借助LoRA微調(diào)技術(shù)優(yōu)化芯片固化模型的適應(yīng)性。
生態(tài)系統(tǒng)短板也是Taalas的一大難題。英偉達(dá)的優(yōu)勢(shì)在于CUDA軟件生態(tài)和開發(fā)者的深度依賴,而Taalas的專用芯片缺乏配套開發(fā)工具鏈,開發(fā)者需重新適配,這提高了客戶的遷移成本。如何快速構(gòu)建自身生態(tài),成為Taalas能否規(guī)?;涞氐年P(guān)鍵。
實(shí)際測(cè)試中,HC1雖能“2000字回復(fù)秒出”,但回復(fù)質(zhì)量存在明顯缺陷,簡單運(yùn)算出錯(cuò),復(fù)雜問題“胡編亂造”。根源在于初代產(chǎn)品采用的定點(diǎn)數(shù)格式無法滿足復(fù)雜推理的精度需求。為應(yīng)對(duì)此問題,Taalas已規(guī)劃第二代產(chǎn)品HC2,將改用標(biāo)準(zhǔn)4 - bit浮點(diǎn)格式改善精度,同時(shí)將模型支持規(guī)模提升至200億參數(shù),計(jì)劃2026年底前覆蓋GPT - 5級(jí)別系統(tǒng)。
中國科學(xué)院計(jì)算技術(shù)研究所副研究員趙永威高度評(píng)價(jià)這一技術(shù)路線,認(rèn)為雖目前Taalas尚無應(yīng)用價(jià)值,但會(huì)成為有歷史意義的芯片,這種硬連線模式是未來芯片發(fā)展趨勢(shì),Taalas扛起質(zhì)疑,將讓后來者推廣相關(guān)概念更輕松。
隨著AI發(fā)展重心從訓(xùn)練轉(zhuǎn)向推理,定制化AI芯片正"脫穎而出"。在AI推理芯片賽道上,Taalas并非唯一的探索者。Etched將Transformer架構(gòu)固化為ASIC電路,Groq以純SRAM架構(gòu)打造LPU,Cerebras則將整塊晶圓作為單顆芯片,各家都在通過放棄某一傳統(tǒng)設(shè)計(jì)要素,換取推理環(huán)節(jié)的性能突破。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
AI芯片
+關(guān)注
關(guān)注
17文章
2164瀏覽量
36869
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
熱點(diǎn)推薦
大模型 ai coding 比較
框架:llm-coding-bench v1.0
統(tǒng)一代碼執(zhí)行超時(shí):10秒
統(tǒng)一隨機(jī)種子:42
統(tǒng)一裁判模型:DeepSeek-Chat(第三方交叉驗(yàn)證)
? 綜合評(píng)分公式:
scss
體驗(yàn)AI代碼
發(fā)表于 02-19 13:43
力爭百萬 Tokens 推理成本降低百倍:云天勵(lì)飛發(fā)布未來三年大算力芯片戰(zhàn)略,首曝 DeepVerse 路線圖
2月3日,云天勵(lì)飛正式舉辦“大算力芯片戰(zhàn)略前瞻會(huì)”,首次對(duì)外公布未來三年的大算力 AI 推理芯片戰(zhàn)略布局。面對(duì)人工智能從“基礎(chǔ)模型構(gòu)建”邁向
AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴
電子發(fā)燒友網(wǎng)綜合報(bào)道,在人工智能迅猛發(fā)展的當(dāng)下,AI推理芯片需求正呈爆發(fā)式增長。 ? AI推理,即支撐如ChatGPT這類
使用NORDIC AI的好處
×
在 CPU 上運(yùn)行時(shí)可快 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁]
Axon NPU 對(duì)同一 TensorFlow Lite 模型:* 推理
發(fā)表于 01-31 23:16
Banana Pi 開源社區(qū)聯(lián)合進(jìn)迭時(shí)空發(fā)布最新RISC-V芯片K3開發(fā)套件:BPI-SM10(K3-CoM260)
AI算力。實(shí)際測(cè)試推理速度超過10Tokens/秒@30B。支持多路并發(fā)AI應(yīng)用流水線與高性能
發(fā)表于 01-30 18:38
進(jìn)迭時(shí)空發(fā)布新一代RISC-V AI CPU芯片,滿足端側(cè)大模型算力需求
電子發(fā)燒友網(wǎng)報(bào)道 1月29日,進(jìn)迭時(shí)空線上發(fā)布新一代AI CPU芯片——K3。作為全球首顆符合RVA23規(guī)范的量產(chǎn)RISC-V芯片,K3實(shí)現(xiàn)多項(xiàng)技術(shù)創(chuàng)新:首次全球量產(chǎn)1024位寬高并行
AI端側(cè)部署開發(fā)(SC171開發(fā)套件V3)2026版
Stack模型推理指南
11分55秒
https://t.elecfans.com/v/28526.html
*附件:文檔:Fibo AI Stack
發(fā)表于 01-15 10:31
Achronix亮相2025全球AI芯片峰會(huì)
在近日舉行的2025全球AI芯片峰會(huì)上,Achronix Speedster7t FPGA的大模型推理平臺(tái)展示獲得眾多業(yè)界人士的積極反響。
什么是AI模型的推理能力
NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片
、分布式群體智能
1)物聯(lián)網(wǎng)AGI系統(tǒng)
優(yōu)勢(shì):
組成部分:
2)分布式AI訓(xùn)練
7、發(fā)展重點(diǎn):基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練與推理
8、超越大模型:神經(jīng)符號(hào)計(jì)算
三、AGI芯片的實(shí)現(xiàn)
1、技術(shù)需
發(fā)表于 09-18 15:31
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用
流體芯片
⑤AI計(jì)算平臺(tái)
⑥基于AI的自主決策系統(tǒng)
⑦基于AI的自主學(xué)習(xí)系統(tǒng)
2、面臨的挑戰(zhàn)
①需要造就一個(gè)跨學(xué)科、全面性覆蓋的知識(shí)庫和科學(xué)基礎(chǔ)模型
發(fā)表于 09-17 11:45
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
連接定義了神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。
不同神經(jīng)網(wǎng)絡(luò)的DNN:
一、基于大模型的AI芯片
1、Transformer 模型與引擎
1.1 Transformer
發(fā)表于 09-12 17:30
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)
與邊緣AI的不同特點(diǎn):
邊緣推理的優(yōu)勢(shì):可以提供數(shù)據(jù)處理速度和響應(yīng)速度,滿足實(shí)時(shí)需求;可以縮短網(wǎng)絡(luò)延遲,降低成本;可以提高安全性和隱私性,保護(hù)用戶數(shù)據(jù)。
前面說的都是好處,那面臨的
發(fā)表于 09-12 16:07
AI推理芯片賽道猛將,200億市值AI芯片企業(yè)赴港IPO
7月30日,AI芯片龍頭企業(yè)云天勵(lì)飛正式向港交所遞交招股說明書。 ? 云天勵(lì)飛成立于2014年8月,于2023年4月在上交所科創(chuàng)板掛牌,截至8月1日的市值為216億元。專注于AI推理
信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代
DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的
發(fā)表于 07-16 15:29
把大模型“刻進(jìn)”芯片,AI芯片推理速度17000 tokens/秒
評(píng)論