chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

?Groq LPU 如何讓萬(wàn)億參數(shù)模型「飛」起來(lái)?揭秘 Kimi K2 40 倍提速背后的黑科技

觀芯者 ? 來(lái)源:觀芯者 ? 作者:觀芯者 ? 2025-08-07 10:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Groq LPU 如何讓萬(wàn)億參數(shù)模型「飛」起來(lái)?揭秘 Kimi K2 40 倍提速背后的黑科技?

最近,Moonshot AI 的千億參數(shù)大模型 ?Kimi K2? 在 ?GroqCloud? 上開(kāi)放預(yù)覽,引發(fā)了開(kāi)發(fā)者社區(qū)的瘋狂討論——?為什么 Groq 能跑得這么快??

傳統(tǒng) AI 推理硬件(如 GPU)往往面臨一個(gè)兩難選擇:
? ?快?(但犧牲精度)
? ?準(zhǔn)?(但延遲高到無(wú)法接受)

而 Groq 的 ?LPU(Language Processing Unit)? 卻打破了這一魔咒,?既快又準(zhǔn)?。

1. 精度與速度的「魚(yú)與熊掌」:如何兼得??
傳統(tǒng)硬件的「量化陷阱」?

大多數(shù) AI 加速器(如 GPU)為了提升推理速度,會(huì)采用 ?INT8/FP8 等低精度計(jì)算?,但這會(huì)導(dǎo)致?累積誤差?,模型質(zhì)量大幅下降。

Groq 的「TruePoint Numerics」黑科技?

Groq 的解決方案是 ?動(dòng)態(tài)精度調(diào)整?:

權(quán)重/激活函數(shù)?:用低精度存儲(chǔ)(節(jié)省內(nèi)存)
矩陣運(yùn)算?:全精度計(jì)算(保證結(jié)果無(wú)損)
輸出階段?:根據(jù)下游需求?智能選擇量化策略?

這樣一來(lái),?速度比 BF16 快 2-4 倍,但精度無(wú)損?(MMLU/HumanEval 等基準(zhǔn)測(cè)試驗(yàn)證)。

2. 內(nèi)存架構(gòu)革命:SRAM 替代 HBM/DRAM?

傳統(tǒng) AI 芯片(如 GPU)依賴 ?HBM/DRAM? 作為主存,?每次權(quán)重訪問(wèn)延遲高達(dá)數(shù)百納秒?,嚴(yán)重影響推理速度。

而 Groq ?直接集成數(shù)百兆片上 SRAM?,讓權(quán)重加載?零延遲?,計(jì)算單元?全速運(yùn)轉(zhuǎn)?。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    36980

    瀏覽量

    289814
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3348

    瀏覽量

    4696
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    重磅!智慧水利背后的NTP時(shí)間同步服務(wù)器揭秘!

    重磅!智慧水利背后的NTP時(shí)間同步服務(wù)器揭秘!
    的頭像 發(fā)表于 09-10 10:41 ?404次閱讀
    重磅!智慧水利<b class='flag-5'>背后</b>的NTP時(shí)間同步服務(wù)器<b class='flag-5'>揭秘</b>!

    Dynamo 0.4在NVIDIA Blackwell上通過(guò)PD分離將性能提升4

    近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多個(gè)新的前沿開(kāi)源模型相繼問(wèn)世,標(biāo)志著大語(yǔ)言模型 (LLM) 創(chuàng)新浪潮的加速。近日發(fā)布的 Dynamo 0.4 提供
    的頭像 發(fā)表于 08-22 15:59 ?708次閱讀
    Dynamo 0.4在NVIDIA Blackwell上通過(guò)PD分離將性能提升4<b class='flag-5'>倍</b>

    浪潮信息發(fā)布&quot;元腦SD200&quot;超節(jié)點(diǎn),面向萬(wàn)億參數(shù)模型創(chuàng)新設(shè)計(jì)

    擴(kuò)展支持64路本土GPU芯片。元腦SD200可實(shí)現(xiàn)單機(jī)內(nèi)運(yùn)行超萬(wàn)億參數(shù)模型,并支持多個(gè)領(lǐng)先大模型機(jī)內(nèi)同時(shí)運(yùn)行及多智能體實(shí)時(shí)協(xié)作與按需調(diào)用,目前已率先實(shí)現(xiàn)商用。在實(shí)際評(píng)測(cè)中,元腦SD2
    的頭像 發(fā)表于 08-08 22:17 ?414次閱讀
    浪潮信息發(fā)布&quot;元腦SD200&quot;超節(jié)點(diǎn),面向<b class='flag-5'>萬(wàn)億</b><b class='flag-5'>參數(shù)</b>大<b class='flag-5'>模型</b>創(chuàng)新設(shè)計(jì)

    請(qǐng)問(wèn)InDTU IHDMP協(xié)議使用的CRC校驗(yàn)使用的什么參數(shù)模型

    InDTU IHDMP協(xié)議使用的CRC校驗(yàn)使用的什么參數(shù)模型?
    發(fā)表于 08-06 07:57

    奇異摩爾邀您相約2025 AI網(wǎng)絡(luò)技術(shù)應(yīng)用創(chuàng)新大會(huì)

    AI大模型的軍備賽每天都在上演,近期Kimi發(fā)布的K2模型再次引發(fā)全球關(guān)注。相關(guān)專業(yè)機(jī)構(gòu)評(píng)價(jià)K2是至今最好的開(kāi)源權(quán)重
    的頭像 發(fā)表于 08-01 17:27 ?959次閱讀

    硅基流動(dòng)攜手沐曦首發(fā)基于曦云的Kimi K2推理服務(wù)

    今天,硅基流動(dòng)聯(lián)合沐曦集成電路(上海)股份有限公司(簡(jiǎn)稱“沐曦”),全球首發(fā)基于沐曦曦云 C550 集群的月之暗面 Kimi-K2模型商業(yè)化服務(wù)部署。該服務(wù)運(yùn)行于匯天網(wǎng)絡(luò)科技有限公司(簡(jiǎn)稱“匯
    的頭像 發(fā)表于 07-23 17:33 ?1355次閱讀

    萬(wàn)億參數(shù)!元腦企智一體機(jī)率先支持Kimi K2模型

    北京2025年7月21日 /美通社/ --?浪潮信息宣布元腦企智一體機(jī)已率先完成對(duì)Kimi K2 萬(wàn)億參數(shù)模型的適配支持,并實(shí)現(xiàn)單用戶70
    的頭像 發(fā)表于 07-22 09:27 ?325次閱讀
    <b class='flag-5'>萬(wàn)億</b><b class='flag-5'>參數(shù)</b>!元腦企智一體機(jī)率先支持<b class='flag-5'>Kimi</b> <b class='flag-5'>K2</b>大<b class='flag-5'>模型</b>

    K1,K2,K3是圓形旋轉(zhuǎn)開(kāi)關(guān)問(wèn)題

    如圖所示,K1,K2,K3是圓形旋轉(zhuǎn)開(kāi)關(guān)(控制M的轉(zhuǎn)速),一次只有一個(gè)接通,當(dāng)任意一個(gè)接通時(shí),K4閉合則M1得電工作,需三個(gè)開(kāi)關(guān)二極管但不懂選型,請(qǐng)熱心網(wǎng)友們支招,多謝!
    發(fā)表于 05-15 21:06

    OpenAI:DeepSeek與Kimi揭秘o1,長(zhǎng)思維鏈提升模型表現(xiàn)

    近日,據(jù)月之暗面報(bào)道,OpenAI發(fā)布了一項(xiàng)令人矚目的研究報(bào)告。報(bào)告指出,DeepSeek和Kimi兩個(gè)研究團(tuán)隊(duì)通過(guò)獨(dú)立研究,成功利用思維鏈學(xué)習(xí)方法,在數(shù)學(xué)解題與編程挑戰(zhàn)中顯著提升了模型的綜合表現(xiàn)
    的頭像 發(fā)表于 02-18 09:35 ?627次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】對(duì)大模型更深入的認(rèn)知

    閱讀《大模型啟示錄》這本書(shū),我得說(shuō),它徹底顛覆了我對(duì)大模型的理解。作為一個(gè)經(jīng)常用KIMI和豆包這類AI工具來(lái)完成作業(yè)、整理資料的大學(xué)生,我原以為大模型就是這些工具
    發(fā)表于 12-20 15:46

    Kimi發(fā)布視覺(jué)思考模型k1,展現(xiàn)卓越基礎(chǔ)科學(xué)能力

    近日,Kimi公司正式發(fā)布了其最新的視覺(jué)思考模型——k1。這款模型基于先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)構(gòu)建,原生支持端到端的圖像理解和思維鏈技術(shù),為用戶提供了全新的視覺(jué)思考體驗(yàn)。
    的頭像 發(fā)表于 12-17 09:59 ?941次閱讀

    深度學(xué)習(xí)工作負(fù)載中GPU與LPU的主要差異

    當(dāng)前,生成式AI模型參數(shù)規(guī)模已躍升至數(shù)十億乃至數(shù)萬(wàn)億之巨,遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)CPU的處理范疇。在此背景下,GPU憑借其出色的并行處理能力,已成為人工智能加速領(lǐng)域的中流砥柱。然而,就在GPU備受關(guān)注之時(shí)
    的頭像 發(fā)表于 12-09 11:01 ?3714次閱讀
    深度學(xué)習(xí)工作負(fù)載中GPU與<b class='flag-5'>LPU</b>的主要差異

    Kimi發(fā)布新一代推理模型k0-math

    近日,Kimi國(guó)產(chǎn)大模型正式推出了其首款強(qiáng)化推理能力的模型——k0-math。該模型在多項(xiàng)數(shù)學(xué)基準(zhǔn)能力測(cè)試中展現(xiàn)出了出色的表現(xiàn),成功對(duì)標(biāo)了O
    的頭像 發(fā)表于 11-19 17:18 ?1368次閱讀

    Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

    近日,Kimi正式推出了其新一代數(shù)學(xué)推理模型k0-math。據(jù)基準(zhǔn)測(cè)試顯示,該模型的數(shù)學(xué)能力可與全球領(lǐng)先的OpenAI o1系列中的o1-mini和o1-preview
    的頭像 發(fā)表于 11-18 11:38 ?1265次閱讀

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專門(mén)做推理的ASIC,像GroqLPU,專門(mén)針對(duì)大語(yǔ)言模型的推理做了優(yōu)化,因此相比GPU這種通過(guò)計(jì)算平臺(tái),功耗更低、
    的頭像 發(fā)表于 10-29 14:12 ?2441次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b>推理加速中的應(yīng)用