chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI推理芯片,比你想象難!

Dbwd_Imgtec ? 來(lái)源:未知 ? 2023-05-18 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自semianalysis

AI 行業(yè)討論最多的部分是追求只能由大型科技公司開(kāi)發(fā)的更大的語(yǔ)言模型。雖然訓(xùn)練這些模型的成本很高,但在某些方面部署它們更加困難。事實(shí)上,OpenAI 的 GPT-4 非常龐大且計(jì)算密集,僅運(yùn)行推理就需要多臺(tái)價(jià)值約 250,000 美元的服務(wù)器,每臺(tái)服務(wù)器配備 8 個(gè) GPU、大量?jī)?nèi)存和大量高速網(wǎng)絡(luò)。谷歌對(duì)其全尺寸PaLM 模型采用了類似的方法,該模型需要 64 個(gè) TPU 和 16 個(gè) CPU 才能運(yùn)行。Meta 2021 年最大推薦模型需要 128 個(gè) GPU 來(lái)服務(wù)用戶。越來(lái)越強(qiáng)大的模型世界將繼續(xù)激增,尤其是在以 AI 為中心的云和 ML Ops 公司(如 MosaicML 協(xié)助企業(yè)開(kāi)發(fā)和部署 LLM)的情況。

但更大并不總是更好。人工智能行業(yè)有一個(gè)完全不同的領(lǐng)域,它試圖拒絕大型計(jì)算機(jī)。圍繞可以在客戶端設(shè)備上運(yùn)行的小型模型展開(kāi)的開(kāi)源運(yùn)動(dòng)可能是業(yè)界討論最多的第二部分。雖然 GPT-4 或完整 PaLM 規(guī)模的模型永遠(yuǎn)不可能在筆記本電腦智能手機(jī)上運(yùn)行,但由于內(nèi)存墻,即使硬件進(jìn)步了 5 年以上,也有一個(gè)面向設(shè)備端的模型開(kāi)發(fā)的系統(tǒng)推理。在本文中,我們將在筆記本電腦和手機(jī)等客戶端設(shè)備上討論這些較小的模型。本次討論將重點(diǎn)關(guān)注推理性能的門(mén)控因素、模型大小的基本限制,以及未來(lái)的硬件開(kāi)發(fā)將如何在此建立開(kāi)發(fā)邊界。 為什么需要本地模型

設(shè)備上人工智能的潛在用例廣泛多樣。人們希望擺脫擁有所有數(shù)據(jù)的科技巨頭。Google、Meta、百度和字節(jié)跳動(dòng),AI 5 大領(lǐng)導(dǎo)者中的 4 家,其目前的全部盈利能力基本上都基于使用用戶數(shù)據(jù)來(lái)定向廣告。只要看看整個(gè) IDFA 混戰(zhàn),就可以看出缺乏隱私對(duì)這些公司來(lái)說(shuō)有多重要。設(shè)備上的 AI 可以幫助解決這個(gè)問(wèn)題,同時(shí)還可以通過(guò)針對(duì)每個(gè)用戶的獨(dú)特對(duì)齊和調(diào)整來(lái)增強(qiáng)功能。

為較小的語(yǔ)言模型提供上 一代大型模型的性能th是 AI 在過(guò)去幾個(gè)月中最重要的發(fā)展之一。

一個(gè)簡(jiǎn)單、容易解決的例子是設(shè)備上的語(yǔ)音到文本。這是相當(dāng)糟糕的,即使是目前一流的谷歌 Pixel 智能手機(jī)也是如此。轉(zhuǎn)到基于云的模型的延遲對(duì)于自然使用來(lái)說(shuō)也非常刺耳,并且在很大程度上取決于良好的互聯(lián)網(wǎng)連接。隨著OpenAI Whisper等模型在移動(dòng)設(shè)備上運(yùn)行,設(shè)備上語(yǔ)音轉(zhuǎn)文本的世界正在迅速變化。(谷歌 IO 還表明這些功能可能很快就會(huì)得到大規(guī)模升級(jí)。)

一個(gè)更大的例子是 Siri、Alexa 等,作為個(gè)人助理非常糟糕。在自然語(yǔ)音合成 AI 的幫助下,大型語(yǔ)言模型可以解鎖更多可以為您的生活提供幫助的人類和智能 AI 助手。從創(chuàng)建日歷事件到總結(jié)對(duì)話再到搜索,每臺(tái)設(shè)備上都會(huì)有一個(gè)基于多模態(tài)語(yǔ)言模型的個(gè)人助理。這些模型已經(jīng)比 Siri、Google Assistant、Alexa、Bixby 等功能強(qiáng)大得多,但我們?nèi)蕴幱谠缙陔A段。

在某些方面,生成式人工智能正迅速成為一種雙峰分布,具有大量的基礎(chǔ)模型和可以在客戶端設(shè)備上運(yùn)行的小得多的模型,獲得了大部分投資,并且兩者之間存在巨大鴻溝。 設(shè)備上推理的基本限制
雖然設(shè)備上人工智能的前景無(wú)疑是誘人的,但有一些基本的限制使得本地推理比大多數(shù)人預(yù)期的更具挑戰(zhàn)性。絕大多數(shù)客戶端設(shè)備沒(méi)有也永遠(yuǎn)不會(huì)有專用 GPU,因此所有這些挑戰(zhàn)都必須在 SoC 上解決。主要問(wèn)題之一是 GPT 樣式模型所需的大量?jī)?nèi)存占用和計(jì)算能力。計(jì)算要求雖然很高,但在未來(lái) 5 年內(nèi)將通過(guò)更專業(yè)的架構(gòu)、摩爾定律擴(kuò)展到 3nm/2nm 以及芯片的 3D 堆疊來(lái)迅速解決。

由于英特爾、AMD、蘋(píng)果、谷歌、三星高通聯(lián)發(fā)科等公司正在進(jìn)行的架構(gòu)創(chuàng)新,最高端的客戶端移動(dòng)設(shè)備將配備約 500 億個(gè)晶體管和超過(guò)足夠的 TFLOP/s 用于設(shè)備上的人工智能,需要明確的是,他們現(xiàn)有的客戶端 AI 加速器中沒(méi)有一個(gè)非常適合 Transformer,但這將在幾年內(nèi)改變。芯片數(shù)字邏輯方面的這些進(jìn)步將解決計(jì)算問(wèn)題,但它們無(wú)法解決內(nèi)存墻和數(shù)據(jù)重用的真正根本問(wèn)題。

GPT 風(fēng)格的模型被訓(xùn)練為在給定先前標(biāo)記的情況下預(yù)測(cè)下一個(gè)標(biāo)記(~= 單詞)。要用它們生成文本,你需要給它提示,然后讓它預(yù)測(cè)下一個(gè)標(biāo)記,然后將生成的標(biāo)記附加到提示中,然后讓它預(yù)測(cè)下一個(gè)標(biāo)記,然后繼續(xù)。為此,您必須在每次預(yù)測(cè)下一個(gè)標(biāo)記時(shí)將所有參數(shù)從 RAM 發(fā)送到處理器。第一個(gè)問(wèn)題是您必須將所有這些參數(shù)存儲(chǔ)在盡可能靠近計(jì)算的地方。另一個(gè)問(wèn)題是您必須能夠在需要時(shí)準(zhǔn)確地將這些參數(shù)從計(jì)算加載到芯片上。

wKgaomTno0iAVgVHAAhQ5acZZ7E527.png

在內(nèi)存層次結(jié)構(gòu)中,在芯片上緩存頻繁訪問(wèn)的數(shù)據(jù)在大多數(shù)工作負(fù)載中很常見(jiàn)。對(duì)于設(shè)備上的 LLM,這種方法的問(wèn)題在于參數(shù)占用的內(nèi)存空間太大而無(wú)法緩存。以 FP16 或 BF16 等 16 位數(shù)字格式存儲(chǔ)的參數(shù)為 2 個(gè)字節(jié)。即使是最小的“體面”通用大型語(yǔ)言模型也是 LLAMA,至少有 70 億個(gè)參數(shù)。較大的版本質(zhì)量明顯更高。要簡(jiǎn)單地運(yùn)行此模型,需要至少 14GB 的內(nèi)存(16 位精度)。雖然有多種技術(shù)可以減少內(nèi)存容量,例如遷移學(xué)習(xí)、稀疏化和量化,但這些技術(shù)并不是免費(fèi)的,而且會(huì)影響模型的準(zhǔn)確性。

此外,這 14GB 忽略了其他應(yīng)用程序、操作系統(tǒng)以及與激活/kv 緩存相關(guān)的其他開(kāi)銷。這直接限制了開(kāi)發(fā)人員可以用來(lái)部署設(shè)備上 AI 的模型大小,即使他們可以假設(shè)客戶端端點(diǎn)具有所需的計(jì)算能力。在客戶端處理器上存儲(chǔ) 14GB 的參數(shù)在物理上是不可能的。最常見(jiàn)的片上存儲(chǔ)器類型是 SRAM,即使在 TSMC 3nm 上,每 100mm^2 也只有約 0.6GB.

作為參考,這與即將推出的 iPhone 15 Pro 的 A17 芯片尺寸大致相同,比即將推出的 M3 小約 25%。此外,該圖沒(méi)有來(lái)自輔助電路、陣列低效、NOC 等的開(kāi)銷。大量本地 SRAM 將無(wú)法用于客戶端推理。諸如 FeRAM 和 MRAM 之類的新興存儲(chǔ)器確實(shí)為隧道盡頭的曙光帶來(lái)了一些希望,但它們距離千兆字節(jié)規(guī)模的產(chǎn)品化還有很長(zhǎng)的路要走。

層次結(jié)構(gòu)的下一層是 DRAM。最高端的 iPhone 14 Pro Max 有 6GB 內(nèi)存,但常用 iPhone 有 3GB 內(nèi)存。雖然高端 PC 將擁有 16GB+,但大多數(shù)新銷售的 RAM 為 8GB。典型的客戶端設(shè)備無(wú)法運(yùn)行量化為 FP16 的 70 億參數(shù)模型!

這就提出了問(wèn)題。為什么我們不能在層次結(jié)構(gòu)中再往下一層?我們能否在基于 NAND 的 SSD 而不是 RAM 上運(yùn)行這些模型?

不幸的是,這太慢了。FP16 的 70 億參數(shù)模型需要 14GB/s 的 IO 才能將權(quán)重流式傳輸以生成 1 個(gè)token(~4 個(gè)字符)!最快的 PC 存儲(chǔ)驅(qū)動(dòng)器最多為 6GB/s,但大多數(shù)手機(jī)和 PC 都低于 1GB/s。在 1GB/s 的情況下,在 4 位量化下,可以運(yùn)行的最大模型仍將僅在約 20 億個(gè)參數(shù)的范圍內(nèi),這是在不考慮任何其他用途的情況下將 SSD 固定在最大值上僅用于 1 個(gè)應(yīng)用案例。

wKgaomTno0iAVQDWAAUODT-mg7w475.png

除非你想在普通設(shè)備上等待 7 秒才能吐出半個(gè)字,否則將參數(shù)存儲(chǔ)在存儲(chǔ)器中不是一種選擇。它們必須在 RAM 中。

模型尺寸限制


一般人每分鐘閱讀約 250 個(gè)單詞。作為良好用戶體驗(yàn)的下限,設(shè)備上的 AI 必須每秒生成 8.33 個(gè)tokens,或每 120 毫秒生成一次。熟練的速度讀者可以達(dá)到每分鐘 1,000 個(gè)單詞,因此對(duì)于上限,設(shè)備上的 AI 必須能夠每秒生成 33.3 個(gè)tokens,或每 30 毫秒一次。下表假定平均閱讀速度的下限,而不是速讀。

wKgaomTno0iAH5H-AAOsm9D0abM356.png

如果我們保守地假設(shè)正常的非 AI 應(yīng)用程序以及激活/kv 緩存消耗所有帶寬的一半,那么 iPhone 14 上最大的可行模型大小是約 10 億個(gè) FP16 參數(shù),或約 40 億個(gè) int4 參數(shù)。這是基于智能手機(jī)的 LLM 的基本限制。任何更大的產(chǎn)品都會(huì)排除很大一部分安裝基礎(chǔ),以至于無(wú)法采用。

這是對(duì)本地 AI 可以變得多大和強(qiáng)大的基本限制?;蛟S像蘋(píng)果這樣的公司可以利用它來(lái)追加銷售更新、更昂貴、配備更先進(jìn)人工智能的手機(jī),但這還有一段時(shí)間。根據(jù)與上述相同的假設(shè),在 PC 上,英特爾的頂級(jí)第 13 代CPU 和蘋(píng)果的 M2 的上限約為 30 到 40 億個(gè)參數(shù)。

一般來(lái)說(shuō),這些只是消費(fèi)設(shè)備的下限。重復(fù)一遍,我們忽略了多個(gè)因素,包括使用理論 IO 速度(這是從未達(dá)到過(guò)的)或?yàn)楹?jiǎn)單起見(jiàn)激活/kv 緩存。這些只會(huì)進(jìn)一步提高帶寬要求,并進(jìn)一步限制模型尺寸。我們將在下面詳細(xì)討論明年將出現(xiàn)的創(chuàng)新硬件平臺(tái),這些平臺(tái)可以幫助重塑格局,但內(nèi)存墻限制了大多數(shù)當(dāng)前和未來(lái)的設(shè)備。 為什么服務(wù)器端 AI 獲勝
由于極端的內(nèi)存容量和帶寬要求,生成式 AI比之前的任何其他應(yīng)用程序更受內(nèi)存墻的影響。在客戶端推理中,對(duì)于生成文本模型,批量大小(batch size)幾乎始終為 1。每個(gè)后續(xù)標(biāo)記都需要輸入先前的標(biāo)記/提示,這意味著每次從內(nèi)存中將參數(shù)加載到芯片上時(shí),您只需攤銷成本僅為 1 個(gè)生成的token加載參數(shù)。沒(méi)有其他用戶可以傳播這個(gè)瓶頸。內(nèi)存墻也存在于服務(wù)器端計(jì)算中,但每次加載參數(shù)時(shí),它都可以分?jǐn)偟綖槎鄠€(gè)用戶生成的多個(gè)tokens(批量大小:batch size)。

我們的數(shù)據(jù)顯示,HBM 內(nèi)存的制造成本幾乎是服務(wù)器級(jí) AI 芯片(如 H100 或 TPUv5)的一半。雖然客戶端計(jì)算確實(shí)可以使用便宜得多的 DDR 和 LPDDR 內(nèi)存(每 GB 約 4 倍),但內(nèi)存成本無(wú)法通過(guò)多個(gè)并發(fā)推理進(jìn)行分?jǐn)?。批量大小不能無(wú)限大,因?yàn)檫@會(huì)引入另一個(gè)難題,即任何單個(gè)token都必須等待所有其他token處理完畢,然后才能附加其結(jié)果并開(kāi)始生成新token。

wKgaomTno0mAP-7bAAW1wrirzgE784.png

這是通過(guò)將模型拆分到多個(gè)芯片來(lái)解決的。上圖是生成 20 個(gè)token的延遲。方便的是,PaLM 模型達(dá)到每秒 6.67 個(gè)標(biāo)記,或每分鐘約 200 個(gè)單詞的最小可行目標(biāo),其中 64 個(gè)芯片以 256 的批大小運(yùn)行推理。這意味著每次加載參數(shù)時(shí),它會(huì)用于 256 個(gè)不同的推論。

FLOPS 利用率隨著批處理大小的增加而提高,因?yàn)镕LOPS ,內(nèi)存墻正在得到緩解。只有將工作分配到更多芯片上,才能將延遲降低到一個(gè)合理的水平。即便如此,也只有 40% 的 FLOPS 被使用。谷歌展示了 76% 的 FLOPS 利用率,PaLM 推理的延遲為 85.2 秒,因此 so 內(nèi)存墻顯然仍然是一個(gè)重要因素。

所以服務(wù)器端的效率要高得多,但是本地模型可以擴(kuò)展到什么程度呢?原文鏈接:https://www.semianalysis.com/p/on-device-ai-double-edged-sword

END

歡迎加入Imagination GPU與人工智能交流2群

wKgaomTno0mAP5QyAABN8aBfIqc412.jpg

入群請(qǐng)加小編微信:eetrend89

(添加請(qǐng)備注公司名和職稱)

推薦閱讀 對(duì)話Imagination中國(guó)區(qū)董事長(zhǎng):以GPU為支點(diǎn)加強(qiáng)軟硬件協(xié)同,助力數(shù)字化轉(zhuǎn)型

vivo Y78 開(kāi)售,搭載天璣7020 采用 Imagination GPU IP

Imagination Technologies是一家總部位于英國(guó)的公司,致力于研發(fā)芯片和軟件知識(shí)產(chǎn)權(quán)(IP),基于Imagination IP的產(chǎn)品已在全球數(shù)十億人的電話、汽車、家庭和工作 場(chǎng)所中使用。獲取更多物聯(lián)網(wǎng)、智能穿戴、通信汽車電子、圖形圖像開(kāi)發(fā)等前沿技術(shù)信息,歡迎關(guān)注 Imagination Tech!


原文標(biāo)題:AI推理芯片,比你想象難!

文章出處:【微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • imagination
    +關(guān)注

    關(guān)注

    1

    文章

    611

    瀏覽量

    62856

原文標(biāo)題:AI推理芯片,比你想象難!

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI推理的存儲(chǔ),看好SRAM?

    看到了其前景并提前布局。AI推理也使得存儲(chǔ)HBM不再是唯一熱門(mén),更多存儲(chǔ)芯片AI推理芯片結(jié)合,
    的頭像 發(fā)表于 03-03 08:51 ?2168次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲(chǔ),看好SRAM?

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?550次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    、分布式群體智能 1)物聯(lián)網(wǎng)AGI系統(tǒng) 優(yōu)勢(shì): 組成部分: 2)分布式AI訓(xùn)練 7、發(fā)展重點(diǎn):基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練與推理 8、超越大模型:神經(jīng)符號(hào)計(jì)算 三、AGI芯片的實(shí)現(xiàn) 1、技術(shù)需求 AI
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    主要步驟: ①溯因②假說(shuō)③實(shí)驗(yàn) 1、科學(xué)推理的類型 ①演繹②歸納 2、自動(dòng)化科學(xué)發(fā)現(xiàn)框架 AI-笛卡兒-----自動(dòng)化科學(xué)發(fā)現(xiàn)框架,利用數(shù)據(jù)和知識(shí)來(lái)生成和評(píng)估候選的科學(xué)假說(shuō)。 4項(xiàng)規(guī)則:三、直覺(jué)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書(shū)中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的還是知道的,F(xiàn)PGA屬于AI
    發(fā)表于 09-12 16:07

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    近日,2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。中國(guó)銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團(tuán)CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?724次閱讀

    AI推理芯片賽道猛將,200億市值AI芯片企業(yè)赴港IPO

    7月30日,AI芯片龍頭企業(yè)云天勵(lì)飛正式向港交所遞交招股說(shuō)明書(shū)。 ? 云天勵(lì)飛成立于2014年8月,于2023年4月在上交所科創(chuàng)板掛牌,截至8月1日的市值為216億元。專注于AI推理
    的頭像 發(fā)表于 08-04 09:22 ?3717次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>賽道猛將,200億市值<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企業(yè)赴港IPO

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(
    發(fā)表于 07-16 15:29

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命

    、架構(gòu)設(shè)計(jì)的顛覆性創(chuàng)新 ? 首款推理專用TPU ? Ironwood是谷歌TPU系列中首款完全針對(duì)AI推理優(yōu)化的芯片,標(biāo)志著AI
    的頭像 發(fā)表于 04-12 11:10 ?2411次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時(shí)代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理AI 模型新引擎?

    Cloud 客戶開(kāi)放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項(xiàng)。 ? 在核心亮點(diǎn)層面,Ironwood 堪稱谷歌首款專門(mén)為 AI 推理精心設(shè)計(jì)的 TPU
    的頭像 發(fā)表于 04-12 00:57 ?2854次閱讀

    愚人節(jié)特輯:AI比你想象得更蠢

    AI神跡千千萬(wàn)萬(wàn),仔細(xì)一看全完蛋
    的頭像 發(fā)表于 04-03 10:29 ?746次閱讀
    愚人節(jié)特輯:<b class='flag-5'>AI</b><b class='flag-5'>比你想象</b>得更蠢

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武當(dāng)C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也將全面支持基于DeepSeek的多模態(tài)大模型推理。這一消息標(biāo)志著黑芝麻智能在推
    的頭像 發(fā)表于 02-14 15:04 ?755次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1054次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技術(shù)、市場(chǎng)與未來(lái)

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發(fā)布,預(yù)示著生成式AI研究正從預(yù)訓(xùn)練轉(zhuǎn)向推理(Inference),以提升AI邏輯推理
    的頭像 發(fā)表于 01-20 11:16 ?1099次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術(shù)、市場(chǎng)與未來(lái)

    AI推理CPU當(dāng)?shù)?,Arm驅(qū)動(dòng)高效引擎

    AI的訓(xùn)練和推理共同鑄就了其無(wú)與倫比的處理能力。在AI訓(xùn)練方面,GPU因其出色的并行計(jì)算能力贏得了業(yè)界的青睞,成為了當(dāng)前AI大模型最熱門(mén)的芯片
    的頭像 發(fā)表于 11-13 14:34 ?3793次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當(dāng)?shù)?,Arm驅(qū)動(dòng)高效引擎