chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用上這個(gè)工具包,大模型推理性能加速達(dá)40倍

英特爾中國 ? 來源:未知 ? 2023-12-01 20:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊

編者按:

只需不到9行代碼,就能在CPU上實(shí)現(xiàn)出色的LLM推理性能。英特爾Extension for Transformer創(chuàng)新工具包中的LLM Runtime為諸多模型顯著降低時(shí)延,且首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá)40倍和2.68倍,還能滿足更多場景應(yīng)用需求。

英特爾Extension for Transformer是什么?

英特爾Extension for Transformers[1]是英特爾推出的一個(gè)創(chuàng)新工具包,可基于英特爾架構(gòu)平臺(tái),尤其是第四代英特爾至強(qiáng)可擴(kuò)展處理器(代號(hào)Sapphire Rapids[2],SPR)顯著加速基于Transformer的大語言模型(Large Language Model,LLM)。其主要特性包括:

  • 通過擴(kuò)展Hugging Face transformers API[3]和利用英特爾Neural Compressor[4],為用戶提供無縫的模型壓縮體驗(yàn);

  • 提供采用低位量化內(nèi)核(NeurIPS 2023:在CPU上實(shí)現(xiàn)高效LLM推理[5])的LLM推理運(yùn)行時(shí),支持Falcon、LLaMA、MPT、Llama2、 BLOOM、OPT、ChatGLM2、GPT-J-6B、Baichuan-13B-Base、Baichuan2-13B-Base、Qwen-7B、Qwen-14B和Dolly-v2-3B等常見的LLM[6];

  • 先進(jìn)的壓縮感知運(yùn)行時(shí)[7](NeurIPS 2022:在CPU上實(shí)現(xiàn)快速蒸餾和QuaLA-MiniLM:量化長度自適應(yīng)MiniLM;NeurIPS 2021:一次剪枝,一勞永逸:對(duì)預(yù)訓(xùn)練語言模型進(jìn)行稀疏/剪枝)。

本文將重點(diǎn)介紹其中的LLM推理運(yùn)行時(shí)(簡稱為“LLM運(yùn)行時(shí)”),以及如何利用基于Transformer的API在英特爾至強(qiáng)可擴(kuò)展處理器上實(shí)現(xiàn)更高效的LLM推理和如何應(yīng)對(duì)LLM在聊天場景中的應(yīng)用難題。

LLM運(yùn)行時(shí)(LLM Runtime)

英特爾Extension for Transformers提供的LLM Runtime[8]是一種輕量級(jí)但高效的LLM推理運(yùn)行時(shí),其靈感源于GGML[9],且與llama.cpp[10]兼容,具有如下特性:

  • 內(nèi)核已針對(duì)英特爾至強(qiáng)CPU內(nèi)置的多種AI加速技術(shù)(如 AMX、VNNI)以及AVX512F和AVX2指令集進(jìn)行了優(yōu)化;

  • 可提供更多量化選擇,例如:不同的粒度(按通道或按組)、不同的組大?。ㄈ纾?2/128);

  • 擁有更優(yōu)的KV緩存訪問以及內(nèi)存分配策略;

  • 具備張量并行化功能,可助力在多路系統(tǒng)中進(jìn)行分布式推理。

LLM Runtime的簡化架構(gòu)圖如下:

wKgZomVp1VeAe-FnAACtHVch3i8131.png

圖1.英特爾 Extension for Transformers的LLM Runtime簡化架構(gòu)圖

使用基于Transformer的API,在CPU上實(shí)現(xiàn)LLM高效推理

只需不到9行代碼,即可讓您在CPU上實(shí)現(xiàn)更出色的LLM推理性能。用戶可以輕松地啟用與Transformer類似的API來進(jìn)行量化和推理。只需將 ‘load_in_4bit’設(shè)為true,然后從HuggingFace URL或本地路徑輸入模型即可。下方提供了啟用僅限權(quán)重的(weight-only)INT4量化的示例代碼:

fromtransformersimportAutoTokenizer,TextStreamer
fromintel_extension_for_transformers.transformersimportAutoModelForCausalLM
model_name="Intel/neural-chat-7b-v3-1”
prompt="Onceuponatime,thereexistedalittlegirl,"

tokenizer=AutoTokenizer.from_pretrained(model_name,trust_remote_code=True)
inputs=tokenizer(prompt,return_tensors="pt").input_ids
streamer=TextStreamer(tokenizer)

model=AutoModelForCausalLM.from_pretrained(model_name,load_in_4bit=True)
outputs=model.generate(inputs,streamer=streamer,max_new_tokens=300)
可左滑看完整版

默認(rèn)設(shè)置為:將權(quán)重存儲(chǔ)為4位,以8位進(jìn)行計(jì)算。但也支持不同計(jì)算數(shù)據(jù)類型(dtype)和權(quán)重?cái)?shù)據(jù)類型組合,用戶可以按需修改設(shè)置。下方提供了如何使用這一功能的示例代碼:

fromtransformersimportAutoTokenizer,TextStreamer
fromintel_extension_for_transformers.transformersimportAutoModelForCausalLM,WeightOnlyQuantConfig
model_name="Intel/neural-chat-7b-v3-1”
prompt="Onceuponatime,thereexistedalittlegirl,"

woq_config=WeightOnlyQuantConfig(compute_dtype="int8",weight_dtype="int4")
tokenizer=AutoTokenizer.from_pretrained(model_name,trust_remote_code=True)
inputs=tokenizer(prompt,return_tensors="pt").input_ids
streamer=TextStreamer(tokenizer)

model=AutoModelForCausalLM.from_pretrained(model_name,quantization_config=woq_config)
outputs=model.generate(inputs,streamer=streamer,max_new_tokens=300)
可左滑看完整版

性能測試

經(jīng)過持續(xù)努力,上述優(yōu)化方案的INT4性能得到了顯著提升。本文在搭載英特爾至強(qiáng)鉑金8480+的系統(tǒng)上與llama.cpp進(jìn)行了性能比較;系統(tǒng)配置詳情如下:@3.8GHz,56核/路,啟用超線程,啟用睿頻,總內(nèi)存 256 GB (16 x 16 GB DDR5 4800 MT/s [4800 MT/s]),BIOS 3A14.TEL2P1,微代碼0x2b0001b0,CentOS Stream 8。

當(dāng)輸入大小為32、輸出大小為32、beam為1時(shí)的推理性能測試結(jié)果,詳見下表:

wKgZomVp1ViAaBZqAAK0Kssl-FU362.png
表1.LLM Runtime與llama.cpp推理性能比較(輸入大小=32,輸出大小=32,beam=1)

輸入大小為1024、輸出大小為32、beam為1時(shí)的推理性能的測試結(jié)果,詳見下表:

wKgZomVp1ViAbFl4AALZLCa6TwA539.png
表2.LLM Runtime與llama.cpp推理性能比較(輸入大小=1024,輸出大小=32,beam=1)

根據(jù)上表2可見:與同樣運(yùn)行在第四代英特爾至強(qiáng)可擴(kuò)展處理器上的llama.cpp相比,無論是首個(gè)token還是下一個(gè)token,LLM Runtime都能顯著降低時(shí)延,且首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá) 40 倍[a](Baichuan-13B,輸入為1024)和2.68倍[b](MPT-7B,輸入為1024)。llama.cpp的測試采用的是默認(rèn)代碼庫[10]。

而綜合表1和表2的測試結(jié)果,可得:與同樣運(yùn)行在第四代英特爾至強(qiáng)可擴(kuò)展處理器上的llama.cpp相比,LLM Runtime能顯著提升諸多常見LLM的整體性能:在輸入大小為1024時(shí),實(shí)現(xiàn)3.58到21.5倍的提升;在輸入大小為32時(shí),實(shí)現(xiàn)1.76到3.43倍的提升[c]

準(zhǔn)確性測試

英特爾Extension for Transformers可利用英特爾Neural Compressor中的SignRound[11]、RTN和GPTQ[12]等量化方法,并使用lambada_openai、piqa、winogrande和hellaswag數(shù)據(jù)集驗(yàn)證了 INT4 推理準(zhǔn)確性。下表是測試結(jié)果平均值與FP32準(zhǔn)確性的比較。

wKgZomVp1ViAWBx_AAKt1XItMsY680.png
表3.INT4與FP32準(zhǔn)確性對(duì)比

從上表3可以看出,多個(gè)模型基于LLM Runtime進(jìn)行的INT4推理準(zhǔn)確性損失微小,幾乎可以忽略不記。我們驗(yàn)證了很多模型,但由于篇幅限制此處僅羅列了部分內(nèi)容。如您欲了解更多信息或細(xì)節(jié),請(qǐng)?jiān)L問此鏈接:https://medium.com/@NeuralCompressor/llm-performance-of-intel-extension-for-transformers-f7d061556176

更先進(jìn)的功能:滿足LLM更多場景應(yīng)用需求

同時(shí),LLM Runtime[8]還具備雙路CPU的張量并行化功能,是較早具備此類功能的產(chǎn)品之一。未來,還會(huì)進(jìn)一步支持雙節(jié)點(diǎn)。

然而,LLM Runtime的優(yōu)勢(shì)不僅在于其更出色的性能和準(zhǔn)確性,我們也投入了大量的精力來增強(qiáng)其在聊天應(yīng)用場景中的功能,并且解決了LLM 在聊天場景中可能會(huì)遇到的以下應(yīng)用難題:

  1. 對(duì)話不僅關(guān)乎LLM推理,對(duì)話歷史也很有用。

  2. 輸出長度有限:LLM模型預(yù)訓(xùn)練主要基于有限的序列長度。因此,當(dāng)序列長度超出預(yù)訓(xùn)練時(shí)使用的注意力窗口大小時(shí),其準(zhǔn)確性便會(huì)降低。

  3. 效率低下:在解碼階段,基于Transformer的LLM會(huì)存儲(chǔ)所有先前生成的token的鍵值狀態(tài)(KV),從而導(dǎo)致內(nèi)存使用過度,解碼時(shí)延增加。

關(guān)于第一個(gè)問題,LLM Runtime的對(duì)話功能通過納入更多對(duì)話歷史數(shù)據(jù)以及生成更多輸出加以解決,而llama.cpp目前尚未能很好地應(yīng)對(duì)這一問題。

關(guān)于第二和第三個(gè)問題,我們將流式LLM(Steaming LLM)集成到英特爾Extension for Transformers中,從而能顯著優(yōu)化內(nèi)存使用并降低推理時(shí)延。

Streaming LLM

與傳統(tǒng)KV緩存算法不同,我們的方法結(jié)合了注意力匯聚(Attention Sink)(4個(gè)初始token)以提升注意力計(jì)算的穩(wěn)定性,并借助滾動(dòng)KV緩存保留最新的token,這對(duì)語言建模至關(guān)重要。該設(shè)計(jì)具有強(qiáng)大的靈活性,可無縫集成到能夠利用旋轉(zhuǎn)位置編碼RoPE和相對(duì)位置編碼ALiBi的自回歸語言模型中。

wKgZomVp1ViAVSmlAAGz-8RbG5A155.png
圖2.Steaming LLM的KV緩存(圖片來源:通過注意力下沉實(shí)現(xiàn)高效流式語言模型[13])

此外,與llama.cpp不同,本優(yōu)化方案還引入了“n_keep”和“n_discard”等參數(shù)來增強(qiáng)Streaming LLM策略。用戶可使用前者來指定要在KV緩存中保留的token數(shù)量,并使用后者來確定在已生成的token中要舍棄的數(shù)量。為了更好地平衡性能和準(zhǔn)確性,系統(tǒng)默認(rèn)在KV緩存中舍棄一半的最新token。

同時(shí),為進(jìn)一步提高性能,我們還將Streaming LLM添加到了MHA融合模式中。如果模型是采用旋轉(zhuǎn)位置編碼(RoPE)來實(shí)現(xiàn)位置嵌入,那么只需針對(duì)現(xiàn)有的K-Cache應(yīng)用“移位運(yùn)算(shift operation)”,即可避免對(duì)先前生成的、未被舍棄的token進(jìn)行重復(fù)計(jì)算。這一方法不僅充分利用了長文本生成時(shí)的完整上下文大小,還能在KV緩存上下文完全被填滿前不產(chǎn)生額外開銷。

“shift operation”依賴于旋轉(zhuǎn)的交換性和關(guān)聯(lián)性,或復(fù)數(shù)乘法。例如:如果某個(gè)token的K-張量初始放置位置為m并且旋轉(zhuǎn)了θifor i ∈ [0,d/2),那么當(dāng)它需要移動(dòng)到m-1這個(gè)位置時(shí),則可以旋轉(zhuǎn)回到(-1)×θifori ∈ [0,d/2)。這正是每次舍棄n_discard個(gè)token的緩存時(shí)發(fā)生的事情,而此時(shí)剩余的每個(gè)token都需要“移動(dòng)”n_discard個(gè)位置。下圖以“n_keep=4、n_ctx=16、n_discard=1”為例,展示了這一過程。

wKgZomVp1ViAFtM0AALpErOdMGA097.png
圖3.Ring-Buffer KV-Cache和Shift-RoPE工作原理

需要注意的是:融合注意力層無需了解上述過程。如果對(duì)K-cache和V-cache進(jìn)行相同的洗牌,注意力層會(huì)輸出幾乎相同的結(jié)果(可能存在因浮點(diǎn)誤差導(dǎo)致的微小差異)。

您可通過以下代碼啟動(dòng)Streaming LLM:

fromtransformersimportAutoTokenizer,TextStreamer
fromintel_extension_for_transformers.transformersimportAutoModelForCausalLM,WeightOnlyQuantConfig
model_name="Intel/neural-chat-7b-v1-1"#HuggingFacemodel_idorlocalmodel
woq_config=WeightOnlyQuantConfig(compute_dtype="int8",weight_dtype="int4")
prompt="Onceuponatime,alittlegirl"

tokenizer=AutoTokenizer.from_pretrained(model_name,trust_remote_code=True)
inputs=tokenizer(prompt,return_tensors="pt").input_ids
streamer=TextStreamer(tokenizer)

model=AutoModelForCausalLM.from_pretrained(model_name,quantization_config=woq_config,trust_remote_code=True)

#Recommendn_keep=4todoattentionsinks(fourinitialtokens)andn_discard=-1todrophalfrencetlytokenswhenmeetlengththreshold

outputs=model.generate(inputs,streamer=streamer,max_new_tokens=300,ctx_size=100,n_keep=4,n_discard=-1)

可左滑看完整版

結(jié)論與展望

本文基于上述實(shí)踐經(jīng)驗(yàn),提供了一個(gè)在英特爾至強(qiáng)可擴(kuò)展處理器上實(shí)現(xiàn)高效的低位(INT4)LLM推理的解決方案,并且在一系列常見LLM上驗(yàn)證了其通用性以及展現(xiàn)了其相對(duì)于其他基于CPU的開源解決方案的性能優(yōu)勢(shì)。未來,我們還將進(jìn)一步提升CPU張量庫和跨節(jié)點(diǎn)并行性能。

歡迎您試用英特爾Extension for Transformers[1],并在英特爾平臺(tái)上更高效地運(yùn)行LLM推理!也歡迎您向代碼倉庫(repository)提交修改請(qǐng)求 (pull request)、問題或疑問。期待您的反饋!

特別致謝

在此致謝為此篇文章做出貢獻(xiàn)的英特爾公司人工智能資深經(jīng)理張瀚文及工程師許震中、余振滔、劉振衛(wèi)、丁藝、王哲、劉宇澄。

[a]根據(jù)表2 Baichuan-13B的首個(gè)token測試結(jié)果計(jì)算而得。
[b]根據(jù)表2 MPT-7B的下一個(gè)token測試結(jié)果計(jì)算而得。
[c]當(dāng)輸入大小為1024時(shí),整體性能=首個(gè)token性能+1023下一個(gè)token性能;當(dāng)輸入大小為32時(shí),整體性能=首個(gè)token性能+31下一個(gè)token性能。

參考鏈接:

[1]英特爾Extension for Transformers

https://github.com/intel/intel-extension-for-transformers

[2]Sapphire Rapids

https://www.intel.cn/content/www/cn/zh/products/docs/processors/xeon-accelerated/4th-gen-xeon-scalable-processors.html

[3]Hugging Face transformers

https://github.com/huggingface/transformers

[4]英特爾Neural Compressor

https://github.com/intel/neural-compressor

[5]NeurIPS 2023:在CPU上實(shí)現(xiàn)高效LLM推理

https://arxiv.org/pdf/2311.00502.pdf

[6]常見LLM:

Falconhttps://falconllm.tii.ae/

LLaMA:https://ai.meta.com/blog/large-language-model-llama-meta-ai/

MPT:https://www.mosaicml.com/blog/mpt-7b

Llama2:https://ai.meta.com/llama/

BLOOM:https://huggingface.co/bigscience/bloom

OPT:https://arxiv.org/abs/2205.01068

ChatGLM2:https://github.com/THUDM/ChatGLM2-6B

GPT-J-6B:https://huggingface.co/EleutherAI/gpt-j-6b

Baichuan-13B-Base:https://huggingface.co/baichuan-inc/Baichuan-13B-Base

Baichuan2-13B-Base:https://huggingface.co/baichuan-inc/Baichuan2-13B-Base

Qwen-7B:https://huggingface.co/Qwen/Qwen-7B

Qwen-14B:https://huggingface.co/Qwen/Qwen-14B

Dolly-v2-3B:https://huggingface.co/databricks/dolly-v2-3b

[7]先進(jìn)的壓縮感知運(yùn)行時(shí)

NeurIPS 2022:在 CPU 上實(shí)現(xiàn)快速蒸餾

https://arxiv.org/abs/2211.07715

QuaLA-MiniLM:量化長度自適應(yīng) MiniLM

https://arxiv.org/abs/2210.17114

NeurIPS 2021:一次剪枝,一勞永逸:對(duì)預(yù)訓(xùn)練語言模型進(jìn)行稀疏/剪枝

https://arxiv.org/abs/2111.05754

[8]LLM Runtime

https://github.com/intel/intel-extension-for-transformers/tree/main/intel_extension_for_transformers/llm/runtime/graph

[9]GGML

https://github.com/ggerganov/ggml

[10]llama.cpp

https://github.com/ggerganov/llama.cpp

[11]SignRound

https://arxiv.org/abs/2309.05516

[12]GPTQ

https://arxiv.org/abs/2210.17323

[13]通過注意力下沉實(shí)現(xiàn)高效流式語言模型

http://arxiv.org/abs/2309.17453

本文轉(zhuǎn)載自:量子位

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10285

    瀏覽量

    179803
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11250

    瀏覽量

    223842

原文標(biāo)題:用上這個(gè)工具包,大模型推理性能加速達(dá)40倍

文章出處:【微信號(hào):英特爾中國,微信公眾號(hào):英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?205次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    通過NVIDIA Jetson AGX Thor實(shí)現(xiàn)7生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測解碼等新技術(shù),為在邊緣端加速生成式 AI 工作負(fù)載提供了新的途徑。
    的頭像 發(fā)表于 10-29 16:53 ?1307次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?780次閱讀
    使用NVIDIA NVLink Fusion技術(shù)提升AI<b class='flag-5'>推理性能</b>

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個(gè)用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測式AI模型(Predictive AI),還支持以Transf
    的頭像 發(fā)表于 09-20 11:17 ?1115次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA 在 NVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在 NVIDIA 系統(tǒng)上至高達(dá)到每秒 150 萬個(gè)
    的頭像 發(fā)表于 08-15 20:34 ?2133次閱讀
    NVIDIA從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動(dòng)AI推理體驗(yàn)升級(jí),提升推理性價(jià)比,加速AI商業(yè)正循環(huán)。同時(shí),華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點(diǎn)應(yīng)用,并聯(lián)合發(fā)布智慧金融A
    的頭像 發(fā)表于 08-15 09:45 ?1134次閱讀

    中軟國際智算中心成功完成華為EP方案驗(yàn)證

    在大模型邁向規(guī)?;瘧?yīng)用的新階段,推理性能成為決定AI落地成敗的關(guān)鍵因素。中軟國際智算中心積極響應(yīng)國產(chǎn)智算體系建設(shè)戰(zhàn)略,率先完成華為昇騰“大規(guī)模專家并行”(EP)推理方案驗(yàn)證,在DeepSeek-R1
    的頭像 發(fā)表于 07-14 14:54 ?1335次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    GPU、FPGA等硬件加速。通過分析硬件加速器的性能參數(shù),可以估算模型在硬件加速下的計(jì)算量。 四、實(shí)驗(yàn)與分析 為了驗(yàn)證上述估計(jì)方法的有效性,
    發(fā)表于 07-03 19:43

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調(diào)用流程,還顯著提升了推理性能,特別適合需要高
    的頭像 發(fā)表于 04-14 10:22 ?1318次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將
    的頭像 發(fā)表于 03-20 15:03 ?1145次閱讀

    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時(shí)刻

    14B開源颶風(fēng),360掀起端側(cè)推理性能革命
    的頭像 發(fā)表于 03-16 10:47 ?1002次閱讀
    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時(shí)刻

    云計(jì)算開發(fā)工具包的功能

    隨著云計(jì)算技術(shù)的不斷成熟,越來越多的企業(yè)開始將應(yīng)用和服務(wù)遷移到云端,以享受彈性計(jì)算資源、高可用性和成本效益等優(yōu)勢(shì)。為了加速這一進(jìn)程,云計(jì)算服務(wù)提供商推出了各種開發(fā)工具包。下面,AI部落小編帶您了解云計(jì)算開發(fā)工具包的主要功能。
    的頭像 發(fā)表于 02-21 11:02 ?648次閱讀

    英特爾至強(qiáng)6助力HPE Gen12,AI推理性能提升3!

    這個(gè)AI人工智能、HPC高性能計(jì)算飛速發(fā)展的時(shí)代,人們對(duì)于算力的渴望是空前的,無論是CPU處理器、GPU/NPU加速器,尤其是生成式AI的火爆,GPU/NPU被抬上了空前的超高地位。 但無論何時(shí)
    的頭像 發(fā)表于 02-18 14:18 ?599次閱讀
    英特爾至強(qiáng)6助力HPE Gen12,AI<b class='flag-5'>推理性能</b>提升3<b class='flag-5'>倍</b>!

    C#集成OpenVINO?:簡化AI模型部署

    什么是OpenVINO 工具套件? OpenVINO 工具套件是一個(gè)用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不
    的頭像 發(fā)表于 02-17 10:03 ?2705次閱讀
    C#集成OpenVINO?:簡化AI<b class='flag-5'>模型</b>部署

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?1568次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理性能</b>