chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

源2.0-M32大模型發(fā)布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2024-08-25 22:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

北京2024年8月23日/美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB,所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環(huán)境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創(chuàng)新性地提出和采用了"基于注意力機制的門控網(wǎng)絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數(shù)為37億,在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是優(yōu)化大模型推理的一種主流技術,它顯著減少了模型的內(nèi)存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術面臨的核心挑戰(zhàn)。

源2.0-M32大模型研發(fā)團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現(xiàn),最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結構的算子,提高了模型的部署加載速度和多線程推理效率,實現(xiàn)高并發(fā)推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設備和邊緣設備上。

評測結果顯示,源2.0-M32量化版在多個業(yè)界主流的評測任務中性能表現(xiàn)突出,特別是在MATH(數(shù)學競賽)、ARC-C(科學推理)任務中,比肩擁有700億參數(shù)的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內(nèi)存占用,其采用的GPTQ量化方法通過精細調(diào)整,成功將模型適配至int4和int8精度級別。通過定制化算子優(yōu)化,源2.0-M32量化版實現(xiàn)了模型結構的深度適配和性能的顯著提升,確保在不同硬件和軟件環(huán)境中均能高效運行。未來,隨著量化技術的進一步優(yōu)化和應用場景的拓展,源2.0-M32量化版有望在移動設備和邊緣計算等領域發(fā)揮更廣泛的作用,為用戶提供更高效的智能服務。

源2.0-M32量化版已開源,下載鏈接如下:

Hugging Face平臺下載鏈接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    4033

    瀏覽量

    45572
  • 算力
    +關注

    關注

    2

    文章

    1385

    瀏覽量

    16566
  • 大模型
    +關注

    關注

    2

    文章

    3442

    瀏覽量

    4969
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【CIE全國RISC-V創(chuàng)新應用大賽】基于 K1 AI CPU 的大模型部署落地

    8GB 物理內(nèi)存 (且操作系統(tǒng)還要占用約 500MB+)。 結論 :如果直接照搬官方文檔下載 Q4 模型, 100% 會因為內(nèi)存不足(OOM)而無法運行 。 為了滿足賽題要求,必須采用 “極限
    發(fā)表于 11-27 14:43

    大規(guī)模專家并行模型在TensorRT-LLM的設計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構,大幅提升了開源模型的質量。Llama 4 和 Qwe
    的頭像 發(fā)表于 09-06 15:21 ?925次閱讀
    大規(guī)模專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設計

    英特爾可變顯存技術讓32GB內(nèi)存筆記本流暢運行Qwen 30B大模型

    近日,阿里通義千問發(fā)布了兩款新版本30B(300億參數(shù))MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen3-Coder-30B-A3B-Instru
    的頭像 發(fā)表于 08-14 15:39 ?1027次閱讀

    OpenAI發(fā)布2款開源模型

    單個 H100 GPU 上運行, 80 GB 內(nèi)存,專為生產(chǎn)環(huán)境、通用應用和高推理需求的用例設計,既可以部署在數(shù)據(jù)中心,也能在高端臺式機和筆記本電腦上
    的頭像 發(fā)表于 08-06 14:25 ?883次閱讀

    模型推理顯存和計算量估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大?。?(3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經(jīng)網(wǎng)絡剪枝的
    發(fā)表于 07-03 19:43

    中國移動攜手華為發(fā)布網(wǎng)絡運行模型2.0

    近日,在2025 MWC上海期間,由IMT2020(5G)推進組和中國移動主辦、華為承辦的5G-A網(wǎng)絡賦能差異化體驗產(chǎn)業(yè)圓桌上,中國移動攜手華為發(fā)布了基于5G-A核心網(wǎng)的網(wǎng)絡運行模型2.0
    的頭像 發(fā)表于 07-01 15:32 ?851次閱讀

    使用 NPU 插件對量化Llama 3.1 8b 模型進行推理時出現(xiàn)“從 __Int64 轉換為無符號 int 的錯誤”,怎么解決?

    安裝了 OpenVINO? GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-
    發(fā)表于 06-25 07:20

    瑞芯微模型量化文件構建

    模型是一張圖片輸入時,量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型訓練時數(shù)據(jù)集只標注
    發(fā)表于 06-13 09:07

    探索在Arm平臺運行Llama 4 Scout模型

    人工智能 (AI) 正在加速發(fā)展,也越來越智能化。當今的開源大語言模型不僅功能強大,而且在設計時充分考慮了實際部署的需求,因而具有輕量化和經(jīng)濟高效的特點,可大規(guī)模部署到數(shù)十億臺設備上。簡而言之,對于開發(fā)者可能想到的各種情形,當今的開源大語言
    的頭像 發(fā)表于 05-20 09:54 ?593次閱讀

    將Deepseek移植到i.MX 8MP|93 EVK的步驟

    此共享介紹了如何將 deepseek 移植到i.MX93EVK使用 llama.cpp 的 Yocto BSP 本文檔使用的主要測試模型是在 deepseek 模型的基礎上進行提煉和量化
    發(fā)表于 03-26 06:08

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama
    發(fā)表于 03-05 08:07

    誠技術M720智能模組成功運行DeepSeek模型

    DeepSeek以“開源+低成本+高性能”三大利器席卷全球AI領域。誠技術研發(fā)的基于高通驍龍680(SM6225)平臺的智能模組M720,已成功實現(xiàn)DeepSeek模型的穩(wěn)定
    的頭像 發(fā)表于 02-24 15:12 ?1053次閱讀

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    飆升至百分之百,滿負荷運轉,而開發(fā)板強大的 NPU 卻閑置一旁,無法發(fā)揮加速運算優(yōu)勢,這在一定程度上限制了模型運行效率與性能表現(xiàn)。 02-用RKLLM量化部署-挖掘NPU潛力
    發(fā)表于 02-14 17:42

    國產(chǎn)視頻大模型Vidu 2.0震撼發(fā)布

    近日,備受矚目的國產(chǎn)視頻大模型Vidu迎來了2.0版本的正式發(fā)布。相較于之前的版本,Vidu 2.0在生成速度上實現(xiàn)了顯著提升,從原先的30秒縮短至如今的10秒,整體速度提升了三倍之多
    的頭像 發(fā)表于 01-16 11:13 ?2227次閱讀

    Meta重磅發(fā)布Llama 3.3 70B:開源AI模型的新里程碑

    ?在人工智能領域,Meta的最新動作再次引起了全球的關注。今天,我們見證了Meta發(fā)布Llama 3.3 70B 模型,這是一個開源的人工智能模型,它不僅令人印象深刻,而且在
    的頭像 發(fā)表于 12-18 16:46 ?882次閱讀
    Meta重磅<b class='flag-5'>發(fā)布</b><b class='flag-5'>Llama</b> 3.3 70B:開源AI<b class='flag-5'>模型</b>的新里程碑