chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer壓縮部署的前沿技術(shù):RPTQ與PB-LLM

后摩智能 ? 來源:后摩智能 ? 2024-01-24 14:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著人工智能技術(shù)的迅速發(fā)展,Transformer在自然語言處理、機器翻譯、問答系統(tǒng)等領(lǐng)域取得了顯著的性能提升。然而,這些模型的部署面臨著巨大的挑戰(zhàn),主要源于其龐大的模型尺寸和內(nèi)存消耗。

在部署過程中,網(wǎng)絡(luò)壓縮是一種常用的解決方案,可以有效減小模型的體積,提高模型在移動設(shè)備等資源受限環(huán)境下的部署效率。其中,量化技術(shù)是將大模型中的浮點數(shù)參數(shù)轉(zhuǎn)換為整數(shù),并進行存儲和計算的方法。由于Transformer的網(wǎng)絡(luò)參數(shù)越來越多、計算量越來越大,對于存儲和計算資源有限的邊緣設(shè)備來說,模型部署帶來了很大的挑戰(zhàn)。

網(wǎng)絡(luò)量化是一種常見的解決方案,通過將模型參數(shù)量化為整數(shù),可以大幅度減少模型的存儲空間和計算量,從而實現(xiàn)在邊緣設(shè)備上高效部署Transformer。

后摩智能也在Transformer量化提出了一些領(lǐng)先的算法方案。在本文中,我們將重點介紹兩種針對Transformer的量化方案:

RPTQ(Reorder-based Post-training Quantization)

PB-LLM(Partially Binarized Large Language Models)

這兩種方法分別針對激活量化和權(quán)重量化,旨在實現(xiàn)極端低位量化,同時保持語言推理能力。

RPTQ:

量化激活通道的新思路

46c8f2a2-ba7e-11ee-8b88-92fbcf53809c.png

RPTQ(Reorder-based Post-training Quantization)是后摩智能團隊與華中科技大學(xué)等合作單位提出的一種全新的量化方法,旨在解決量化Transformer時激活通道之間的數(shù)值范圍差異問題。

相較于以往的研究,RPTQ首次將3位激活引入了LLMs,實現(xiàn)了顯著的內(nèi)存節(jié)省,例如在量化OPT-175B模型方面,內(nèi)存消耗降低了高達80%。RPTQ的關(guān)鍵思想是通過重新排列激活通道并按簇量化,從而減少通道范圍差異的影響。同時,通過操作融合,避免了顯式重新排序的操作,使得RPTQ的開銷幾乎為零。通過這種方法,RPTQ有效地解決了激活通道數(shù)值范圍差異導(dǎo)致的量化誤差問題。

PB-LLM:

實現(xiàn)極端低位量化的新突破

47152bf4-ba7e-11ee-8b88-92fbcf53809c.png

PB-LLM(Partially Binarized Large Language Models)是后摩智能團隊與伊利諾伊理工和伯克利大學(xué)等單位合作提出的另一種創(chuàng)新性量化方法,主要針對權(quán)重量化。目前該篇論文已被接收至ICLR 2024,ICLR 以介紹和發(fā)布人工智能、統(tǒng)計學(xué)和數(shù)據(jù)科學(xué)領(lǐng)域深度學(xué)習(xí)的尖端研究而聞名,被認為是“深度學(xué)習(xí)的頂級會議”。

相較于傳統(tǒng)的二值化方法,PB-LLM采用了部分二值化的策略,即將一部分顯著權(quán)重分配到高位存儲,從而在實現(xiàn)極端低位量化的同時,保持了Transformer的語言推理能力。通過對顯著權(quán)重的充分利用,PB-LLM取得了顯著的性能提升,為Transformer的內(nèi)存消耗和計算復(fù)雜度提供了有效的解決方案。這是學(xué)術(shù)界首次探索對Transformer權(quán)重數(shù)值二值化的工作。

后摩智能的技術(shù)優(yōu)勢:突破性內(nèi)存計算技術(shù)驅(qū)動AI發(fā)展

后摩智能作為大算力存算一體領(lǐng)域的先行者,憑借著RPTQ和PB-LLM等創(chuàng)新性量化方法的提出,取得了在大型語言模型中實現(xiàn)極端低位量化的突破。同時,后摩智能團隊在內(nèi)存計算領(lǐng)域擁有深厚的研究實力和豐富的實踐經(jīng)驗,與行業(yè)內(nèi)多家頂尖機構(gòu)展開了廣泛的合作。這使得后摩智能得以不斷推動內(nèi)存計算技術(shù)的發(fā)展,為人工智能技術(shù)的應(yīng)用提供了更多創(chuàng)新性解決方案。

總的來說,后摩智能的RPTQ和PB-LLM等突破性量化方法為解決大型語言模型部署中的內(nèi)存消耗和計算復(fù)雜度問題提供了有效的解決方案。隨著內(nèi)存計算技術(shù)的不斷演進,后摩智能將繼續(xù)致力于推動人工智能技術(shù)的發(fā)展,實現(xiàn)萬物智能的愿景。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1814

    文章

    49967

    瀏覽量

    263731
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14628
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    344

    瀏覽量

    1296

原文標題:后摩前沿 | Transformer 壓縮部署的前沿技術(shù):RPTQ與PB-LLM

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    聲智科技受邀赴奧迪總部開展前沿技術(shù)交流

    近日,聲智科技受奧迪邀請前往德國英戈爾施塔特,在奧迪全球總部開展“Minds & Makers”主題的前沿技術(shù)交流與合作探討。過程中,聲智圍繞聲學(xué) AI 技術(shù)的三大核心能力“聲學(xué)感知、聲學(xué)
    的頭像 發(fā)表于 12-22 13:51 ?416次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    ,TensorRT LLM 還承擔(dān)著推理領(lǐng)域新技術(shù)載體的角色,通過將前沿創(chuàng)新引入 LLM 推理生態(tài),持續(xù)提升整個生態(tài)系統(tǒng)合作伙伴的技術(shù)能力。
    的頭像 發(fā)表于 10-21 11:04 ?1017次閱讀

    米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    話:基于歷史回答圖中女孩頭發(fā)和衣服分別是什么顏色 上一次我們詳細講解在RK3576上部署多模態(tài)模型的案例,這次將繼續(xù)講解多輪對話的部署流程。整體流程基于 rknn-llm 里的多輪對話案例[1
    發(fā)表于 09-05 17:25

    Google Cloud展示一系列前沿技術(shù)更新

    在 2025 Google 谷歌開發(fā)者大會上,Google Cloud 展示了一系列前沿技術(shù)更新——不僅是模型升級,更是智能體、創(chuàng)意、行業(yè)應(yīng)用的全面進化。這些前沿技術(shù),正為出海開發(fā)者提供強大的技術(shù)支撐,助力他們打造面向全球用戶的
    的頭像 發(fā)表于 08-29 09:38 ?1051次閱讀

    喜報 | 中科億海微獲批2025年度省前沿技術(shù)研發(fā)計劃項目

    中科億海微獲批2025年度省前沿技術(shù)研發(fā)計劃項目近日,江蘇省科學(xué)技術(shù)廳發(fā)布《2025年度省前沿技術(shù)研發(fā)計劃擬立項目公示》,由中科億海微電子科技(蘇州)有限公司(以下簡稱中科億海微)牽頭申報的“面向
    的頭像 發(fā)表于 08-04 19:24 ?1139次閱讀
    喜報 | 中科億海微獲批2025年度省<b class='flag-5'>前沿技術(shù)</b>研發(fā)計劃項目

    聲智科技與螞蟻集團共探聲學(xué)AI前沿技術(shù)

    當聲學(xué)AI遇上金融科技,會碰撞出怎樣的火花?當聲學(xué)AI模型賦能AI硬件產(chǎn)品,又將如何重塑人機交互的邊界?近日,聲智科技受邀參加螞蟻集團《AI圓桌派》內(nèi)部分享會,一場關(guān)于聲學(xué)AI前沿技術(shù)與未來應(yīng)用的深度對話就此展開。
    的頭像 發(fā)表于 07-24 10:18 ?943次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署
    的頭像 發(fā)表于 07-04 14:38 ?1989次閱讀

    MediaTek前沿技術(shù)開啟智能化未來

    為了搞定越來越龐大的 AI 運算需求,MediaTek 憑借先進制程解決方案、高速芯片互聯(lián)接口、采用先進封裝技術(shù),以及客制化高帶寬內(nèi)存(HBM)整合方案等,讓前沿技術(shù)的商業(yè)化落地成為可能。此外
    的頭像 發(fā)表于 06-25 16:09 ?929次閱讀

    天合光能亮相第十八屆全球光伏前沿技術(shù)大會

    近日,第十八屆全球光伏前沿技術(shù)大會在上海開幕。天合光能戰(zhàn)略、產(chǎn)品與市場負責(zé)人張映斌博士受邀發(fā)表主題演講并倡導(dǎo):隨著背面發(fā)電技術(shù)的進步,光伏行業(yè)應(yīng)與時俱進、全面升級以組件綜合效率及綜合發(fā)電為核心指標的評價新體系。
    的頭像 發(fā)表于 06-16 10:47 ?878次閱讀

    青銅劍技術(shù)亮相第九屆電氣化交通前沿技術(shù)論壇

    此前,5月22-24日,第九屆電氣化交通前沿技術(shù)論壇在秦皇島成功舉辦。青銅劍技術(shù)攜功率器件驅(qū)動整體解決方案精彩亮相,全面展示了公司在驅(qū)動領(lǐng)域的技術(shù)優(yōu)勢與創(chuàng)新成果,成為現(xiàn)場關(guān)注的焦點。
    的頭像 發(fā)表于 05-28 18:10 ?945次閱讀

    MediaTek新一代前沿技術(shù)亮相COMPUTEX 2025

    計算的新一代前沿技術(shù);MediaTek 副董事長暨執(zhí)行長蔡力行博士于 5 月 20 日發(fā)表主題演講,深入探討 AI、6G、邊緣計算、云計算在數(shù)字化轉(zhuǎn)型浪潮中所扮演的角色,并展現(xiàn) MediaTek 將無處不在的智慧融合運算帶給全球用戶的企業(yè)愿景。
    的頭像 發(fā)表于 05-23 09:32 ?838次閱讀

    基于先進MCU的機器人運動控制系統(tǒng)設(shè)計:理論、實踐與前沿技術(shù)

    摘要 :隨著機器人技術(shù)的飛速發(fā)展,對運動控制系統(tǒng)的性能要求日益嚴苛。本文聚焦于基于先進MCU(微控制單元)的機器人運動控制系統(tǒng)設(shè)計,深入剖析其理論基礎(chǔ)、實踐方法與前沿技術(shù)。以國科安芯的MCU芯片
    的頭像 發(fā)表于 04-27 10:58 ?822次閱讀

    MediaTek在MWC 2025展示前沿技術(shù)

    MediaTek 在 MWC 2025 上展示了超多領(lǐng)域的前沿技術(shù),讓我們一起來回顧一下吧!
    的頭像 發(fā)表于 04-08 14:43 ?950次閱讀

    【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試

    Python API 在開發(fā)板上進行部署。 在官方提供的示例程序框架下,僅需要完成模型訓(xùn)練和模型轉(zhuǎn)換(模型轉(zhuǎn)換可參考 rknn-llm 倉庫下 rknn-llm/examples
    發(fā)表于 03-21 19:31

    《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫

    繼續(xù)學(xué)習(xí)迪哥的AI Agent入門引導(dǎo)書籍。 LLM在落地應(yīng)用中面臨著專業(yè)領(lǐng)域表現(xiàn)不足、知識更新困難、容易產(chǎn)生\"幻覺\"等問題,這些挑戰(zhàn)嚴重制約了AI技術(shù)在各行業(yè)的深入
    發(fā)表于 03-07 19:49