chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ERNIE 3.0 Tiny新模型,壓縮部署“小”“快”“靈”!歡迎在 NGC 飛槳容器中體驗 PaddleNLP 最新版本

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 2023-02-22 07:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

PaddleNLP 又帶著新功能和大家見面了。本次更新,為大家?guī)?strong>文心 ERNIE 3.0 Tiny 輕量級模型,刷新了中文小模型的 SOTA 成績;通過模型裁剪、量化感知訓練、Embedding 量化等壓縮方案,能夠進一步提升模型推理速度、降低模型大小、顯存占用。歡迎廣大開發(fā)者使用 NVIDIA 與飛槳聯合深度適配的 NGC 飛槳容器,在 NVIDIA GPU 上體驗 ERNIE 3.0 Tiny。

ERNIE 3.0 Tiny 與配套壓縮部署方案介紹

ERNIE 3.0 Tiny

近年來,隨著深度學習技術的迅速發(fā)展,大規(guī)模預訓練范式通過一次又一次刷新各種評測基線證明了其卓越的學習與遷移能力。在這個過程中,研究者們發(fā)現通過不斷地擴大模型參數便能持續(xù)提升深度學習模型的威力。然而,參數的指數級增長意味著模型體積增大、所需計算資源增多、計算耗時更長,而這無論出于業(yè)務線上響應效率的要求還是機器資源預算問題,都給大模型落地帶來了極大的挑戰(zhàn)。

如何選擇最優(yōu)模型?如何在保證效果的前提下壓縮模型?如何適配 GPU、CPU 等多硬件的加速?如何在低資源場景下落地大模型?如何讓加速工具觸手可及?這是行業(yè)內亟待解決的課題。2022 年 6 月,文心大模型中的輕量化技術加持的多個文心 ERNIE 3.0 Tiny 輕量級模型(下文簡稱文心 ERNIE 3.0 Tiny v1)開源至飛槳自然語言處理模型庫 PaddleNLP 中,該模型刷新了中文小模型的 SOTA 成績,配套模型動態(tài)裁剪和量化推理方案,被學術與工業(yè)界廣泛使用。

108c16ea-b239-11ed-bfe3-dac502259ad0.png

圖:GPU 下 ERNIE 3.0 Tiny 輕量級模型時延與效果圖

圖中,越偏左上方的模型越優(yōu)秀,可以看到 ERNIE 3.0 輕量級模型在同等規(guī)模的開源模型中,綜合實力領先其他同類型輕量級模型。與 RoBERTa-Base 相比,12L768H 的 ERNIE 3.0-Base 平均精度絕對提升了 1.9 個點,比同等規(guī)模的 BERT-Base-Chinese 提升 3.5 個點;6L768H 的 ERNIE 3.0-Medium 相比 12L768H 的 UER/Chinese-RoBERTa ,在節(jié)省一倍運算時間基礎上,獲得比兩倍大的 RoBERTa 更好的效果。

近日,文心 ERNIE 3.0 Tiny 升級版–––文心 ERNIE 3.0 Tiny v2 也開源了!相較于 v1,文心 ERNIE 3.0 Tiny v2 在 Out-domain(域外數據)、Low-resource(小樣本數據)的下游任務上精度顯著提升,并且 v2 還開源了 3L128H 結構,5.99M 參數量的小模型,更適用于低資源場景。

10a4a160-b239-11ed-bfe3-dac502259ad0.png

表:ERNIE 3.0 Tiny v2 效果更優(yōu)

文心 ERNIE 3.0 Tiny v2 包含一系列不同尺寸的中文預訓練模型,方便不同性能需求的應用場景使用:

  • 文心ERNIE 3.0 Tiny-Base-v2(12-layer, 768-hidden, 12-heads)

  • 文心ERNIE 3.0 Tiny-Medium-v2(6-layer, 768-hidden, 12-heads)

  • 文心ERNIE 3.0 Tiny-Mini-v2(6-layer, 384-hidden, 12-heads)

  • 文心ERNIE 3.0 Tiny-Micro-v2(4-layer, 384-hidden, 12-heads)

  • 文心ERNIE 3.0 Tiny-Nano-v2(4-layer, 312-hidden, 12-heads)

  • 文心ERNIE 3.0 Tiny-Pico-v2(3-layer, 128-hidden, 2-heads)

除以上中文模型外,本次還發(fā)布了英文版文心 ERNIE 3.0 Tiny-Mini-v2,適用于各類英文任務。

在 PaddleNLP 中,可一鍵加載以上模型。

10f8e1e4-b239-11ed-bfe3-dac502259ad0.png

開源地址:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-tiny

語義理解模型壓縮、部署方案

由文心大模型蒸餾得到的文心 ERNIE 3.0 Tiny v2 可以直接在下游任務上微調應用,如果想要進一步壓縮模型體積,降低推理時延,可使用 PaddleNLP 開源的語義理解模型壓縮、部署方案。

結合飛槳模型壓縮工具 PaddleSlim,PaddleNLP 發(fā)布了語義理解壓縮、部署方案,包含裁剪、量化級聯壓縮,如下圖所示:

1132a460-b239-11ed-bfe3-dac502259ad0.png

以上各類壓縮策略以及對應的推理功能如果從零實現非常復雜,飛槳模型壓縮工具庫 PaddleSlim 和飛槳高性能深度學習端側推理引擎 Paddle Lite 提供了一系列壓縮、推理工具鏈。飛槳 AI 推理部署工具 FastDeploy 對其進一步封裝,使開發(fā)者可以通過更簡單的 API 去實現模型壓縮、推理部署流程,適配多領域模型,并兼容多硬件。PaddleNLP 依托以上工具,提供 NLP 模型數據處理、訓練、壓縮、部署全流程的最佳實踐。

基于 PaddleNLP 提供的的模型壓縮 API,可大幅降低開發(fā)成本。壓縮 API 支持對 ERNIE、BERT 等 transformer 類下游任務微調模型進行裁剪和量化。只需要簡單地調用 compress()即可一鍵啟動裁剪量化流程,并自動保存壓縮后的模型。

1147773c-b239-11ed-bfe3-dac502259ad0.png

下面會對壓縮方案(詞表裁剪、模型寬度裁剪、量化感知訓練、詞表量化)與部署工具進行介紹。

詞表裁剪

ERNIE 3.0 Tiny 預訓練模型的詞表參數量在總參數量中占比很大。在內存有限的場景下,推薦在下游任務微調之前,按照詞頻對詞表進行裁剪,去除出現頻次較低的詞,這樣能夠減少分詞后 [UNK] 的出現,使精度得到最大限度保持。例如,某數據集 4w 大小的詞表,高頻出現的詞不到 1w 個,此時通過詞表裁剪可以節(jié)省不少內存。

模型寬度裁剪

基于 DynaBERT 寬度自適應裁剪策略,通過知識蒸餾的方法,在下游任務中將 ERNIE 3.0 Tiny 的知識遷移到寬度更窄的學生網絡中,最后得到效果與教師模型接近的學生模型。一般來說,對于 4 到 6 層的 NLU 模型,寬度裁剪 1/4 可基本保證精度無損。

量化感知訓練

模型量化是一種通過將訓練好的模型參數、激活值從 FP32 浮點數轉換成 INT8 整數來減小存儲、加快計算速度、降低功耗的模型壓縮方法。目前主要有兩種量化方法:

? 靜態(tài)離線量化:使用少量校準數據計算量化信息,可快速得到量化模型;

? 量化感知訓練:在模型中插入量化、反量化算子并進行訓練,使模型在訓練中學習到量化信息 。

11689de0-b239-11ed-bfe3-dac502259ad0.png

圖:量化感知訓練 vs 離線量化

在對 ERNIE 3.0 Tiny 的壓縮中,更推薦使用量化感知訓練的方式。通常情況下,使用量化感知訓練的方法能夠比使用靜態(tài)離線量化取得更高的精度。這是因為在量化感知訓練之前,壓縮 API 在模型的矩陣乘算子前插入量化、反量化算子,使量化帶來的誤差可以在訓練過程中被建模和優(yōu)化,能夠使模型被量化后精度基本無損。

Embedding 量化

為了能進一步節(jié)省顯存占用,可對模型的 Embedding 權重進行 INT8量化,并將精度的損失保持在 0.5%之內。

部署

模型壓縮后,精度基本無損。到此,算法側的工作基本完成。為了進一步降低部署難度,可以使用飛槳 FastDeploy 對模型進行部署。

FastDeploy 是一款全場景、易用靈活、極致高效的 AI 推理部署工具,提供開箱即用的部署體驗。FastDeploy 為 NLP 任務提供了一整套完整的部署 Pipeline,提供文心 ERNIE 3.0 Tiny 模型從文本預處理、推理引擎 Runtime 以及后處理三個階段所需要的接口模塊,開發(fā)者可以基于這些接口模塊在云、邊、端上部署各類常見的 NLP 任務,如文本分類、序列標注、信息抽取等。

FastDeploy 中的 Paddle Lite 后端基于算子融合和常量折疊對深度模型進行優(yōu)化,無縫銜接了 Paddle Lite 的 FP16 和 INT8 的推理能力,可使模型推理速度大幅提升。其集成的高性能 NLP 處理庫 FastTokenizer(視覺領域集成了高性能 AI 處理庫 FlyCV),能夠對分詞階段進行加速,適配 GPU、CPU 等多硬件。

FastDeploy 項目地址:https://github.com/PaddlePaddle/FastDeploy

文心大模型

隨著數據井噴、算法進步和算力突破,效果好、泛化能力強、通用性強的預訓練大模型(以下簡稱“大模型”),成為人工智能發(fā)展的關鍵方向與人工智能產業(yè)應用的基礎底座。

百度文心大模型源于產業(yè)、服務于產業(yè),是產業(yè)級知識增強大模型。百度通過大模型與國產深度學習框架融合發(fā)展,打造了自主創(chuàng)新的 AI 底座,大幅降低了 AI 開發(fā)和應用的門檻,滿足真實場景中的應用需求,真正發(fā)揮大模型驅動 AI 規(guī)模化應用的產業(yè)價值。

119a7bee-b239-11ed-bfe3-dac502259ad0.png

文心大模型包含基礎通用大模型及面向重點領域和重點任務的大模型,同時有豐富的工具與平臺支撐高效便捷的應用開發(fā)。學習效率高,可解釋性好,大幅降低AI開發(fā)與應用門檻。

從技術研發(fā)到落地應用,大模型的發(fā)展已經進入產業(yè)落地的關鍵期,歡迎前往文心大模型官網了解詳情:https://wenxin.baidu.com/。也歡迎使用NGC,體驗文心大模型。

加入 PaddleNLP 技術交流群,體驗 NVIDIA NGC + PaddleNLP

入群方式:微信掃描下方二維碼,關注公眾號,填寫問卷后進入微信群隨時進行技術交流。

11e3bd86-b239-11ed-bfe3-dac502259ad0.jpg ?

NGC 飛槳容器介紹

如果您希望體驗 PaddleNLP 的新特性,歡迎使用 NGC 飛槳容器。NVIDIA 與百度飛槳聯合開發(fā)了 NGC 飛槳容器,將最新版本的飛槳與最新的NVIDIA的軟件棧(如CUDA)進行了無縫的集成與性能優(yōu)化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計算能力。這樣,用戶不僅可以快速開啟 AI 應用,專注于創(chuàng)新和應用本身,還能夠在 AI 訓練和推理任務上獲得飛槳+NVIDIA 帶來的飛速體驗。

最佳的開發(fā)環(huán)境搭建工具 - 容器技術

  1. 容器其實是一個開箱即用的服務器。極大降低了深度學習開發(fā)環(huán)境的搭建難度。例如你的開發(fā)環(huán)境中包含其他依賴進程(redis,MySQL,Ngnix,selenium-hub等等),或者你需要進行跨操作系統(tǒng)級別的遷移

  2. 容器鏡像方便了開發(fā)者的版本化管理

  3. 容器鏡像是一種易于復現的開發(fā)環(huán)境載體

  4. 容器技術支持多容器同時運行

11fce748-b239-11ed-bfe3-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飛槳容器針對 NVIDIA GPU 加速進行了優(yōu)化,并包含一組經過驗證的庫,可啟用和優(yōu)化 NVIDIA GPU 性能。此容器還可能包含對 PaddlePaddle 源代碼的修改,以最大限度地提高性能和兼容性。此容器還包含用于加速 ETL (DALI, RAPIDS),、訓練(cuDNN, NCCL)和推理(TensorRT)工作負載的軟件。

PaddlePaddle 容器具有以下優(yōu)點:

  1. 適配最新版本的 NVIDIA 軟件棧(例如最新版本CUDA),更多功能,更高性能

  2. 更新的 Ubuntu 操作系統(tǒng),更好的軟件兼容性

  3. 按月更新

  4. 滿足 NVIDIA NGC 開發(fā)及驗證規(guī)范,質量管理

通過飛槳官網快速獲取

121200f6-b239-11ed-bfe3-dac502259ad0.png

環(huán)境準備

使用 NGC 飛槳容器需要主機系統(tǒng)(Linux)安裝以下內容:

  • Docker 引擎

  • NVIDIA GPU 驅動程序

  • NVIDIA 容器工具包

有關支持的版本,請參閱 NVIDIA 框架容器支持矩陣 和 NVIDIA 容器工具包文檔。

不需要其他安裝、編譯或依賴管理。無需安裝 NVIDIA CUDA Toolkit。

NGC 飛槳容器正式安裝:

要運行容器,請按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container一章中的說明發(fā)出適當的命令,并指定注冊表、存儲庫和標簽。有關使用 NGC 的更多信息,請參閱 NGC 容器用戶指南。如果您有 Docker 19.03 或更高版本,啟動容器的典型命令是:

dockerrun--gpusall--shm-size=1g--ulimitmemlock=-1-it--rm
nvcr.io/nvidia/paddlepaddle:22.08-py3

*詳細安裝介紹 《NGC 飛槳容器安裝指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*詳細產品介紹視頻

【飛槳開發(fā)者說|NGC飛槳容器全新上線 NVIDIA產品專家全面解讀】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82

飛槳與 NVIDIA NGC 合作介紹

NVIDIA 非常重視中國市場,特別關注中國的生態(tài)伙伴,而當前飛槳擁有超過 535 萬的開發(fā)者。在過去五年里我們緊密合作,深度融合,做了大量適配工作,如下圖所示。

12452b52-b239-11ed-bfe3-dac502259ad0.png

今年,我們將飛槳列為 NVIDIA 全球前三的深度學習框架合作伙伴。我們在中國已經設立了專門的工程團隊支持,賦能飛槳生態(tài)。

為了讓更多的開發(fā)者能用上基于 NVIDIA 最新的高性能硬件和軟件棧。當前,我們正在進行全新一代 NVIDIA GPU H100 的適配工作,以及提高飛槳對 CUDA Operation API 的使用率,讓飛槳的開發(fā)者擁有優(yōu)秀的用戶體驗及極致性能。

以上的各種適配,僅僅是讓飛槳的開發(fā)者擁有高性能的推理訓練成為可能。但是,這些離行業(yè)開發(fā)者還很遠,門檻還很高,難度還很大。

為此,我們將剛剛這些集成和優(yōu)化工作,整合到三大產品線中。其中 NGC 飛槳容器最為閃亮。

NVIDIA NGC Container – 最佳的飛槳開發(fā)環(huán)境,集成最新的 NVIDIA 工具包(例如 CUDA)

126a6b06-b239-11ed-bfe3-dac502259ad0.png

12a4463c-b239-11ed-bfe3-dac502259ad0.png

點擊 “閱讀原文” 或掃描下方海報二維碼,即可免費注冊 GTC23,在 3 月 24 日 聽 OpenAI 聯合創(chuàng)始人與 NVIDIA 創(chuàng)始人的爐邊談話,會議將由 NVIDIA 專家主持,配中文講解和實時答疑,一起看 AI 的現狀和未來!


原文標題:ERNIE 3.0 Tiny新模型,壓縮部署“小”“快”“靈”!歡迎在 NGC 飛槳容器中體驗 PaddleNLP 最新版本

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4068

    瀏覽量

    98457

原文標題:ERNIE 3.0 Tiny新模型,壓縮部署“小”“快”“靈”!歡迎在 NGC 飛槳容器中體驗 PaddleNLP 最新版本

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何使用新版本J-Flash編程CW32 MCU

    1、從Segger公司官網下載安裝最新版本JLink驅動,比如V7.96a,安裝目錄下沒有JLinkDevices.xml文件。 2、C:Users<用戶名>
    發(fā)表于 11-12 07:24

    最新版本qemu編譯不過怎么解決?

    最新版源碼 qemu-vexpress-a9編譯不過了。提示RT_PAGE_AFFINITY_BLOCK_SIZE 未定義
    發(fā)表于 09-24 07:20

    深瞳視覺基礎模型Glint-MVT升級

    近日,格深瞳靈感實驗室和華為倫敦研究所發(fā)布最新版視覺基礎模型——Glint-MVT v1.5(RICE)。
    的頭像 發(fā)表于 07-31 11:01 ?1371次閱讀
    格<b class='flag-5'>靈</b>深瞳視覺基礎<b class='flag-5'>模型</b>Glint-MVT升級

    戴爾數據保護軟件迎來全新版本

    無縫運行的異常檢測,一站式監(jiān)控多達150個系統(tǒng),額外的MFA多重身份驗證Dell PowerProtect Data Manager19.19全新版本現已到來!
    的頭像 發(fā)表于 06-27 13:55 ?837次閱讀

    軟件更新 | 從數據到模型,全面升級!TSMaster新版助力汽車研發(fā)新突破

    為滿足汽車電子開發(fā)領域日益增長的測試與仿真需求,TSMaster最新版本聚焦實車數據采集、MBD智能建模與新API擴展三大核心功能。無論您是進行車載網絡測試、ECU開發(fā)還是自動化驗證,新版本都能
    的頭像 發(fā)表于 06-21 20:04 ?1236次閱讀
    軟件更新 | 從數據到<b class='flag-5'>模型</b>,全面升級!TSMaster<b class='flag-5'>新版</b>助力汽車研發(fā)新突破

    網絡傳輸利器索尼NXL-ME80 V1.2新版本發(fā)布

    網絡傳輸利器NXL-ME80,憑借著高畫質、高壓縮比、低延時、高密度輕巧機箱,高冗余能力,一經上市就收到全球客戶的大量好評。基于用戶反饋和市場需求,NXL-ME80新版本V1.2強勢來襲,必將為使用者帶來更好的體驗。
    的頭像 發(fā)表于 04-23 14:37 ?1004次閱讀
    網絡傳輸利器索尼NXL-ME80 V1.2<b class='flag-5'>新版本</b>發(fā)布

    燧原科技正式納入例行版本發(fā)布體系

    燧原科技與經過長時間的適配合作和持續(xù)集成(CI)建設,對合?的每?行代碼都在燧原硬件上進?了驗證。如今,燧原正式納入
    的頭像 發(fā)表于 04-11 11:31 ?965次閱讀
    燧原科技正式納入<b class='flag-5'>飛</b><b class='flag-5'>槳</b>例行<b class='flag-5'>版本</b>發(fā)布體系

    百度框架3.0正式版發(fā)布

    、推理等任務都離不開深度學習框架的優(yōu)化與支撐。 框架3.0,從設計理念上實現了從底層硬件適配到頂層開發(fā)體驗的全面進化,訓練效率、性能、兼容性等關鍵指標上建立了新標桿。 其中, “
    的頭像 發(fā)表于 04-02 19:03 ?1110次閱讀
    百度<b class='flag-5'>飛</b><b class='flag-5'>槳</b>框架<b class='flag-5'>3.0</b>正式版發(fā)布

    使用Mickledore生成BSP,移動到最新版本的Scarthgap v6.6.52時,驅動程序未構建,怎么解決?

    當我使用 Mickledore 生成 BSP 時,moal.ko WIFI 驅動程序是自動構建的,并且位于 /lib/modules/ 中,并且 WIFI 可以正常工作。 當我移動到最新版本
    發(fā)表于 03-27 06:49

    keil不同版本,有的文件新版本上報錯怎么辦?要裝兩個版本一起用?

    有的文件新版本上報錯怎么辦?要裝兩個版本一起用?
    發(fā)表于 03-10 07:05

    win7 64位系統(tǒng)STM32CubeMX安裝完成后數據包無法升級到最新版本,怎么解決?

    win7 64位系統(tǒng) STM32CubeMX安裝完成后數據包無法安裝,安裝較低版本后又無法升級到最新版本,這個界面出現閃退,無法輸入用戶名和密碼,導致無法升級。也試過下載STM32Cube FW
    發(fā)表于 03-10 07:04

    Power Integrations發(fā)布MotorXpert? v3.0軟件

    近日,加利福尼亞州圣何塞——專注于高壓集成電路高能效功率變換領域的領先企業(yè)Power Integrations(納斯達克股票代號:POWI)今日宣布,其最新版本的MotorXpert?軟件
    的頭像 發(fā)表于 02-19 18:10 ?1174次閱讀

    如何在C#中部署PP-OCRv4模型

    《超4萬6千星的開源OCR黑馬登場,PaddleOCR憑什么脫穎而出?》收到了讀者熱烈反響c,很多讀者提出:如何在C#中部署PP-OCRv4模型?本文從零開始詳細介紹整個過程。
    的頭像 發(fā)表于 02-17 10:58 ?2871次閱讀
    如何在C#中<b class='flag-5'>部署</b><b class='flag-5'>飛</b><b class='flag-5'>槳</b>PP-OCRv4<b class='flag-5'>模型</b>

    使用OpenVINO C# API輕松部署PP-OCRv4模型

    ? 作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《超4萬6千星的開源OCR黑馬登場,PaddleOCR憑什么脫穎而出?》 收到了讀者熱烈反響,很多讀者提出:如何在C#中部署PP-OCRv4
    的頭像 發(fā)表于 02-12 10:42 ?2186次閱讀
    使用OpenVINO C# API輕松<b class='flag-5'>部署</b><b class='flag-5'>飛</b><b class='flag-5'>槳</b>PP-OCRv4<b class='flag-5'>模型</b>

    新版本 IDE 的啟動速度變快了?原來是背后做了這些!

    新版本 IntelliJ IDEA 中為提高性能而采取的措施,這些措施縮短了代碼可交互時間并使 IDE 從啟動開始就具有更高的響應速度。
    的頭像 發(fā)表于 01-24 13:49 ?873次閱讀
    <b class='flag-5'>新版本</b> IDE 的啟動速度變快了?原來是<b class='flag-5'>在</b>背后做了這些!