chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在英特爾? 平臺(tái)上實(shí)現(xiàn)高效的大語(yǔ)言模型訓(xùn)練后量化

英特爾中國(guó) ? 來(lái)源:未知 ? 2023-07-14 20:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文介紹了可提升大語(yǔ)言模型的訓(xùn)練后量化表現(xiàn)的增強(qiáng)型 SmoothQuant 技術(shù),說(shuō)明了這項(xiàng)技術(shù)的用法,并證明了其在準(zhǔn)確率方面的優(yōu)勢(shì)。此方法已整合至英特爾Neural Compressor1中。英特爾 Neural Compressor 是一個(gè)包含量化、剪枝(稀疏性)、蒸餾(知識(shí)提煉)和神經(jīng)架構(gòu)搜索等多種常用模型壓縮技術(shù)的開(kāi)源 Python 庫(kù)。目前,諸如 TensorFlow、英特爾Extension for TensorFlow2、PyTorch、英特爾Extension for PyTorch3、ONNX Runtime 和 MXNet等主流框架,都能與之兼容。

英特爾 Neural Compressor已經(jīng)支持多款英特爾架構(gòu)的硬件,比如英特爾至強(qiáng)可擴(kuò)展處理器4、英特爾至強(qiáng)CPU Max 系列5、英特爾數(shù)據(jù)中心GPU Flex 系列6英特爾數(shù)據(jù)中心 GPU Max 系列7。本文涉及的實(shí)驗(yàn)基于第四代英特至強(qiáng)可擴(kuò)展處理器8進(jìn)行。

ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語(yǔ)言模型

大語(yǔ)言模型 (Large Language Model, LLM) 需基于海量數(shù)據(jù)集進(jìn)行訓(xùn)練,可能擁有數(shù)十億權(quán)重參數(shù)。其先進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)和龐大的參數(shù)量,使它們能夠很好地應(yīng)對(duì)自然語(yǔ)言本身的復(fù)雜性。完成訓(xùn)練后的大語(yǔ)言模型,可針對(duì)各種下游的自然語(yǔ)言處理 (NLP) 和自然語(yǔ)言生成 (NLG) 任務(wù)進(jìn)行調(diào)優(yōu),讓其更適合對(duì)話式聊天機(jī)器人(如 ChatGPT)、機(jī)器翻譯、文本分類、欺詐檢測(cè)和情感分析等任務(wù)場(chǎng)景。

ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語(yǔ)言模型部署面臨的挑戰(zhàn)

大語(yǔ)言模型在執(zhí)行自然語(yǔ)言處理和自然語(yǔ)言生成任務(wù)方面表現(xiàn)出色,但其訓(xùn)練和部署頗為復(fù)雜,主要面臨以下挑戰(zhàn):

AI 與內(nèi)存墻9瓶頸問(wèn)題:算力每?jī)赡晏岣?3.1 倍,內(nèi)存帶寬卻只提高 1.4 倍;

網(wǎng)絡(luò)帶寬挑戰(zhàn):訓(xùn)練大語(yǔ)言模型需要采用分布式系統(tǒng),這對(duì)網(wǎng)絡(luò)帶寬提出了較高要求;

系統(tǒng)資源有限:訓(xùn)練后的模型往往會(huì)部署在算力和內(nèi)存資源均有限的系統(tǒng)上。

因此,采用訓(xùn)練后量化的方法來(lái)為大語(yǔ)言模型瘦身,對(duì)于實(shí)現(xiàn)低時(shí)延推理至關(guān)重要。 ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語(yǔ)言模型的量化

量化是一種常見(jiàn)的壓縮操作,可以減少模型占用的內(nèi)存空間,提高推理性能。采用量化方法可以降低大語(yǔ)言模型部署的難度。具體來(lái)說(shuō),量化是將浮點(diǎn)矩陣轉(zhuǎn)換為整數(shù)矩陣:

cd413ca0-223e-11ee-962d-dac502259ad0.png

其中 X_fp32、S 和 Z 分別為輸入矩陣、比例因子和整數(shù)零點(diǎn)。有關(guān)每通道 (per-channel) 量化策略雖然可能會(huì)減少量化損失,但不能用于激活值量化的原因,請(qǐng)參看 SmoothQuant 相關(guān)文檔10。不過(guò),激活值量化誤差損失卻是導(dǎo)致模型量化準(zhǔn)確率下降的重要因素。為此,人們提出了很多方法來(lái)降低激活值量化損失,例如:SPIQ11、OutlierSuppression12SmoothQuant13。這三種方法思路相似,即把激活值量化的難度轉(zhuǎn)移到權(quán)重量化上,只是三者在轉(zhuǎn)移難度的多少上有所不同。ccecbb12-223e-11ee-962d-dac502259ad0.gif ?增強(qiáng)型 SmoothQuant SmoothQuant 引入了一個(gè)超參數(shù) α 作為平滑因子來(lái)計(jì)算每個(gè)通道的量化比例因子,并平衡激活值和權(quán)重的量化難度。

cd6edc14-223e-11ee-962d-dac502259ad0.png

其中 j 是輸入通道索引。

cd856470-223e-11ee-962d-dac502259ad0.png

對(duì)于OPT 和 BLOOM 等大多數(shù)模型來(lái)說(shuō),α=0.5 是一個(gè)能夠較好實(shí)現(xiàn)權(quán)重和激活值量化難度分割的平衡值。模型的激活異常值越大,就越需要使用更大的 α 值來(lái)將更多的量化難度轉(zhuǎn)移到權(quán)重上。原始的 SmoothQuant 旨在通過(guò)針對(duì)整個(gè)模型使用一個(gè)固定值 α 來(lái)分割權(quán)重和激活值的量化難度。然而,由于激活異常值的分布不僅在不同模型之間存在差異,而且在同一模型的不同層之間也不盡相同,因此,本文推薦使用英特爾 Neural Compressor 的自動(dòng)調(diào)優(yōu)能力,逐層獲取最佳 α 值。

相關(guān)方法包括以下五個(gè)主要步驟(偽代碼如下所示):

  1. 通過(guò)特殊的回調(diào)函數(shù) register_forward_hook 捕獲 (hook) 模型各層的輸入和輸出值。

  2. 根據(jù)用戶定義的 α 范圍和步長(zhǎng)生成一個(gè) α 值列表。

  3. 根據(jù)給定的 α 值重新計(jì)算平滑因子并調(diào)整參數(shù)(權(quán)重值和激活值)。

  4. 對(duì)權(quán)重執(zhí)行每通道量化與反量化 (quantization_dequantization),對(duì)輸入值執(zhí)行每張量 (per-tensor) 量化與反量化,以預(yù)測(cè)與給定 α 值對(duì)應(yīng)的每層輸出值。

  5. 計(jì)算相對(duì)實(shí)際輸出值的均方損失,將調(diào)整后的參數(shù)恢復(fù)回來(lái),并保存每層的最佳 α 值。

cdad2884-223e-11ee-962d-dac502259ad0.png

本文提出的方法支持用多個(gè)標(biāo)準(zhǔn)(如最小值、最大值和平均值)來(lái)確定 Transformer 塊的輸入層歸一化 (LayerNorm) 操作的 α 值。實(shí)驗(yàn)發(fā)現(xiàn),將 α 范圍設(shè)為 [0.3, 0.7],步長(zhǎng)設(shè)為 0.05,對(duì)大多數(shù)模型來(lái)說(shuō)都能達(dá)到很好的平衡。 這一方法有兩個(gè)顯著特點(diǎn):一是全自動(dòng)化,二是比原始方法支持的融合模式多。 下圖提供了在 BLOOM-1b7 模型上執(zhí)行 SmoothQuant α 值自動(dòng)調(diào)優(yōu)的樣例代碼: cdd25b40-223e-11ee-962d-dac502259ad0.png

啟用增強(qiáng)型 SmoothQuant 的樣例代碼

用戶只需傳遞一個(gè)模型名稱 (model_name) 和一個(gè)數(shù)據(jù)加載器。值得注意的是,模型分析主要依靠的是 Torch JIT。用戶可以在加載Hugging Face 模型14時(shí)將 torchscript 設(shè)置為 True,或?qū)?return_dict 設(shè)置為 False。更多信息請(qǐng)參閱英特爾Neural Compressor 文檔10。ccecbb12-223e-11ee-962d-dac502259ad0.gif ?

結(jié)果

本文提出的增強(qiáng)型 SmoothQuant 的主要優(yōu)勢(shì)在于提高了準(zhǔn)確率。 經(jīng)過(guò)對(duì)多種主流大語(yǔ)言模型的評(píng)估,具備自動(dòng)調(diào)優(yōu)能力的 INT8 SmoothQuant 最后一個(gè)詞元 (last-token) 的預(yù)測(cè)準(zhǔn)確率要高于原始 INT8 SmoothQuant 和 FP32 基線方法。詳見(jiàn)下圖: ce15bc50-223e-11ee-962d-dac502259ad0.png

FP32 基線方法、INT8(啟用和不啟用 SmoothQuant)以及 INT8(啟用本文提出的增強(qiáng)型 SmoothQuant)的準(zhǔn)確率對(duì)比

從上圖可以看出,在 OPT-1.3b 和 BLOOM-1b7 模型上,本文提出的增強(qiáng)型 SmoothQuant 的準(zhǔn)確率比默認(rèn)的 SmoothQuant 分別高 5.4% 和 1.6%。量化后的模型也縮小到 FP32 模型的四分之一,大大減少了內(nèi)存占用空間,從而有效地提升大模型在英特爾平臺(tái)上的推理性能。 更全面的結(jié)果請(qǐng)見(jiàn) GitHub 存儲(chǔ)庫(kù)10。同時(shí),也歡迎您創(chuàng)建拉取請(qǐng)求或就 GitHub 問(wèn)題15發(fā)表評(píng)論。期待聽(tīng)到您的反饋意見(jiàn)和建議。 作者

他們都在從事模型量化
及壓縮的研究與優(yōu)化工作

沈海豪英特爾公司人工智能資深架構(gòu)師 程文華英特爾公司人工智能資深軟件工程師 陸崟彤、何欣、郭恒、王暢、王夢(mèng)妮英特爾公司人工智能軟件工程師

注釋:

本文主要介紹在英特爾平臺(tái)上提升大語(yǔ)言模型的訓(xùn)練后量化表現(xiàn)的增強(qiáng)型SmoothQuant技術(shù),說(shuō)明了這項(xiàng)技術(shù)的用法,并證明了其在準(zhǔn)確率方面的優(yōu)勢(shì)。本文中列出的鏈接和資源。需要說(shuō)明的是,將SmoothQuant適配到英特爾平臺(tái)并實(shí)現(xiàn)它在英特爾平臺(tái)上的增強(qiáng),是英特爾的原創(chuàng)。

1.英特爾Neural Compressor

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/neural-compressor.html2.英特爾Extension for TensorFlowhttps://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-tensorflow.html3.英特爾Extension for PyTorchhttps://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-pytorch.html4.英特爾至強(qiáng)可擴(kuò)展處理器https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/scalable.html5.英特爾至強(qiáng)CPU Max 系列https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/max-series.html6.英特爾數(shù)據(jù)中心 GPU Flex 系列https://www.intel.cn/content/www/cn/zh/products/details/discrete-gpus/data-center-gpu/flex-series.html7.英特爾數(shù)據(jù)中心 GPU Max 系列https://www.intel.com/content/www/us/en/products/details/discrete-gpus/data-center-gpu/max-series.html8. 第四代英特爾至強(qiáng)可擴(kuò)展處理器https://www.intel.cn/content/www/cn/zh/events/accelerate-with-xeon.html9. AI 與內(nèi)存墻https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b810. SmoothQuant 相關(guān)文檔 /英特爾Neural Compressor 文檔 / GitHub 存儲(chǔ)庫(kù)https://github.com/intel/neural-compressor/blob/master/docs/source/smooth_quant.md11. SPIQhttps://arxiv.org/abs/2203.1464212. Outlier Suppressionhttps://arxiv.org/abs/2209.1332513. SmoothQuanthttps://arxiv.org/abs/2211.1043814. Hugging Face 模型https://huggingface.co/models15. GitHub 問(wèn)題https://github.com/intel/neural-compressor/issues

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10192

    瀏覽量

    174587
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11074

    瀏覽量

    216897

原文標(biāo)題:如何在英特爾? 平臺(tái)上實(shí)現(xiàn)高效的大語(yǔ)言模型訓(xùn)練后量化

文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    2.0.0版本的ST Edge AI Core在linux平臺(tái)上可以把量化的onnx模型轉(zhuǎn)換為.nb,但是運(yùn)行報(bào)錯(cuò),缺少文件,為什么?

    2.0.0版本的ST Edge AI Core工具在linux平臺(tái)上應(yīng)該是可以把量化的onnx模型轉(zhuǎn)換為.nb,但是運(yùn)行報(bào)錯(cuò),缺少文件。
    發(fā)表于 06-17 06:29

    高效更安全的商務(wù)會(huì)議:英特爾聯(lián)合海信推出會(huì)議領(lǐng)域新型垂域模型方案

    2025年4月16日,北京 ——在今日召開(kāi)的專業(yè)視聽(tīng)行業(yè)的年度盛會(huì)InfoComm China 2025上,英特爾攜手海信聯(lián)合發(fā)布海信自研端側(cè)會(huì)議領(lǐng)域垂域模型解決方案,助力商務(wù)會(huì)議更加安全、高效
    的頭像 發(fā)表于 04-21 09:50 ?196次閱讀
    更<b class='flag-5'>高效</b>更安全的商務(wù)會(huì)議:<b class='flag-5'>英特爾</b>聯(lián)合海信推出會(huì)議領(lǐng)域新型垂域<b class='flag-5'>模型</b>方案

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大
    的頭像 發(fā)表于 03-21 18:24 ?1604次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制預(yù)<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成INT8訓(xùn)練量化模型?

    無(wú)法確定是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成 INT8 訓(xùn)練量化模型。
    發(fā)表于 03-06 06:45

    請(qǐng)問(wèn)OpenVINO?工具套件英特爾?Distribution是否與Windows? 10物聯(lián)網(wǎng)企業(yè)版兼容?

    無(wú)法在基于 Windows? 10 物聯(lián)網(wǎng)企業(yè)版的目標(biāo)系統(tǒng)上使用 英特爾? Distribution OpenVINO? 2021* 版本推斷模型。
    發(fā)表于 03-05 08:32

    英特爾?NCS2運(yùn)行演示時(shí)“無(wú)法在啟動(dòng)找到啟動(dòng)設(shè)備”怎么解決?

    使用 英特爾? NCS2 運(yùn)行 推斷管道演示腳本 。 在首次嘗試中成功運(yùn)行演示應(yīng)用程序。 從第二次嘗試開(kāi)始遇到錯(cuò)誤:E: [ncAPI] [ 150951] [security_barrie
    發(fā)表于 03-05 06:48

    何在英特爾平臺(tái)上高效部署DeepSeek模型

    隨著人工智能技術(shù)的迅猛發(fā)展,大規(guī)模語(yǔ)言模型(LLMs)在自然語(yǔ)言處理、內(nèi)容生成和智能對(duì)話等領(lǐng)域的應(yīng)用日益廣泛。國(guó)產(chǎn) AI 大模型 DeepSeek 憑借其強(qiáng)大的生成能力和廣泛的應(yīng)用場(chǎng)景
    的頭像 發(fā)表于 02-21 10:16 ?1566次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>英特爾</b><b class='flag-5'>平臺(tái)上高效</b>部署DeepSeek<b class='flag-5'>模型</b>

    英特爾賦能DeepSeek本地運(yùn)行,助力汽車升級(jí)“最強(qiáng)大腦”

    英特爾近期宣布支持DeepSeek在本地實(shí)現(xiàn)高效運(yùn)行。據(jù)悉,借助英特爾的軟件定義汽車車載平臺(tái),DeepSeek-R1系列
    的頭像 發(fā)表于 02-17 09:37 ?698次閱讀

    英特爾與扣子云平臺(tái)合作推出AI PC Bot專區(qū)與端側(cè)插件商店

    近日,在2024年火山引擎FORCE原動(dòng)力大會(huì)的開(kāi)發(fā)者論壇硬件終端專場(chǎng)上,英特爾攜手扣子云平臺(tái)共同推出了行業(yè)首個(gè)端云協(xié)同智能體開(kāi)發(fā)平臺(tái)——Coze-AIPC。這一合作標(biāo)志著智能體技術(shù)應(yīng)用發(fā)展的新突破
    的頭像 發(fā)表于 12-27 14:11 ?986次閱讀

    使用英特爾AI PC為YOLO模型訓(xùn)練加速

    之后,情況有了新的變化,PyTorch2.5正式開(kāi)始支持英特爾顯卡,也就是說(shuō),此后我們能夠借助英特爾 銳炫 顯卡來(lái)進(jìn)行模型訓(xùn)練了。
    的頭像 發(fā)表于 12-09 16:14 ?1571次閱讀
    使用<b class='flag-5'>英特爾</b>AI PC為YOLO<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>加速

    英特爾助力百度智能云千帆大模型平臺(tái)加速LLM推理

    “大模型在各行業(yè)的廣泛應(yīng)用驅(qū)動(dòng)了新一輪產(chǎn)業(yè)革命,也凸顯了在AI算力方面的瓶頸。通過(guò)攜手英特爾釋放英特爾 至強(qiáng) 可擴(kuò)展處理器的算力潛力,我們?yōu)橛脩籼峁┝烁咝阅?、靈活、經(jīng)濟(jì)的算力基礎(chǔ)設(shè)施方案,結(jié)合千帆
    的頭像 發(fā)表于 11-25 16:59 ?944次閱讀
    <b class='flag-5'>英特爾</b>助力百度智能云千帆大<b class='flag-5'>模型</b><b class='flag-5'>平臺(tái)</b>加速LLM推理

    使用PyTorch在英特爾獨(dú)立顯卡上訓(xùn)練模型

    《PyTorch 2.5重磅更新:性能優(yōu)化+新特性》中的一個(gè)新特性就是:正式支持在英特爾獨(dú)立顯卡上訓(xùn)練模型!
    的頭像 發(fā)表于 11-01 14:21 ?2029次閱讀
    使用PyTorch在<b class='flag-5'>英特爾</b>獨(dú)立顯卡上<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>

    IBM Cloud將部署英特爾Gaudi 3 AI芯片

    近日,科技巨頭IBM與英特爾宣布了一項(xiàng)重大合作計(jì)劃,雙方將共同在IBM Cloud平臺(tái)上部署英特爾最新的Gaudi 3 AI芯片,預(yù)計(jì)該服務(wù)將于2025年初正式上線。此次合作標(biāo)志著兩家公司在推動(dòng)AI技術(shù)創(chuàng)新與應(yīng)用方面邁出了堅(jiān)實(shí)的
    的頭像 發(fā)表于 09-03 15:52 ?654次閱讀

    英特爾IT的發(fā)展現(xiàn)狀和創(chuàng)新動(dòng)向

    AI大模型的爆發(fā),客觀上給IT的發(fā)展帶來(lái)了巨大的機(jī)會(huì)。作為把IT發(fā)展上升為戰(zhàn)略高度的英特爾,自然在推動(dòng)IT發(fā)展中注入了強(qiáng)勁動(dòng)力。英特爾IT不僅專注于創(chuàng)新、AI和優(yōu)化,以及英特爾員工、最
    的頭像 發(fā)表于 08-16 15:22 ?945次閱讀

    英特爾是如何實(shí)現(xiàn)玻璃基板的?

    在今年9月,英特爾宣布率先推出用于下一代先進(jìn)封裝的玻璃基板,并計(jì)劃在未來(lái)幾年內(nèi)向市場(chǎng)提供完整的解決方案,從而使單個(gè)封裝內(nèi)的晶體管數(shù)量不斷增加,繼續(xù)推動(dòng)摩爾定律,滿足以數(shù)據(jù)為中心的應(yīng)用的算力需求
    的頭像 發(fā)表于 07-22 16:37 ?640次閱讀