chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Pytorch量化感知訓(xùn)練的詳解

電子設(shè)計(jì) ? 來源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-08 22:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文章轉(zhuǎn)載于微信公眾號(hào):GiantPandaCV
作者: Pui_Yeung

前言

??量化感知訓(xùn)練(Quantization Aware Training )是在模型中插入偽量化模塊(fake/_quant module)模擬量化模型在推理過程中進(jìn)行的舍入(rounding)和鉗位(clamping)操作,從而在訓(xùn)練過程中提高模型對(duì)量化效應(yīng)的適應(yīng)能力,獲得更高的量化模型精度 。在這個(gè)過程中,所有計(jì)算(包括模型正反向傳播計(jì)算和偽量化節(jié)點(diǎn)計(jì)算)都是以浮點(diǎn)計(jì)算實(shí)現(xiàn)的,在訓(xùn)練完成后才量化為真正的int8模型。??

Pytorch官方從1.3版本開始提供量化感知訓(xùn)練API,只需修改少量代碼即可實(shí)現(xiàn)量化感知訓(xùn)練。目前torch.quantization仍處于beta階段,不保證API前向、后向兼容性。以下介紹基于Pytorch 1.7,其他版本可能會(huì)有差異。

Pytorch量化感知訓(xùn)練流程

??首先給出提供一個(gè)可運(yùn)行demo,直觀了解量化感知訓(xùn)練的6個(gè)步驟,再進(jìn)行詳細(xì)的介紹

importtorchfromtorch.quantizationimportprepare_qat,get_default_qat_qconfig,convertfromtorchvision.modelsimportquantization# Step1:修改模型#這里直接使用官方修改好的MobileNetV2,下文會(huì)對(duì)修改點(diǎn)進(jìn)行介紹model=quantization.mobilenet_v2()print("originalmodel:")print(model)# Step2:折疊算子#fuse_model()在training或evaluate模式下算子折疊結(jié)果不同,#對(duì)于QAT,需確保在training狀態(tài)下進(jìn)行算子折疊assertmodel.trainingmodel.fuse_model()print("fusedmodel:")print(model)#Step3:指定量化方案#通過給模型實(shí)例增加一個(gè)名為"qconfig"的成員變量實(shí)現(xiàn)量化方案的指定#backend目前支持fbgemm和qnnpackBACKEND="fbgemm"model.qconfig=get_default_qat_qconfig(BACKEND)# Step4:插入偽量化模塊prepare_qat(model,inplace=True)print("modelwithobservers:")print(model)#正常的模型訓(xùn)練,無需修改代碼# Step5:實(shí)施量化model.eval()#執(zhí)行convert函數(shù)前,需確保模型在evaluate模式model_int8=convert(model)print("quantizedmodel:")print(model_int8)# Step6:int8模型推理#指定與qconfig相同的backend,在推理時(shí)使用正確的算子torch.backends.quantized.engine=BACKEND#目前Pytorch的int8算子只支持CPU推理,需確保輸入和模型都在CPU側(cè)#輸入輸出仍為浮點(diǎn)數(shù)fp32_input=torch.randn(1,3,224,224)y=model_int8(fp32_input)print("output:")print(y)

Step1:修改模型

??Pytorch下需要適當(dāng)修改模型才能進(jìn)行量化感知訓(xùn)練,以下以常用的MobileNetV2為例。官方已修改好的MobileNetV2的代碼,詳見這里(https://github.com/pytorch/vi...

修改主要包括3點(diǎn),以下摘取相應(yīng)的代碼進(jìn)行介紹:

(1)在模型輸入前加入QuantStub(),在模型輸出后加入DeQuantStub()。目的是將輸入從fp32量化為int8,將輸出從int8反量化為fp32。模型的/_/_init/_/_()和forward()修改為:

classQuantizableMobileNetV2(MobileNetV2):def__init__(self,*args,**kwargs):"""MobileNetV2mainclassArgs:InheritsargsfromfloatingpointMobileNetV2"""super(QuantizableMobileNetV2,self).__init__(*args,**kwargs)self.quant=QuantStub()self.dequant=DeQuantStub()defforward(self,x):x=self.quant(x)x=self._forward_impl(x)x=self.dequant(x)returnx

(2)對(duì)加法等操作加入偽量化節(jié)點(diǎn)。因?yàn)閕nt8數(shù)值進(jìn)行加法運(yùn)算容易超出數(shù)值范圍,所以不是直接進(jìn)行計(jì)算,而是進(jìn)行反量化->計(jì)算->量化的操作。以InvertedResidual的修改為例:

classQuantizableInvertedResidual(InvertedResidual):def__init__(self,*args,**kwargs):super(QuantizableInvertedResidual,self).__init__(*args,**kwargs)#加法的偽量化節(jié)點(diǎn)需要記錄所經(jīng)過該節(jié)點(diǎn)的數(shù)值的范圍,因此需要實(shí)例化一個(gè)對(duì)象self.skip_add=nn.quantized.FloatFunctional()defforward(self,x):ifself.use_res_connect:#普通版本MobileNetV2的加法#returnx+self.conv(x)#量化版本MobileNetV2的加法returnself.skip_add.add(x,self.conv(x))else:returnself.conv(x)

(3)將ReLU6替換為ReLU。MobileNet V2使用ReLU6的原因是對(duì)ReLU的輸出范圍進(jìn)行截?cái)嘁跃徑饬炕癁閒p16模型時(shí)的精度下降。因?yàn)閕nt8量化本身就能確定截?cái)嚅撝?,所以將ReLU6替換為ReLU以去掉截?cái)嚅撝倒潭?的限制。官方的修改代碼在建立網(wǎng)絡(luò)后通過/_replace/_relu()將MobileNetV2中的ReLU6替換為ReLU:

model=QuantizableMobileNetV2(block=QuantizableInvertedResidual,**kwargs)_replace_relu(model)

Step2:算子折疊

??算子折疊是將模型的多個(gè)層合并成一個(gè)層,一般用來減少計(jì)算量和加速推理。對(duì)于量化感知訓(xùn)練而言,算子折疊作用是將模型變“薄”,減少中間計(jì)算過程的誤差積累。

??以下比較有無算子折疊的結(jié)果(上:無算子折疊,下:有算子折疊,打印執(zhí)行prepare/_qat()后的模型)

?如果不進(jìn)行算子折疊,每個(gè)Conv-BN-ReLU單元一共會(huì)插入4個(gè)FakeQuantize模塊。而進(jìn)行算子折疊后,原來Conv2d()被ConvBnReLU2d()代替(3層合并到了第1層),BatchNorm2d()和ReLU()被Inentity()代替(僅作為占位),最終只插入了2個(gè)FakeQuantize模塊。

FakeQuantize模塊的減少意味著推理過程中進(jìn)行的量化-反量化的次數(shù)減少,有利于減少量化帶來的性能損失。

??算子折疊由實(shí)現(xiàn)torch.quantization.fuse/_modules()。目前存在的比較遺憾的2點(diǎn):

??算子折疊不能自動(dòng)完成,只能由程序員手工指定要折疊的子模型。以torchvision.models.quantization.mobilenet/_v2()中實(shí)現(xiàn)的算子折疊函數(shù)為例:

deffuse_model(self):#遍歷模型內(nèi)的每個(gè)子模型,判斷類型并進(jìn)行相應(yīng)的算子折疊forminself.modules():iftype(m)==ConvBNReLU:fuse_modules(m,['0','1','2'],inplace=True)iftype(m)==QuantizableInvertedResidual:#調(diào)用子模塊實(shí)現(xiàn)的fuse_model(),間接調(diào)用fuse_modules()m.fuse_model()

??能折疊的算子組合有限。目前支持的算子組合為:ConV + BN、ConV + BN + ReLU、Conv + ReLU、Linear + ReLU、BN + ReLU。如果嘗試折疊ConvTranspose2d、ReLU6等不支持的算子則會(huì)報(bào)錯(cuò)。

Step3:指定量化方案

??目前支持fbgemm和qnnpack兩種backend方案。官方推薦x86平臺(tái)使用fbgemm方案,ARM平臺(tái)使用qnnpack方案。??量化方案通過如下方法指定

model.qconfig=get_default_qat_qconfig(backen)#或model.qconfig=get_default_qat_qconfig(backen)

??即通過給model增加一個(gè)名為qconfig為成員變量并賦值。

??量化方案可通過設(shè)置qconfig自定義,本文暫不討論。

Step4:插入偽量化模塊??

通過執(zhí)行prepare/_qat(),實(shí)現(xiàn)按qconfig的配置方案給每個(gè)層增加FakeQuantize()模塊?每個(gè)FakeQuantize()模塊內(nèi)包含相應(yīng)的Observer()模塊,在模型執(zhí)行forward()時(shí)自動(dòng)記錄數(shù)值,供實(shí)施量化時(shí)使用。

Step5:實(shí)施量化??

完成訓(xùn)練后,通過執(zhí)行convert()轉(zhuǎn)換為真正的int8量化模型。?完成轉(zhuǎn)換后,F(xiàn)akeQuantize()模塊被去掉,原來的ConvBNReLU2d()算子被替換為QuantizedConvReLU2d()算子。

Step6:int8模型推理

??int8模型的調(diào)用方法與普通的fp32模型的調(diào)用無異。需要注意的是,目前量化算子僅支持CPU計(jì)算,故須確保輸入和模型都在CPU側(cè)。

??若模型推理中出現(xiàn)報(bào)錯(cuò),一般是前面的步驟存在設(shè)置不當(dāng),參考常見問題第1點(diǎn)。

常見問題

(1) RuntimeError: Could not run XX with arguments from the YY backend. XX is only available for these backends ZZ??

雖然fp32模型和int8模型都能在CPU上推理,但fp32算子僅接受tensor作為輸入,int8算子僅接受quantedtensor作為輸入,輸入和算子的類型不一致導(dǎo)致上述錯(cuò)誤。

??一般排查方向?yàn)椋菏欠裢瓿闪四P托薷?,將加法等操作替換為量化版本;是否正確添加了QuantStub()和DeQuantStub();是否在執(zhí)行convert()前是否執(zhí)行了model.eval()(在traning模型下,dropout無int8實(shí)現(xiàn)但沒有被去掉,然而在執(zhí)行推理時(shí)會(huì)報(bào)錯(cuò))。

(2) 是否支持GPU訓(xùn)練,是否支持DistributedDataParallel訓(xùn)練???

支持。官方有一個(gè)完整的量化感知訓(xùn)練的實(shí)現(xiàn),使用了GPU和DistributedDataParallel,可惜在文檔和教程中未提及,參考這里(https://github.com/pytorch/vi.../_quantization.py)。

(3) 是否支持混合精度模型(例如一部分fp32推理,一部分int8推理)???

官方?jīng)]有明確說明,但經(jīng)實(shí)踐是可以的。

??模型是否進(jìn)行量化取決于是否帶qconfig。因此可以將模型定義修改為

classMixModel(nn.Module):def__init__(self):super(MixModel,self).__init__()self.fp32_part=Fp32Model()self.int8_part=Int8Model()defforward(self,x):x=self.int8_part(x)x=self.fp32(x)returnxmix_model=MixModel()mix_model.int8_part.qconfig=get_default_qat_qconfig(BACKEND)prepare_qat(mix_model,inplace=True)

??由此可實(shí)現(xiàn)所需的功能。注意將QuantStub()、Dequant()模塊移到Int8Model()中。

(4)精度保持效果如何,如何提升精度???

筆者進(jìn)行的實(shí)驗(yàn)不多,在做過的簡(jiǎn)單的OCR任務(wù)中,可以做到文字檢測(cè)和識(shí)別模型的指標(biāo)下降均不超過1個(gè)點(diǎn)(量化的int8模型對(duì)比正常訓(xùn)練的fp32模型)。官方教程中提供了分類例子的效果和提升精度的技巧,可供參考。

總結(jié)

??Pytorch官方提供的量化感知訓(xùn)練API,上手較為簡(jiǎn)單,易于集成到現(xiàn)有訓(xùn)練代碼中。但目前手動(dòng)修改模型和算子折疊增加了一定的工作量,期待在未來版本的改進(jìn)。

- END -

推薦閱讀

更多嵌入式AI技術(shù)干貨請(qǐng)關(guān)注嵌入式AI專欄。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5594

    瀏覽量

    124142
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    813

    瀏覽量

    14781
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用 ai cude 里面自帶的案例訓(xùn)練UI顯示異常的原因?怎么解決?

    案例的配置是默認(rèn)的,顯示訓(xùn)練ui更改顯示異常
    發(fā)表于 06-23 06:21

    動(dòng)態(tài)感知+智能決策,一文解讀 AI 場(chǎng)景組網(wǎng)下的動(dòng)態(tài)智能選路技術(shù)

    人工智能(AI),特別是大規(guī)模模型訓(xùn)練和推理,正以前所未有的方式重塑數(shù)據(jù)中心網(wǎng)絡(luò)。傳統(tǒng)的“盡力而為”網(wǎng)絡(luò)架構(gòu),在處理海量、突發(fā)的AI數(shù)據(jù)洪流時(shí)捉襟見肘。AI模型對(duì)網(wǎng)絡(luò)性能的嚴(yán)苛要求——高帶寬、低延遲
    的頭像 發(fā)表于 06-20 15:01 ?1467次閱讀
    動(dòng)態(tài)<b class='flag-5'>感知</b>+智能決策,一文解讀 AI 場(chǎng)景組網(wǎng)下的動(dòng)態(tài)智能選路技術(shù)

    k210在線訓(xùn)練的算法是yolo5嗎?

    k210在線訓(xùn)練的算法是yolo5嗎
    發(fā)表于 06-16 08:25

    瑞芯微模型量化文件構(gòu)建

    模型是一張圖片輸入時(shí),量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個(gè)輸入。該模型訓(xùn)練時(shí)數(shù)據(jù)集只標(biāo)注了人臉框和關(guān)鍵點(diǎn),該模型的預(yù)處理是放到模型外的,不在模型
    發(fā)表于 06-13 09:07

    OCR識(shí)別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識(shí)別 一共弄了26張圖片,都標(biāo)注好了,點(diǎn)擊開始訓(xùn)練,顯示訓(xùn)練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點(diǎn),參考我們的ocr識(shí)別訓(xùn)練數(shù)據(jù)集 請(qǐng)問
    發(fā)表于 05-28 06:46

    技術(shù)分享 | 高逼真合成數(shù)據(jù)助力智駕“看得更準(zhǔn)、學(xué)得更快”

    自動(dòng)駕駛研發(fā)如何高效獲取海量訓(xùn)練數(shù)據(jù)?高逼真合成數(shù)據(jù)技術(shù)正在提供新解法。通過仿真平臺(tái)可生成多場(chǎng)景、多傳感器的精準(zhǔn)標(biāo)注數(shù)據(jù)。文章詳解如何構(gòu)建符合nuScenes標(biāo)準(zhǔn)的數(shù)據(jù)集,覆蓋復(fù)雜交通場(chǎng)景,為感知模型
    的頭像 發(fā)表于 04-29 10:47 ?3444次閱讀
    技術(shù)分享 | 高逼真合成數(shù)據(jù)助力智駕“看得更準(zhǔn)、學(xué)得更快”

    請(qǐng)問訓(xùn)練平臺(tái)訓(xùn)練完的識(shí)別程序,可以實(shí)現(xiàn)在識(shí)別到物體時(shí)屏幕再顯示出來,沒有識(shí)別到物體時(shí)屏幕不顯示嗎?

    問題如題,訓(xùn)練平臺(tái)訓(xùn)練完的識(shí)別程序,可以實(shí)現(xiàn)在識(shí)別到物體時(shí)屏幕再顯示出來,沒有識(shí)別到物體時(shí)屏幕不顯示嗎?比較小白,可以解釋一下怎么做嗎?或者是我應(yīng)該學(xué)哪里? 如果直接使用平臺(tái)下載的代碼不行,改一改可以。
    發(fā)表于 04-29 06:12

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場(chǎng)景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練樣本,通過AI訓(xùn)練服務(wù)器,進(jìn)行AI學(xué)習(xí)
    發(fā)表于 04-28 11:11

    NVIDIA技術(shù)驅(qū)動(dòng)帕西尼觸覺感知與人形機(jī)器人智能突破

    感知科技實(shí)現(xiàn)了從接觸仿真、觸覺信號(hào)產(chǎn)生、仿真數(shù)據(jù)生成,再到觸覺模態(tài)模型訓(xùn)練的全流程 GPU 加速,提升標(biāo)定和訓(xùn)練效率 100 倍,完成觸覺傳感器的批量標(biāo)定和觸覺模態(tài)規(guī)?;瘜?shí)機(jī)部署。
    的頭像 發(fā)表于 04-21 09:15 ?1310次閱讀

    從安防到元宇宙:RK3588如何重塑視覺感知邊界?

    示例: 多模態(tài)AI融合:支持TensorFlow、PyTorch等主流框架模型部署,可應(yīng)用于智能零售中的行為識(shí)別系統(tǒng),通過攝像頭+紅外傳感器數(shù)據(jù)融合,精準(zhǔn)分析顧客停留熱點(diǎn)。 七屏異顯與8K編解碼:在數(shù)
    發(fā)表于 04-07 16:11

    如何排除深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?的特定層?

    無法確定如何排除要在深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    是否可以輸入隨機(jī)數(shù)據(jù)集來生成INT8訓(xùn)練量化模型?

    無法確定是否可以輸入隨機(jī)數(shù)據(jù)集來生成 INT8 訓(xùn)練量化模型。
    發(fā)表于 03-06 06:45

    使用OpenVINO? 2021.4將經(jīng)過訓(xùn)練的自定義PyTorch模型加載為IR格式時(shí)遇到錯(cuò)誤怎么解決?

    使用 OpenVINO? 2021.4 將經(jīng)過訓(xùn)練的自定義 PyTorch 模型加載為 IR 格式時(shí)遇到錯(cuò)誤: RuntimeError: [ GENERAL_ERROR ] Failed
    發(fā)表于 03-05 08:40

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?1161次閱讀
    <b class='flag-5'>詳解</b>RAD端到端強(qiáng)化學(xué)習(xí)后<b class='flag-5'>訓(xùn)練</b>范式

    操作指南:pytorch云服務(wù)器怎么設(shè)置?

    設(shè)置PyTorch云服務(wù)器需選擇云平臺(tái),創(chuàng)建合適的GPU實(shí)例,安裝操作系統(tǒng)、Python及Anaconda,創(chuàng)建虛擬環(huán)境,根據(jù)CUDA版本安裝PyTorch,配置環(huán)境變量,最后驗(yàn)證安裝。過程中需考慮
    的頭像 發(fā)表于 02-08 10:33 ?699次閱讀