国产成人欧美在线观看,国产第一会所精品AⅤ在线

【導(dǎo)讀】本文整理了13則PyTorch使用的小竅門，包括了指定GPU編號、梯度裁剪、擴展單張圖片維度等實用技巧，能夠幫助工作者更高效地完成任務(wù)。

1、指定GPU編號

2、查看模型每層輸出詳情3、梯度裁剪4、擴展單張圖片維度5、one hot編碼6、防止驗證模型時爆顯存7、學(xué)習(xí)率衰減8、凍結(jié)某些層的參數(shù)9、對不同層使用不同學(xué)習(xí)率10、模型相關(guān)操作11、Pytorch內(nèi)置one hot函數(shù)12、網(wǎng)絡(luò)參數(shù)初始化13、加載內(nèi)置預(yù)訓(xùn)練模型

1、指定GPU編號

設(shè)置當(dāng)前使用的GPU設(shè)備僅為0號設(shè)備，設(shè)備名稱為 /gpu:0：os.environ［“CUDA_VISIBLE_DEVICES”］ = “0”

設(shè)置當(dāng)前使用的GPU設(shè)備為0，1號兩個設(shè)備，名稱依次為 /gpu:0、/gpu:1：os.environ［“CUDA_VISIBLE_DEVICES”］ = “0，1” ，根據(jù)順序表示優(yōu)先使用0號設(shè)備，然后使用1號設(shè)備。

指定GPU的命令需要放在和神經(jīng)網(wǎng)絡(luò)相關(guān)的一系列操作的前面。

2、查看模型每層輸出詳情

Keras有一個簡潔的API來查看模型的每一層輸出尺寸，這在調(diào)試網(wǎng)絡(luò)時非常有用?，F(xiàn)在在PyTorch中也可以實現(xiàn)這個功能。

使用很簡單，如下用法：

from torchsummary import summarysummary（your_model， input_size=（channels， H， W））

input_size 是根據(jù)你自己的網(wǎng)絡(luò)模型的輸入尺寸進行設(shè)置。

3、梯度裁剪（Gradient Clipping）

import torch.nn as nn

outputs = model（data）loss= loss_fn（outputs， target）optimizer.zero_grad（）loss.backward（）nn.utils.clip_grad_norm_（model.parameters（）， max_norm=20， norm_type=2）optimizer.step（）

nn.utils.clip_grad_norm_ 的參數(shù)：

parameters – 一個基于變量的迭代器，會進行梯度歸一化

max_norm – 梯度的最大范數(shù)

norm_type – 規(guī)定范數(shù)的類型，默認為L2

@不橢的橢圓提出：梯度裁剪在某些任務(wù)上會額外消耗大量的計算時間，可移步評論區(qū)查看詳情。

4、擴展單張圖片維度

因為在訓(xùn)練時的數(shù)據(jù)維度一般都是（batch_size， c， h， w），而在測試時只輸入一張圖片，所以需要擴展維度，擴展維度有多個方法：

import cv2import torch

image = cv2.imread（img_path）image = torch.tensor（image）print（image.size（））

img = image.view（1， *image.size（））print（img.size（））

# output：# torch.Size（［h， w， c］）# torch.Size（［1， h， w， c］）

或import cv2import numpy as np

image = cv2.imread（img_path）print（image.shape）img = image［np.newaxis，：，：，：］print（img.shape）

# output：# （h， w， c）# （1， h， w， c）

或（感謝 @coldleaf 的補充）

import cv2import torch

image = cv2.imread（img_path）image = torch.tensor（image）print（image.size（））

img = image.unsqueeze（dim=0） print（img.size（））

img = img.squeeze（dim=0）print（img.size（））

# output：# torch.Size（［（h， w， c）］）# torch.Size（［1， h， w， c］）# torch.Size（［h， w， c］）

tensor.unsqueeze（dim）：擴展維度，dim指定擴展哪個維度。

tensor.squeeze（dim）：去除dim指定的且size為1的維度，維度大于1時，squeeze（）不起作用，不指定dim時，去除所有size為1的維度。

5、獨熱編碼

在PyTorch中使用交叉熵損失函數(shù)的時候會自動把label轉(zhuǎn)化成onehot，所以不用手動轉(zhuǎn)化，而使用MSE需要手動轉(zhuǎn)化成onehot編碼。

import torchclass_num = 8batch_size = 4

def one_hot（label）： “”“ 將一維列表轉(zhuǎn)換為獨熱編碼 ”“” label = label.resize_（batch_size， 1） m_zeros = torch.zeros（batch_size， class_num） # 從 value 中取值，然后根據(jù) dim 和 index 給相應(yīng)位置賦值 onehot = m_zeros.scatter_（1， label， 1） # （dim，index，value）

return onehot.numpy（） # Tensor -》 Numpy

label = torch.LongTensor（batch_size）.random_（） % class_num # 對隨機數(shù)取余print（one_hot（label））

# output：［［0. 0. 0. 1. 0. 0. 0. 0.］［0. 0. 0. 0. 1. 0. 0. 0.］［0. 0. 1. 0. 0. 0. 0. 0.］［0. 1. 0. 0. 0. 0. 0. 0.］］

注：第11條有更簡單的方法。

6、防止驗證模型時爆顯存

驗證模型時不需要求導(dǎo)，即不需要梯度計算，關(guān)閉autograd，可以提高速度，節(jié)約內(nèi)存。如果不關(guān)閉可能會爆顯存。

with torch.no_grad（）： # 使用model進行預(yù)測的代碼 pass

感謝@zhaz 的提醒，我把 torch.cuda.empty_cache（）的使用原因更新一下。

這是原回答：

Pytorch 訓(xùn)練時無用的臨時變量可能會越來越多，導(dǎo)致 out of memory ，可以使用下面語句來清理這些不需要的變量。

官網(wǎng) 上的解釋為：

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi. torch.cuda.empty_cache（）

意思就是PyTorch的緩存分配器會事先分配一些固定的顯存，即使實際上tensors并沒有使用完這些顯存，這些顯存也不能被其他應(yīng)用使用。這個分配過程由第一次CUDA內(nèi)存訪問觸發(fā)的。而 torch.cuda.empty_cache（）的作用就是釋放緩存分配器當(dāng)前持有的且未占用的緩存顯存，以便這些顯存可以被其他GPU應(yīng)用程序中使用，并且通過 nvidia-smi命令可見。注意使用此命令不會釋放tensors占用的顯存。對于不用的數(shù)據(jù)變量，Pytorch 可以自動進行回收從而釋放相應(yīng)的顯存。更詳細的優(yōu)化可以查看優(yōu)化顯存使用和顯存利用問題。

7、學(xué)習(xí)率衰減

import torch.optim as optimfrom torch.optim import lr_scheduler

# 訓(xùn)練前的初始化optimizer = optim.Adam（net.parameters（）， lr=0.001）scheduler = lr_scheduler.StepLR（optimizer， 10， 0.1） # # 每過10個epoch，學(xué)習(xí)率乘以0.1

# 訓(xùn)練過程中for n in n_epoch： scheduler.step（）。..

可以隨時查看學(xué)習(xí)率的值：optimizer.param_groups［0］［‘lr’］。還有其他學(xué)習(xí)率更新的方式：1、自定義更新公式：scheduler = lr_scheduler.LambdaLR（optimizer， lr_lambda=lambda epoch:1/（epoch+1））2、不依賴epoch更新學(xué)習(xí)率：lr_scheduler.ReduceLROnPlateau（）提供了基于訓(xùn)練中某些測量值使學(xué)習(xí)率動態(tài)下降的方法，它的參數(shù)說明到處都可以查到。

提醒一點就是參數(shù) mode=‘min’ 還是‘max’，取決于優(yōu)化的的損失還是準(zhǔn)確率，即使用 scheduler.step（loss）還是scheduler.step（acc）。

8、凍結(jié)某些層的參數(shù)

參考：https://www.zhihu.com/question/311095447/answer/589307812在加載預(yù)訓(xùn)練模型的時候，我們有時想凍結(jié)前面幾層，使其參數(shù)在訓(xùn)練過程中不發(fā)生變化。我們需要先知道每一層的名字，通過如下代碼打?。?/p>

net = Network（） # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name， value in net.named_parameters（）： print（‘name： {0}， grad： {1}’.format（name， value.requires_grad））

假設(shè)前幾層信息如下：

name： cnn.VGG_16.convolution1_1.weight， grad： Truename： cnn.VGG_16.convolution1_1.bias， grad： Truename： cnn.VGG_16.convolution1_2.weight， grad： Truename： cnn.VGG_16.convolution1_2.bias， grad： Truename： cnn.VGG_16.convolution2_1.weight， grad： Truename： cnn.VGG_16.convolution2_1.bias， grad： Truename： cnn.VGG_16.convolution2_2.weight， grad： Truename： cnn.VGG_16.convolution2_2.bias， grad： True

后面的True表示該層的參數(shù)可訓(xùn)練，然后我們定義一個要凍結(jié)的層的列表：

no_grad = ［ ‘cnn.VGG_16.convolution1_1.weight’， ‘cnn.VGG_16.convolution1_1.bias’， ‘cnn.VGG_16.convolution1_2.weight’， ‘cnn.VGG_16.convolution1_2.bias’］

凍結(jié)方法如下：

net = Net.CTPN（） # 獲取網(wǎng)絡(luò)結(jié)構(gòu)for name， value in net.named_parameters（）： if name in no_grad： value.requires_grad = False else： value.requires_grad = True

凍結(jié)后我們再打印每層的信息：

name： cnn.VGG_16.convolution1_1.weight， grad： Falsename： cnn.VGG_16.convolution1_1.bias， grad： Falsename： cnn.VGG_16.convolution1_2.weight， grad： Falsename： cnn.VGG_16.convolution1_2.bias， grad： Falsename： cnn.VGG_16.convolution2_1.weight， grad： Truename： cnn.VGG_16.convolution2_1.bias， grad： Truename： cnn.VGG_16.convolution2_2.weight， grad： Truename： cnn.VGG_16.convolution2_2.bias， grad： True

可以看到前兩層的weight和bias的requires_grad都為False，表示它們不可訓(xùn)練。

最后在定義優(yōu)化器時，只對requires_grad為True的層的參數(shù)進行更新。

optimizer = optim.Adam（filter（lambda p： p.requires_grad， net.parameters（））， lr=0.01）

9、對不同層使用不同學(xué)習(xí)率

我們對模型的不同層使用不同的學(xué)習(xí)率。還是使用這個模型作為例子：

net = Network（） # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name， value in net.named_parameters（）： print（‘name： {}’.format（name））

# 輸出：# name： cnn.VGG_16.convolution1_1.weight# name： cnn.VGG_16.convolution1_1.bias# name： cnn.VGG_16.convolution1_2.weight# name： cnn.VGG_16.convolution1_2.bias# name： cnn.VGG_16.convolution2_1.weight# name： cnn.VGG_16.convolution2_1.bias# name： cnn.VGG_16.convolution2_2.weight# name： cnn.VGG_16.convolution2_2.bias

對 convolution1 和 convolution2 設(shè)置不同的學(xué)習(xí)率，首先將它們分開，即放到不同的列表里：

conv1_params = ［］conv2_params = ［］

for name， parms in net.named_parameters（）： if “convolution1” in name： conv1_params += ［parms］ else： conv2_params += ［parms］

# 然后在優(yōu)化器中進行如下操作：optimizer = optim.Adam（［ {“params”： conv1_params， ‘lr’： 0.01}， {“params”： conv2_params， ‘lr’： 0.001}，］， weight_decay=1e-3，）

我們將模型劃分為兩部分，存放到一個列表里，每部分就對應(yīng)上面的一個字典，在字典里設(shè)置不同的學(xué)習(xí)率。當(dāng)這兩部分有相同的其他參數(shù)時，就將該參數(shù)放到列表外面作為全局參數(shù)，如上面的`weight_decay`。

也可以在列表外設(shè)置一個全局學(xué)習(xí)率，當(dāng)各部分字典里設(shè)置了局部學(xué)習(xí)率時，就使用該學(xué)習(xí)率，否則就使用列表外的全局學(xué)習(xí)率。

10、模型相關(guān)操作

這個內(nèi)容比較多，我寫成了一篇文章：https://zhuanlan.zhihu.com/p/73893187

11、Pytorch內(nèi)置one_hot函數(shù)

感謝@yangyangyang 補充：Pytorch 1.1后，one_hot可以直接用torch.nn.functional.one_hot。然后我將Pytorch升級到1.2版本，試用了下 one_hot 函數(shù)，確實很方便。具體用法如下：

import torch.nn.functional as Fimport torch

tensor = torch.arange（0， 5） % 3 # tensor（［0， 1， 2， 0， 1］）one_hot = F.one_hot（tensor）

# 輸出：# tensor（［［1， 0， 0］，# ［0， 1， 0］，# ［0， 0， 1］，# ［1， 0， 0］，# ［0， 1， 0］］）

F.one_hot會自己檢測不同類別個數(shù)，生成對應(yīng)獨熱編碼。我們也可以自己指定類別數(shù)：

tensor = torch.arange（0， 5） % 3 # tensor（［0， 1， 2， 0， 1］）one_hot = F.one_hot（tensor， num_classes=5）

# 輸出：# tensor（［［1， 0， 0， 0， 0］，# ［0， 1， 0， 0， 0］，# ［0， 0， 1， 0， 0］，# ［1， 0， 0， 0， 0］，# ［0， 1， 0， 0， 0］］）

升級 Pytorch （cpu版本）的命令：conda install pytorch torchvision -c pytorch（希望Pytorch升級不會影響項目代碼）

12、網(wǎng)絡(luò)參數(shù)初始化

神經(jīng)網(wǎng)絡(luò)的初始化是訓(xùn)練流程的重要基礎(chǔ)環(huán)節(jié)，會對模型的性能、收斂性、收斂速度等產(chǎn)生重要的影響。

以下介紹兩種常用的初始化操作。

（1）使用pytorch內(nèi)置的torch.nn.init方法。

常用的初始化操作，例如正態(tài)分布、均勻分布、xavier初始化、kaiming初始化等都已經(jīng)實現(xiàn)，可以直接使用。具體詳見PyTorch 中 torch.nn.init 中文文檔。

init.xavier_uniform（net1［0］.weight）

（2）對于一些更加靈活的初始化方法，可以借助numpy。

對于自定義的初始化方法，有時tensor的功能不如numpy強大靈活，故可以借助numpy實現(xiàn)初始化方法，再轉(zhuǎn)換到tensor上使用。

for layer in net1.modules（）： if isinstance（layer， nn.Linear）： # 判斷是否是線性層 param_shape = layer.weight.shape layer.weight.data = torch.from_numpy（np.random.normal（0， 0.5， size=param_shape）） # 定義為均值為 0，方差為 0.5 的正態(tài)分布

13、加載內(nèi)置預(yù)訓(xùn)練模型

torchvision.models模塊的子模塊中包含以下模型：

AlexNet

VGG

ResNet

SqueezeNet

DenseNet

導(dǎo)入這些模型的方法為：

import torchvision.models as modelsresnet18 = models.resnet18（）alexnet = models.alexnet（）vgg16 = models.vgg16（）

有一個很重要的參數(shù)為pretrained，默認為False，表示只導(dǎo)入模型的結(jié)構(gòu)，其中的權(quán)重是隨機初始化的。

如果pretrained 為 True，表示導(dǎo)入的是在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的模型。

import torchvision.models as modelsresnet18 = models.resnet18（pretrained=True）alexnet = models.alexnet（pretrained=True）vgg16 = models.vgg16（pretrained=True）

更多的模型可以查看：https://pytorch-cn.readthedocs.io/zh/latest/torchvision/torchvision-models/
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴