chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用Python和PyTorch處理面向?qū)ο蟮臄?shù)據(jù)集(1)

efwedfd ? 來源:efwedfd ? 作者:efwedfd ? 2022-08-02 08:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器學習中一個常見問題是判定與數(shù)據(jù)交互的最佳方式。

在本文中,我們將提供一種高效方法,用于完成數(shù)據(jù)的交互、組織以及最終變換(預(yù)處理)。隨后,我們將講解如何在訓練過程中正確地把數(shù)據(jù)輸入給模型。

PyTorch 框架將幫助我們實現(xiàn)此目標,我們還將從頭開始編寫幾個類。PyTorch 可提供更完整的原生類,但創(chuàng)建我們自己的類可幫助我們加速學習。

第 1 部分:原始數(shù)據(jù)和數(shù)據(jù)集

首先我們把尚未經(jīng)過組織的所有樣本稱為“原始數(shù)據(jù)”。

把“數(shù)據(jù)集”定義為現(xiàn)成可用的數(shù)據(jù),即含標簽以及基本函數(shù)接口(以便于使用原始數(shù)據(jù)信息)的原始數(shù)據(jù)。

此處我們使用一種簡單的原始數(shù)據(jù)形式:1 個包含圖像和標簽的文件夾。

但此方法可擴展至任意性質(zhì)的樣本(可以是圖片、錄音、視頻等)以及包含標簽的文件。

標簽文件中的每一行都用于描述 1 個樣本和相關(guān)標簽,格式如下:

file_sample_1 label1

file_sample_2 label2

file_sample_3 label3

(。..)

當能夠完成一些基本信息查詢(已有樣本數(shù)量、返回特定編號的樣本、預(yù)處理每個樣本等)時,說明我們已從原始數(shù)據(jù)集創(chuàng)建了 1 個數(shù)據(jù)集。

此方法基于面向?qū)ο?a target="_blank">編程以及創(chuàng)建用于數(shù)據(jù)處理的 “類”。

對于一組簡單的圖像和標簽而言,此方法可能看上去略顯殺雞用牛刀(實際上,此用例通常是通過創(chuàng)建分別用于訓練、驗證和測試的獨立文件夾來進行處理的)。但如果要選擇標準交互方法,則此方法將來可復(fù)用于多種不同用例,以節(jié)省時間。

Python 中處理數(shù)據(jù)

在 Python 中所有一切都是對象:整數(shù)、列表、字典都是如此。

構(gòu)建含標準屬性和方法的“數(shù)據(jù)集”對象的原因多種多樣。我認為,代碼的精致要求就足以合理化這一選擇,但我理解這是品味的問題??梢浦残浴⑺俣群痛a模塊化可能是最重要的原因。

在許多示例以及編碼書籍中,我發(fā)現(xiàn)了面向?qū)ο蟮木幋a(尤以類為甚)的其它有趣的功能和優(yōu)勢,總結(jié)如下:

? 類可提供繼承

? 繼承可提供復(fù)用

? 繼承可提供數(shù)據(jù)類型擴展

? 繼承支持多態(tài)現(xiàn)象

? 繼承是面向?qū)ο蟮木幋a的特有功能

■輸入 [1]:

import torch

from torchvision import transforms

to_tensor = transforms.ToTensor()

from collections import namedtuple

import functools

import copy

import csv

from PIL import Image

from matplotlib import pyplot as plt

import numpy as np

import os

import datetime

import torch.optim as optim

在我們的示例中,所有原始樣本都存儲在文件夾中。此文件夾的地址在 raw_data_path 變量中聲明。

■輸入 [2]:

raw_data_path = ‘。/raw_data/data_images’

構(gòu)建模塊

數(shù)據(jù)集接口需要一些函數(shù)和類。數(shù)據(jù)集本身就是一個對象,因此我們將創(chuàng)建 MyDataset 類來包含所有重要函數(shù)和變量。

首先,我們需要讀取標簽文件,然后可對樣本在其原始格式(此處為 PIL 圖像)以及最終的張量格式應(yīng)用某些變換。

我們需要使用以下函數(shù)來讀取 1 次標簽文件,然后創(chuàng)建包含所有樣本名稱和標簽的元組。

內(nèi)存中緩存可提升性能,但如果標簽文件發(fā)生更改,請務(wù)必更新緩存內(nèi)容。

■ 輸入 [113]:

DataInfoTuple = namedtuple(‘Sample’,‘SampleName, SampleLabel’)

def myFunc(e):

return e.SampleLabel

# in memory caching decorator: ref https://dbader.org/blog/python-memoization

@functools.lru_cache(1)

def getSampleInfoList(raw_data_path):

sample_list = []

with open(str(raw_data_path) + ‘/labels.txt’, mode = ‘r’) as f:

reader = csv.reader(f, delimiter = ‘ ’)

for i, row in enumerate(reader):

imgname = row[0]

label = int(row[1])

sample_list.append(DataInfoTuple(imgname, label))

sample_list.sort(reverse=False, key=myFunc)

# print(“DataInfoTouple: samples list length = {}”.format(len(sample_list)))

return sample_list

如需直接變換 PIL 圖像,那么以下類很實用。

該類僅含 1 種方法:resize。resize 方法能夠改變 PIL 圖像的原始大小,并對其進行重新采樣。如需其它預(yù)處理(翻轉(zhuǎn)、剪切、旋轉(zhuǎn)等),需在此類種添加方法。

當 PIL 圖像完成預(yù)處理后,即可將其轉(zhuǎn)換為張量。此外還可對張量執(zhí)行進一步的處理步驟。

在以下示例種,可以看到這兩種變換:

■ 輸入 [4]:

class PilTransform():

“”“generic transformation of a pil image”“”

def resize(self, img, **kwargs):

img = img.resize(( kwargs.get(‘width’), kwargs.get(‘height’)), resample=Image.NEAREST)

return img

# creation of the object pil_transform, having all powers inherited by the class PilTransform

pil_transform = PilTransform()

以下是類 PilTransform 的實操示例:

■ 輸入 [5]:

path = raw_data_path + “/img_00000600.JPEG”

print(path)

im1 = Image.open(path, mode=‘r’)

plt.imshow(im1)

。/raw_data/data_images/img_00000600.JPEG

■ 輸出 [5]:

■ 輸入 [6]:

im2 = pil_transform.resize(im1, width=128, height=128)

# im2.show()

plt.imshow(im2)

■ 輸出 [6]:

最后,我們定義一個類,用于實現(xiàn)與原始數(shù)據(jù)的交互。

類 MyDataset 主要提供了 2 個方法:

__len__ 可提供原始樣本的數(shù)量。

__getitem__ 可使對象變?yōu)榭傻愋?,并按張量格式返回請求的樣本(已完成預(yù)處理)。

__getitem__ 步驟:

1) 打開來自文件的樣本。

2) 按樣本的原始格式對其進行預(yù)處理。

3) 將樣本變換為張量。

4) 以張量格式對樣本進行預(yù)處理。

此處添加的預(yù)處理僅作為示例。

此類可對張量進行歸一化(求平均值和標準差),這有助于加速訓練過程。

請注意,PIL 圖像由范圍 0-255 內(nèi)的整數(shù)值組成,而張量則為范圍 0-1 內(nèi)的浮點數(shù)矩陣。

該類會返回包含兩個元素的列表:在位置 [0] 返回張量,在位置 [1] 返回包含 SampleName 和 SampleLabel 的命名元組。

■ 輸入 [109]:

class MyDataset():

“”“Interface class to raw data, providing the total number of samples in the dataset and a preprocessed item”“”

def __init__(self,

isValSet_bool = None,

raw_data_path = ‘。/’,

SampleInfoList = DataInfoTuple,norm = False,

resize = False,

newsize = (32, 32)

):

self.raw_data_path = raw_data_path

self.SampleInfoList = copy.copy(getSampleInfoList(self.raw_data_path))

self.isValSet_bool = isValSet_bool

self.norm = norm

self.resize = resize

self.newsize = newsize

def __str__(self):

return ‘Path of raw data is ’ + self.raw_data_path + ‘/’ + ‘’

def __len__(self):

return len(self.SampleInfoList)

def __getitem__(self, ndx):

SampleInfoList_tup = self.SampleInfoList[ndx]

filepath = self.raw_data_path + ‘/’ + str(SampleInfoList_tup.SampleName)

if os.path.exists(filepath):

img = Image.open(filepath)

# PIL image preprocess (examples)

#resize

if self.resize:

width, height = img.size

if (width 》= height) & (self.newsize[0] 》= self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[0], height=self.newsize[1])

elif (width 》= height) & (self.newsize[0] 《 self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[1], height=self.newsize[0])

elif (width 《 height) & (self.newsize[0] 《= self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[0], height=self.newsize[1])

elif (width 《 height) & (self.newsize[0] 》 self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[1], height=self.newsize[0])

else:

print(“ERROR”)

# from pil image to tensor

img_t = to_tensor(img)

# tensor preprocess (examples)

#rotation

ratio = img_t.shape[1]/img_t.shape[2]

if ratio 》 1:

img_t = torch.rot90(img_t, 1, [1, 2])

#normalization requires the knowledge of all tensors

if self.norm:

img_t = normalize(img_t)

#return img_t, SampleInfoList_tup

return img_t, SampleInfoList_tup.SampleLabel

else:

print(‘[WARNING] file {} does not exist’.format(str(SampleInfoList_tup.SampleName)))

return None

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8540

    瀏覽量

    136199
  • python
    +關(guān)注

    關(guān)注

    57

    文章

    4856

    瀏覽量

    89520
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    812

    瀏覽量

    14660
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    PYQT 應(yīng)用程序框架及開發(fā)工具

    大家好,本團隊此次分享的內(nèi)容為開發(fā)過程中使用到的PYQT 應(yīng)用程序框架及開發(fā)工具。 pYqt 是一個多平臺的 python 圖形用戶界面應(yīng)用程序框架,由于其面向對象、 易擴展(可實現(xiàn)組件編程等
    發(fā)表于 10-29 07:15

    使用AICube導(dǎo)入數(shù)據(jù)點創(chuàng)建后提示數(shù)據(jù)不合法怎么處理

    重現(xiàn)步驟 data目錄下 labels.txt只有英文 **錯誤日志** 但是使用示例的數(shù)據(jù)可以完成訓練并部署
    發(fā)表于 06-24 06:07

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓練報錯網(wǎng)絡(luò)錯誤 大的數(shù)據(jù)多大?數(shù)據(jù)量有多少?
    發(fā)表于 06-18 07:04

    [Actor] 通過actor創(chuàng)建控制中心與數(shù)據(jù)采集工作站來看操作者架構(gòu)

    *附件:面向對象試驗機測控系統(tǒng).zip 一、actor對象描述 1、actor對象本身就是一個隊列狀態(tài)機類,空白的一個
    發(fā)表于 05-14 18:44

    請問NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問題,請問我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會有哪些原因?
    發(fā)表于 03-10 08:20

    使用Yolo-v3-TF運行OpenVINO?對象檢測Python演示時的結(jié)果不準確的原因?

    的模型與對象檢測 Python* Demo 配合使用時無法檢測對象python3 open_model_zoo/demos/object_detection_demo/
    發(fā)表于 03-06 06:31

    無法在Windows Subsystem for Linux 2上使用對象檢測Python演示運行YoloV4模型?

    在 WSL2 上運行對象檢測 python 演示。 使用 CPU 運行 object_detection_demo.py 時遇到錯誤: OpenCV: FFMPEG: tag
    發(fā)表于 03-05 08:43

    對象存儲是什么結(jié)構(gòu)類型?

    對象存儲屬于非結(jié)構(gòu)化數(shù)據(jù)存儲架構(gòu),采用扁平化命名空間結(jié)構(gòu)。其核心通過唯一標識符(ObjectID)定位數(shù)據(jù)對象,突破傳統(tǒng)文件系統(tǒng)的層級目錄限制,形成"桶-
    的頭像 發(fā)表于 02-10 11:14 ?680次閱讀

    操作指南:pytorch云服務(wù)器怎么設(shè)置?

    設(shè)置PyTorch云服務(wù)器需選擇云平臺,創(chuàng)建合適的GPU實例,安裝操作系統(tǒng)、Python及Anaconda,創(chuàng)建虛擬環(huán)境,根據(jù)CUDA版本安裝PyTorch,配置環(huán)境變量,最后驗證安裝。過程中需考慮
    的頭像 發(fā)表于 02-08 10:33 ?592次閱讀

    Python Connector for InterBase連接解決方案

    ,以對存儲的數(shù)據(jù)執(zhí)行創(chuàng)建、讀取、更新和刪除操作。該解決方案完全符合 Python DB API 2.0 規(guī)范,并作為 Windows、macOS 和 Linux 的 wheel 包分發(fā)。 特征 高性能
    的頭像 發(fā)表于 01-22 14:34 ?695次閱讀

    適用于Oracle的Python連接器:可訪問托管以及非托管的數(shù)據(jù)

    適用于 Oracle 的 Python 連接器 適用于 Oracle 的 Python 連接器是一種可靠的連接解決方案,用于從 Python 應(yīng)用程序訪問 Oracle 數(shù)據(jù)庫服務(wù)器和
    的頭像 發(fā)表于 01-14 10:30 ?735次閱讀

    HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)文件資產(chǎn)遷移

    === AbilityConstant.LaunchReason.CONTINUATION) { // ... // 調(diào)用封裝好的分布式數(shù)據(jù)對象處理函數(shù) this.handleDistributedData(want
    發(fā)表于 12-24 10:11

    HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)權(quán)限與基礎(chǔ)數(shù)據(jù)

    === AbilityConstant.LaunchReason.CONTINUATION) { // ... // 調(diào)用封裝好的分布式數(shù)據(jù)對象處理函數(shù) this.handleDistributedData(want
    發(fā)表于 12-24 09:40

    利用Arm Kleidi技術(shù)實現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個廣泛應(yīng)用的開源機器學習 (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進 PyTorch 的推理性能。本文將詳細介紹如何利用 Arm Kleidi 技術(shù)提升 Arm
    的頭像 發(fā)表于 12-23 09:19 ?1593次閱讀
    <b class='flag-5'>利用</b>Arm Kleidi技術(shù)實現(xiàn)<b class='flag-5'>PyTorch</b>優(yōu)化

    PyTorch 2.5.1: Bugs修復(fù)版發(fā)布

    ,以提升用戶體驗。 二,PyTorch 2.5.1 的主要修內(nèi)容 1,RPM 和 arm64 發(fā)行版支持: 2.5.1 版本修復(fù)了基于 RPM 的發(fā)行版和 arm64 發(fā)行版中的一些問題,這些修復(fù)使得
    的頭像 發(fā)表于 12-03 16:11 ?1939次閱讀
    <b class='flag-5'>PyTorch</b> 2.5.1: Bugs修復(fù)版發(fā)布