chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用跨界模型Transformer來(lái)做物體檢測(cè)!

新機(jī)器視覺(jué) ? 來(lái)源:邁微研習(xí)社 ? 作者:邁微研習(xí)社 ? 2021-06-10 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是一個(gè)Facebook的目標(biāo)檢測(cè)Transformer (DETR)的完整指南。

介紹

DEtection TRansformer (DETR)是Facebook研究團(tuán)隊(duì)巧妙地利用了Transformer 架構(gòu)開(kāi)發(fā)的一個(gè)目標(biāo)檢測(cè)模型。在這篇文章中,我將通過(guò)分析DETR架構(gòu)的內(nèi)部工作方式來(lái)幫助提供一些關(guān)于它的直覺(jué)。

下面,我將解釋一些結(jié)構(gòu),但是如果你只是想了解如何使用模型,可以直接跳到代碼部分。

結(jié)構(gòu)

DETR模型由一個(gè)預(yù)訓(xùn)練的CNN骨干(如ResNet)組成,它產(chǎn)生一組低維特征集。這些特征被格式化為一個(gè)特征集合并添加位置編碼,輸入一個(gè)由Transformer組成的編碼器和解碼器中,和原始的Transformer論文中描述的Encoder-Decoder的使用方式非常的類(lèi)似。

解碼器的輸出然后被送入固定數(shù)量的預(yù)測(cè)頭,這些預(yù)測(cè)頭由預(yù)定義數(shù)量的前饋網(wǎng)絡(luò)組成。每個(gè)預(yù)測(cè)頭的輸出都包含一個(gè)類(lèi)預(yù)測(cè)和一個(gè)預(yù)測(cè)框。損失是通過(guò)計(jì)算二分匹配損失來(lái)計(jì)算的。

該模型做出了預(yù)定義數(shù)量的預(yù)測(cè),并且每個(gè)預(yù)測(cè)都是并行計(jì)算的。

CNN主干

假設(shè)我們的輸入圖像,有三個(gè)輸入通道。CNN backbone由一個(gè)(預(yù)訓(xùn)練過(guò)的)CNN(通常是ResNet)組成,我們用它來(lái)生成C個(gè)具有寬度W和高度H的低維特征(在實(shí)踐中,我們?cè)O(shè)置C=2048, W=W?/32和H=H?/32)。

這留給我們的是C個(gè)二維特征,由于我們將把這些特征傳遞給一個(gè)transformer,每個(gè)特征必須允許編碼器將每個(gè)特征處理為一個(gè)序列的方式重新格式化。這是通過(guò)將特征矩陣扁平化為H?W向量,然后將每個(gè)向量連接起來(lái)來(lái)實(shí)現(xiàn)的。

扁平化的卷積特征再加上空間位置編碼,位置編碼既可以學(xué)習(xí),也可以預(yù)定義。

The Transformer

Transformer幾乎與原始的編碼器-解碼器架構(gòu)完全相同。不同之處在于,每個(gè)解碼器層并行解碼N個(gè)(預(yù)定義的數(shù)目)目標(biāo)。該模型還學(xué)習(xí)了一組N個(gè)目標(biāo)的查詢(xún),這些查詢(xún)是(類(lèi)似于編碼器)學(xué)習(xí)出來(lái)的位置編碼。

目標(biāo)查詢(xún)

下圖描述了N=20個(gè)學(xué)習(xí)出來(lái)的目標(biāo)查詢(xún)(稱(chēng)為prediction slots)如何聚焦于一張圖像的不同區(qū)域。

“我們觀察到,在不同的操作模式下,每個(gè)slot 都會(huì)學(xué)習(xí)特定的區(qū)域和框大小?!?—— DETR的作者

理解目標(biāo)查詢(xún)的直觀方法是想象每個(gè)目標(biāo)查詢(xún)都是一個(gè)人。每個(gè)人都可以通過(guò)注意力來(lái)查看圖像的某個(gè)區(qū)域。一個(gè)目標(biāo)查詢(xún)總是會(huì)問(wèn)圖像中心是什么,另一個(gè)總是會(huì)問(wèn)左下角是什么,以此類(lèi)推。

使用PyTorch實(shí)現(xiàn)簡(jiǎn)單的DETR

import torch

import torch.nn as nn

from torchvision.models import resnet50

class SimpleDETR(nn.Module):

“”“

Minimal Example of the Detection Transformer model with learned positional embedding

”“”

def __init__(self, num_classes, hidden_dim, num_heads,

num_enc_layers, num_dec_layers):

super(SimpleDETR, self).__init__()

self.num_classes = num_classes

self.hidden_dim = hidden_dim

self.num_heads = num_heads

self.num_enc_layers = num_enc_layers

self.num_dec_layers = num_dec_layers

# CNN Backbone

self.backbone = nn.Sequential(

*list(resnet50(pretrained=True).children())[:-2])

self.conv = nn.Conv2d(2048, hidden_dim, 1)

# Transformer

self.transformer = nn.Transformer(hidden_dim, num_heads,

num_enc_layers, num_dec_layers)

# Prediction Heads

self.to_classes = nn.Linear(hidden_dim, num_classes+1)

self.to_bbox = nn.Linear(hidden_dim, 4)

# Positional Encodings

self.object_query = nn.Parameter(torch.rand(100, hidden_dim))

self.row_embed = nn.Parameter(torch.rand(50, hidden_dim // 2)

self.col_embed = nn.Parameter(torch.rand(50, hidden_dim // 2))

def forward(self, X):

X = self.backbone(X)

h = self.conv(X)

H, W = h.shape[-2:]

pos_enc = torch.cat([

self.col_embed[:W].unsqueeze(0).repeat(H,1,1),

self.row_embed[:H].unsqueeze(1).repeat(1,W,1)],

dim=-1).flatten(0,1).unsqueeze(1)

h = self.transformer(pos_enc + h.flatten(2).permute(2,0,1),

self.object_query.unsqueeze(1))

class_pred = self.to_classes(h)

bbox_pred = self.to_bbox(h).sigmoid()

return class_pred, bbox_pred

二分匹配損失 (Optional)

讓為預(yù)測(cè)的集合,其中是包括了預(yù)測(cè)類(lèi)別(可以是空類(lèi)別)和包圍框的二元組,其中上劃線(xiàn)表示框的中心點(diǎn), 和表示框的寬和高。

設(shè)y為ground truth集合。假設(shè)y和?之間的損失為L(zhǎng),每一個(gè)y?和??之間的損失為L(zhǎng)?。由于我們是在集合的層次上工作,損失L必須是排列不變的,這意味著無(wú)論我們?nèi)绾闻判蝾A(yù)測(cè),我們都將得到相同的損失。因此,我們想找到一個(gè)排列,它將預(yù)測(cè)的索引映射到ground truth目標(biāo)的索引上。在數(shù)學(xué)上,我們求解:

計(jì)算的過(guò)程稱(chēng)為尋找最優(yōu)的二元匹配。這可以用匈牙利算法找到。但為了找到最優(yōu)匹配,我們需要實(shí)際定義一個(gè)損失函數(shù),計(jì)算和之間的匹配成本。

回想一下,我們的預(yù)測(cè)包含一個(gè)邊界框和一個(gè)類(lèi)?,F(xiàn)在讓我們假設(shè)類(lèi)預(yù)測(cè)實(shí)際上是一個(gè)類(lèi)集合上的概率分布。那么第i個(gè)預(yù)測(cè)的總損失將是類(lèi)預(yù)測(cè)產(chǎn)生的損失和邊界框預(yù)測(cè)產(chǎn)生的損失之和。作者在http://arxiv.org/abs/1906.05909中將這種損失定義為邊界框損失和類(lèi)預(yù)測(cè)概率的差異:

其中,是的argmax,是是來(lái)自包圍框的預(yù)測(cè)的損失,如果,則表示匹配損失為0。

框損失的計(jì)算為預(yù)測(cè)值與ground truth的L?損失和的GIOU損失的線(xiàn)性組合。同樣,如果你想象兩個(gè)不相交的框,那么框的錯(cuò)誤將不會(huì)提供任何有意義的上下文(我們可以從下面的框損失的定義中看到)。

其中,λ???和是超參數(shù)。注意,這個(gè)和也是面積和距離產(chǎn)生的誤差的組合。為什么會(huì)這樣呢?

可以把上面的等式看作是與預(yù)測(cè)相關(guān)聯(lián)的總損失,其中面積誤差的重要性是λ???,距離誤差的重要性是。

現(xiàn)在我們來(lái)定義GIOU損失函數(shù)。定義如下:

由于我們從已知的已知類(lèi)的數(shù)目來(lái)預(yù)測(cè)類(lèi),那么類(lèi)預(yù)測(cè)就是一個(gè)分類(lèi)問(wèn)題,因此我們可以使用交叉熵?fù)p失來(lái)計(jì)算類(lèi)預(yù)測(cè)誤差。我們將損失函數(shù)定義為每N個(gè)預(yù)測(cè)損失的總和:

為目標(biāo)檢測(cè)使用DETR

在這里,你可以學(xué)習(xí)如何加載預(yù)訓(xùn)練的DETR模型,以便使用PyTorch進(jìn)行目標(biāo)檢測(cè)。

加載模型

首先導(dǎo)入需要的模塊。

# Import required modules

import torch

from torchvision import transforms as T import requests # for loading images from web

from PIL import Image # for viewing images

import matplotlib.pyplot as plt

下面的代碼用ResNet50作為CNN骨干從torch hub加載預(yù)訓(xùn)練的模型。其他主干請(qǐng)參見(jiàn)DETRgithub:https://github.com/facebookresearch/detr

detr = torch.hub.load(‘facebookresearch/detr’,

‘detr_resnet50’,

pretrained=True)

加載一張圖像

要從web加載圖像,我們使用requests庫(kù):

url = ‘https://www.tempetourism.com/wp-content/uploads/Postino-Downtown-Tempe-2.jpg’ # Sample imageimage = Image.open(requests.get(url, stream=True).raw) plt.imshow(image)

plt.show()

設(shè)置目標(biāo)檢測(cè)的Pipeline

為了將圖像輸入到模型中,我們需要將PIL圖像轉(zhuǎn)換為張量,這是通過(guò)使用torchvision的transforms庫(kù)來(lái)完成的。

transform = T.Compose([T.Resize(800),

T.ToTensor(),

T.Normalize([0.485, 0.456, 0.406],

[0.229, 0.224, 0.225])])

上面的變換調(diào)整了圖像的大小,將PIL圖像進(jìn)行轉(zhuǎn)換,并用均值-標(biāo)準(zhǔn)差對(duì)圖像進(jìn)行歸一化。其中[0.485,0.456,0.406]為各顏色通道的均值,[0.229,0.224,0.225]為各顏色通道的標(biāo)準(zhǔn)差。

我們裝載的模型是預(yù)先在COCO Dataset上訓(xùn)練的,有91個(gè)類(lèi),還有一個(gè)表示空類(lèi)(沒(méi)有目標(biāo))的附加類(lèi)。我們用下面的代碼手動(dòng)定義每個(gè)標(biāo)簽

CLASSES =

[‘N/A’, ‘Person’, ‘Bicycle’, ‘Car’, ‘Motorcycle’, ‘Airplane’, ‘Bus’, ‘Train’, ‘Truck’, ‘Boat’, ‘Traffic-Light’, ‘Fire-Hydrant’, ‘N/A’, ‘Stop-Sign’, ‘Parking Meter’, ‘Bench’, ‘Bird’, ‘Cat’, ‘Dog’, ‘Horse’, ‘Sheep’, ‘Cow’, ‘Elephant’, ‘Bear’, ‘Zebra’, ‘Giraffe’, ‘N/A’, ‘Backpack’, ‘Umbrella’, ‘N/A’, ‘N/A’, ‘Handbag’, ‘Tie’, ‘Suitcase’, ‘Frisbee’, ‘Skis’, ‘Snowboard’, ‘Sports-Ball’, ‘Kite’, ‘Baseball Bat’, ‘Baseball Glove’, ‘Skateboard’, ‘Surfboard’, ‘Tennis Racket’, ‘Bottle’, ‘N/A’, ‘Wine Glass’, ‘Cup’, ‘Fork’, ‘Knife’, ‘Spoon’, ‘Bowl’, ‘Banana’, ‘Apple’, ‘Sandwich’, ‘Orange’, ‘Broccoli’, ‘Carrot’, ‘Hot-Dog’, ‘Pizza’, ‘Donut’, ‘Cake’, ‘Chair’, ‘Couch’, ‘Potted Plant’, ‘Bed’, ‘N/A’, ‘Dining Table’, ‘N/A’,‘N/A’, ‘Toilet’, ‘N/A’, ‘TV’, ‘Laptop’, ‘Mouse’, ‘Remote’, ‘Keyboard’, ‘Cell-Phone’, ‘Microwave’, ‘Oven’, ‘Toaster’, ‘Sink’, ‘Refrigerator’, ‘N/A’, ‘Book’, ‘Clock’, ‘Vase’, ‘Scissors’, ‘Teddy-Bear’, ‘Hair-Dryer’, ‘Toothbrush’]

如果我們想輸出不同顏色的邊框,我們可以手動(dòng)定義我們想要的RGB格式的顏色

COLORS = [

[0.000, 0.447, 0.741],

[0.850, 0.325, 0.098],

[0.929, 0.694, 0.125],

[0.494, 0.184, 0.556],

[0.466, 0.674, 0.188],

[0.301, 0.745, 0.933]

格式化輸出

我們還需要重新格式化模型的輸出。給定一個(gè)轉(zhuǎn)換后的圖像,模型將輸出一個(gè)字典,包含100個(gè)預(yù)測(cè)類(lèi)的概率和100個(gè)預(yù)測(cè)邊框。

每個(gè)包圍框的形式為(x, y, w, h),其中(x,y)為包圍框的中心(包圍框是單位正方形[0,1]×[0,1]), w, h為包圍框的寬度和高度。因此,我們需要將邊界框輸出轉(zhuǎn)換為初始和最終坐標(biāo),并重新縮放框以適應(yīng)圖像的實(shí)際大小。

下面的函數(shù)返回邊界框端點(diǎn):

# Get coordinates (x0, y0, x1, y0) from model output (x, y, w, h)def get_box_coords(boxes):

x, y, w, h = boxes.unbind(1)

x0, y0 = (x - 0.5 * w), (y - 0.5 * h)

x1, y1 = (x + 0.5 * w), (y + 0.5 * h)

box = [x0, y0, x1, y1]

return torch.stack(box, dim=1)

我們還需要縮放了框的大小。下面的函數(shù)為我們做了這些:

# Scale box from [0,1]x[0,1] to [0, width]x[0, height]def scale_boxes(output_box, width, height):

box_coords = get_box_coords(output_box)

scale_tensor = torch.Tensor(

[width, height, width, height]).to(

torch.cuda.current_device()) return box_coords * scale_tensor

現(xiàn)在我們需要一個(gè)函數(shù)來(lái)封裝我們的目標(biāo)檢測(cè)pipeline。下面的detect函數(shù)為我們完成了這項(xiàng)工作。

# Object Detection Pipelinedef detect(im, model, transform):

device = torch.cuda.current_device()

width = im.size[0]

height = im.size[1]

# mean-std normalize the input image (batch-size: 1)

img = transform(im).unsqueeze(0)

img = img.to(device)

# demo model only support by default images with aspect ratio between 0.5 and 2 assert img.shape[-2] 《= 1600 and img.shape[-1] 《= 1600, # propagate through the model

outputs = model(img) # keep only predictions with 0.7+ confidence

probas = outputs[‘pred_logits’].softmax(-1)[0, :, :-1]

keep = probas.max(-1).values 》 0.85

# convert boxes from [0; 1] to image scales

bboxes_scaled = scale_boxes(outputs[‘pred_boxes’][0, keep], width, height) return probas[keep], bboxes_scaled

現(xiàn)在,我們需要做的是運(yùn)行以下程序來(lái)獲得我們想要的輸出:

probs, bboxes = detect(image, detr, transform)

繪制結(jié)果

現(xiàn)在我們有了檢測(cè)到的目標(biāo),我們可以使用一個(gè)簡(jiǎn)單的函數(shù)來(lái)可視化它們。

# Plot Predicted Bounding Boxesdef plot_results(pil_img, prob, boxes,labels=True):

plt.figure(figsize=(16,10))

plt.imshow(pil_img)

ax = plt.gca()

for prob, (x0, y0, x1, y1), color in zip(prob, boxes.tolist(), COLORS * 100): ax.add_patch(plt.Rectangle((x0, y0), x1 - x0, y1 - y0,

fill=False, color=color, linewidth=2))

cl = prob.argmax()

text = f‘{CLASSES[cl]}: {prob[cl]:0.2f}’

if labels:

ax.text(x0, y0, text, fontsize=15,

bbox=dict(facecolor=color, alpha=0.75))

plt.axis(‘off’)

plt.show()

現(xiàn)在可以可視化結(jié)果:

plot_results(image, probs, bboxes, labels=True)

Colab地址:

https://colab.research.google.com/drive/1W8-2FOdawjZl3bGIitLKgutFUyBMA84q#scrollTo=bm0eDi8lwt48&uniqifier=2

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3875

    瀏覽量

    140532
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23114
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    812

    瀏覽量

    14428

原文標(biāo)題:跨界模型!使用Transformer來(lái)做物體檢測(cè)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    恩智浦i.MX RT1180處理器如何選型

    i.MX RT1180 處理器包含眾多的型號(hào),以滿(mǎn)足客戶(hù)對(duì)不同性能與價(jià)格的需求,今天就先給大家說(shuō)說(shuō)如何選型。
    的頭像 發(fā)表于 09-28 14:01 ?1097次閱讀
    恩智浦i.MX RT1180<b class='flag-5'>跨</b><b class='flag-5'>界</b>處理器如何選型

    自動(dòng)駕駛中Transformer模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話(huà)交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話(huà)題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3771次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>會(huì)取代深度學(xué)習(xí)嗎?

    【嘉楠堪智K230開(kāi)發(fā)板試用體驗(yàn)】01 Studio K230開(kāi)發(fā)板Test2——手掌,手勢(shì)檢測(cè),字符檢測(cè)

    理解: 它不僅能檢測(cè)圖像內(nèi)容,更能進(jìn)行精確的識(shí)別和定位。例如: 人臉檢測(cè)與定位(位置和尺寸)。 物體檢測(cè)、識(shí)別(分類(lèi))、定位(位置和尺寸)。 高性能: 其計(jì)算能力顯著提升,官方數(shù)據(jù)顯示其性能是前代
    發(fā)表于 07-10 09:45

    請(qǐng)問(wèn)嘉楠平臺(tái)k230訓(xùn)練的跌倒檢測(cè)模型里面的設(shè)置是怎么樣的?

    我想要了解K230所使用的跌倒檢測(cè)模型中的設(shè)置,例如人體檢測(cè)是如何實(shí)現(xiàn)的,在模型檢測(cè)中,人體的節(jié)點(diǎn)是多少。或者想請(qǐng)教一下相關(guān)的文檔或者內(nèi)容在
    發(fā)表于 06-23 07:05

    【HarmonyOS 5】VisionKit人臉活體檢測(cè)詳解

    【HarmonyOS 5】VisionKit人臉活體檢測(cè)詳解 ##鴻蒙開(kāi)發(fā)能力 ##HarmonyOS SDK應(yīng)用服務(wù)##鴻蒙金融類(lèi)應(yīng)用 (金融理財(cái)# 一、VisionKit人臉活體檢測(cè)
    的頭像 發(fā)表于 06-21 11:52 ?534次閱讀
    【HarmonyOS 5】VisionKit人臉活<b class='flag-5'>體檢測(cè)</b>詳解

    云南恩田有毒有害氣體檢測(cè)系統(tǒng)# 的安全#隧道施工#有毒有害氣體檢測(cè)

    體檢測(cè)
    恩田智能設(shè)備
    發(fā)布于 :2025年05月15日 15:06:40

    體檢漏儀如何操作?注意事項(xiàng)有哪些?

    體檢漏儀 ,從名稱(chēng)上就能看出,這是一種用于檢測(cè)氣體泄漏情況的專(zhuān)業(yè)設(shè)備,在工業(yè)、環(huán)保等領(lǐng)域中有著廣泛的應(yīng)用潛力。那么,氣體檢漏儀如何操作?注意事項(xiàng)有哪些?為方便大家了解,下面就讓小編來(lái)
    發(fā)表于 03-12 15:08

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?5280次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    企業(yè)AI模型托管怎么

    當(dāng)下,越來(lái)越多的企業(yè)選擇將AI模型托管給專(zhuān)業(yè)的第三方平臺(tái),以實(shí)現(xiàn)高效、靈活和安全的模型運(yùn)行。下面,AI部落小編為您介紹企業(yè)AI模型托管是怎么的。
    的頭像 發(fā)表于 01-15 10:10 ?617次閱讀

    transformer專(zhuān)用ASIC芯片Sohu說(shuō)明

    的舊圖像模型,也不能運(yùn)行CNN、RNN或LSTM。 但對(duì)于transformer來(lái)說(shuō),Sohu是有史以來(lái)最快的芯片。 借助Llama 70B每秒超過(guò)50萬(wàn)個(gè)token的吞吐量,Sohu可以讓您構(gòu)建在GPU上無(wú)法實(shí)現(xiàn)的產(chǎn)品
    的頭像 發(fā)表于 01-06 09:13 ?1528次閱讀
    <b class='flag-5'>transformer</b>專(zhuān)用ASIC芯片Sohu說(shuō)明

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    ,目標(biāo)物體周?chē)鷱?fù)雜的背景信息可能會(huì)干擾分類(lèi)結(jié)果,使得分類(lèi)器難以專(zhuān)注于真正重要的區(qū)域。 在深入探討了圖像分類(lèi)任務(wù)及其面臨的挑戰(zhàn)之后,我們現(xiàn)在將目光轉(zhuǎn)向一個(gè)更為復(fù)雜的計(jì)算機(jī)視覺(jué)問(wèn)題——目標(biāo)檢測(cè)。 如果說(shuō)
    發(fā)表于 12-19 14:33

    原來(lái)ESP32竟可《一“芯”兩用》既做人體檢測(cè)傳感器也Wi-Fi數(shù)據(jù)傳輸

    今天將介紹ESP32如何"一芯兩用",既做人體檢測(cè)傳感器也Wi-Fi數(shù)據(jù)傳輸模塊;對(duì)于使用ESP32Wi-Fi數(shù)據(jù)通訊,相信玩ESP32的基本上都知道怎么玩了,但是
    的頭像 發(fā)表于 12-18 18:12 ?4942次閱讀
    原來(lái)ESP32竟可《一“芯”兩用》既做人<b class='flag-5'>體檢測(cè)</b>傳感器也<b class='flag-5'>做</b>Wi-Fi數(shù)據(jù)傳輸

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?2119次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線(xiàn)桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1305次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>能夠做什么

    《DNK210使用指南 -CanMV版 V1.0》第四十一章 YOLO2物體檢測(cè)實(shí)驗(yàn)

    有關(guān)maix.KPU模塊的介紹,請(qǐng)見(jiàn)第39.1小節(jié)《maix.KPU模塊介紹》。41.2 硬件設(shè)計(jì)41.2.1 例程功能1. 獲取攝像頭輸出的圖像,并送入KPU進(jìn)行YOLO2的物體檢測(cè)模型運(yùn)算,后將運(yùn)算
    發(fā)表于 11-14 09:22