chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

計算機視覺中的專業(yè)術語概念和意義

新機器視覺 ? 來源:CV技術指南 ? 作者:仿佛若有光 ? 2021-06-26 11:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言:

計算機視覺中存在很多的專業(yè)術語,如先驗知識,語義信息,embedding,head,neck等。這些術語的解釋無法直接在網上搜到,也沒有在哪一篇論文中定義它們的概念和意義,因此,對于第一次聽到這些術語的讀者來說會非常的困惑。

此外,對于還沒有建立計算機視覺知識體系的讀者來說,也很難理解特征空間,fine-tuning、預訓練、池化等方面的內容。

本文介紹了很多讀者在其它地方不可能了解的內容,通過這些內容相信讀者能更深層次地理解計算機視覺,建立起基本的計算機視覺知識體系。

backbone、head、neck和fine-tune

以一個圖像分類的卷積神經網絡為例,網絡分成兩部分,前部分是由卷積層、歸一化層、激活層、池化層堆疊的,輸入圖像在經過若干層卷積、歸一化層、激活層和池化層的堆疊后進入全連接層,經過幾次全連接后輸出每個類別的概率值。

在這里,前面卷積層、歸一化層、激活層和池化層的堆疊部分屬于backbone。意思是神經網絡的軀干部分,這部分也稱為特征提取網絡。

后面的全連接層的堆疊屬于head。意思是神經網絡的頭部,實現模型任務的預測,稱為predictor head,這部分網絡也稱為分類網絡。

再以目標檢測中的YOLO_V4中的圖為例。

如上圖所示,在backbone后,常構建特征金字塔,在特征金字塔部分做一些處理,如多尺度融合,再將特征金字塔的輸出進行預測。因此,特征金字塔這部分放在backbone和head之間,稱為neck(脖子),這里的Dense Prediction即為head。

關于backbone即常見的經典網絡,如VGG,ResNet,MobileNet,ShuffleNet,DenseNet等,當某個模型提到backbone使用的是VGG,即表示使用的是VGG的backbone部分,而不包括VGG的head。

這里解釋一下為何是這樣。神經網絡有多種解釋,其中一種解釋如下,神經網絡被認為是在提取特征,計算機視覺的傳統(tǒng)方法就是人為地設定某些特征,再進行分類。如HOG特征,LBP特征,在提取完特征后,使用分類器對這些特征進行分類,如SVM分類器。

這里的backbone部分則認為是一個特征提取網絡,而head部分則被認為是分類網絡,因此特征提取的部分可以共享,它們的本質都是在提取圖片的特征,而分類網絡則對應到具體的任務,如分類貓狗,分類網絡需要從提取的特征中分成貓狗兩類。

這段話同時也解釋了fine-tune的原理,使用一個預訓練好的backbone,針對你自己的任務,自己搭建相應的分類網絡,在訓練時凍結backbone的參數,只訓練分類網絡的參數。這是因為預訓練好的backbone已經具備很好的特征提取能力,因此對于你自己的圖像,網絡只需要學習如何將提取后的特征按你定義的類別進行分類。

Preprocess和Postprocess

Preprocess為預處理,圖像在送入神經網絡之前,需要進行一定的處理。

通常的處理是使用opencv中的resize將所有圖像縮放到同一尺寸,并根據數據集的標注設置網絡的label。此外,如果有必要的話,還會進行數據增強,如調整圖像飽和度,鏡像,加噪聲,隨機掩碼等方式。

預處理的必要性:大部分神經網絡在backbone后將數據進行flatten(即將四維的張量變成二維)的操作,再進行全連接,此時全連接層輸入的神經元個數即為flatten后的長度,若輸入的圖像的尺寸不一樣,則全連接層輸入的神經元個數無法一致,會報錯。此外,對于沒有全連接層,其它類似的處理部分(除少數外),也會要求backbone后的輸出大小一致。 Postprocess指的是對網絡預測的結果進行后處理,對于普通的分類網絡不需要后處理,但對于目標檢測、語義分割這樣的任務,需要對網絡的輸出進行處理,將預測的結果通過圖像進行可視化。

例如目標檢測中的YOLO,其輸出一個7x7x30的張量,輸出98個預測框,但實際一張圖片沒這么的目標,則需要進行NMS這樣的處理來去除一些不合理的預測框,且我們無法直接看待這些預測框是否準確,就需要將其在原圖像上顯示出來,以直觀感受預測的效果如何。

先驗知識

在《論文創(chuàng)新的常見思路總結》中我提到,關于特定的類的檢測,我們可以針對這個類別添加很多先驗知識,在《數據增強方法總結》中我提到,數據增強的本質是人為地引入人視覺上的先驗知識。在《CNN可視化技術總結(一)特征圖可視化》中我提到,所謂改進網絡都是人的主觀改進,這里人的主觀即先驗知識。 這里的先驗知識指的是人對于如何識別一張圖像或如何識別一個類而關注的內容,引入先驗知識是指設計一些東西讓網絡也關注這些內容。 例如特征金字塔中的多尺度融合,人認為大目標應該在低分辨率檢測、小目標在高分辨率檢測,由此網絡在特征金字塔的不同層預測不同大小的目標。人又認為如果大目標在低分辨率檢測,小目標在高分辨率檢測,則在低分辨率時,小目標還存在,在這里被當成了背景,同理在高分辨率時大目標被當成了背景,這樣不合理,又提出了ASFF處理方式,提升了5-10個百分點。

《特征金字塔技術總結》

例如人在關注一個事物時,會自動忽略眼睛看到的其它東西,由此提出了注意力機制。例如即便只有上半身,人還是能認出自己熟悉的人,由此提出隨機遮擋等數據增強方式,讓網絡在有遮擋的情況下也能正確識別。

例如人是如何識別打籃球這一行為的,人根據籃球、投籃手勢、身體跳躍、籃球運動等一系列的組合識別,因此如何讓網絡更好地關注這些特征提出了Non-Local。

在transformer中出現了embedding,在自編碼器中也出現了embedding,還有很多地方也有提到,如何理解embedding?

這里涉及到神經網絡的另一種解釋。神經網絡被認為是將圖像從高維的像素空間映射到低維的嵌入空間,即embedding,也可稱為特征空間。這里的特征空間用embedding(向量的形式)來表示。

在編碼器中,網絡將圖像映射成embedding,即高維圖像通過非線性函數的多次映射,可以用低維embedding來表示,在解碼器中,網絡將低維embedding映射回圖像。

因此,embedding可以認為是某些特征的濃縮表示形式。

以行人重識別為例,論文認為即便是在不同拍攝角度下,只要是同一個人,神經網絡輸出的embedding在某種距離度量方式下就是相近的,而不同的人在某種距離方式下就是很遠的,因此可以通過某種距離度量方式判斷兩個embedding的距離是否在閾值范圍內來判斷是否為同一個人。

feature map

字面意思:特征圖。

根據前面的解釋,神經網絡是在將圖像從高維像素空間映射到低維的特征空間,這個映射是通過一層一層卷積和激活來進行的,卷積具備提取特征的能力。

例如在數字圖像處理中,我們是通過sobel算子來檢測輪廓,而sobel算子可以認為是3x3的卷積的其中一種情況,在這種情況下,它就可以提取圖像的輪廓,那在其它情況下就可以提取其它的特征,因此卷積的過程就是在提取特征的過程,經過卷積提取特征和激活函數的映射后的輸出稱為feature maps。

池化

接著上面的解釋來介紹一下池化。

在一張圖像中存在很多噪聲和冗余信息,噪聲是由相機拍攝過程中由于傳感器電路、材料等硬件因素或傳輸過程中產生的,冗余信息是指跟具體任務無關的內容。

當我們以整張圖像輸入時,需要將這些噪聲、冗余信息去除。我們認為這些冗余信息和噪聲不是特征,在神經網絡中的卷積和映射過程中,會產生比較低的響應值,因此我們可以通過最大池化選擇最大的響應值進入下一層,因為我們認為只有特征才會在卷積過程中產生大的特征值,也稱為響應值。

同樣以sobel為例,當對一個像素值基本相同的背景進行卷積時,卷積的輸出幾乎為0,而對一個輪廓邊緣進行sobel卷積,則會輸出較大的值。

因此神經網絡通過多次最大池化,去除了噪聲和冗余信息。這也就是為什么神經網絡的backbone部分基本全是最大池化,而不是平均池化,因為平均池化會將這些冗余信息和噪聲繼續(xù)傳到下一層。

關于池化更詳細的技術總結,請閱讀《池化技術總結》文章。

語義信息

數字圖像是由像素值組成的,它們本是一堆數字的組合,但就是這樣的組合形成了一幅幅圖像,如貓、狗、籃球、米老鼠、眼睛、鼻子等。因此,語義信息指的是圖像的內容,即鼻子,眼睛這樣的圖像。

總結

本文介紹了很多讀者在其它地方不可能了解的內容,通過這些內容相信讀者能更深層次地理解計算機視覺,建立起基本的計算機視覺知識體系。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7787

    瀏覽量

    92959
  • 機器視覺
    +關注

    關注

    164

    文章

    4774

    瀏覽量

    125609

原文標題:計算機視覺專業(yè)術語解析

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    上海計算機視覺企業(yè)行學術沙龍走進西井科技

    12月5日,由中國圖象圖形學學會青年工作委員會(下簡稱“青工委”)、上海市計算機學會計算機視覺專委會(下簡稱“專委會”)聯合主辦,上海西井科技股份有限公司、江蘇路街道商會承辦的“上海計算機
    的頭像 發(fā)表于 12-16 15:39 ?459次閱讀

    使用代理式AI激活傳統(tǒng)計算機視覺系統(tǒng)的三種方法

    當前的計算機視覺系統(tǒng)擅長于識別物理空間與流程的事件,卻難以詮釋場景細節(jié)及其意義,也無法推理后續(xù)可能發(fā)生的情況。
    的頭像 發(fā)表于 12-01 09:44 ?561次閱讀

    龍架構計算機系統(tǒng)能力核心課程教學研討會圓滿舉行

    2025年11月8日,由教育部計算機專業(yè)系統(tǒng)能力課程群虛擬教研室指導、北京航空航天大學計算機學院主辦的龍架構計算機系統(tǒng)能力核心課程教學研討會在京舉行。
    的頭像 發(fā)表于 11-14 13:52 ?565次閱讀

    通俗易懂的晶振專業(yè)術語

    想要了解一個行業(yè),就要對其產品的術語要有所了解,各行各業(yè)都要自己專業(yè)術語,石英晶振也不例外;了解晶振術語對晶振采購和選型有很大幫助;下面小揚給大家簡單的解釋晶振術語都代表什么意思:
    的頭像 發(fā)表于 09-18 11:31 ?1867次閱讀
    通俗易懂的晶振<b class='flag-5'>專業(yè)術語</b>

    微軟正式發(fā)布Microsoft行星計算機專業(yè)

    地理空間數據雖賦能能源、農業(yè)、零售等多領域,卻因復雜性與數據孤島問題長期局限于專家群體。微軟正式發(fā)布Microsoft行星計算機專業(yè)版,通過Microsoft Azure(國際版)整合AI技術分析能力,實現海量數據從采集、處理到洞察的全流程管理,推動可持續(xù)決策成為企業(yè)新基
    的頭像 發(fā)表于 08-19 14:31 ?1040次閱讀

    易控智駕榮獲計算機視覺頂會CVPR 2025認可

    近日,2025年國際計算機視覺與模式識別頂級會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美國田納西州納什維爾召開。
    的頭像 發(fā)表于 07-29 16:54 ?1115次閱讀

    工業(yè)計算機的重要性

    工業(yè)計算機對某些行業(yè)至關重要。我們將在下面詳細解釋這些行業(yè)的工業(yè)計算機應用。1.制造與工業(yè)自動化工業(yè)級計算機非常適合制造工廠,特別是那些想要自動化裝配過程的工廠。在這樣的環(huán)境
    的頭像 發(fā)表于 07-28 16:07 ?479次閱讀
    工業(yè)<b class='flag-5'>計算機</b>的重要性

    自動化計算機經過加固后有什么好處?

    讓我們討論一下部署堅固的自動化計算機的一些好處。1.溫度范圍寬自動化計算機經過工程設計,配備了支持寬溫度范圍的組件,使自動化計算解決方案能夠在各種不同的極端環(huán)境運行。自動化
    的頭像 發(fā)表于 07-21 16:44 ?535次閱讀
    自動化<b class='flag-5'>計算機</b>經過加固后有什么好處?

    自動化計算機的功能與用途

    工業(yè)自動化是指利用自動化計算機來控制工業(yè)環(huán)境的流程、機器人和機械,以制造產品或其部件。工業(yè)自動化的目的是提高生產率、增加靈活性,并提升制造過程的質量。工業(yè)自動化在汽車制造中體現得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?639次閱讀
    自動化<b class='flag-5'>計算機</b>的功能與用途

    工業(yè)計算機與商用計算機的區(qū)別有哪些

    工業(yè)計算機是一種專為工廠和工業(yè)環(huán)境設計的計算系統(tǒng),具有高可靠性和穩(wěn)定性,能夠應對惡劣環(huán)境下的自動化、制造和機器人操作。其特點包括無風扇散熱技術、無電纜連接和防塵防水設計,使其在各種工業(yè)自動化場景
    的頭像 發(fā)表于 07-10 16:36 ?626次閱讀
    工業(yè)<b class='flag-5'>計算機</b>與商用<b class='flag-5'>計算機</b>的區(qū)別有哪些

    計算機視覺專業(yè)實訓教學 如何更高效開展?

    現在很多高校都采用實訓教學,尤其是理科類院校,理論結合實踐才是學習的最好方法。在計算機圖像處理專業(yè),需要通過大量的應用實驗來進行算法的驗證提升,這個過程需要AI圖像處理板、相機、算法等共同參與。一些
    的頭像 發(fā)表于 04-08 17:50 ?596次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>視覺</b><b class='flag-5'>專業(yè)</b>實訓教學 如何更高效開展?

    探索物聯網專業(yè)術語:開啟智能互聯世界的鑰匙

    在當今數字化時代,物聯網(IoT)正以前所未有的速度改變著我們的生活和工作方式。從智能家居到工業(yè)自動化,從智能醫(yī)療到智能交通,物聯網的應用無處不在。然而,對于許多人來說,物聯網領域的專業(yè)術語可能顯得
    的頭像 發(fā)表于 03-27 10:25 ?866次閱讀
    探索物聯網<b class='flag-5'>專業(yè)術語</b>:開啟智能互聯世界的鑰匙

    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持

    計算機視覺的支持,擴大了當前對音頻、雷達和其他時間序列信號數據的支持范圍。在增加這項支持后,該平臺將能夠用于開發(fā)低功耗、低內存的邊緣AI視覺模型。這將給諸多應用領域的機器學習開發(fā)人員帶來極大的便利,例如工廠可以借此實現對零件的
    的頭像 發(fā)表于 03-11 15:11 ?732次閱讀
    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的支持

    Arm KleidiCV與OpenCV集成助力移動端計算機視覺性能優(yōu)化

    等多種應用。然而,這些計算機視覺應用可能很難實現最優(yōu)化的延遲性能和處理速度,特別是在內存大小、電池容量和處理能力有限的移動設備上難度更高。 而 Arm KleidiCV 便能在其中大顯身手。該開源庫利用了最新 Arm CPU
    的頭像 發(fā)表于 02-24 10:15 ?993次閱讀

    AR和VR計算機視覺

    ):計算機視覺引領混合現實體驗增強現實(AR)和虛擬現實(VR)正在徹底改變我們與外部世界的互動方式。即便是在引人入勝的沉浸式
    的頭像 發(fā)表于 02-08 14:29 ?2313次閱讀
    AR和VR<b class='flag-5'>中</b>的<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>