人類不僅可以通過(guò)眼睛“看清”周圍環(huán)境中的東西,還能“識(shí)別并理解”這些東西,對(duì)這些東西形成“認(rèn)知和決策”?,F(xiàn)在,研究人員正努力讓AI也做到這一點(diǎn)。北京大學(xué)博雅特聘教授、前沿計(jì)算研究中心執(zhí)行主任陳寶權(quán)的這篇精彩演講,對(duì)當(dāng)前國(guó)內(nèi)三維視覺(jué)智能領(lǐng)域研究概況、技術(shù)應(yīng)用方向和未來(lái)前景做了精彩分析。
眾所周知,人工智能是模擬人類智能的技術(shù),實(shí)現(xiàn)對(duì)人類智能的完全再現(xiàn),是人工智能的終極目標(biāo)。而人類智能是從人類的感官和認(rèn)知開(kāi)始的。所以,人類的感官往往成為研究人工智能的入手點(diǎn),比如視覺(jué)。
對(duì)于人類而言,不僅可以通過(guò)眼睛“看清”周圍環(huán)境中的東西,還能“識(shí)別并理解”這些東西,對(duì)這些東西形成“認(rèn)知和決策”?,F(xiàn)在,越來(lái)越多的AI領(lǐng)域的研究人員正努力讓AI同樣做到這一點(diǎn)。從人類的三維視覺(jué)出發(fā),三維視覺(jué)智能已成為人工智能研究和應(yīng)用的熱門(mén)領(lǐng)域。
在今年3月27日新智元舉辦的“智能云·新世界”AI技術(shù)峰會(huì)上,北京大學(xué)博雅特聘教授、前沿計(jì)算研究中心執(zhí)行主任陳寶權(quán)發(fā)表了題為《三維視覺(jué)智能及應(yīng)用》的演講,從研究人員的視角,對(duì)當(dāng)前國(guó)內(nèi)三維視覺(jué)智能領(lǐng)域研究概況、技術(shù)應(yīng)用方向和未來(lái)前景做了精彩的分析。
以下為新智元整理的演講內(nèi)容:
北京大學(xué)博雅特聘教授、前沿計(jì)算研究中心執(zhí)行主任陳寶權(quán)
今天很高興有機(jī)會(huì)能夠在這里發(fā)表演講!今天下午的講者主要來(lái)自于企業(yè),我就從學(xué)術(shù)研究的角度,對(duì)現(xiàn)在非常流行的人工智能技術(shù)的重要分支——視覺(jué)智能來(lái)做下介紹。
說(shuō)到視覺(jué)智能,大家都不陌生,人工智能的很多技術(shù)是基于人的各種感觀的,其中視覺(jué)感觀就是非常重要的一環(huán)。在視覺(jué)智能方面的很多技術(shù)已經(jīng)在工業(yè)界得到非常好的應(yīng)用。隨著應(yīng)用的深入,越來(lái)越多的視覺(jué)智能技術(shù)進(jìn)入“三維視覺(jué)智能”階段。也就是說(shuō),我們的眼睛不僅要看清某個(gè)東西,認(rèn)識(shí)某個(gè)東西,還要走到這個(gè)場(chǎng)景里面去,在三維世界里真實(shí)地感受場(chǎng)景,如同身臨其境。
這就需要具有三維空間感知與認(rèn)知能力的智能,即三維視覺(jué)智能。任何一個(gè)新的研究方向的出現(xiàn)都不是憑空而來(lái),而是和許多其他學(xué)科交叉而來(lái)的。三維視覺(jué)智能的研究就是集合計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)等領(lǐng)域的技術(shù)與傳統(tǒng)的人工智能、學(xué)習(xí)、大數(shù)據(jù)等很好地交叉融合。
三維視覺(jué)技術(shù)的發(fā)展得益于視覺(jué)傳感器的快速發(fā)展,已經(jīng)在推動(dòng)很多應(yīng)用,比較有代表性的包括無(wú)人車、機(jī)器人,以及娛樂(lè)、影視等其它領(lǐng)域的應(yīng)用。
三維視覺(jué)研究什么?總結(jié)起來(lái)有幾大主要方向:
首先是三維感知,也就是感知三維空間,獲取和處理三維深度等;然后是位置感知,比如感知相機(jī)的位置等;第三是三維建模,不僅對(duì)場(chǎng)景有基本的深度感知,還要獲得關(guān)于場(chǎng)景完整幾何模型的描述。最重要的就是三維理解,對(duì)場(chǎng)景和其中的物體從三維空間來(lái)進(jìn)行理解。
三維視覺(jué)的發(fā)展得益于視覺(jué)傳感器的發(fā)展,而傳感器大致可以分為兩類,一類是被動(dòng)傳感器,現(xiàn)在我們用的各種相機(jī)就是被動(dòng)傳感器。另一類就是主動(dòng)傳感器,比如激光掃描,以及各類以主動(dòng)發(fā)射信號(hào)為主導(dǎo)進(jìn)行測(cè)量的傳感器。大家知道,隨著手機(jī)的快速發(fā)展,未來(lái)的手機(jī)會(huì)同時(shí)配備兩類傳感器,也就是深度傳感器和傳統(tǒng)的顏色傳感器。
下面簡(jiǎn)要介紹一下我們?cè)谶@方面的一些探索性工作。2009年,當(dāng)時(shí)大疆無(wú)人機(jī)還做定制化產(chǎn)品,我們請(qǐng)大疆做了一臺(tái)定制化無(wú)人機(jī),目的用它來(lái)做傾斜角航拍,利用無(wú)人機(jī)從空中得到航拍影像,經(jīng)過(guò)三維重建計(jì)算以后得到三維影像數(shù)據(jù)(注意,還不是完整的三維模型),有了三維描述就可以從任意視角自由地漫游場(chǎng)景??梢钥吹剑M管用的只是二維傳感器,依然可以通過(guò)視覺(jué)計(jì)算得到三維數(shù)據(jù)的描述。
隱式三維感知:動(dòng)態(tài)相機(jī)實(shí)現(xiàn)視頻無(wú)縫接合
在我講如何利用主動(dòng)式傳感器直接獲得三維場(chǎng)景幾何模型之前,我想先介紹一下,其實(shí)對(duì)于影像的三維感知不一定要以顯式的方式表示出來(lái),可以通過(guò)隱式的方法獲得一定程度的三維感知,也能實(shí)現(xiàn)一些類比于直接采用三維信息才能實(shí)現(xiàn)的功能。
這個(gè)好比人的視覺(jué)感知,我們雖然對(duì)視覺(jué)的認(rèn)知是三維的,但也不是一切基于精確的三維測(cè)量。這里舉幾個(gè)例子。比如,上面是電影里的一個(gè)片斷,我們可以把其中的人物和表演放到一個(gè)新的場(chǎng)景里去,因?yàn)橄鄼C(jī)是動(dòng)態(tài)的,這里就需要有一個(gè)隱式的相機(jī)三維位置恢復(fù),才能把一個(gè)動(dòng)態(tài)的前景和一個(gè)動(dòng)態(tài)的視頻背景無(wú)縫融合在一起。
上面是一段表演視頻,我們可以提取它的一部分三維骨架信息,驅(qū)動(dòng)一個(gè)不會(huì)跳舞的人來(lái)跳舞。左邊的這個(gè)人假設(shè)不會(huì)跳舞,她只是做幾個(gè)動(dòng)作,右邊大圖里面左上角是真正會(huì)跳舞的舞者,我們用她的專業(yè)動(dòng)作來(lái)驅(qū)動(dòng)不會(huì)跳舞的人來(lái)跳舞。就是通過(guò)對(duì)“驅(qū)動(dòng)”視頻進(jìn)行三維理解并“遷移”三維動(dòng)作到參考視頻中的人物而并合成新的視頻,于是在右邊大圖里,這位女士也會(huì)跳舞了。
我們不僅可以把一個(gè)人的動(dòng)作遷移到另外一位骨架類似的人身上,也可以把小孩的動(dòng)作遷移到大人身上,甚至可以把動(dòng)物的動(dòng)作遷移到人的身上。這就需要具備一定的三維骨架重定向的能力。
比如,下面的動(dòng)圖中有兩個(gè)人在跳舞,但是每個(gè)人的動(dòng)作方向、臉部朝向、身高都有所不同。像這樣一個(gè)運(yùn)動(dòng)的定向差值,都是通過(guò)隱式三維理解和編碼實(shí)現(xiàn)的。
下面講主動(dòng)傳感器的使用,近年來(lái)主動(dòng)式傳感的發(fā)展非常非???。特別是無(wú)人車技術(shù)的發(fā)展要求,進(jìn)一步推動(dòng)了傳感技術(shù)的飛速發(fā)展。早在無(wú)人車火爆之前,我們就于2009年開(kāi)始采用車載移動(dòng)激光掃描器來(lái)進(jìn)行城市級(jí)別的大場(chǎng)景三維掃描,構(gòu)建城市場(chǎng)景的三維模型。
我們通過(guò)車載三維傳感技術(shù)得到了大量點(diǎn)云數(shù)據(jù),并利用這些數(shù)據(jù)進(jìn)行幾何建模,得到了非常精細(xì)的三維模型。我們對(duì)城市場(chǎng)景里各種類別的復(fù)雜物體進(jìn)行建模,例如對(duì)樹(shù)木等目標(biāo)進(jìn)行三維識(shí)別,識(shí)別出不同類型的樹(shù),再針對(duì)不同樹(shù)木的幾何特征,對(duì)樹(shù)木進(jìn)行高精細(xì)化的三維建模。
中央電視臺(tái)曾經(jīng)對(duì)我們做過(guò)一期專門(mén)報(bào)道——《把城市搬到電腦里》。當(dāng)時(shí)我們對(duì)深圳一個(gè)片區(qū)進(jìn)行了完整的三維建模。這之后我們接到了很多電話,問(wèn)我們:用你們的車開(kāi)過(guò)一遍是不是就能獲得我們城市的三維模型?實(shí)際上我們做不到,原因不是因?yàn)閿?shù)據(jù)處理的問(wèn)題,而在于前端的數(shù)據(jù)獲取。
我們的城市綠化做得太好了,車開(kāi)過(guò)去只能掃描到樹(shù),掃描不到建筑。如果要真正解決這個(gè)問(wèn)題,就要把解決方案移到前端,想辦法能夠完整地獲取數(shù)據(jù)。
因此,我們開(kāi)始提出利用機(jī)器人獲取數(shù)據(jù),來(lái)進(jìn)一步解決這個(gè)問(wèn)題。機(jī)器人在現(xiàn)場(chǎng)采集數(shù)據(jù)的同時(shí)進(jìn)行數(shù)據(jù)分析,看看數(shù)據(jù)是不是有缺失,如果有缺失就要走到相應(yīng)地點(diǎn)去獲取所需信息,從而形成一個(gè)數(shù)據(jù)獲取與處理的閉環(huán)。
讓機(jī)器人不僅看得見(jiàn),還要看得懂
首先從單個(gè)物體的實(shí)驗(yàn)開(kāi)始,機(jī)器人手持Kinect(一種利用結(jié)構(gòu)光獲取三維模型信息的主動(dòng)式傳感器)掃描一個(gè)物體,例如一個(gè)3D打印的玩具,能獲取目標(biāo)物體全方位的三維數(shù)據(jù)。機(jī)器人自己規(guī)劃掃描路徑,直到最后獲得一個(gè)完整的三維模型。
接著實(shí)驗(yàn)的是場(chǎng)景認(rèn)知問(wèn)題。不僅要獲得場(chǎng)景的完整三維數(shù)據(jù),而且還要認(rèn)識(shí)每個(gè)物體到底是什么,要去理解場(chǎng)景里的每個(gè)物體,獲取物體的語(yǔ)義信息。同樣的道理,認(rèn)知的過(guò)程必須形成一個(gè)閉環(huán),機(jī)器人的實(shí)時(shí)決策能不能根據(jù)現(xiàn)有的三維數(shù)據(jù)對(duì)這個(gè)物體進(jìn)行識(shí)別。如果不可以,就要走到新的角度去獲取數(shù)據(jù)。
進(jìn)一步,我們的算法就可以拓展到一個(gè)更大的室內(nèi)場(chǎng)景中。這種情況下,只有一個(gè)機(jī)器人是不夠的,我們可以利用多個(gè)機(jī)器人。這些機(jī)器人要實(shí)現(xiàn)協(xié)作,需要一個(gè)實(shí)時(shí)的協(xié)同工作算法。在室內(nèi)環(huán)境下,我們已經(jīng)有了非常好的機(jī)器人協(xié)同方案。
機(jī)器人不僅可以在三維空間導(dǎo)航行走,還應(yīng)該成為真實(shí)世界的一員。實(shí)現(xiàn)這一點(diǎn)就要讓機(jī)器人和現(xiàn)實(shí)場(chǎng)景打交道,比如讓機(jī)器人拿起一個(gè)杯子,打開(kāi)一扇門(mén),甚至和人握手等。這種直接的三維交互非常重要。這需要對(duì)機(jī)器人空間定位和路徑規(guī)劃進(jìn)行更多的研究,這方面我們近期做了一些工作。
讓機(jī)器人具備決策和執(zhí)行力,替人類完成更多工作
我們沿著這個(gè)技術(shù)路線探索,思路也變得愈發(fā)清晰。通過(guò)三維視覺(jué)與人工智能技術(shù)的結(jié)合,我們讓機(jī)器人更加智能化與功能化,讓機(jī)器人做更多人在現(xiàn)實(shí)生活中能夠做的事。機(jī)器人具備現(xiàn)場(chǎng)自主決策和執(zhí)行的能力,比如在工業(yè)流水線上可以幫助組裝配件,物流場(chǎng)景中搬箱子等。這樣的應(yīng)用,涉及到非常精細(xì)化的技術(shù),比如準(zhǔn)確高效的運(yùn)動(dòng)規(guī)劃,還有各種各樣的控制,智能的執(zhí)行等。我們?cè)谶@方面也有了些探索性的工作。
隨著三維傳感器的普及,三維數(shù)據(jù)越來(lái)越多,如何實(shí)現(xiàn)對(duì)三維場(chǎng)景的精細(xì)化理解變得非常重要。理解場(chǎng)景很重要也很有效的一個(gè)方法就是深度學(xué)習(xí)。最早所有的深度學(xué)習(xí)都是針對(duì)二維影像。卷積神經(jīng)網(wǎng)絡(luò)面向的是二維影像,而對(duì)于三維場(chǎng)景,輸入數(shù)據(jù)是三維的點(diǎn)云。
因?yàn)闆](méi)有卷積神經(jīng)網(wǎng)絡(luò)能夠天然地處理非結(jié)構(gòu)化的三維點(diǎn)云,我們針對(duì)這個(gè)問(wèn)題設(shè)計(jì)了PointCNN卷積神經(jīng)網(wǎng)絡(luò),它的性能是相當(dāng)好的,我們也很高興看到有很多公司在使用我們的網(wǎng)絡(luò)。
面向物流領(lǐng)域的應(yīng)用,我們還嘗試了一個(gè)機(jī)器人搬箱子的測(cè)試。在去年京東“雙11”期間進(jìn)行了10天的壓力測(cè)試,機(jī)器人在現(xiàn)場(chǎng)代替一組人(兩人一組)去識(shí)別箱子、搬箱子,并把大大小小不同的箱子搬到傳送帶上。這是我們的技術(shù)第一次從學(xué)校的實(shí)驗(yàn)室走進(jìn)現(xiàn)實(shí)場(chǎng)景中。但是我們也感受到,越走近現(xiàn)實(shí)場(chǎng)景,問(wèn)題就會(huì)越復(fù)雜。在座有很多企業(yè)界的人,歡迎各位能過(guò)來(lái)跟我們交流合作。
三維視覺(jué)智能的研究與應(yīng)用如此重要,但國(guó)內(nèi)還沒(méi)有一個(gè)基于三維視覺(jué)的社區(qū)。去年底,由本人召集在中國(guó)圖像圖形學(xué)會(huì)旗下成立了三維視覺(jué)專業(yè)委員會(huì),目的是把學(xué)術(shù)界和企業(yè)界的相關(guān)人士聯(lián)合在一起。歡迎更多相關(guān)企業(yè)加入進(jìn)來(lái),一起推動(dòng)三維視覺(jué)技術(shù)的發(fā)展。
-
AI
+關(guān)注
關(guān)注
88文章
35118瀏覽量
279669 -
人工智能
+關(guān)注
關(guān)注
1806文章
49012瀏覽量
249388 -
智能視覺(jué)
+關(guān)注
關(guān)注
0文章
115瀏覽量
9505
原文標(biāo)題:北大教授陳寶權(quán):AI+三維視覺(jué),讓機(jī)器人具備決策和執(zhí)行力
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
索尼FCB-ER8530:三維建模與視覺(jué)感知的跨界融合
奧比中光亮相第四屆中國(guó)三維視覺(jué)大會(huì)
工業(yè)電機(jī)行業(yè)現(xiàn)狀及未來(lái)發(fā)展趨勢(shì)分析
三維測(cè)量在醫(yī)療領(lǐng)域的應(yīng)用
三維測(cè)量軟件的使用技巧
三維掃描與建模的區(qū)別 三維掃描在工業(yè)中的應(yīng)用
生成式AI在制造業(yè)的應(yīng)用現(xiàn)狀和前景展望
南方智能推出三維地理實(shí)體生產(chǎn)軟件
三維可視化技術(shù)的應(yīng)用現(xiàn)狀和發(fā)展前景
三維觸摸面板-運(yùn)用觸感功能
三維打印技術(shù)原理
泰來(lái)三維 新智驅(qū)動(dòng)力:三維掃描技術(shù)助力博物館教育創(chuàng)新

友思特方案 基于三維點(diǎn)云實(shí)現(xiàn)PCB裝配螺絲視覺(jué)檢測(cè)

泰來(lái)三維 工廠三維掃描建模技術(shù)服務(wù)

評(píng)論