這幾天,計(jì)算機(jī)視覺和模式識別領(lǐng)域的頂級會議 CVPR 2021(Computer Vision and Pattern Recognition)正在火熱進(jìn)行中,剛剛從加州大學(xué)洛杉磯分校(UCLA)博士畢業(yè)的石家莊女生范麗鳳,提及此次被錄用的論文表示:“在 CV 和 AI 領(lǐng)域,中國人的貢獻(xiàn)和力量是毋庸置疑和不容小覷的?!?/p>
在最終評審中她獲得了接近滿分的成績,三位審稿人中兩位給了 “Strong Accept”,一位給了 “Accept”。
范麗鳳是計(jì)算機(jī)視覺大牛朱松純教授的博士生。2020 年,朱松純?nèi)毣貒⑷肼毐贝?,還牽頭成立了北京通用人工智能研究院,一度曾在國內(nèi)引起過熱議。
最近剛剛博士畢業(yè)的范麗鳳也即將跟隨導(dǎo)師朱松純教授回國工作,其表示:“朱老師肯定希望我們可以回去支持國內(nèi)的 AI 事業(yè),我自己也覺得國內(nèi)有巨大的發(fā)展空間,也更喜歡國內(nèi)的文化環(huán)境,并且在朱老師的研究院我還可以繼續(xù)推進(jìn)一直以來的研究工作,這是一個很好的機(jī)遇?!?/p>
范麗鳳本科和博士期間學(xué)的都是統(tǒng)計(jì)學(xué)。2012 年,她從河北辛集中學(xué)考入浙江大學(xué)數(shù)學(xué)科學(xué)學(xué)院,主修統(tǒng)計(jì)學(xué),在四年的本科學(xué)習(xí)訓(xùn)練中掌握了統(tǒng)計(jì)建模和編程實(shí)現(xiàn)的基本能力。
2015 年大三暑假,她參加了 UCLA-CSST 暑期科研訓(xùn)練項(xiàng)目,在 Hongjing Lu 教授(UCLA 心理系和統(tǒng)計(jì)系教授)的指導(dǎo)下開展了一項(xiàng)關(guān)于動作識別的研究。自那時起,范麗鳳開始對計(jì)算機(jī)視覺產(chǎn)生了濃厚的興趣。
項(xiàng)目快結(jié)束時,她特意寫郵件并去實(shí)驗(yàn)室拜訪了時任 UCLA 統(tǒng)計(jì)系和計(jì)算機(jī)科學(xué)系教授的朱松純。經(jīng)過交談,朱教授鼓勵她多讀實(shí)驗(yàn)室的相關(guān)論文、多學(xué)點(diǎn)計(jì)算機(jī)視覺的基礎(chǔ)課程,為進(jìn)行科研打下堅(jiān)實(shí)的基礎(chǔ)。
回到浙大后,范麗鳳利用大四的時間,積極主動修習(xí)了計(jì)算機(jī)視覺的相關(guān)課程,閱讀了一些基礎(chǔ)的專業(yè)書籍和論文。經(jīng)過再三考慮,她下定決心申請了朱教授的博士,最終如愿獲得了錄取,來到 UCLA VCLA 實(shí)驗(yàn)室進(jìn)行了為期五年的博士生科研訓(xùn)練,獲得了巨大的成長。
基于真實(shí)視頻,研究高級 AI 任務(wù)
談及本次論文的立項(xiàng)原因,她表示是因?yàn)橹旖淌谝恢倍荚诠膭钏龈y、更有挑戰(zhàn)性和前瞻性的工作。
雖然近幾年得益于深度學(xué)習(xí),計(jì)算機(jī)視覺領(lǐng)域獲得了突破性的進(jìn)展,但大多研究都還是在解決比較底層的任務(wù),比如人臉識別、動作識別等等,而更高級的任務(wù),比如心智理論建模等等,還遠(yuǎn)未得到解決。
現(xiàn)有的解決更高層次任務(wù)的嘗試,也大都不是基于真實(shí)視頻:比如,有一些工作在 2D 網(wǎng)格狀世界里面進(jìn)行基于強(qiáng)化學(xué)習(xí)的理論建模研究,有一些工作則在簡單游戲中進(jìn)行多智能體的交互博弈策略優(yōu)化,對游戲中涉及到的多智能體心智理論進(jìn)行建模研究。
范麗鳳說上述兩類研究中,一類是基于真實(shí)視頻做低層次任務(wù),另一類雖然在做高層次任務(wù),但目前還只是停留在簡單模擬環(huán)境或博弈游戲中。
而她的研究則彌補(bǔ)了這個空缺,在真實(shí)視頻上進(jìn)行復(fù)雜的心智建模,推測視頻背后人物的心智活動。
基于 “共同心智” 提出 “五心” 模型
范麗鳳說,自然語言處理(Natural Language Processing)目前已經(jīng)是一個非常成熟的研究領(lǐng)域,高級人工智能的實(shí)現(xiàn)當(dāng)然離不開自然語言處理技術(shù)的進(jìn)步;但非語言交流(nonverbal communication)在人與人的社會交互中也扮演著十分重要的角色,傳遞著豐富的信息,是對語言交流的很好補(bǔ)充。
這里,非語言交流指的是除自然語言之外的所有其它交流形式,比如眼神、身體體態(tài)和空間朝向、頭部姿勢以及手勢等等。
通過讓機(jī)器從視頻中學(xué)習(xí)非語言交流背后的三元信念動態(tài)變化(Triadic Belief Dynamics),就可以破解非語言交流的密碼,捕捉到這些隱含的豐富的社會交互信息。
結(jié)合不同的非語言交流信號,范麗鳳的工作對純視頻輸入中人與人的社會交互以及背后的動態(tài)信念變化進(jìn)行了建模學(xué)習(xí)和推斷,并基于 “共同心智” 提出了 “五心”(“five minds”)模型。
“五心” 具體指的是什么呢?當(dāng) A、B 兩個人在一個空間交流時,A 對于世界有自己的看法和認(rèn)知,這是他自己的大腦 M1, B 也有一個自己的大腦 M2;
同時,A 對 B 的大腦 M2 有一個模擬估計(jì)的大腦 M12,B 也有對 A 的大腦 M1 有自己的估計(jì) M21;
此外,A 和 B 所共享的那些 “透明” 的信息則被稱為兩個人的共同心智(common mind),記為 Mc。這便是 “五心” 模型的五個 “心”(mind)。
心智理論比較關(guān)心信念(belief)、注意力(attention)和意圖(intention)等模塊,當(dāng)前的 “五心” 模型主要研究了信念(belief)這一心智模塊。
也就是說,范麗鳳的工作主要研究了在社會交互過程中兩個人對于世界認(rèn)知信念的動態(tài)變化。
基于貝葉斯能量模型,使用圖結(jié)構(gòu)解析社交視頻
范麗鳳為研究這個任務(wù),專門拍攝收集了一個數(shù)據(jù)集,并進(jìn)行了全面豐富的標(biāo)注。目前該數(shù)據(jù)集已經(jīng)在 GitHub 上公開。
范麗鳳提出了一個基于貝葉斯的能量模型來解決五心模型中信念動態(tài)變化的學(xué)習(xí)和推測問題,通過對視頻構(gòu)建一個六層的解析圖,來分層次地解析視頻中的社會交互場景。
在這個六層的解析圖中,最底層是檢測到的人和物體以及提取出來的關(guān)鍵特征;這些人和物體組成視頻的每一幀;再往上一層,是視頻時序上的分段;
再往上,可以知道在每一段中發(fā)生的具體的交流事件的類型(一共有三種基本交流事件,分別是 no communication, attention following 和 joint attention);
繼續(xù)往上一層,是相應(yīng)的交流事件導(dǎo)致了什么樣的信念變化(一共有四種基本的信念變化,分別是 occur, disappear, update 和 null)。
通過這樣一個多層次的解析圖,就從底層的模式識別進(jìn)入到了高層次的認(rèn)知理解。因?yàn)闄C(jī)器還無法達(dá)到人類的智能高度,無法直接感知到模式背后的心智變化,必須從最底層的模式識別(比如物體識別和人體識別)開始,然后慢慢往上推,往更高層的任務(wù)去走。
如此就能知道這些檢測到的人和物體合起來發(fā)生了怎樣的相對交互,具體發(fā)生了怎樣的交流事件,以及導(dǎo)致了怎樣的信念變化。
范麗鳳說,她的工作正是這樣由低到高地使用圖結(jié)構(gòu)去解析社交視頻。在實(shí)驗(yàn)中,范麗鳳提出的模型獲得了比其他方法更好的信念動態(tài)變化預(yù)測表現(xiàn)。
在社交互動視頻的總結(jié)摘要上表現(xiàn)較好
當(dāng)前的視頻總結(jié)摘要大多基于比較表面的模式識別來提取視頻關(guān)鍵幀,這樣的方法在一些簡單的視頻中比較奏效,比如一個人坐下、站起來、走路,當(dāng)前的做法可以區(qū)分不同的動作,從而提出比較好的視頻總結(jié)。
但是一旦涉及到有更加豐富復(fù)雜的社會交互視頻時,當(dāng)前的做法可能就不如五心模型表現(xiàn)好。
因?yàn)?,在這樣的視頻中基于人物的心智變化比基于底層的特征變化能更加準(zhǔn)確地捕捉、概括到故事的語義精髓。 比如在一段豐富的社會交互視頻中,人物可能有很多動作,但那不是這個故事的最關(guān)鍵的內(nèi)容,如果按照這些底層特征來提取關(guān)鍵幀,結(jié)果可能是冗余且不關(guān)鍵的。
相較于底層的特征變化,人物在這個過程中心智發(fā)生了變化的那些時刻才是語義更豐富更核心的內(nèi)容,基于這些提出的關(guān)鍵幀自然能更好地傳達(dá)這個視頻故事的本質(zhì)。
范麗鳳的工作給出了定性比較實(shí)驗(yàn)和人類評價(jià)實(shí)驗(yàn),結(jié)果均證明了五心模型在豐富社會交互視頻摘要任務(wù)上的優(yōu)勢。
當(dāng)機(jī)器看見你、理解你
范麗鳳告訴 DeepTech,人工智能真的要發(fā)展,肯定要做更難的任務(wù)。當(dāng)前的人臉識別等底層任務(wù)并不能滿足我們對于視頻的深度理解的要求。
除了識別一個人是誰,科學(xué)家們還想讓機(jī)器學(xué)會識別視頻中人物的心智想法。
比如,以經(jīng)典暑期劇《西游記》為例,正常人類看到孫悟空的表情再結(jié)合劇情,瞬間就能判斷他看到了什么、在想什么、以及預(yù)測出他接下來要做什么。
雖然人類觀眾可以瞬間就能挖掘到這些隱含的信息,但如果讓此前的計(jì)算機(jī)視覺模型來做,結(jié)果大概還只是相當(dāng)于人類的嬰兒階段。所以要實(shí)現(xiàn)更高水平的通用人工智能,仍然是任重而道遠(yuǎn)。
在應(yīng)用方面,“五心” 模型除了能幫助機(jī)器更深地理解視頻,還可以提出更準(zhǔn)確的視頻摘要。比如在處理海量視頻時,可把其精簡成幾幀總結(jié),這樣用戶只需觀看濃縮視頻,就能基本了解全部視頻信息,從而節(jié)省更多時間。
此外,“五心” 模型還有一些其它潛在的應(yīng)用,比如給視頻生成更好的文字描述解說,幫助用戶快速掌握視頻內(nèi)容等等。
今年27歲的范麗鳳談及未來即將到北京和朱松純老師一起工作,她表示十分期待,北京是一個充滿魅力的城市,她非常希望能夠這里投身到中國這一波人工智能發(fā)展浪潮之中,開創(chuàng)出屬于自己的事業(yè)!
原文標(biāo)題:90海歸女生CVPR論文幾近滿分,可讓機(jī)器識別視頻人物的心智想法,即將追隨導(dǎo)師朱松純回國發(fā)展 | 專訪
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7663瀏覽量
90809 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279980 -
人工智能
+關(guān)注
關(guān)注
1806文章
49028瀏覽量
249542
原文標(biāo)題:90海歸女生CVPR論文幾近滿分,可讓機(jī)器識別視頻人物的心智想法,即將追隨導(dǎo)師朱松純回國發(fā)展 | 專訪
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
云知聲黃偉榮膺2024年度感動海淀文明人物
edge瀏覽器識別 latex語法插件
開關(guān)電源設(shè)計(jì)指南(完整版)
現(xiàn)代(Hyundai)機(jī)器人物聯(lián)網(wǎng)平臺可以實(shí)現(xiàn)什么功能
新鳳鳴榮登國家“卓越級智能工廠”首批名單
中微公司董事長尹志堯博士榮膺2024年度中國經(jīng)濟(jì)新聞人物
阿里媽媽“淘寶星辰·圖生視頻”商用上線
光學(xué)超構(gòu)表面+MEMS:可切換渦旋激光器

可靈AI全球首發(fā)視頻模型定制功能,助力AI視頻創(chuàng)作
70多位博士生相聚浙江臺州,只為這行業(yè)傳感技術(shù)創(chuàng)新
京微齊力受邀參加2024年清華大學(xué)工程博士論壇
RISC-V AI技術(shù)正式納入北京大學(xué)研究生課程

評論