chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI:計算機視覺與自然語言處理融合的研究進展

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:python遇見NLP ? 2020-12-26 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

通過語言給予智能體指示使其完成通用性的任務(wù)是人工智能領(lǐng)域的愿景之一。近年來有越來越多的學(xué)者試圖通過融合計算機視覺與自然語言處理領(lǐng)域的相關(guān)技術(shù)以期實現(xiàn)此目標。

近年來,深度學(xué)習(xí)方法已經(jīng)在計算機視覺、自然語言處理和自動語音識別等各個領(lǐng)域得到了廣泛而深入的應(yīng)用,推動了人臉識別、自動駕駛和語音識別等一系列技術(shù)的發(fā)展和成熟。在很多目標清晰、規(guī)則明確的任務(wù)比如物體檢測、目標分割甚至是圍棋、象棋領(lǐng)域達到甚至超越了人類的表現(xiàn)。但是當前深度學(xué)習(xí)領(lǐng)域的研究往往局限在特定領(lǐng)域甚至特定的任務(wù)上,對于環(huán)境往往也有許多假設(shè)或是限制,與通用人工智能或是自主智能體的目標相去甚遠。

像圖像描述、視覺問答和文本圖像生成等視覺與語言交叉領(lǐng)域的研究,往往缺乏對于環(huán)境的理解,而近年來陸續(xù)出現(xiàn)的將視覺和語言與行為聯(lián)系的研究,比如視覺語言導(dǎo)航、具身問答和交互式問答等,不但需要融合視覺與語言技術(shù),還需要智能體針對基于文本的問題,在虛擬的空間環(huán)境中進行路徑規(guī)劃和探索,相對而言是對視覺與語言的深度融合。

下面先來了解一下早期研究較多的幾個融合視覺與語言的任務(wù)。

圖像描述

最早被提出的問題是圖像描述,即根據(jù)給定圖片自動生成語言描述。初期解決方案分為圖像預(yù)處理、特征提取和文本生成三個模塊,比如圖像算子提取特征,SVM 檢測可能存在的目標,根據(jù)目標屬性生成句子,但是對于目標屬性定義的依賴限制了描述的生成。近年來則大多基于深度學(xué)習(xí)提出解決方案,2015 年谷歌 DeepMind 團隊和李飛飛團隊分別提出了基于編碼—解碼框架的show and tell 和 neural talk 模型,均使用 CNN+RNN 的模式;生成對抗網(wǎng)絡(luò)、深度強化學(xué)習(xí)和注意力機制也被陸續(xù)引入相關(guān)研究。隨著解決方案的成熟,圖像描述任務(wù)也不斷擴展,比如基于群組的圖像描述方法和生成文本的風(fēng)格化問題等。

視覺問答

視覺問答可以視作圖像描述問題的邏輯推理擴展,任務(wù)形式通常是,給定一幅圖片和基于圖片的問題,輸出問題的正確答案,包括是或否的二元邏輯問題和多項選擇以及圖像中的文本信息等。解決方法基本可劃分為四類:聯(lián)合嵌入模型、注意力機制模型、模塊化組合模型和知識庫增強模型。聯(lián)合嵌入方法將圖像和文字在公共特征空間學(xué)習(xí),注意力機制使用局部圖像特征對不同區(qū)域的特征加權(quán)解決噪聲問題,模塊化組合模型引入不同功能的神經(jīng)網(wǎng)絡(luò)模塊,知識庫增強模型通過外部知識庫解決需要先驗知識的問題。作為視覺問答的拓展領(lǐng)域視頻問答也越來越多受到學(xué)者的關(guān)注。

文本圖像生成

文本圖像生成則正好是圖像描述的逆向問題,從給定文本描述生成圖像。變分自編碼器、基于流的生成模型和近似PixelCNN等方法都曾用于解決此問題。但是自生成對抗網(wǎng)絡(luò)引入文本圖像生成以來,因其卓越表現(xiàn)已成為主流方法。當前基于 GAN 的優(yōu)化方向主要有:其一是調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),比如增加網(wǎng)絡(luò)深度或者引入多個判別器,其二是充分利用文本信息,比如注意力機制和 MirrorGAN等工作,其三是增加額外約束,比如 Condition-GAN機制等工作,其四是分階段生成,比如李飛場景圖和語義中間層等工作。同樣文本圖像生成任務(wù)形式也得到了進一步拓展,比如基于多段落生成系列圖片的故事可視化任務(wù)和文本生成視頻等。

視覺對話

視覺對話可以視為圖像描述問題的對話擴展,在 2017 年 CVPR 會議上由佐治亞理工學(xué)院的 Das A 等人提出,與視覺問答中單次交互不同,視覺對話要求智能體基于視覺內(nèi)容與人類進行多次交流。具體講,就是在給定圖像、對話歷史記錄和關(guān)于圖像問題的條件下,智能體必須基于圖像內(nèi)容,從歷史記錄中推斷上下文,并準確地回答該問題。與此相似的還有‘Guess What?!’任務(wù)但是其僅限于答案為“是”或“否”的布爾型問題,Alamri H 等人則進一步引入了視頻對話的任務(wù)。視覺對話目前的解決方案主要有基于深度強化學(xué)習(xí)的模型、注意力機制、條件變分自編碼器方法和基于神經(jīng)網(wǎng)絡(luò)模塊的架構(gòu)等。

多模態(tài)機器翻譯

多模態(tài)機器翻譯則是對機器翻譯工作的擴展,其目標是給定描述圖片的源語言和圖片本身,根據(jù)文本內(nèi)容和圖像提供的額外信息翻譯成目標語言,同時 Specia 定義了兩類任務(wù),其一是單句源語言描述圖片,其二是多句源語言描述圖片,Elliott 等人進一步將任務(wù)二擴展到多種源語言(比如關(guān)于同一圖片英語、法語和德語描述),Wang Xin 等人則進一步把任務(wù)擴展到視頻層面。研究方向主要有:引入注意力機制,分解任務(wù)目標,充分發(fā)掘圖片的視覺特征,強化學(xué)習(xí)方法的使用,無監(jiān)督學(xué)習(xí)模型的擴展等。

除了以上任務(wù)之外,還有定位視頻中文本位置的視頻文本定位任務(wù),判斷文本描述和圖片內(nèi)容是否匹配的視覺蘊涵任務(wù),問題必須基于圖片內(nèi)容進行推理才能回答的視覺推理任務(wù)等。包括上述問題在內(nèi)的大部分早期研究往往是在視覺和語言的層次上不斷擴展,比如將圖片擴展到視頻,從句子擴展到段落等,或者在此基礎(chǔ)上加入邏輯層面的推理等。

但在一定意義上講,上述任務(wù)僅僅是計算機視覺和自然語言處理兩個任務(wù)的弱耦合,甚至部分任務(wù)可以把視覺部分和語言部分完全分離地進行訓(xùn)練,將其中一部分的輸出作為另一部分的輸入就能實現(xiàn)任務(wù)的要求,因此沒有真正的發(fā)掘視覺與語言的內(nèi)在聯(lián)系,并且其更多的側(cè)重于特定任務(wù)的完成,對于環(huán)境的感知是被動甚至缺失的。因此,為了真正發(fā)掘視覺與語言的內(nèi)在聯(lián)系,在最新的視覺與語言的研究中,加入了行為規(guī)劃的部分,這使得智能體不但能夠綜合使用視覺與語言能力,還能夠不斷通過與環(huán)境主動地交互獲取所需要的信息,在交互中完成對環(huán)境的理解,進而完成指定的任務(wù)。下面介紹在這最新研究方向上的任務(wù),主要包括視覺語言導(dǎo)航和具身問答任務(wù)。

視覺與語言導(dǎo)航

視覺導(dǎo)航和語言導(dǎo)航相關(guān)研究

基于視覺的導(dǎo)航往往需要環(huán)境的先驗信息,或者需要使用激光雷達、深度圖或從運動中獲取的數(shù)據(jù)以純幾何方法構(gòu)建三維地圖,或者需要人類指導(dǎo)的地圖構(gòu)造過程。并且在地圖構(gòu)造的過程中,即使環(huán)境有明顯的模式或特征,但是在被完全建模之前也是不能被觀察到的。環(huán)境構(gòu)建與路徑規(guī)劃之間的分離使得系統(tǒng)變得脆弱,因此越來越多的研究開始轉(zhuǎn)向端到端的學(xué)習(xí)方式——不需要顯式的模型或狀態(tài)估計便可實現(xiàn)從環(huán)境圖像到路徑行為的轉(zhuǎn)換。

同時學(xué)者很早就開始關(guān)注對于自然語言的理解,引入語言指引的導(dǎo)航策略也受到過許多關(guān)注,但是其往往對于語言或環(huán)境作出了一定程度的抽象,比如語言指令限制在特定范圍或假設(shè)語言命令有固定的結(jié)構(gòu)以及將環(huán)境中的物體做特定標記,或者將智能體限制在只需要有限知覺的視覺受限環(huán)境中。近年來雖然有很多新的多模態(tài)非結(jié)構(gòu)化的仿真平臺比如 House3D 、 AI2-THOR和HoME等,但是其基于人工合成而非真實圖像的模型一定程度上限制了環(huán)境建模的準確性和豐富性。

視覺語言導(dǎo)航任務(wù)內(nèi)容

Qi Wu 等人在 2018 年 CVPR 會議上提出了視覺語言導(dǎo)航任務(wù),要求智能體在給定語言指令的情況下,在作者提供的 Matterport3D simulator 仿真環(huán)境中,從隨機初始位置到達目標位置,并且其仿真環(huán)境構(gòu)建于包含大量基于真實圖像生成的 RGB-D 全景圖的數(shù)據(jù)集 Matterport3D。但是其相對復(fù)雜和具體的語言描述與實際不太相符。因此在 2019 年,Qi Wu 等人進一步提出被稱為 RERERE(remote embodied referring expressions in real indoor environments) 的任務(wù),精簡指令的同時引入了對于環(huán)境的理解。

視覺語言導(dǎo)航任務(wù)最新進展

Qi Wu 提出任務(wù)的同時,同時提出了將智能體建模為基于長短期記憶(long short term memory, LSTM) 序列到序列結(jié)構(gòu) (sequence-to-sequence architecture)注意力機制循環(huán)神經(jīng)網(wǎng)絡(luò)的解決方案和隨機移動策略和最短路徑策略兩種基線算法以及人類在此任務(wù)中的表現(xiàn)(成功率 86.4%)。

視覺語言導(dǎo)航任務(wù)也可以視為在給定語言指導(dǎo)條件下尋找從起始點到目標點最佳路徑的軌跡搜索問題,基于此 Fried D 提出 speaker-follower 系統(tǒng),系統(tǒng)中的 speaker 模型用于學(xué)習(xí)路徑描述,follower 模型用于預(yù)測和執(zhí)行路徑,并使用全景行為空間代替視覺運動空間的方式使得智能體可以感知當前位置 360°全景視覺。

為解決視覺語言導(dǎo)航任務(wù)中的解決跨模態(tài)基標對準問題和增強泛化能力,Xin Wang 等人提出基于強化學(xué)習(xí)和模仿學(xué)習(xí)的策略,引入了強化跨模態(tài)匹配方法和自監(jiān)督模仿學(xué)習(xí)方法。

在之前的研究中,視覺語言導(dǎo)航任務(wù)中主要評價指標是任務(wù)完成度即最終位置與目標位置之間的關(guān)系,因此語言指示在導(dǎo)航任務(wù)所發(fā)揮的作用難以量化。谷歌研究院的 Jain V 等人因此提出可刻畫預(yù)測路徑與語言指示之間契合度的評價標準 CLS(coverage weighted by length score),并根據(jù)此指標擴展了 R2R 數(shù)據(jù)集,提出包含更多節(jié)點和更多樣化路徑的 R4R(room-for-room)數(shù)據(jù)集。

在實際導(dǎo)航場景中,使用者更傾向于利用簡練的語言給定任務(wù)的內(nèi)容而非具體詳盡地描述路徑的所有信息,因此 Qi Wu 等人進一步提出 remote embodied referring expressions in

real indoor environments(RERERE) 的任務(wù),其中包含類似“去帶條紋墻紙的臥室”的導(dǎo)航部分和類似“把放在凳子旁邊的枕頭拿給我”的指稱表達部分,并提供了被稱為導(dǎo)航—指向模型的基線算法。

具身問答

具身認知概念

具身認知 (embodied cognition) 這一概念是隨著哲學(xué)、人工智能和相關(guān)領(lǐng)域的發(fā)展關(guān)于認知的本質(zhì)被重新思考和定義的過程中誕生的,新的研究越來越傾向于認為大多數(shù)現(xiàn)實世界的思考常常發(fā)生在非常特殊通常也十分復(fù)雜的環(huán)境中,出于非常實際的目的,并且利用外部事物的可交互性和可操作性 ,即認知是一種非常具體化和情景化的活動。身體的解剖學(xué)結(jié)構(gòu)、身體的活動方式、身體的感覺和運動體驗都決定了人類怎樣認識和看待世界。簡而言之,具身認知理論認為人的生理體驗與心理狀態(tài)之間是有著深刻的內(nèi)在聯(lián)系。因此具身相關(guān)任務(wù)的內(nèi)涵,就是將任務(wù)具體化到可交互的場景中,而非傳統(tǒng)的靜態(tài)圖片或無法互動的視頻。

具身問答任務(wù)內(nèi)容

具身問答 (embodied question answering) 是 Das 等人在 2018 年 CVPR 會議上提出的任務(wù),將智能體隨機安放在三維環(huán)境中的某個位置,并且以語言的形式提出類似“汽車的顏色是什么”或者“有多少個房間里有椅子”等類似需要環(huán)境信息的問題,為了得到問題的答案,智能體需要自主地對環(huán)境進行探索并且收集所需要的信息,最后對問題作出解答。智能體僅依靠單目全景 RGB 攝像頭與環(huán)境交互,而沒有類似環(huán)境地圖、自身定位的全局表示或類似物體信息、房間描述的結(jié)構(gòu)表示,當然也沒有關(guān)于任務(wù)本身的額外信息,即先驗知識幾乎為零,需要智能體充分理解任務(wù)內(nèi)容的情況下,通過與具體環(huán)境的不斷交互,實現(xiàn)對環(huán)境的理解,進而完成問題的回答。

具身問答任務(wù)最新進展

Das 等人提供的基線算法中智能體視覺、語言、導(dǎo)航和回答四個部分的實現(xiàn),其中視覺部分基于通過 CNN 將 RGB 圖像生成固定大小的表示,語言部分使用 LSTM 編碼,導(dǎo)航部分引入包含選擇動作(前進,左轉(zhuǎn),右轉(zhuǎn))的規(guī)劃模塊和指定執(zhí)行次數(shù)(1, 2…)的控制模塊的自適應(yīng)倍率計算方法,問答部分計算智能體軌跡最后五幀的圖像-問題相似性的視覺編碼與問題的 LSTM 編碼進行比較并輸出結(jié)果。

在上述研究的基礎(chǔ)上,受人類將行為概念化為一系列更高層次語義目標(比如為了吃夜宵,人類會將其抽象為“離開臥室—走到廚房—打開冰箱—找到甜點”而不會詳盡地規(guī)劃路線)的啟發(fā),Das 等人進一步提出了模塊化學(xué)習(xí)策略,將學(xué)習(xí)目標加以分解。

Yu L 等人則把 EQA 任務(wù)擴展為 MT-EQA(multi-target EQA) 即在問題形式中引入了多目標,比如類似“臥室里的梳妝臺比廚房里的烤箱更大么”這樣的問題。

Wijmans E 等人設(shè)計了基于三維點云格式的具身問答數(shù)據(jù)集 MP3D-EQA,設(shè)計并測試了多達 16 種不同的導(dǎo)航策略組合,提出損失加權(quán)方案 Inflection Weighting 以提高行為模仿的有效性。

相關(guān)數(shù)據(jù)集介紹

視覺語言導(dǎo)航任務(wù)主要包含 3 個數(shù)據(jù)集,其一是 Qi Wu等人在提出視覺語言導(dǎo)航任務(wù)時開源的 R2R(room-to-room) 數(shù)據(jù)集,其二是 Jain V 等人在改進任務(wù)評價方法時開源的R4R(room-for-room) 數(shù)據(jù)集,其三是 Qi Wu 等人提出RERERE 任務(wù)時建立的數(shù)據(jù)集(暫未開源)。表 1 是三個數(shù)據(jù)集的簡單對比,從對比中可以發(fā)現(xiàn),因為 R4R 數(shù)據(jù)集更傾向于使得智能體運動軌跡更加符合導(dǎo)航指令而非最短距離,因此參考路徑的長度要大于最短路徑的長度;而 RERERE 任務(wù)則傾向于使用更加簡潔的指令,因此指令平均長度要小于R2R。

具身問答任務(wù)數(shù)據(jù)集主要包括 3 個數(shù)據(jù)集,其一是 Das等人開源的 EQA(embodied question answering) v1 數(shù)據(jù)集,其二是 Yu L 等人引入多目標任務(wù)時提出的 MT-EQA(multitarget EQA) 數(shù)據(jù)集,其三是 Wijmans E 等人將任務(wù)中的數(shù)據(jù)類型替換為點云時提出的數(shù)據(jù)集 MP3D-EQA 數(shù)據(jù)集,后兩個數(shù)據(jù)集暫時未開源。表 2 是三個數(shù)據(jù)集的內(nèi)容對比。需要注意的是,數(shù)據(jù)集中包含被稱為 unique question 的問題,是指可能產(chǎn)生歧義的問題,比如房間中同時存在兩臺冰箱時,問題 ‘What room is the air conditioner located in?’ 就會產(chǎn)生歧義。

37bc9962-4691-11eb-8b86-12bb97331649.png

382e813a-4691-11eb-8b86-12bb97331649.png

計算機視覺與自然語言處理融合未來方向展望

真實環(huán)境遷移與泛化能力

視覺與自然語言結(jié)合的任務(wù)取得了令人矚目的進展,從早期簡單將兩部分技術(shù)簡單串聯(lián)加和的形式擴展到需要智能體借助視覺和語言理解環(huán)境并且采取行動的深度融合,但是絕大部分任務(wù)都是基于現(xiàn)有的數(shù)據(jù)集在模擬的環(huán)境中進行。誠然,考慮到目前表現(xiàn)較好的算法均是基于需要大量試錯的深度強化學(xué)習(xí)方法,在真實環(huán)境中訓(xùn)練的確會消耗大量的時間與精力,但是在模擬環(huán)境表現(xiàn)完美的模型遷移到真實環(huán)境中也可能會遇到很多意料之外的問題。

而現(xiàn)有的絕大部分研究只是在數(shù)據(jù)集上達到了較高的精度(比如視覺語言導(dǎo)航任務(wù)中 SOTA 算法在可見驗證集和不可見驗證集上分別達到了73.0%和 61.3%的成功率),僅有少數(shù)學(xué)者將算法在實際環(huán)境中加以驗證。因此未來研究重要方向之一是如何將模型遷移到真實環(huán)境中。在此過程中,泛化能力又是其中關(guān)鍵,即智能體若遇到訓(xùn)練集中未出現(xiàn)的環(huán)境或者未遇到的物體,能否根據(jù)過往經(jīng)驗作出較為合理的反應(yīng),可能的解決方案是借鑒已經(jīng)在視覺對話、常識推理和事實預(yù)測等方向得到廣泛使用和驗證的外部知識庫方法,即利用事實性或常識性的先驗知識提高智能體對于環(huán)境的理解和認知能力。

與環(huán)境更強大的交互能力

目前已經(jīng)開源的數(shù)據(jù)集中,智能體與環(huán)境之間的交互相對有限,僅涉及打開微波爐、移動物體或到達指定位置等基本操作,并且可采取的運動形式限制在特定范圍(比如前進、左轉(zhuǎn)和右轉(zhuǎn)),雖然在最新的研究中已經(jīng)涉及類似“把放在凳子旁邊的枕頭拿給我”這類相對較為復(fù)雜的交互形式,但是顯然與真實環(huán)境的交互方式和運動形式有較大的差距,并且簡化了真實環(huán)境中的諸多物理性限制,比如“去廚房拿一個雞蛋”和“去廚房拿一把勺子”語言指示,在真實的環(huán)境中智能體需要考慮分別以何種的力度夾取雞蛋和勺子,而現(xiàn)有的數(shù)據(jù)集并不考慮此類區(qū)別。

另一個比較有前景的方向是與物聯(lián)網(wǎng)的深度結(jié)合,電視、空調(diào)和冰箱等對于人類而言需要后天習(xí)得交互方式的電器,卻因其規(guī)則明確和易于聯(lián)網(wǎng)的性質(zhì)能夠與智能體直接交互。最后就是對環(huán)境中其他信息的利用,比如利用聲音信息對不可見物體的非視距重建、使用工具達成指定目標甚至與環(huán)境中其他智能體的對話交流等。這些與環(huán)境的相對復(fù)雜的交互是目前研究所欠缺的,但也是未來智能體在真實環(huán)境中運行所需要的。

推理能力的引入

目前無論是視覺語言導(dǎo)航還是具身問答,所給的任務(wù)都相對直接(比如根據(jù)語言提示到達某個房間或者回答環(huán)境中某物體是什么顏色等),但是現(xiàn)實生活中更多是是需要推理能力的問題,比如類似視覺推理任務(wù)中的比較、屬性識別和邏輯運算等初級推理能力,以及演繹、歸納和類比等高級推理能力。雖然在部分研究中已經(jīng)涉及推理能力,但仍相對簡單,未來可能會引入類似“房間裝修是什么風(fēng)格?”或者“到書房中取一本散文集?!?br />
這種涉及相對高級推理能力的任務(wù),前者需要智能體基于房間的整體特征比如吊燈的樣式、桌椅的擺放和墻紙的花飾等信息歸納推理得出裝修風(fēng)格的答案,后者則需要智能體能夠區(qū)分散文、小說或詩歌等不同的文體。當然目前視覺和自然語言方面的進展距離解決此類問題仍有較大空間,但是推理能力尤其是高級推理能力的研究不失為一個值得關(guān)注的研究方向。

三維數(shù)據(jù)的使用

三維點云數(shù)據(jù)可以提供比圖像更豐富和準確的信息,Wijmans E 等人發(fā)現(xiàn)在具身問答任務(wù)中點云信息可以提升智能體避障能力的學(xué)習(xí),Wang Y 等人甚至發(fā)現(xiàn)僅僅將二維的雙目視覺圖像轉(zhuǎn)換為三維點云數(shù)據(jù)就能大幅提高目標檢測的準確度,因此點云數(shù)據(jù)可能不單在信息內(nèi)容方面甚至是在數(shù)據(jù)表示方面均提供了更多的信息。但是一方面受制于點云數(shù)據(jù)獲取的成本和難度,成本百元的相機模組在短短幾秒鐘內(nèi)便可獲取千萬像素級別的高精度圖像,但是點云獲取設(shè)備往往動輒數(shù)十萬獲取時間也往往需要數(shù)分鐘甚至數(shù)小時。

另一方面基于點云的深度學(xué)習(xí)研究相對滯后于圖像,雖然得益于 Point Net++、ASCN、和 SplatNet等方法的提出,點云數(shù)據(jù)固有的無序性和旋轉(zhuǎn)性不再是應(yīng)用深度學(xué)習(xí)技術(shù)的障礙,但是學(xué)術(shù)界對于點云數(shù)據(jù)的研究仍遠遠少于圖像數(shù)據(jù)。因此不論是點云數(shù)據(jù)集的構(gòu)建還是基于點云數(shù)據(jù)的研究均不同程度的存在一些困難。后續(xù)的研究可能需要更多的引入點云格式的環(huán)境信息,為了彌補目前點云數(shù)據(jù)獲取困難的狀況,基于雙目視覺的三維重建可能是很有希望的輔助手段之一。

學(xué)習(xí)目標的優(yōu)化

建構(gòu)主義者認為,學(xué)習(xí)是學(xué)習(xí)者在與環(huán)境交互作用的過程中主動地建構(gòu)內(nèi)部心理表征的過程。而本文現(xiàn)在已經(jīng)擁有了多個可交互的模擬環(huán)境,因此后續(xù)的研究可以在不斷地交互進行比如對自然語言的理解或者對環(huán)境中工具的使用等能力的學(xué)習(xí)和提升。此外從表 1 的分類中可以看出,視覺語言導(dǎo)航、具身問答以及交互式問答等在語言層面仍停留于“問答”階段,即針對單一問題給出正確的答案,未來的研究中很有可能將目標優(yōu)化到“對話”層面,即針對多個有內(nèi)在邏輯聯(lián)系的問題分別給出正確答案,同時問題之間的內(nèi)在聯(lián)系也有助于智能體更好地理解環(huán)境。

注:本文旨在學(xué)習(xí)和分享,如內(nèi)容上有不到之處,歡迎批評指正

參考文獻:

[1]李睿,鄭順義,王西旗.視覺—語言—行為:視覺語言融合研究綜述[J/OL].計算機應(yīng)用研究:1-8[2020-09-06].https://doi.org/10.19734/j.issn.1001-3695.2019.09.0512.

責(zé)任編輯:xj

原文標題:一文了解計算機視覺與自然語言處理融合的研究進展

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1714

    瀏覽量

    47454
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13921

原文標題:一文了解計算機視覺與自然語言處理融合的研究進展

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理(NLP)領(lǐng)域國際權(quán)威會議 ——2025 年計算語言學(xué)與自然語言處理國際會議(
    的頭像 發(fā)表于 11-10 17:30 ?513次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    NVIDIA DGX Spark桌面AI計算機開啟預(yù)訂

    DGX Spark 現(xiàn)已開啟預(yù)訂!麗臺科技作為 NVIDIA 授權(quán)分銷商,提供從產(chǎn)品到服務(wù)的一站式解決方案,助力輕松部署桌面 AI 計算機
    的頭像 發(fā)表于 09-23 17:20 ?919次閱讀
    NVIDIA DGX Spark桌面<b class='flag-5'>AI</b><b class='flag-5'>計算機</b>開啟預(yù)訂

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    的基本邏輯門 所謂生物計算是一個新興的交叉學(xué)科領(lǐng)域,其研究靈感來源于自然界生命系統(tǒng)的神奇功能。它將生物學(xué)和計算機科學(xué)的原理及方法相結(jié)合,旨在利用生物分子、生物系統(tǒng)或生物過程進行信息
    發(fā)表于 09-06 19:12

    AI芯片:加速人工智能計算的專用硬件引擎

    人工智能(AI)的快速發(fā)展離不開高性能計算硬件的支持,而傳統(tǒng)CPU由于架構(gòu)限制,難以高效處理AI任務(wù)中的大規(guī)模并行計算需求。因此,專為
    的頭像 發(fā)表于 07-09 15:59 ?898次閱讀

    NVIDIA助力全球最大量子研究超級計算機

    NVIDIA 宣布將開設(shè)量子-AI 技術(shù)商業(yè)應(yīng)用全球研發(fā)中心(G-QuAT),該中心部署了全球最大量子計算研究專用超級計算機 ABCI-Q。
    的頭像 發(fā)表于 05-22 09:44 ?677次閱讀

    自然語言提示原型在英特爾Vision大會上首次亮相

    在英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?790次閱讀

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    臺式超級計算機由 NVIDIA Grace Blackwell 驅(qū)動,為開發(fā)者、研究人員和數(shù)據(jù)科學(xué)家提供加速 AI 功能;系統(tǒng)由頭部計算機制造商(包括華碩、Dell Technolog
    發(fā)表于 03-19 09:59 ?504次閱讀
       NVIDIA 宣布推出 DGX Spark 個人 <b class='flag-5'>AI</b> <b class='flag-5'>計算機</b>

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?7580次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模型)?詳細解析

    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持

    計算機視覺的支持,擴大了當前對音頻、雷達和其他時間序列信號數(shù)據(jù)的支持范圍。在增加這項支持后,該平臺將能夠用于開發(fā)低功耗、低內(nèi)存的邊緣AI視覺模型。這將給諸多應(yīng)用領(lǐng)域的機器學(xué)習(xí)開發(fā)人員
    的頭像 發(fā)表于 03-11 15:11 ?656次閱讀
    英飛凌邊緣<b class='flag-5'>AI</b>平臺通過Ultralytics YOLO模型增加對<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的支持

    數(shù)據(jù)采集在AI行業(yè)的應(yīng)用分析

    人工智能(AI)作為21世紀最具革命性的技術(shù)之一,正在深刻改變各行各業(yè)。AI的核心驅(qū)動力是數(shù)據(jù),而數(shù)據(jù)采集則是AI發(fā)展的基石。無論是機器學(xué)習(xí)、深度學(xué)習(xí),還是自然語言
    的頭像 發(fā)表于 03-07 14:30 ?745次閱讀

    數(shù)據(jù)采集在AI行業(yè)的應(yīng)用、優(yōu)勢及未來發(fā)展趨勢

    人工智能(AI)作為21世紀最具革命性的技術(shù)之一,正在深刻改變各行各業(yè)。AI的核心驅(qū)動力是數(shù)據(jù),而數(shù)據(jù)采集則是AI發(fā)展的基石。無論是機器學(xué)習(xí)、深度學(xué)習(xí),還是自然語言
    的頭像 發(fā)表于 03-07 14:12 ?1124次閱讀
    數(shù)據(jù)采集在<b class='flag-5'>AI</b>行業(yè)的應(yīng)用、優(yōu)勢及未來發(fā)展趨勢

    AI Agent 應(yīng)用與項目實戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    學(xué)習(xí)、自然語言處理(NLP)、計算機視覺(CV)等先進技術(shù)提供的強大的數(shù)據(jù)處理和分析能力。 在視頻應(yīng)用開發(fā)中,
    發(fā)表于 03-05 19:52

    Arm KleidiCV與OpenCV集成助力移動端計算機視覺性能優(yōu)化

    生成式及多模態(tài)人工智能 (AI) 工作負載的廣泛增長,推動了對計算機視覺 (CV) 技術(shù)日益高漲的需求。此類技術(shù)能夠解釋并分析源自現(xiàn)實世界的視覺信息,并可應(yīng)用于人臉識別、照片分類、濾鏡
    的頭像 發(fā)表于 02-24 10:15 ?877次閱讀

    NVIDIA推出個人AI超級計算機Project DIGITS

    NVIDIA 推出個人 AI 超級計算機 NVIDIA Project DIGITS,全球的 AI 研究員、數(shù)據(jù)科學(xué)家和學(xué)生都可獲取 NVIDIA Grace Blackwell 平臺
    的頭像 發(fā)表于 01-08 11:03 ?1159次閱讀

    云端超級計算機使用教程

    云端超級計算機是一種基于云計算的高性能計算服務(wù),它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的計算服務(wù)。下面,
    的頭像 發(fā)表于 12-17 10:19 ?947次閱讀