正在播放熟女同事高潮嗷嗷叫,18禁毛片水真多A级毛片

摘要

如今，每一個汽車制造商都在思考移動的未來。電動汽車、自動駕駛汽車和共享汽車是最具潛力的機(jī)會之一。自動駕駛和共享汽車缺乏權(quán)威性，引起了不同的問題，其中一個主要問題是乘客安全。為了確保安全，必須設(shè)計能夠理解乘客之間的互動和可能的沖突的新系統(tǒng)。它們應(yīng)該能夠預(yù)測汽車駕駛艙的關(guān)鍵情況，并提醒遠(yuǎn)程控制器采取相應(yīng)的行動。

為了更好地了解這些不安全情況的特點，我們在真實的車輛環(huán)境中記錄了一個音頻視頻數(shù)據(jù)集。我們記錄了22名參與者在三個不同的場景（"好奇"、"有爭議的拒絕 "和 "沒有爭議的拒絕"）下，司機(jī)和乘客之間的互動。我們提出一個深度學(xué)習(xí)模型來識別汽車駕駛艙中的沖突情況。我們的方法達(dá)到了81%的平衡準(zhǔn)確性。實際上，我們強(qiáng)調(diào)了結(jié)合多種模式，即視頻、音頻和文本以及時間性的重要性，這是在場景識別中進(jìn)行如此準(zhǔn)確預(yù)測的關(guān)鍵。

I.簡介

對話、互動、情緒和情感分析是了解人類的關(guān)鍵。監(jiān)測這些元素可以解決行業(yè)問題，如社交媒體平臺上的敏感內(nèi)容過濾或改善人機(jī)界面理解。對于汽車行業(yè)來說，一個重要的問題是汽車駕駛艙分析。事實上，它將有助于回答與汽車新用途(如社交、車輛共享、自動駕駛汽車等)相關(guān)的各種安全問題。

更確切地說，提出了兩個安全問題：由于沒有司機(jī)在場而缺乏權(quán)威，以及與陌生人共享車輛。這些問題可能會導(dǎo)致嘲諷、欺凌，甚至在最糟糕的情況下，導(dǎo)致攻擊。這些安全問題必須被預(yù)見和避免。涉眾者必須在這些類型的情況下采取主動措施。

為此，可以通過攝像頭和麥克風(fēng)分析乘客的互動。視頻、音頻和文本模式可以提供信息，這些信息一旦被融合，就可以高度準(zhǔn)確地預(yù)測緊張局勢的發(fā)生。深度學(xué)習(xí)的各種進(jìn)展和變壓器模型的成功代表了在這方面的一個新的重大進(jìn)展。BERT模型（英語）、Roberta和CamemBERT模型（法語）提高了問題回答、文本總結(jié)任務(wù)等方面的全局性能。

最近的工作也將轉(zhuǎn)化器模型應(yīng)用于文本對話分析。這些方法仍然以文本模式為基礎(chǔ)。

今天，由于3D-CNN（C3D）[5]和Residual 3D-CNN（R3D），視頻分析的模型能夠很好地捕捉時空信息。關(guān)于音頻分析，最常見的方法是用開放的SMILE等框架在一個短滑動窗口中提取音頻特征。然后，它們通常被送入一個像LSTM這樣的順序模型。

為了提高性能，一個直觀的策略是將音頻視頻分析與音頻流中的轉(zhuǎn)錄文本相結(jié)合。這種方法比單獨的視頻和音頻模式包含更多的信息。汽車領(lǐng)域本質(zhì)上是一個嘈雜的環(huán)境：變化的燈光、陽光照射、道路振動或其他駕駛汽車產(chǎn)生的音頻噪音等都是可以降低模型精度的干擾。多模態(tài)可以提高交互分析的整體性能，并可以增加模型的穩(wěn)健性。

然而，在多模式交互分析中發(fā)現(xiàn)的三個汽車挑戰(zhàn)如下:

● 公共現(xiàn)場數(shù)據(jù)集的可用性。

● 視頻、音頻和文本等非異構(gòu)形式的融合。

● 模擬人類互動的復(fù)雜性。

實際上，據(jù)我們所知，文獻(xiàn)并沒有同時處理所有這些問題。我們將在下文中討論它們。

鑒于這些見解，本文著重于為行業(yè)應(yīng)用記錄可開發(fā)的數(shù)據(jù)集，并設(shè)計第一種方法來展示多模態(tài)對人類交互解釋的的好處。與文獻(xiàn)的不同之處在于我們在車輛背景下的真實數(shù)據(jù)集和我們的多模式交互策略。

第二節(jié)介紹了關(guān)于多模態(tài)對話分析的文獻(xiàn)回顧。在第三節(jié)中，詳細(xì)介紹了記錄我們自己的數(shù)據(jù)集及其規(guī)格的協(xié)議。第四節(jié)詳細(xì)介紹了多模態(tài)方法，以進(jìn)行級別交互分類。

II.相關(guān)工作

在文獻(xiàn)中，大部分的對話、互動和溝通分析都是基于文本的。最近的調(diào)查，如多模態(tài)的新方法，顯示了利用不同渠道的信息的好處。每個多模態(tài)模型在情感分析領(lǐng)域的表現(xiàn)都優(yōu)于單模態(tài)架構(gòu)的模型。這些方法都是基于特征層面的融合，從三種不同的模式，即視頻、音頻和文本中提取特征。

然后，應(yīng)用一個復(fù)雜的后期融合策略。我們發(fā)現(xiàn)最近有一些關(guān)于多模態(tài)對話分析的工作。他們專注于對話中的情感和情緒分析。所有這些工作都是基于公共數(shù)據(jù)集如MOSI。層次注意網(wǎng)絡(luò)（HAN）架構(gòu)在文檔分析上與Transformer的表現(xiàn)非常好。最近的方法，如[3]，正在使用Transformer進(jìn)行對話分析。由于有口語文本和一個小數(shù)據(jù)集，HAN方法似乎是最適合的。

在交互分析中，說話人以前的行為對于更準(zhǔn)確地理解其現(xiàn)在和未來的行為至關(guān)重要。如今，深度學(xué)習(xí)架構(gòu)無法處理大量的視頻。在我們的方法中使用全狀態(tài)的時間模型將能夠在場景持續(xù)時間內(nèi)跟蹤信息。

在駕駛艙乘客互動分析的背景下，這種調(diào)查是邊緣化的，因此，仍然是一個科學(xué)挑戰(zhàn)。

III.車輛中的多模態(tài)對話語料庫

本節(jié)詳細(xì)介紹了用于記錄多模態(tài)數(shù)據(jù)集的協(xié)議。主要目的是對三種不同類型的互動進(jìn)行分類。第一種類型是 "正常/好奇 "類，兩個參與者進(jìn)行了友好的討論。第二種類型的互動是 "有爭議的拒絕"，即后排乘客誠懇地拒絕了司機(jī)的提議。最后一種是完全拒絕司機(jī)的提議，被稱為 "沒有爭論的拒絕"。

A.數(shù)據(jù)集的目的

數(shù)據(jù)集旨在記錄汽車駕駛艙內(nèi)兩名乘客之間的互動。一名司機(jī)和一名后座乘客（右側(cè)）正在扮演預(yù)先設(shè)定好的場景。參與者是沒有任何表演技能的法國志愿者。每個參與者的錄音會話持續(xù)7分鐘，將每個會話分為四個連續(xù)階段。本文只分析了表演階段： 1) 沉默的60秒， 2) 180s的演戲。 3) 沉默的60秒， 4) 與車載信息娛樂系統(tǒng)（IVI）進(jìn)行120s的互動。在表演階段，司機(jī)始終扮演著堅持不懈的賣家這一角色，而乘客則扮演以下三種行為中的一種： ● "對司機(jī)的提議感到好奇" . ● "用論證的方式拒絕該提議" ● "斷然拒絕該提議" . 司機(jī)對所發(fā)生的情況一無所知，也從不事先知道乘客的行為。他經(jīng)歷了這種情況。由于協(xié)議的原因，我們選擇了堅持不懈的賣家場景，而不是攻擊性場景。

圖1.記錄裝置的輸入視圖

事實上，如果愿意扮演現(xiàn)實中的攻擊性場景，迫使不同的受試者遵循一個心理協(xié)議的設(shè)置，將是非常有限制性的。

B.采集設(shè)置

對于這樣的記錄場景，我們配備了一輛Dacia duster汽車。錄音裝置由6個攝像頭、4個麥克風(fēng)和安裝在汽車引擎蓋上的一個屏幕組成。該屏幕位于駕駛員視野前方，乘客也可以看到。它有兩個目的：第一個目的是指示他們何時必須改變行動階段。第二種是通過流媒體播放道路視頻來吸引司機(jī)的注意力，因為汽車是靜止的。所有與汽車的交互都是可用的(車輪、變速桿等)。

最后，在錄音過程中播放任何環(huán)境聲音，如發(fā)動機(jī)、大自然、音樂。設(shè)置如圖1所示。

1)視頻流:機(jī)載相機(jī)的分辨率、視角和鏡頭都不同。我們的方法是對2號攝像機(jī)（ID=C2，見圖2）給予特權(quán)。它是一個手動對焦的攝像機(jī)，記錄分辨率為1920×1080像素。它的位置是為了有一個正面的視角，見圖1。由于天花板上有燈，我們設(shè)置了攝像機(jī)的可用參數(shù)，以獲得車內(nèi)的最佳圖像質(zhì)量。

2)音頻流:四個相同的傳聲器Brel&Kjaer預(yù)極化1/4英寸的4958型被設(shè)置在不同的車輛區(qū)域記錄了音頻流。我們的方法只使用天花板上的驅(qū)動器麥克風(fēng)（ID = M1見圖2）。采樣鏈內(nèi)的每個傳聲器都用Brel&Kjaer 4231型傳聲器校準(zhǔn)器進(jìn)行校準(zhǔn)，所有的輸入信號電平設(shè)置為-18dB/1kHz。我們將所有視頻流保存為RAW格式（無實時壓縮）。音頻流也以RAW格式保存，以不損失質(zhì)量。

C.數(shù)據(jù)集的預(yù)處理和標(biāo)注

由于錄音設(shè)置的配置，后期處理工作是無法避免的。事實上，錄音過程中產(chǎn)生了視頻和音頻流之間的時間延遲。

圖2.2號攝像機(jī)的視角為了使六個視頻和四個音頻流同步，我們使用了Adobe premiere pro。最后，這些視頻被壓縮成mp4格式。因為它具有最好的圖像和燈光質(zhì)量，所以在我們的實驗中只使用2號攝像機(jī)（見圖2）。所有其他相機(jī)將被考慮用于未來的調(diào)查。

為了獲得三種模式的數(shù)據(jù)集，我們從音頻流中轉(zhuǎn)錄文本。經(jīng)過一些實驗，避免使用自動語音轉(zhuǎn)錄（ASR），如Amazon transcribe或Google speech to text，因為它們的單詞錯誤率非常高。在這種口頭語境中，有大量的重復(fù)、感嘆詞和孤立的詞語。此外，這些句子的結(jié)構(gòu)可能很奇怪（不一定是主謂互補(bǔ)）。

在這種情況下，ASR的表現(xiàn)是不充分的。 ELAN1軟件被用來轉(zhuǎn)錄數(shù)據(jù)集。它是一個手動注解工具，旨在為視頻和音頻數(shù)據(jù)創(chuàng)建、編輯和可視化注解。將每個演員的音頻流轉(zhuǎn)錄成語料，從而產(chǎn)生了2026個語料的總數(shù)。作為提醒，語詞是一個連續(xù)的語音單位，以明確的停頓開始和結(jié)束。轉(zhuǎn)錄稿由一名同行審核。

為了節(jié)省時間，與其他數(shù)據(jù)集相比，我們決定在場景層面進(jìn)行注釋，因為其他數(shù)據(jù)集的注釋是在語料層面。這個標(biāo)簽是在錄音開始時為整個表演序列確定的。這種選擇的后果是，如果被試者扮演的角色非常糟糕，就會引起錯誤的標(biāo)簽。我們將在定性分析中再來討論這些問題（見V-B節(jié)）。

D.語料庫的規(guī)范和理解

數(shù)據(jù)集包括22名參與者（4名女性/18名男性）的44個視頻。每個參與者按隨機(jī)順序扮演一次司機(jī)和一次乘客。所有的互動加起來，每個視頻大約有46個句子，總共有2026個句子。它總共代表了21 966個單詞，包含2082個獨特的單詞。總共有1小時48分鐘的視頻，即54分鐘的好奇場景，27分鐘的有爭議的拒絕場景，27分鐘的無爭議的拒絕場景。我們自愿在記錄的數(shù)據(jù)量中加入不對稱性，以考慮到在真實情況下，好奇類將是通常的行為。

當(dāng)進(jìn)行行為或情感分析時，說話者的依賴性是一個關(guān)鍵點。這個想法是為了評估算法在處理新說話者時的泛化能力。為此目的，通過選擇20名受試者進(jìn)行培訓(xùn)和2名受試者進(jìn)行驗證，生成了所有不同的培訓(xùn)/驗證文件。分別代表80%的訓(xùn)練數(shù)據(jù)，代表20%的驗證數(shù)據(jù)。在實踐中觀察到視頻模式比音頻和文本模式的信息量要少。

在汽車環(huán)境中，由于安全帶的作用，乘客大多是靜止的，而司機(jī)則專注于駕駛?cè)蝿?wù)，限制了頭部的運動。在基于多模態(tài)數(shù)據(jù)集的情感或?qū)υ挿治鲋幸材苡^察到這種見解。見[19]、[14]的結(jié)果。當(dāng)對數(shù)據(jù)集的時間進(jìn)行統(tǒng)計分析時，可以發(fā)現(xiàn)司機(jī)和乘客行為的有趣模式。

由于人類并不是每隔10秒就會改變他們的情緒或行為，我們在15秒的分析窗口中繪制特征。這個Github link2 提供了繪制的圖表。平均交談、平均持續(xù)時間和平均沉默繪圖對應(yīng)這15s內(nèi)數(shù)值的平均值，對于眼神接觸和乘客能見度我們計算頻率。這個15s只是為了統(tǒng)計分析的目的。大于40s的值會使曲線呈平面狀，沒有可能進(jìn)行推導(dǎo)。

本地描述符圖的設(shè)計靈感來自于[20]。在檢查了音頻視頻流并分析了圖表后，我們能夠?qū)Ｗ⒂谝韵?a target="_blank">手工制作的功能。一共計算了7個值，其中4個來自兩位乘客的平均談話和平均持續(xù)時間，剩下的3個是平均沉默度、眼神接觸和乘客能見度，即：

● 平均交談。在一個正常的對話中，平均說話量往往在參與者之間公平分配。

● 平均持續(xù)時間。它是指講話的平均時間。作為對平均說話時間的補(bǔ)充，講話的長度是一個很好的指標(biāo)，表明誰在主導(dǎo)對話，誰想結(jié)束對話。 ● 平均沉默。平均沉默度是衡量對話強(qiáng)度的指標(biāo)。沉默越多，討論就越差，并趨向于拒絕的情況。

● 眼睛接觸。它是指司機(jī)看向內(nèi)部后視鏡的頻率。目光接觸是與人交談時的一種自然行為。由于司機(jī)專注于道路和駕駛?cè)蝿?wù)，他沒有其他選擇，只能看后視鏡以看到對話者。

● 乘客能見度。它是指乘客被攝像機(jī)看到的頻率。這是一個很好的指標(biāo)，表明乘客對談話的興趣。當(dāng)我們參與討論時，會自然地縮短與對話者的距離。在汽車討論的語境中，后排乘客向前推進(jìn)到兩個前排座位之間。

在視頻流中，它的結(jié)果是看到(或看不到)后排乘客。關(guān)于文本模式，我們專注于詞的頻率分布和TF-IDF[21]，以確定是否有與特定場景相關(guān)的詞的特定分布。這些方法在文本挖掘和分析中非常普遍。我們計算兩個相反類別（"好奇 "和 "未辯駁的拒絕"）之間的絕對TF-IDF delta值，得到以下10個最重要的delta詞：je, pas, vous, ouais, tu, non, moi, oui, donc和ah interjection。文本模式其實并不豐富，只有2082個不同的詞。

由于受試者不是真正的演員，我們觀察到兩個階段的過渡。第一階段是設(shè)置階段：在每個場景的前30秒，受試者不能堅持或斷然拒絕導(dǎo)致 "糟糕的演技"。第二個是在最后：受試者的靈感耗盡，在每個場景的最后20秒內(nèi)造成呼吸短促。

IV.多模態(tài)分析

在完成記錄和注釋數(shù)據(jù)集的過程后，我們設(shè)計了一個基于視頻、音頻和文本分析的多模態(tài)方法。我們的任務(wù)是設(shè)計一個模型，能夠?qū)⒁暵犃鞣譃槿齻€類別，對應(yīng)于三種情況（"好奇"、"有爭辯的拒絕"、"無爭辯的拒絕"）。

A.視頻和音頻分析

我們的方法包括為音頻和視頻模式提取高水平的手工制作的特征。在視頻分析中，汽車背景的優(yōu)勢在于乘客是靜態(tài)的。可以利用這一點來了解乘客在視頻中的位置。如果在橫軸的中間切開畫面，司機(jī)在右邊，后排乘客在左邊。為了提取 "司機(jī)眼神接觸 "的特征，使用openCV作為人臉提取器，然后使用hyperf ace來提取每一幀上人臉的歐拉角。

最后，在Yaw和Pitch軸上的K-means聚類算法確定了司機(jī)在看后視鏡時的幾個歐拉角（圖3中的綠色）。傾斜度不提供額外的信息。對于后座乘客的能見度，再次使用openCV在每一幀上檢測后座乘客的臉。然后，在語料層面重新調(diào)整音頻和視頻特征，以便在所有三種模式完全一致的情況下向神經(jīng)網(wǎng)絡(luò)模型提供信息。

圖3.駕駛員頭部方向的聚類推斷聚類推斷我們計算了上述所有特征的皮爾遜相關(guān)矩陣，如公式（1）中所規(guī)定的。其目的是通過強(qiáng)調(diào)特征對X和Y之間的線性相關(guān)性來證實對這七個手工制作的特征的選擇。

其中cov是協(xié)方差，σ指X的標(biāo)準(zhǔn)差，σx是Y的標(biāo)準(zhǔn)差，μ是X的平均值，μx是Y的平均值，i指加權(quán)平均的廣義。表二和表三顯示了音頻和視頻特征之間明顯的相關(guān)性。有趣的關(guān)聯(lián)是司機(jī)眼神接觸的增強(qiáng)和乘客能見度的關(guān)聯(lián)。沉默的平均值也與眼神接觸特征的減少相關(guān)。這種相關(guān)性證明了在人際交往中視頻和音頻之間存在著聯(lián)系。

我們?yōu)檫@七個特征定義了以下縮寫。Msp指的是平均發(fā)言，Mdur指的是平均持續(xù)時間，nbrE指的是交流次數(shù)，eyeC指的是眼神接觸，Pvisi指的是乘客可見度，Nsil指的是沉默的次數(shù)。最后，這七個特征被送入多層感知器（MLP）。它被設(shè)計為有兩個隱藏層和一個輸出層來生成預(yù)測。一些評估顯示，這七個特征帶來了最好的性能。

B.文本分析

關(guān)于文本分析，面臨三個主要問題。一個是由于使用了法語。事實上，每一個框架和預(yù)訓(xùn)練的模型，如Spacy,NLTK,BERT都很適合英語分析，但在法語上的表現(xiàn)非常糟糕。對于法語來說，存在少數(shù)替代方案，但它們非常有限，因為它們是基于古老或書面的法語。

因此，我們在名為Camen- BERT的轉(zhuǎn)化器模型上獲得了糟糕的結(jié)果，該模型是在139個維基百科文本中訓(xùn)練出來的。文本的貧乏使得基本的方法（TF-IDF和嵌入+LSTM模型）是不可行的。取代這些不精確的模型，我們實現(xiàn)了層次注意網(wǎng)絡(luò)（HAN），它最初是為文本文檔分類器設(shè)計的。選擇這個架構(gòu)是因為它有能力關(guān)注單詞和句子兩個層面，這要歸功于它的注意力機(jī)制。

這個神經(jīng)網(wǎng)絡(luò)是由兩個階段建立的：

● 注意力神經(jīng)網(wǎng)絡(luò)集中在單詞層面,

● 側(cè)重于句子層面的注意力神經(jīng)網(wǎng)絡(luò)。從詞的層面上提取的特征為另一個層面提供支持。我們修改了原來的實現(xiàn)，將句子層的基本GRU層替換為滿狀態(tài)GRU。這種修改使模型能夠隨著時間的推移跟蹤隱藏的狀態(tài)，從而提高全局性能。這個模型的超參數(shù)是根據(jù)經(jīng)驗調(diào)整的：

● 嵌入層的輸入是數(shù)據(jù)集中代表度最高的500個詞。輸出是一個大小為100的特征向量。

● 64個單元的單詞和句子GRU。

● 一個大小為100的向量，用于單詞模型的嵌入層的輸出。

C.線索融合

本節(jié)詳細(xì)介紹了基于音頻、視頻、文本和時間演變的后期融合方法。晚期融合是在非異質(zhì)模態(tài)情況下的通常策略。圖4描述了模型。綠色部分是指從所有模式中提取特征，橙色部分是指這些特征的時間融合。融合后，從三種模式中提取的所有特征。前32個特征是利用HAN模型從文本中提取的，剩下的4個特征是從III-D節(jié)中定義的7個手工制作的特征中提取的：司機(jī)和乘客的平均談話時間和平均持續(xù)時間，沉默的平均值，乘客的能見度和司機(jī)的眼神接觸。

圖4.我們的融合模型

它的結(jié)果是，在串聯(lián)之后，形成一個大小為36的向量。然后，這個向量被送入一個名為GRU的兩個全狀態(tài)時空循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的堆棧。關(guān)于RNN的完整評論見[8]。然后，給出一個全連接（FC）層提供信息，以進(jìn)行情景預(yù)測。全狀態(tài)模型的概念將在下一節(jié)詳述。

D.實施細(xì)節(jié)

當(dāng)研究多模態(tài)和時間背景時，一些自由參數(shù)、模型和訓(xùn)練過程是再重要不過了。根據(jù)經(jīng)驗，滑動分析窗口被設(shè)定為T=35，因為它導(dǎo)致了最佳結(jié)果。各窗口之間的上下文是提高模型精度的關(guān)鍵。特別是在對話中，情景會發(fā)生變化，捕捉這種變化會提供很多信息。

作為人類，如果我們有多個按時間順序排列的分析窗口，就比打亂順序的分析窗口更容易理解情況。我們通過使用全狀態(tài)的GRU來實現(xiàn)這一概念。RNN只記得在一個序列中發(fā)生的事情。一個序列可以是一組句子，一組特征，等等。在每個通過的序列的初始時間點，隱藏狀態(tài)被初始化并設(shè)置為0，這意味著沒有以前的信息。

在該方法中，用前一個分析窗口的隱藏狀態(tài)來取代零初始化。在融合中應(yīng)用，它可以跟蹤視頻從開始到結(jié)束的所有特征的演變。全狀態(tài)的RNN必須逐個視頻進(jìn)行訓(xùn)練。每個視頻在?y上被切割成大約180/35=5個子序列視頻片段。然后，它們被按時間順序逐一送入模型。這種訓(xùn)練方法只產(chǎn)生了44*5=220個訓(xùn)練樣本。

為了增加訓(xùn)練集，我們轉(zhuǎn)移了分析窗口的起點，以產(chǎn)生400個樣本。這種移位在每個視頻上進(jìn)行四次，在每次迭代中，分析窗口的起點被移位10s。如前所述，數(shù)據(jù)集的限制迫使我們丟棄訓(xùn)練樣本的前30秒。在訓(xùn)練和驗證階段，我們會刪除這些文件。為了訓(xùn)練多模態(tài)模型，我們使用預(yù)訓(xùn)練技術(shù)。HAN模型首先被訓(xùn)練了大約80個歷時。

然后，當(dāng)它達(dá)到最佳精度點時，就被保存起來。最后，在多模態(tài)訓(xùn)練階段的開始，保存的HAN模型被加載以初始化多模態(tài)模型的HAN權(quán)重。沒有這種方法，多模態(tài)模型將無法銜接。除了最后一個FC層之外，凍結(jié)加載模型的權(quán)重也被考慮，但它會導(dǎo)致較差的性能結(jié)果。由于正在處理一個多類問題，所以使用交叉熵?fù)p失，其定義如公式（2）。

其中y?是模型對C類的輸出分?jǐn)?shù)。

V.評估和相關(guān)分析

首先，本節(jié)介紹定量評估。其次，提出了一個定性的分析，并給出了一些預(yù)測。

A.定量評估

為了訓(xùn)練和驗證我們的模型，隨機(jī)產(chǎn)生了五種不同的訓(xùn)練/驗證文件。每次，將數(shù)據(jù)集分別分成80%（18名參與者）和20%（4名參與者），用于訓(xùn)練和驗證階段。使用平衡精度作為衡量標(biāo)準(zhǔn)來評估我們的模型。平衡準(zhǔn)確率的定義見公式（3）。當(dāng)在每個類別中沒有平衡的樣本數(shù)量時，它是強(qiáng)制性的。

它是每個類i的召回分?jǐn)?shù)的宏觀平均數(shù)，其相關(guān)權(quán)重i相對于其真實類yi的反向流行率。y?i是樣本i的推斷值。

表四總結(jié)了結(jié)果。音頻和視頻特征獲得了60%的平衡準(zhǔn)確率，考慮到模型的大小和特征數(shù)量的限制，這是很有希望的。

圖5.平衡精度與時間的關(guān)系實例

文本模型執(zhí)行了70%的平衡精度。該融合方法導(dǎo)致了良好的結(jié)果，因為與純文本模式相比，它提高了11%的平衡準(zhǔn)確性。標(biāo)準(zhǔn)差是由交叉驗證策略引起的五個標(biāo)準(zhǔn)差的平均值。圖5顯示了一個驗證集的例子。圖中的指標(biāo)是隨時間變化的平衡精度。更具體地說，它是對窗口T中的時間t存在的文件的平衡準(zhǔn)確性。當(dāng)模型考慮到視頻的90％時，它能夠以99％的準(zhǔn)確率預(yù)測類別。

B.定性評估

我們恢復(fù)所有被錯誤分類的文件，以實現(xiàn)對方法正確理解。得出了以下結(jié)論。主要的限制在于數(shù)據(jù)集部分，受試者有時不能按照要求的行為發(fā)揮他們的作用。駕駛艙環(huán)境也是視頻模式的一個限制，因為乘客在這個環(huán)境中大部分時間是靜止的，限制了視覺信息。其余的誤差是由于模型的錯誤分類造成的。我們期望 "有爭論的拒絕 "類別的數(shù)據(jù)分布在其他兩個類別的中間。該模型有時很難將 "有爭論的拒絕 "歸入正確的類別。見圖6中的混淆矩陣。

另一個導(dǎo)致錯誤分類的問題是一些受試者的糟糕演技。例如，一些受試者在拒絕場景中的表演階段中笑場。或者一個受試者在回頭看后排乘客時表現(xiàn)得很反常。

VI.結(jié)論和未來工作

本文描述了一個真實車輛環(huán)境下的多模態(tài)交互數(shù)據(jù)集。用該模型得到的性能是很有希望的。多模態(tài)和全狀態(tài)RNN方法顯著提高了性能。

圖6.混淆矩陣的例子

通過5個不同的交叉驗證集，我們得到了81%的最終平衡精度。未來的工作將按以下方式進(jìn)行：將設(shè)計一個新的端到端模型來攝取視頻和音頻數(shù)據(jù)，而無需手工制作過程。它將遵循本文提出的方法。然后，我們將在考慮到計算資源的情況下，在真正的汽車嵌入硬件中實現(xiàn)我們兩種方法中最好的一種。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

電動汽車

電動汽車

+關(guān)注

關(guān)注
156

文章
12427

瀏覽量
234601
控制器

控制器

+關(guān)注

關(guān)注
114

文章
17112

瀏覽量
184287
汽車駕駛

汽車駕駛

+關(guān)注

關(guān)注
0

文章
10

瀏覽量
8674
轉(zhuǎn)化器

轉(zhuǎn)化器

+關(guān)注

關(guān)注
0

文章
26

瀏覽量
10708

原文標(biāo)題：汽車駕駛艙內(nèi)多模態(tài)人機(jī)交互分析

文章出處：【微信號：阿寶1990，微信公眾號：阿寶1990】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

一文簡析汽車駕駛艙內(nèi)多模態(tài)人機(jī)交互

評論