去年陷入“數(shù)據(jù)丑聞”后的 Facebook 日子并不好過,在這之后他們對外界強調(diào)的關鍵詞大部分都是“隱私”和“安全”。即便如此,在剛剛過去的 Facebook F8 大會上,扎克伯格忍不住自嘲,由于在數(shù)據(jù)隱私方面的問題,很多人依然不信任 Facebook。
不過,不止 Facebook 一家公司,如何使用現(xiàn)有的 AI 等技術最大限度保護用戶不受傷害是每個公司都要不斷探索的問題。而對于經(jīng)歷過一年大風浪的世界級企業(yè), Facebook 為重視數(shù)據(jù)隱私和平臺安全的努力也有目共睹。
Facebook CTOMike Schroepfer和 Facebook AI 部門的研究科學家Manohar Paluri 在近日的 F8 大會上發(fā)表了主題演講,他們主要談到了如何使用 AI 技術來保護平臺用戶安全地使用產(chǎn)品,需要做到兩點:1、理解內(nèi)容;2、Facebook 如何使用自監(jiān)督學習方法來提高內(nèi)容識別的準確性,同時減少翻譯、NLP、圖像識別等應用中對標記數(shù)據(jù)的要求。
Yann LeCun 對此評論稱,這有助于改進對具有暴力畫面、仇恨的言論、干擾選舉、錯誤信息、僵尸賬戶等違規(guī)內(nèi)容的過濾。
拋開對 Facebook 依然懷疑的目光,我們或許更應該去看看它在技術上到底做了哪些努力,他們的 AI 等技術實踐也可能對其他公司在保護用戶數(shù)據(jù)和使用體驗方面有重要的技術指導意義。
具體技術細節(jié),都在以下演講全文里:
AI 在 Facebook 的各種應用中無處不在,其中最重要的一項工作是幫助我們平臺上的用戶安全使用。
為了使所有這些系統(tǒng)更加有效,我們需要在兩個方面繼續(xù)改進 AI 技術:理解內(nèi)容以及使用少量的標記訓練數(shù)據(jù)高效工作。
我們最近在 NLP和 CV 方面取得的進展表明,內(nèi)容理解方面的工作如何產(chǎn)生效益。在 NLP 領域,我們開發(fā)了一個共享的多語言嵌入空間,可以作為一種通用語言來對有害內(nèi)容進行處理,即使在資源匱乏的語言中也是如此。在 CV 領域,基于行業(yè)領先的研究基礎,我們可以識別圖像中更多部分的內(nèi)容,并使用標簽為視頻理解實現(xiàn)創(chuàng)紀錄的準確性。
隨著我們理解內(nèi)容的能力在不同模式下不斷提升,我們在自監(jiān)督技術的新前沿也取得了進展。這種技術將通過預訓練系統(tǒng)加速學習,可以成為下一代更快、更靈活工具的基礎技術。
我們將在此重點介紹 Facebook 如何提高內(nèi)容理解系統(tǒng)的準確性和效率,并找到通過較少監(jiān)督學習方法來完成更多工作的新方法。
一、使用多語言句子嵌入來處理違規(guī)內(nèi)容
為了檢測人們何時發(fā)布了違規(guī)內(nèi)容,我們的系統(tǒng)需要理解語言。具體來說,我們的系統(tǒng)使用機器學習來掃描給定的句子并回答一系列問題,例如“它是否有害的(hateful)?”使用這些問題的答案,以及互動的語境和其他信號,我們可以確定系統(tǒng)是否采取行動,例如標記給人工審核員。
為了讓 ML 系統(tǒng)來回答這些問題,我們則需要用給定語言的數(shù)千個例子來進行訓練。世界上大約有 6500 種語言,這包括目前缺乏大量培訓數(shù)據(jù)集的語言,找到足夠的例子來開發(fā)支持所有語言的內(nèi)容理解系統(tǒng)是巨大的挑戰(zhàn)。
通過在共享嵌入空間中以多種語言映射相似的句子,我們可以更好地理解相關內(nèi)容而無需翻譯每個句子。
為了幫助解決訓練數(shù)據(jù)的稀缺性,我們正利用我們最近開源的工具包 LASER(Language-Agnostic SEntence Representations),該工具包通過訓練單個模型來理解大量語言。以前我們需要為每種語言準備不同的模型,LASER 的表示空間允許我們訓練一種語言模型,然后將該模型應用于一系列語言,而無需特定語言的訓練數(shù)據(jù),也無需進行翻譯,這被稱為“零樣本遷移學習(zero-shot transfer learning)”。LASER 還允許我們通過在語言未知的表示空間內(nèi)將這些句子相互映射,來識別出在意義上相似的句子。
LASER 開源地址:https://github.com/facebookresearch/LASER
對于希望系統(tǒng)可以增加理解語言數(shù)量的研究人員來說,這樣的跨語言技術提供了一種更具可擴展性的替代方案,可以嘗試收集和注釋每種語言的數(shù)據(jù)。這種方法還允許我們挖掘用于機器翻譯的并行訓練數(shù)據(jù),并且對于低數(shù)據(jù)資源語言(我們的訓練示例較少)特別有用。識別跨語言的類似句子有助于同時捕獲多種語言的類似違規(guī)行為。為了生成每個句子級別的嵌入,我們首先使用字節(jié)對編碼表示給定句子的單詞,然后使用一個五層雙向 LSTM(長短期記憶)模型,然后是最大池化(max pooling)操作(因為句子包含任意字數(shù))。
通過大規(guī)模訓練這個系統(tǒng)——93 種語言,屬于 30多個語系并用 22 種不同的腳本編寫,我們能夠獲得與語言無關的句子嵌入,并且能夠支持自動檢測違規(guī)行為的這種能力尤其與低資源語言相關。
這種方法與我們的跨語言預訓練研究一起,將提高我們以多種語言處理仇恨言論、欺凌和其他違規(guī)行為的能力,而無需額外語言標記的訓練數(shù)據(jù)。這兩種技術都將支持我們現(xiàn)有的多語言詞匯嵌入,它將來自不同語言的相似詞語映射到同一個空間(與 LASER 的句子級別映射相反)。這些嵌入已經(jīng)部署到生產(chǎn)中,用于包括識別違規(guī)內(nèi)容等廣泛的跨語言理解任務。
二、全景 FPN:圖片和視頻理解的最新技術
人們在我們的平臺上分享了數(shù)十億張圖片,那么理解其中的內(nèi)容對保護人們的安全至關重要。即使是簡單的像素分析可能足以讓我們的系統(tǒng)識別圖片中的單個對象,我們甚至可以進一步推動業(yè)界領先的 CV 能力,并讓系統(tǒng)了解這些對象之間的聯(lián)系,以判斷違規(guī)行為。
(注:近日,基于何愷明團隊提出的“全景分割”任務開始變得熱門,今年1月他們公布了《Panoptic Feature Pyramid Networks》論文。)
論文鏈接:https://arxiv.org/abs/1901.02446
我們的系統(tǒng)擅長識別圖片前景中的對象,例如狗或球,但目前還是難以理解面積較大,包含較少像素集合的構成圖片的背景。使用全景 FPN(Panoptic FPN)這種新的對象識別方法,我們可以在一個統(tǒng)一的神經(jīng)結構上同時執(zhí)行實例分割任務(用于前景)和語義分割任務(用于背景)。
多年來,F(xiàn)acebook 的 CV 系統(tǒng)逐漸識別到更多的圖像組件,現(xiàn)在可以通過單個網(wǎng)絡檢測前景和背景中的對象。這樣可以更好地理解照片的整體背景,以及更高計算效率的圖像識別。
Facebook 的實踐結果表明,與只做一個或其他網(wǎng)絡相比,全景 FPN 幾乎可以將執(zhí)行實例和語義分段所需的整體計算效率提升一半。在實踐中能使系統(tǒng)更好地了解圖像,這在判定是否違規(guī)時很重要。但是這項工作也會影響其他應用,例如可能會改變我們用來向視障人士描述圖像的自動轉換文字功能。
與圖片中的查找違規(guī)行為相比,在視頻中的難度是數(shù)量級的。理解視頻意味著要考慮構成給定幀序列的大量圖像和該序列中所表示的移動,同時還要處理非視覺輸入,例如音頻。
由于存在這樣的挑戰(zhàn),視頻理解還處于起步階段。我們在準確性和效率方面始終如一地在推動最先進的技術,部分是通過將系統(tǒng)的注意力和訓練集中在最相關的數(shù)據(jù)上。例如,通過將 3D 卷積分解為 2D 和 1D 卷積(分別與給定視頻序列中的空間和時間相關),我們減少了可訓練參數(shù)的數(shù)量?;蛘?,我們可以保持相同數(shù)量的參數(shù)并提高準確性??傊褂么丝蚣?,我們可以找到準確性和效率之間的平衡點。
不同于將給定視頻中的每一幀傳遞給時空卷積神經(jīng)網(wǎng)絡,我們的顯著性采樣方法是將包含顯著性動作的視頻隔離開來進行進一步地處理。
為了理解視頻中發(fā)生的事情,我們將其分解為短片段(每個片段由少量連續(xù)幀組成),并通過我們最新的時空模型發(fā)送一小組連續(xù)幀。然后,我們可以匯總這些信息預測整個視頻內(nèi)容。
然而,在許多視頻中,只有少數(shù)片段具有針對特定任務的顯著性信息,其余的片段則是冗余的或不相關的,例如檢測欺凌視頻。因此,為了進一步提高視頻中發(fā)現(xiàn)可操作事件的速度和效率,我們創(chuàng)建了一個顯著性采樣器。該系統(tǒng)經(jīng)過訓練,專注于包含特定行為的部分,然后更詳細地處理這些幀集。這種更有針對性的分析和訓練能更快、更準確地視頻理解內(nèi)容。
三、將標簽用于視頻理解的創(chuàng)紀錄準確性
我們還開發(fā)了一種不同的方法為識別行為設定了新的技術方法,包括指出內(nèi)容違規(guī)的行為。
這種技術直接建立在我們?nèi)ツ暝?F8 大會(2018年5月)上公布的研究成果上,該研究使用帶有標簽的數(shù)十億公共圖像來訓練網(wǎng)絡,并且能夠在圖像識別任務中擊敗最先進的技術。在我們的新方法中,帶標簽的數(shù)據(jù)充當了弱監(jiān)督數(shù)據(jù),這意味著標記的訓練示例是可使用的,但這并沒有完全監(jiān)督的精確度。
與專門用于訓練 AI 模型的標簽相比,這樣得到的注釋噪音大且不精確。但是,這種方法所提供的標記示例的數(shù)量表明,我們可以基于前所未有的大量訓練數(shù)據(jù),而不是通過基于弱監(jiān)督的訓練數(shù)據(jù)來顯著改善視頻理解。
在這種情況下,我們訓練的最大數(shù)據(jù)集包含超過 6500 萬個帶有標簽的公共 Instagram 視頻。相比之下,當前的行動分類數(shù)據(jù)集僅包含幾十萬個視頻。使用這些視頻帶來的技術挑戰(zhàn)與十億次數(shù)量級別的圖像識別工作類似,例如必須在硬件上進行分布式訓練,也有新的挑戰(zhàn),包括處理通常只適用于視頻一小部分的標簽的事實,比如一個標記為#wedding 和 #dance 的視頻可能只是一對新婚夫婦在長時視頻中花了幾秒鐘在跳舞。
盡管存在這種隨機噪聲問題,但我們發(fā)現(xiàn)內(nèi)容的多樣性和示例的絕對規(guī)模抵消了標簽噪聲。通過使用我們的顯著性采樣器,視頻識別模型在三個主要的視頻分類基準測試中實現(xiàn)了最先進的精度。這包括在將視頻分類為 400 種不同的人類行為類別之一時,在動力學數(shù)據(jù)集上達到 82.8% 的準確度,這比其他最為先進技術的準確度提高了 5.1%,而錯誤率相對減少超過了 25%。我們已將這種方法應用于生產(chǎn)系統(tǒng),將欺凌檢測率提高到了近85%。
通過將音頻合并到此模型也可以獲得更好的結果。我們的實驗證明,與使用相同架構和訓練過程的視覺模型相比,我們的音視頻模型在 AudioSet 音頻事件檢測基準測試中創(chuàng)造了新的記錄——在檢測褻瀆性內(nèi)容和成人內(nèi)容方面的準確性提高了20%。
四、自監(jiān)督方法在內(nèi)容理解的應用前景
語言、圖像和視頻理解方面是 Facebook 持續(xù)努力的一部分。但當我們著眼于保持平臺安全這一長期任務時,創(chuàng)建可以使用大量未標記數(shù)據(jù)進行訓練的系統(tǒng)將變得越來越重要。
我們今天的大部分系統(tǒng)都依賴于有監(jiān)督的培訓,但這可能會導致一系列的訓練挑戰(zhàn),例如在缺乏訓練數(shù)據(jù),在收集和標記示例以從頭開始構建新分類器的長訓練時間的情況下,由于新的內(nèi)容違規(guī)事件迅速發(fā)酵,如選舉等事件已成為有害內(nèi)容的爆發(fā)點,我們有責任加快系統(tǒng)的開發(fā),從而提高響應能力。
一個可能的答案是 Facebook 首席 AI 科學家 Yann LeCun 多年來一直在討論的自監(jiān)督方法,而不僅僅依賴于以人類訓練為目的標記數(shù)據(jù),或者甚至依賴于帶有公共標簽的圖像和視頻的弱監(jiān)督數(shù)據(jù)。自監(jiān)督方法能夠利用完全無標記的數(shù)據(jù),該方法具有通用性,使自監(jiān)督系統(tǒng)能夠使用少量標記數(shù)據(jù)來概括不可見的任務,并可能使我們更接近實現(xiàn)人類級別智能的 AI 技術目標。
基本上,F(xiàn)acebook AI 團隊的曾經(jīng)研究策略最近都轉化成了能提供強大效果的系統(tǒng),一些自監(jiān)督的語言理解模型持續(xù)領先于使用傳統(tǒng)的、完全監(jiān)督方法訓練的系統(tǒng)。
具體來說,我們開發(fā)了一些模型,通過訓練信號的其余部分來學習預測給定信號的一部分。例如,我們訓練其中一個自監(jiān)督系統(tǒng),通過掩蓋句子中的單詞來更好地理解語言,即使模型之前從未見過那個確切的句子。
給出一個像“A conversation about ________ and human connection”這樣的短句,人們可以很容易地猜出幾個可以填補空白的詞,但是這項任務對 AI 來說更具挑戰(zhàn)性。這是一個有用且可擴展的訓練任務的基礎,類似于 Google 同時引入的 BERT 模型來解決任務。我們可以依次清空一個句子的每個單詞,并對十億個單詞重復這個過程,這個過程當然無需標記。
通過分別分析屏蔽字左側和右側句子的上下文語境,我們的雙向變換模型能夠在不依賴標記數(shù)據(jù)的情況下預測丟失的字詞。
為了預測每個隱藏的單詞,我們使用雙向變換網(wǎng)絡(bidirectional transformer networks),通過計算句子的前后狀態(tài)(掩碼右側和左側的單詞)來模擬句子的其余部分,然后組合這些表示來確定中心詞。一旦系統(tǒng)以這種未標記的方式進行了訓練,我們就可以使用標記數(shù)據(jù)對特定任務進行微調(diào),例如用來識別仇恨言論。
在內(nèi)部測試時,這種自監(jiān)督和有監(jiān)督訓練的混合使我們能夠以少 10 倍的數(shù)據(jù)訓練出比肩完全監(jiān)督模型能獲得的準確度,或者使用相同數(shù)量的訓練數(shù)據(jù),相比完全監(jiān)督模型能相對減少 20% 的誤差。
我們還使用自監(jiān)督訓練來改善語音識別能力。我們創(chuàng)建了一個音頻片段幾個版本,并且更改了一些音頻的部分內(nèi)容,而模型必須僅使用原始音頻作為輸入來確定哪個版本是正確的,同樣沒有轉錄或使用其他標簽。
對于這種方法,我們使用兩個堆疊在一起的網(wǎng)絡:將原始音頻映射到較低時頻的特征表示的編碼器網(wǎng)絡,以及預測正確音頻的上下文網(wǎng)絡。為了使任務更有效地進行訓練,我們通過上下文網(wǎng)絡進一步預測未來,使預測問題變得愈加困難。
在使用兩個卷積神經(jīng)網(wǎng)絡對原始的、未標記的音頻數(shù)據(jù)進行預訓練模型后,系統(tǒng)優(yōu)化后以解決一項越來越困難的任務:預測不同時間的音頻,箭頭表示未來進一步的預測。
一旦這種預訓練的、自監(jiān)督模型能很好的理解語音,我們就會使用少量的監(jiān)督數(shù)據(jù):80 小時的轉錄音頻來訓練最終的語音識別系統(tǒng)。我們的系統(tǒng)使用的標記數(shù)據(jù)比最佳系統(tǒng) Deep Speech 2 少了 150 倍,同時將字詞錯誤率降低了 9%。這項工作使我們能夠快速將語音識別功能擴展到更多語言,并且每種語言都不需要大量的轉錄語音。
這兩種方法都側重于語音和語言理解,但它們也代表了我們?nèi)绾翁剿魃踔两Y合不同程度的數(shù)據(jù)監(jiān)督的更基礎的方法轉變。這包括利用大量未標記的訓練數(shù)據(jù),以及使用少量標記數(shù)據(jù)來釋放自監(jiān)督系統(tǒng)的巨大潛力。在所有與人工智能相關的任務中,強調(diào)自監(jiān)督可以加速這些任務,但沒有一項任務比提高使用我們產(chǎn)品的人的安全更重要。
-
圖像識別
+關注
關注
9文章
530瀏覽量
39870 -
機器學習
+關注
關注
66文章
8544瀏覽量
136350 -
ai技術
+關注
關注
1文章
1313瀏覽量
25634
原文標題:Yann LeCun推薦!自監(jiān)督學習、全景FPN...內(nèi)容平臺的四大技術指南
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
系統(tǒng)快速性、穩(wěn)定性和準確性之間的權衡
如何提高工程預算的準確性
怎么提高頻率測量的準確性
合同智能審核軟件-提高審查效率和準確性
如何提高投標報價編制的準確性
AI可提高天氣預報的準確性和準確性,助力農(nóng)民和可再生能源行業(yè)
如何提高電流探頭的準確性與靈敏度
提升效率與準確性——RFID電商倉儲管理系統(tǒng)的優(yōu)勢

Facebook如何提高內(nèi)容理解系統(tǒng)的準確性和效率
評論