近日,OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法(iterated amplification),通過描述如何將一個復(fù)雜的任務(wù)分解成簡單的子任務(wù)而不是提供標簽數(shù)據(jù)或獎勵函數(shù),實現(xiàn)了對于復(fù)雜行為和目標的描述。雖然這一方法還處于比較初級的階段,但研究人員認為這種方法將為AI安全提供一種大規(guī)模的實現(xiàn)手段。
如果我們想要訓(xùn)練一個機器學(xué)習(xí)模型完成特定的任務(wù),我們一定需要訓(xùn)練信號來評價模型的表現(xiàn)并幫助模型不斷學(xué)習(xí)和改進。例如監(jiān)督學(xué)習(xí)中的標簽和強化學(xué)習(xí)中的獎勵函數(shù)就是訓(xùn)練訊號。機器學(xué)習(xí)體系中的一個重要假設(shè)就是這些訊號已經(jīng)存在,并且算法可以按照它來學(xué)習(xí)。但實際情況是訓(xùn)練信號可能來自于不知道的某個地方。如果我們沒有訓(xùn)練信號就意味著我們沒有辦法學(xué)習(xí)。如果我們得到的是錯誤信號,那么算法可能會得到無意識的甚至危險的結(jié)果。所以對于新的任務(wù)和AI安全來說,提高得到訓(xùn)練訊號的能力是十分必要且極具價值的。
那么讓我們看看目前是怎么獲取訓(xùn)練信號的呢?有時候我們可以利用算法得到,比如在圍棋游戲中可以通過計數(shù)評分得到信號。不過大多數(shù)真實世界的任務(wù)并沒有一個數(shù)學(xué)形式表達的信號,但通常我們可以人工的手段來獲取訓(xùn)練信號。但實際情況是,很多復(fù)雜的任務(wù)已經(jīng)遠遠超過了人類的認知能力,我們沒辦法判斷模型的輸出是否正確,例如設(shè)計一個復(fù)雜的運輸系統(tǒng)或者管理龐大計算機網(wǎng)絡(luò)安全細節(jié)的管理系統(tǒng)這樣的任務(wù),或者是預(yù)測全球長期氣候趨勢這種復(fù)雜的任務(wù)。
需要不同訓(xùn)練信號的問題,訓(xùn)練序號可以來自表達式評價、人類反饋,但有的任務(wù)超出了人類的能力。
本文提出的迭代放大,是一種在確定性假設(shè)下為后續(xù)任務(wù)生成訓(xùn)練假設(shè)的方法。實際上,雖然人類不能在全局上直接把握復(fù)雜的問題,但我們可以假設(shè)人類可以有效的評估復(fù)雜任務(wù)中的一小塊任務(wù)是否符合要求。例如在計算機網(wǎng)絡(luò)安全的例子中,人們可以將“防御一系列針對于服務(wù)器和路由器的攻擊”分解為“針對服務(wù)器的攻擊”和“針對路由的攻擊”以及“兩個攻擊間可能的相關(guān)性”。此外,我們還可以假設(shè),人類可以承擔(dān)很少的一部分任務(wù),例如“識別出日志中的一行可疑記錄”。如果人類的分解任務(wù)能力和分擔(dān)任務(wù)能力得以落實,這兩項假設(shè)得以成立,那我們就可以為一項龐大的任務(wù)建立訓(xùn)練信號,這些訊號來自于人類針對分解任務(wù)訊號的組合。
迭代放大的機制
研究人員在實際訓(xùn)練放大的過程中,首先訓(xùn)練AI系統(tǒng)從一個很小的子任務(wù)開始學(xué)習(xí),通過尋求人類的幫助(標簽/獎勵信號)來學(xué)會解決這一子問題。隨后讓系統(tǒng)學(xué)習(xí)一個稍大的問題,這時候需要人類將較大的任務(wù)進行分解,AI系統(tǒng)依靠上一步的學(xué)習(xí)來解決這些問題。研究人員將這種解決方案用于那些稍微困難的問題,在這些問題中系統(tǒng)從人類處得到訓(xùn)練信號,來直接訓(xùn)練二級任務(wù)(此時無需人類幫助)。
隨著訓(xùn)練的進行,研究人員繼續(xù)為AI提供更為復(fù)雜的復(fù)合任務(wù),不斷構(gòu)建出訓(xùn)練信號。如果這個過程得以完成,AI系統(tǒng)將學(xué)會解決高度復(fù)雜的問題,盡管這個系統(tǒng)一開始沒有從任務(wù)中獲得直接的訓(xùn)練信號。
這一過程在一定程度上與AlphaGo Zero專家迭代過程很像,不過個專家迭代在強化現(xiàn)存的訓(xùn)練信號,而迭代放大則從零開始構(gòu)建訓(xùn)練信號。它也和最近的一些問題分解的算法很像,但區(qū)別在于它可以用于沒有先前訓(xùn)練信號的問題。
實 驗
先前的實驗表明,直接用AI系統(tǒng)解決超越人類能力的問題十分困難,同時利用人類作為訓(xùn)練信號也會引入復(fù)雜性。所以研究人員的第一個實驗在于嘗試放大了算法的訓(xùn)練信號,來驗證這種方法可以在簡單任務(wù)的有效性。同時也限制了對于監(jiān)督學(xué)習(xí)的注意力。研究人員在5個示例算法任務(wù)上進行了嘗試。這五個算法示例都有具體的數(shù)學(xué)表達,但研究人員先排除算法信號,了利用一步步從簡單到復(fù)雜的方法從零開始解決。利用迭代放大的方法,從一些不直接的子任務(wù)中間接學(xué)習(xí)出訓(xùn)練信號。
在五個任務(wù)中(排列、序列賦值、通配符匹配、最短路徑、查找并集),新的方法可以與表達式方法獲得同等甚至更好的效果。
在沒有l(wèi)abel的情況下迭代放大法獲得了與監(jiān)督學(xué)習(xí)相同甚至更好的結(jié)果
放大法在尋求解決那些超越人類直接認知和能力的問題,通過迭代的過程使得人類可以提供間接的監(jiān)督信號。這項工作同時也建立在人類反饋的基礎(chǔ)上,通過實現(xiàn)獎勵預(yù)測系統(tǒng),接下來的版本將會包含來自于真實人類的反饋。目前研究人員僅僅在探索的初級階段,隨著研究的深入和規(guī)模的擴大將會為很多復(fù)雜的問題帶來新的可能。
人類反饋
-
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280074 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4381瀏覽量
64910 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134639
原文標題:OpenAI提出全新AI安全策略—迭代放大法,助力機器實現(xiàn)復(fù)雜目標學(xué)習(xí)
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
ZigBee接入EPA網(wǎng)絡(luò)的安全策略
一種參數(shù)自調(diào)節(jié)優(yōu)化控制策略
一種參數(shù)自調(diào)節(jié)優(yōu)化控制策略
基于多維整數(shù)空間的安全策略沖突檢測與消解
基于有向圖模型的網(wǎng)絡(luò)安全策略沖突研究
基于可信計算的多級安全策略TCBMLSP分析

云計算環(huán)境的多域安全策略驗證管理技術(shù)

研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列

OpenAI提出了一種回報設(shè)置方法RND
以色列研究人員開發(fā)出了一種能夠識別不同刺激的新型傳感系統(tǒng)
研究人員推出了一種新的基于深度學(xué)習(xí)的策略
中美研究人員合作開發(fā)出了一種可以預(yù)測新冠肺炎病情的AI工具
研究人員發(fā)現(xiàn)一種可在水中產(chǎn)生納米氣泡的新方法
MIT研究人員提出了一種制造軟氣動執(zhí)行器的新方法

評論