欧美日韩亚洲综合在线一区二区,一阳夹二阴的图解,国产午夜无码精品免费看麻豆

OpenAI 近日的一篇新文章簡述了如何通過辯論使 AI 系統(tǒng)矯正自身的問題來保證系統(tǒng)的安全，人類是辯論的最終評價者。由于人類直接決定辯論勝負(fù)，所以人類可以讓 AI 系統(tǒng)的價值取向始終與人類保持一致，作者認(rèn)為這種方法可以保證 AI 系統(tǒng)的安全。
AI Safety via Debate通過辯論達(dá)成AI安全。

我們提出了一項(xiàng)新的人工智能安全技術(shù)，該方法先訓(xùn)練智能體對話題進(jìn)行辯論，然后由人判斷輸贏。我們認(rèn)為這種或類似的方法最終可以幫助我們訓(xùn)練 AI 系統(tǒng)去執(zhí)行超過人類認(rèn)知能力的任務(wù)，同時這些任務(wù)的執(zhí)行結(jié)果仍然與人的價值觀是一致的。我們將通過初步的概念驗(yàn)證實(shí)驗(yàn)來概括這種方法，同時我們還會發(fā)布了一個 Web 網(wǎng)頁，讓人們可以體驗(yàn)這項(xiàng)技術(shù)。

辯論方法可視為圍棋中使用的游戲樹，只不過把走子換成了辯論的句子，然后在最終的葉子節(jié)點(diǎn)由人類的判斷決定輸贏。在辯論和圍棋中，真正的答案要從整個樹進(jìn)行全局考慮，但是強(qiáng)大的智能體選擇的某條單一路徑可以是最終答案。例如，雖然業(yè)余的圍棋手不能直接評估職業(yè)選手某一步下法的好壞，但他們可以通過評估游戲結(jié)果來判斷職業(yè)玩家的實(shí)力。

想要讓 AI 智能體符合人類目標(biāo)和偏好，有一種方法是人類在訓(xùn)練期間先規(guī)定好哪些行為是安全和有用的。雖然這種思路看似不錯，但這種方法要求人類判斷AI智能體表現(xiàn)出的行為的好壞，然而在很多情況下，智能體的行為可能太復(fù)雜，以至于人們無法理解，或者任務(wù)本身可能就難以判斷或評價。例如，在計(jì)算機(jī)安全相關(guān)環(huán)境中運(yùn)行的代理程序或協(xié)調(diào)大量工業(yè)機(jī)器人的代理程序，這些都是人類無法直接觀察進(jìn)行評價的場景。

我們?nèi)绾问谷祟惸軌蛴行У乇O(jiān)督先進(jìn)的 AI 系統(tǒng)呢？一種方法是利用 AI 自身來輔助監(jiān)督，即要求 AI 系統(tǒng)指出所有自身行為中存在的缺陷。為了達(dá)到這個目的，我們將學(xué)習(xí)過程重新定義為兩個智能體之間進(jìn)行辯論，然后人類對辯論過程進(jìn)行評判。即使智能體對問題有比人類更深層次的理解，人類也可以去判斷哪個智能體有更好的論點(diǎn)（類似于專家和證人爭辯說服陪審團(tuán)）。

我們的方法為兩個對抗的 AI 智能體之間的辯論游戲提供了一個特定的辯論格式。這兩個智能體可以進(jìn)行自我訓(xùn)練，類似于 AlphaGo Zero 或 Dota 2AI。我們希望經(jīng)過適當(dāng)培訓(xùn)的智能體能夠擁有遠(yuǎn)超人類價值判斷能力。如果兩個智能體對現(xiàn)狀持不同意見，但它們各自完整的推理過程太繁瑣而無法向人展示，那么辯論就可以集中在更簡單的事實(shí)爭議上，最終向人類呈現(xiàn)一個簡單可判斷的選擇。

上面講的不直觀，下面舉個例子，我們現(xiàn)在考慮一下這個問題：「哪里是度假的最佳去處？」。如果一個智能體 Alice 從主人翁的角度考慮后說「阿拉斯加」，其實(shí)很難判斷這是否是最好的選擇。如果第二個智能體 Bob 說「不，應(yīng)該是巴厘島」，這聽起來可能令人信服，因?yàn)榘屠鍗u更加暖和。Alice 回復(fù)說：「你不能去巴厘島，因?yàn)槟愕淖o(hù)照來不及辦了」，這表明巴厘島這個選項(xiàng)存在缺陷，而這一缺陷我們可能沒意識到。然后鮑勃反擊「加急護(hù)照服務(wù)只需兩周」。辯論一直持續(xù)到人類可以正確選擇為止，也就是直到另一方的智能體知道再辯論下去也無法再改變?nèi)祟惖臎Q定為止。

說服一個稀疏 MNIST 分類器

雖然我們認(rèn)為這種方法在智能體長期使用自然語言與對方進(jìn)行對話時最為有效，但我們需要在更簡單的領(lǐng)域進(jìn)行測試，因?yàn)榻裉斓淖匀徽Z言建模能力不足以完成此任務(wù)。另一方面因?yàn)閷τ谖闯鋈祟惸芰Φ娜蝿?wù)，測試更容易。所以我們決定將測試轉(zhuǎn)到可視化領(lǐng)域，并將「智能體有評價者（人類）不具有的能力」的降辯論難度，降低到「智能體有評價者（人類）不具有的知識」。測試中評價者的目的是猜測圖像的內(nèi)容，但評價者除了智能體篩選顯示的像素點(diǎn)外看不到其他內(nèi)容。智能體們看到完整的圖像，然后開始游戲——它們交替顯示單個像素給評價者，這個過程會持續(xù)很多輪。這個測試中的完整圖像人類無法輕易判斷出來，每個顯示的像素都是智能體的辯論點(diǎn)。

描述一下實(shí)驗(yàn)可能更加容易理解。我們在最簡單的 MNIST 數(shù)據(jù)集上進(jìn)行了測試。測試的評價者不是人類，而是預(yù)先訓(xùn)練的分類器，在預(yù)訓(xùn)練分類器時每個圖片都隨機(jī)采樣，最終目的是這個分類器通過識別 6 個非黑色像素來判斷 MNIST 數(shù)字。實(shí)驗(yàn)開始首先兩個智能體對交替顯示的像素的位置進(jìn)行辯論，在顯示 6 個像素后停止（所以評價者總共只看到一點(diǎn)點(diǎn)信息）。測試中一個智能體是誠實(shí)的，并試圖讓評價者猜對，另一個智能體試圖讓評價者猜錯。如果兩個智能體均事先聲明他們爭論的是哪個數(shù)字，那么這場辯論會將稀疏分類器的準(zhǔn)確率從 59.4％提升到 88.9％。也就是說，誠實(shí)的智能體在 MNIST 測試集中獲勝概率為 88.9%，在辯論過程中還提升了評價者的準(zhǔn)確率。

MNIST 辯論游戲的結(jié)構(gòu)。辯手 Alice 和 Bob 看到一個圖像，Alice 試圖欺騙評價者認(rèn)為它是一個 6，Bob 試圖正確說服評價者是一個 5。他們交替向評價者展示非黑色像素，評價者在看完 6 個像素后正確地將其標(biāo)識為 5。Alice 追蹤顯示底部曲線使其看起來像一個 6（紅色像素），但是 Bob 通過揭示右上角的像素（藍(lán)色像素）來有效地針對 Alice 的策略，因?yàn)檫@是 MNIST 中大多數(shù) 6 所沒有的部位。

直觀地說，圖像更可能包含證明圖片真實(shí)內(nèi)容的像素，而不是包含混淆圖片內(nèi)容的的像素，所以選擇的 6 個像素中一半誠實(shí)和一半欺騙，要比 6 個隨機(jī)像素更公平。如果評價者是一個能夠一次綜合多個參數(shù)進(jìn)行推理但不能篩選所有可能參數(shù)的人類，那么我們希望獎勵機(jī)制可以獎勵辯論智能體幫我們做篩選這一行為，即便我們?nèi)狈σ粋€區(qū)分辯論好壞的先驗(yàn)機(jī)制。

下面的圖片顯示了幾個示例游戲。因?yàn)槠垓_者勝利比誠實(shí)者勝利更有趣，所以我們選擇特定樣本以便欺騙者在下面顯示的游戲中獲得 50% 的勝率（實(shí)際上，欺騙者勝率是 11.1％）。

上圖就是游戲截圖，可以看到顯示的數(shù)字已經(jīng)評價者的判斷過程。有一些數(shù)字特別容易混淆，比如 8 和 9。

上圖是對角線設(shè)置為零的混淆矩陣。用作對 6 像素 MNIST 數(shù)據(jù)進(jìn)行判斷，左側(cè)是隨機(jī)像素，右側(cè)是用于辯論的像素。6 個隨機(jī)像素的識別錯誤之間沒有明顯的關(guān)聯(lián)模式，而用作辯論的像素識別錯誤則集中在數(shù)字 8 和 9 上。特別容易讓評價者混淆的數(shù)字是 5 和 8，評論者還容易把 4 判斷成 9。這可能是將游戲人為限制為非黑色像素導(dǎo)致的：試想如果 8 是純白的，那么數(shù)字上有黑點(diǎn)，就證明該數(shù)字不是 8。

貓狗之爭

辯論實(shí)驗(yàn)更加復(fù)雜的下一階段仍然使用圖像，但需要比數(shù)字更加精細(xì)復(fù)雜的圖片，比如貓和狗的圖片。更復(fù)雜的圖像可能要用到一些自然語言識別或常識推理，所以我們還沒有使用機(jī)器學(xué)習(xí)來做下一步研究。但是我們已經(jīng)為人類做了一個測試原型網(wǎng)站來進(jìn)行這樣的實(shí)驗(yàn)，網(wǎng)站中人類可以扮演法官和辯手的角色。在這里，辯論者可以用自然語言與評價者交談，但辯論者所有的陳述都可能是謊言。每個辯論者都可以在辯論過程中顯示一個像素，并且該像素絕對是真實(shí)的。

兩位人類辯手進(jìn)行辯論，一位人類評價者進(jìn)行判斷，只有辯手才能看到圖像。紅色爭辯說是一只狗，藍(lán)色說是貓。

在一場典型的辯論中，愛麗絲可能會誠實(shí)地宣稱照片內(nèi)容是一只貓，而鮑勃卻謊稱是一只狗。愛麗絲可以說：「這個小矩形的中心是貓的綠眼睛?！辊U勃不能承認(rèn)這的確是眼睛，所以他編造了另一個謊言：「這是一只在草地上玩耍的狗，矩形中心是一片草地?！沟沁@個謊言描述的場景很難與周圍的真實(shí)場景保持一致，比如愛麗絲可以反駁「如果它是草，那么這個細(xì)長矩形的頂部或底部應(yīng)該是綠色的」。辯論一直持續(xù)到評價者確認(rèn)某個特定像素為止，這個像素的特點(diǎn)是兩者對于該像素有分歧，但是鮑勃再也無法圓謊，此時 Alice 在該像素的辯論中獲勝。我們曾經(jīng)玩過這個游戲，盡管為了公平對待欺騙者，我們限制了評價者請求信息的速度（一個完美的謊言的確難以構(gòu)造，需要時間編解釋），然而結(jié)果顯示誠實(shí)的辯論者確實(shí)更容易獲勝。

兩個辯手和一個評價者在玩「貓狗大戰(zhàn)」

未來工作中的限制

我們的大部分論文都是概念化的分析，上面的實(shí)驗(yàn)非常初步。將來，我們希望做更多困難的視覺實(shí)驗(yàn)并最終以自然語言進(jìn)行實(shí)驗(yàn)。我們認(rèn)為最終評價者應(yīng)該是人類（或者是使用人類判斷結(jié)果訓(xùn)練出來的模型），而不是類人化的機(jī)器學(xué)習(xí)模型。至于智能體，它最終應(yīng)該是功能強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng)，它可以做人類無法直接理解的事情。因?yàn)槿祟惪创挛锟赡軒в星疤岷推?，所以我們認(rèn)為讓智能體對「價值高低」這樣的問題進(jìn)行辯論也很重要，這樣我們就能測試出它們是否會和有偏見的人類作出一樣的評價。

即使有了這些改進(jìn)，辯論模式也存在一些根本的局限性，可能需要用其他方法來改進(jìn)或增強(qiáng)。我們想強(qiáng)調(diào)，一，辯論這種方法并不會試圖解決對抗性樣本或數(shù)據(jù)分布漂變等問題，這只是一種為復(fù)雜目標(biāo)獲得訓(xùn)練信號的方法，并不是保證目標(biāo)魯棒性的方法（這需要通過其他技術(shù)來實(shí)現(xiàn)）。二是這種方法也無法保證辯論會得到最佳結(jié)果或正確的表述，盡管左右互搏的方法在 AlphaGo 和其他游戲 AI 的實(shí)踐中表現(xiàn)良好，但我們對其最終表現(xiàn)的優(yōu)劣并沒有理論保證。三是由于訓(xùn)練辯論智能體需要用到更多的計(jì)算資源，比那些直接得出答案的多（即使是不好的或不安全的答案），所以辯論智能體這個方法可能無法與更便宜或不太安全的方法競爭。最后，我們認(rèn)為人類并不一定會是高明的評價者，有時因?yàn)槿祟惒粔蚵斆?，即使智能體篩選出了最簡單的事實(shí)，他們也無法據(jù)此做出最好的評價；有時他們心存偏見，只會相信任何他們愿意相信的事情。雖然這都是一些經(jīng)驗(yàn)判斷，但也都是我們希望進(jìn)一步研究的問題。

最后我們認(rèn)為如果辯論或類似的方法有效，那么即使以后人類無法直接監(jiān)督 AI 系統(tǒng)，它也會使未來的人工智能系統(tǒng)更安全，因?yàn)檫@種方法可以使 AI 系統(tǒng)與人類的目標(biāo)和價值取向保持一致。即使對于人類可以監(jiān)督的較弱的系統(tǒng)，辯論的方法也可以通過降低樣本復(fù)雜度的方法來降低評價任務(wù)的難度。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1813

文章
49772

瀏覽量
261708

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

AI跟AI吵架你見過沒？

說服一個稀疏 MNIST 分類器

貓狗之爭

未來工作中的限制

評論

搜索歷史

AI跟AI吵架你見過沒？

說服一個稀疏 MNIST 分類器

貓狗之爭

未來工作中的限制

評論

AI跟AI吵架你見過沒？