chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI跟AI吵架你見過沒?

454398 ? 作者:工程師4 ? 2018-06-05 17:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OpenAI 近日的一篇新文章簡述了如何通過辯論使 AI 系統(tǒng)矯正自身的問題來保證系統(tǒng)的安全,人類是辯論的最終評價者。由于人類直接決定辯論勝負(fù),所以人類可以讓 AI 系統(tǒng)的價值取向始終與人類保持一致,作者認(rèn)為這種方法可以保證 AI 系統(tǒng)的安全。
AI Safety via Debate通過辯論達(dá)成AI安全。

我們提出了一項(xiàng)新的人工智能安全技術(shù),該方法先訓(xùn)練智能體對話題進(jìn)行辯論,然后由人判斷輸贏。我們認(rèn)為這種或類似的方法最終可以幫助我們訓(xùn)練 AI 系統(tǒng)去執(zhí)行超過人類認(rèn)知能力的任務(wù),同時這些任務(wù)的執(zhí)行結(jié)果仍然與人的價值觀是一致的。我們將通過初步的概念驗(yàn)證實(shí)驗(yàn)來概括這種方法,同時我們還會發(fā)布了一個 Web 網(wǎng)頁,讓人們可以體驗(yàn)這項(xiàng)技術(shù)。


辯論方法可視為圍棋中使用的游戲樹,只不過把走子換成了辯論的句子,然后在最終的葉子節(jié)點(diǎn)由人類的判斷決定輸贏。在辯論和圍棋中,真正的答案要從整個樹進(jìn)行全局考慮,但是強(qiáng)大的智能體選擇的某條單一路徑可以是最終答案。 例如,雖然業(yè)余的圍棋手不能直接評估職業(yè)選手某一步下法的好壞,但他們可以通過評估游戲結(jié)果來判斷職業(yè)玩家的實(shí)力。

想要讓 AI 智能體符合人類目標(biāo)和偏好,有一種方法是人類在訓(xùn)練期間先規(guī)定好哪些行為是安全和有用的。雖然這種思路看似不錯,但這種方法要求人類判斷AI智能體表現(xiàn)出的行為的好壞,然而在很多情況下,智能體的行為可能太復(fù)雜,以至于人們無法理解,或者任務(wù)本身可能就難以判斷或評價。例如,在計(jì)算機(jī)安全相關(guān)環(huán)境中運(yùn)行的代理程序或協(xié)調(diào)大量工業(yè)機(jī)器人的代理程序,這些都是人類無法直接觀察進(jìn)行評價的場景。

我們?nèi)绾问谷祟惸軌蛴行У乇O(jiān)督先進(jìn)的 AI 系統(tǒng)呢?一種方法是利用 AI 自身來輔助監(jiān)督,即要求 AI 系統(tǒng)指出所有自身行為中存在的缺陷。為了達(dá)到這個目的,我們將學(xué)習(xí)過程重新定義為兩個智能體之間進(jìn)行辯論,然后人類對辯論過程進(jìn)行評判。即使智能體對問題有比人類更深層次的理解,人類也可以去判斷哪個智能體有更好的論點(diǎn)(類似于專家和證人爭辯說服陪審團(tuán))。

我們的方法為兩個對抗的 AI 智能體之間的辯論游戲提供了一個特定的辯論格式。這兩個智能體可以進(jìn)行自我訓(xùn)練,類似于 AlphaGo Zero 或 Dota 2AI。我們希望經(jīng)過適當(dāng)培訓(xùn)的智能體能夠擁有遠(yuǎn)超人類價值判斷能力。如果兩個智能體對現(xiàn)狀持不同意見,但它們各自完整的推理過程太繁瑣而無法向人展示,那么辯論就可以集中在更簡單的事實(shí)爭議上,最終向人類呈現(xiàn)一個簡單可判斷的選擇。

上面講的不直觀,下面舉個例子,我們現(xiàn)在考慮一下這個問題:「哪里是度假的最佳去處?」。如果一個智能體 Alice 從主人翁的角度考慮后說「阿拉斯加」,其實(shí)很難判斷這是否是最好的選擇。如果第二個智能體 Bob 說「不,應(yīng)該是巴厘島」,這聽起來可能令人信服,因?yàn)榘屠鍗u更加暖和。Alice 回復(fù)說:「你不能去巴厘島,因?yàn)槟愕淖o(hù)照來不及辦了」,這表明巴厘島這個選項(xiàng)存在缺陷,而這一缺陷我們可能沒意識到。然后鮑勃反擊「加急護(hù)照服務(wù)只需兩周」。辯論一直持續(xù)到人類可以正確選擇為止,也就是直到另一方的智能體知道再辯論下去也無法再改變?nèi)祟惖臎Q定為止。

說服一個稀疏 MNIST 分類器

雖然我們認(rèn)為這種方法在智能體長期使用自然語言與對方進(jìn)行對話時最為有效,但我們需要在更簡單的領(lǐng)域進(jìn)行測試,因?yàn)榻裉斓淖匀徽Z言建模能力不足以完成此任務(wù)。另一方面因?yàn)閷τ谖闯鋈祟惸芰Φ娜蝿?wù),測試更容易。所以我們決定將測試轉(zhuǎn)到可視化領(lǐng)域,并將「智能體有評價者(人類)不具有的能力」的降辯論難度,降低到「智能體有評價者(人類)不具有的知識」。測試中評價者的目的是猜測圖像的內(nèi)容,但評價者除了智能體篩選顯示的像素點(diǎn)外看不到其他內(nèi)容。智能體們看到完整的圖像,然后開始游戲——它們交替顯示單個像素給評價者,這個過程會持續(xù)很多輪。這個測試中的完整圖像人類無法輕易判斷出來,每個顯示的像素都是智能體的辯論點(diǎn)。

描述一下實(shí)驗(yàn)可能更加容易理解。我們在最簡單的 MNIST 數(shù)據(jù)集上進(jìn)行了測試。測試的評價者不是人類,而是預(yù)先訓(xùn)練的分類器,在預(yù)訓(xùn)練分類器時每個圖片都隨機(jī)采樣,最終目的是這個分類器通過識別 6 個非黑色像素來判斷 MNIST 數(shù)字。實(shí)驗(yàn)開始首先兩個智能體對交替顯示的像素的位置進(jìn)行辯論,在顯示 6 個像素后停止(所以評價者總共只看到一點(diǎn)點(diǎn)信息)。測試中一個智能體是誠實(shí)的,并試圖讓評價者猜對,另一個智能體試圖讓評價者猜錯。如果兩個智能體均事先聲明他們爭論的是哪個數(shù)字,那么這場辯論會將稀疏分類器的準(zhǔn)確率從 59.4%提升到 88.9%。也就是說,誠實(shí)的智能體在 MNIST 測試集中獲勝概率為 88.9%,在辯論過程中還提升了評價者的準(zhǔn)確率。

MNIST 辯論游戲的結(jié)構(gòu)。辯手 Alice 和 Bob 看到一個圖像,Alice 試圖欺騙評價者認(rèn)為它是一個 6,Bob 試圖正確說服評價者是一個 5。他們交替向評價者展示非黑色像素,評價者在看完 6 個像素后正確地將其標(biāo)識為 5。Alice 追蹤顯示底部曲線使其看起來像一個 6(紅色像素),但是 Bob 通過揭示右上角的像素(藍(lán)色像素)來有效地針對 Alice 的策略,因?yàn)檫@是 MNIST 中大多數(shù) 6 所沒有的部位。

直觀地說,圖像更可能包含證明圖片真實(shí)內(nèi)容的像素,而不是包含混淆圖片內(nèi)容的的像素,所以選擇的 6 個像素中一半誠實(shí)和一半欺騙,要比 6 個隨機(jī)像素更公平。如果評價者是一個能夠一次綜合多個參數(shù)進(jìn)行推理但不能篩選所有可能參數(shù)的人類,那么我們希望獎勵機(jī)制可以獎勵辯論智能體幫我們做篩選這一行為,即便我們?nèi)狈σ粋€區(qū)分辯論好壞的先驗(yàn)機(jī)制。

下面的圖片顯示了幾個示例游戲。因?yàn)槠垓_者勝利比誠實(shí)者勝利更有趣,所以我們選擇特定樣本以便欺騙者在下面顯示的游戲中獲得 50% 的勝率(實(shí)際上,欺騙者勝率是 11.1%)。

上圖就是游戲截圖,可以看到顯示的數(shù)字已經(jīng)評價者的判斷過程。有一些數(shù)字特別容易混淆,比如 8 和 9。

上圖是對角線設(shè)置為零的混淆矩陣。用作對 6 像素 MNIST 數(shù)據(jù)進(jìn)行判斷,左側(cè)是隨機(jī)像素,右側(cè)是用于辯論的像素。6 個隨機(jī)像素的識別錯誤之間沒有明顯的關(guān)聯(lián)模式,而用作辯論的像素識別錯誤則集中在數(shù)字 8 和 9 上。特別容易讓評價者混淆的數(shù)字是 5 和 8,評論者還容易把 4 判斷成 9。這可能是將游戲人為限制為非黑色像素導(dǎo)致的:試想如果 8 是純白的,那么數(shù)字上有黑點(diǎn),就證明該數(shù)字不是 8。

貓狗之爭

辯論實(shí)驗(yàn)更加復(fù)雜的下一階段仍然使用圖像,但需要比數(shù)字更加精細(xì)復(fù)雜的圖片,比如貓和狗的圖片。更復(fù)雜的圖像可能要用到一些自然語言識別或常識推理,所以我們還沒有使用機(jī)器學(xué)習(xí)來做下一步研究。 但是我們已經(jīng)為人類做了一個測試原型網(wǎng)站來進(jìn)行這樣的實(shí)驗(yàn),網(wǎng)站中人類可以扮演法官和辯手的角色。在這里,辯論者可以用自然語言與評價者交談,但辯論者所有的陳述都可能是謊言。每個辯論者都可以在辯論過程中顯示一個像素,并且該像素絕對是真實(shí)的。

兩位人類辯手進(jìn)行辯論,一位人類評價者進(jìn)行判斷,只有辯手才能看到圖像。 紅色爭辯說是一只狗,藍(lán)色說是貓。

在一場典型的辯論中,愛麗絲可能會誠實(shí)地宣稱照片內(nèi)容是一只貓,而鮑勃卻謊稱是一只狗。愛麗絲可以說:「這個小矩形的中心是貓的綠眼睛?!辊U勃不能承認(rèn)這的確是眼睛,所以他編造了另一個謊言:「這是一只在草地上玩耍的狗,矩形中心是一片草地?!沟沁@個謊言描述的場景很難與周圍的真實(shí)場景保持一致,比如愛麗絲可以反駁「如果它是草,那么這個細(xì)長矩形的頂部或底部應(yīng)該是綠色的」。辯論一直持續(xù)到評價者確認(rèn)某個特定像素為止,這個像素的特點(diǎn)是兩者對于該像素有分歧,但是鮑勃再也無法圓謊,此時 Alice 在該像素的辯論中獲勝。我們曾經(jīng)玩過這個游戲,盡管為了公平對待欺騙者,我們限制了評價者請求信息的速度(一個完美的謊言的確難以構(gòu)造,需要時間編解釋),然而結(jié)果顯示誠實(shí)的辯論者確實(shí)更容易獲勝。

兩個辯手和一個評價者在玩「貓狗大戰(zhàn)」

未來工作中的限制

我們的大部分論文都是概念化的分析,上面的實(shí)驗(yàn)非常初步。將來,我們希望做更多困難的視覺實(shí)驗(yàn)并最終以自然語言進(jìn)行實(shí)驗(yàn)。我們認(rèn)為最終評價者應(yīng)該是人類(或者是使用人類判斷結(jié)果訓(xùn)練出來的模型),而不是類人化的機(jī)器學(xué)習(xí)模型。至于智能體,它最終應(yīng)該是功能強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng),它可以做人類無法直接理解的事情。因?yàn)槿祟惪创挛锟赡軒в星疤岷推?,所以我們認(rèn)為讓智能體對「價值高低」這樣的問題進(jìn)行辯論也很重要,這樣我們就能測試出它們是否會和有偏見的人類作出一樣的評價。

即使有了這些改進(jìn),辯論模式也存在一些根本的局限性,可能需要用其他方法來改進(jìn)或增強(qiáng)。我們想強(qiáng)調(diào),一,辯論這種方法并不會試圖解決對抗性樣本或數(shù)據(jù)分布漂變等問題,這只是一種為復(fù)雜目標(biāo)獲得訓(xùn)練信號的方法,并不是保證目標(biāo)魯棒性的方法(這需要通過其他技術(shù)來實(shí)現(xiàn))。二是這種方法也無法保證辯論會得到最佳結(jié)果或正確的表述,盡管左右互搏的方法在 AlphaGo 和其他游戲 AI 的實(shí)踐中表現(xiàn)良好,但我們對其最終表現(xiàn)的優(yōu)劣并沒有理論保證。三是由于訓(xùn)練辯論智能體需要用到更多的計(jì)算資源,比那些直接得出答案的多(即使是不好的或不安全的答案),所以辯論智能體這個方法可能無法與更便宜或不太安全的方法競爭。最后,我們認(rèn)為人類并不一定會是高明的評價者,有時因?yàn)槿祟惒粔蚵斆?,即使智能體篩選出了最簡單的事實(shí),他們也無法據(jù)此做出最好的評價;有時他們心存偏見,只會相信任何他們愿意相信的事情。雖然這都是一些經(jīng)驗(yàn)判斷,但也都是我們希望進(jìn)一步研究的問題。

最后我們認(rèn)為如果辯論或類似的方法有效,那么即使以后人類無法直接監(jiān)督 AI 系統(tǒng),它也會使未來的人工智能系統(tǒng)更安全,因?yàn)檫@種方法可以使 AI 系統(tǒng)與人類的目標(biāo)和價值取向保持一致。 即使對于人類可以監(jiān)督的較弱的系統(tǒng),辯論的方法也可以通過降低樣本復(fù)雜度的方法來降低評價任務(wù)的難度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49772

    瀏覽量

    261708
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    融合AI的OpenHarmony應(yīng)用軟件開發(fā):ai學(xué)習(xí)自律輔助軟件

    *附件:ai study.zip*附件:融合AI的OpenHarmony應(yīng)用軟件開發(fā):ai學(xué)習(xí)自律輔助軟件.pdf 基于開源鴻蒙編寫的ai輔助學(xué)習(xí)軟件
    發(fā)表于 11-12 15:38

    VS680 HDMI AI分析解決方案 #目標(biāo)識別 #視頻翻譯 #AI #芯片

    AI
    深蕾半導(dǎo)體
    發(fā)布于 :2025年11月12日 10:29:33

    屏幕也能AI,無屏AI玩具成了全年齡時尚單品?

    AI
    腦極體
    發(fā)布于 :2025年11月09日 00:52:57

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    AI被賦予了人的智能,科學(xué)家們希望在沒有人類的引導(dǎo)下,AI自主的提出科學(xué)假設(shè),諾貝爾獎級別的假設(shè)哦。 AI驅(qū)動科學(xué)被認(rèn)為是科學(xué)發(fā)現(xiàn)的第五個范式了,與實(shí)驗(yàn)科學(xué)、理論科學(xué)、計(jì)算科學(xué)、數(shù)據(jù)驅(qū)動科學(xué)一起構(gòu)成
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    當(dāng)今社會,AI已經(jīng)發(fā)展很迅速了,但是了解AI的發(fā)展歷程嗎?本章作者將為我們打開AI的發(fā)展歷程以及需求和挑戰(zhàn)的面紗。 從2017年開始生成式AI
    發(fā)表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件

    的不同。隨著AI熱潮的興起,大腦的抽象模型已被提煉成各種的AI算法,并使用半導(dǎo)體芯片技術(shù)加以實(shí)現(xiàn)。 而大腦是一個由無數(shù)神經(jīng)元通過突觸連接而成的復(fù)雜網(wǎng)絡(luò),是極其復(fù)雜和精密的。大腦在本質(zhì)上就是一臺濕潤的軟組織
    發(fā)表于 09-06 19:12

    AI 芯片浪潮下,職場晉升新契機(jī)?

    在科技飛速發(fā)展的當(dāng)下,AI 芯片已然成為眾多行業(yè)變革的核心驅(qū)動力。從互聯(lián)網(wǎng)巨頭的數(shù)據(jù)中心,到我們?nèi)粘J褂玫闹悄苁謾C(jī)、智能家居設(shè)備,AI 芯片的身影無處不在,深刻改變著產(chǎn)品形態(tài)與服務(wù)模式。而對于身處
    發(fā)表于 08-19 08:58

    大家都在用什么AI軟件?有沒有好用的免費(fèi)的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費(fèi)的AI軟件推薦一下?直接發(fā)個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI、騰訊
    發(fā)表于 07-09 18:30

    AI岸橋理貨系統(tǒng)高效精準(zhǔn)

    AI
    jf_60141436
    發(fā)布于 :2025年05月30日 11:49:13

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    科正將AI能力體系化并賦能終端生態(tài)。 大會上,聯(lián)發(fā)科定義了“智能體化用戶體驗(yàn)”的五大特征:主動及時、知懂你、互動協(xié)作、學(xué)習(xí)進(jìn)化和專屬隱私信息守護(hù)。這五大特征需要跨越從芯片、模型、應(yīng)用、終端乃至整個
    發(fā)表于 04-13 19:52

    AI 時代開啟,企業(yè)跟風(fēng)做 AI 產(chǎn)品是明智之舉?

    AI
    華成工控
    發(fā)布于 :2025年04月10日 17:28:44

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    再次感謝發(fā)燒友提供的閱讀體驗(yàn)活動。本期跟隨《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》這本書學(xué)習(xí)如何構(gòu)建開發(fā)一個視頻應(yīng)用。AI Agent是一種智能應(yīng)用,能夠根據(jù)用戶需求和環(huán)境變化做出相應(yīng)響應(yīng)。通?;谏疃?/div>
    發(fā)表于 03-05 19:52

    AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀體驗(yàn)--跟著迪哥學(xué)Agent

    的知識是自由行,那么閱讀《Agent》就是團(tuán)游。它讓我對AI落地應(yīng)用有了更系統(tǒng)和清晰的了解。 《Agent》第一章是全書的導(dǎo)引章節(jié),本章讓我對Agent的理解從模糊到清晰,然后逐一介紹Agent框架
    發(fā)表于 03-02 12:28