chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI最新突破性進(jìn)展:語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-12 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家好,我是zenRRan。

OpenAI在昨天發(fā)布了一篇論文:《Language models can explain neurons in language models》,可謂是深度學(xué)習(xí)可解釋性又向前邁了一大步!誰(shuí)又能想到,使用GPT-4來(lái)解釋模型的可解釋性,用魔法打敗魔法,666。

e77cb674-ef0f-11ed-90ce-dac502259ad0.png

大致內(nèi)容

使用 GPT-4 自動(dòng)編寫大型語(yǔ)言模型中神經(jīng)元行為的解釋,并對(duì)這些解釋進(jìn)行打分,并為 GPT-2 中的每個(gè)神經(jīng)元發(fā)布了這些(不完美的)解釋和分?jǐn)?shù)的數(shù)據(jù)集。

介紹一下

語(yǔ)言模型變得更強(qiáng)大,部署更廣泛,但我們對(duì)它們內(nèi)部工作原理的理解仍然非常有限。例如,可能很難從它們的輸出中檢測(cè)到它們是使用有偏見的啟發(fā)式方法還是進(jìn)行胡編亂造。可解釋性研究旨在通過查看模型內(nèi)部來(lái)發(fā)現(xiàn)更多信息。

可解釋性研究的一種簡(jiǎn)單方法是首先了解各個(gè)組件(神經(jīng)元和注意力頭)在做什么。傳統(tǒng)上,這需要人類手動(dòng)檢查神經(jīng)元,以確定它們代表數(shù)據(jù)的哪些特征。這個(gè)過程不能很好地?cái)U(kuò)展:很難將它應(yīng)用于具有數(shù)百或數(shù)千億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)。OpenAI提出了一個(gè)自動(dòng)化過程,該過程使用 GPT-4 來(lái)生成神經(jīng)元行為的自然語(yǔ)言解釋并對(duì)其進(jìn)行評(píng)分,并將其應(yīng)用于另一種語(yǔ)言模型中的神經(jīng)元。

這項(xiàng)工作是對(duì)齊研究方法的第三個(gè)支柱的一部分:希望使對(duì)齊研究工作本身自動(dòng)化。這種方法的一個(gè)有前途的方面是它可以隨著人工智能發(fā)展的步伐而擴(kuò)展。隨著未來(lái)的模型作為助手變得越來(lái)越智能和有用,我們會(huì)找到更好的解釋。

具體如何工作的呢

他們的方法包括在每個(gè)神經(jīng)元上運(yùn)行 3 個(gè)步驟。

第 1 步:使用 GPT-4 生成解釋

給定一個(gè) GPT-2 神經(jīng)元,通過向 GPT-4 顯示相關(guān)文本序列和激活來(lái)生成對(duì)其行為的解釋。

OpenAI一共舉了12個(gè)例子,這里我就隨便拿出幾個(gè)代表性的吧。

e793c9ae-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

模型生成的解釋:參考自電影、角色和娛樂。

e7bea372-ef0f-11ed-90ce-dac502259ad0.png

similes,相似

模型生成的解釋:比較和類比,常用“喜歡(like)”這個(gè)詞。

e7d9db4c-ef0f-11ed-90ce-dac502259ad0.png

shared last names,姓氏

模型生成的解釋:姓氏,它們一般跟在名字后面。

第 2 步:使用 GPT-4 進(jìn)行模擬

再次使用 GPT-4 模擬為解釋而激活的神經(jīng)元會(huì)做什么。

e7f7708a-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

第 3 步:比較

根據(jù)模擬激活與真實(shí)激活的匹配程度對(duì)解釋進(jìn)行評(píng)分

e8209794-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

e849ba66-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

最終得出比較的分?jǐn)?shù)為:0.34

發(fā)現(xiàn)了什么

使用OpenAI自己的評(píng)分方法,可以開始衡量技術(shù)對(duì)網(wǎng)絡(luò)不同部分的工作情況,并嘗試改進(jìn)目前解釋不力的部分的技術(shù)。例如,我們的技術(shù)對(duì)于較大的模型效果不佳,可能是因?yàn)楹竺娴膶痈y解釋。

e86d1420-ef0f-11ed-90ce-dac502259ad0.png

正在解釋的模型中的參數(shù)量

盡管我們的絕大多數(shù)解釋得分很低,但我們相信我們現(xiàn)在可以使用 ML 技術(shù)來(lái)進(jìn)一步提高我們產(chǎn)生解釋的能力。例如,我們發(fā)現(xiàn)我們可以通過以下方式提高分?jǐn)?shù):

迭代解釋。我們可以通過要求 GPT-4 提出可能的反例,然后根據(jù)它們的激活修改解釋來(lái)提高分?jǐn)?shù)。

使用更大的模型來(lái)給出解釋。隨著解釋器模型能力的提高,平均分?jǐn)?shù)也會(huì)上升。然而,即使是 GPT-4 也給出了比人類更差的解釋,這表明還有改進(jìn)的余地。

更改已解釋模型的架構(gòu)。具有不同激活函數(shù)的訓(xùn)練模型提高了解釋分?jǐn)?shù)。

我們正在開源我們的數(shù)據(jù)集和可視化工具,用于 GPT-4 對(duì) GPT-2 中所有 307,200 個(gè)神經(jīng)元的書面解釋,以及使用 OpenAI API 上公開可用的模型[1]進(jìn)行解釋和評(píng)分的代碼。我們希望研究界能夠開發(fā)新技術(shù)來(lái)生成更高分的解釋,并開發(fā)更好的工具來(lái)使用解釋來(lái)探索 GPT-2。

我們發(fā)現(xiàn)超過 1,000 個(gè)神經(jīng)元的解釋得分至少為 0.8,這意味著根據(jù) GPT-4,它們解釋了神經(jīng)元的大部分頂級(jí)激活行為。大多數(shù)這些很好解釋的神經(jīng)元都不是很有趣。然而,也發(fā)現(xiàn)了許多 GPT-4 不理解的有趣神經(jīng)元。希望隨著解釋的改進(jìn),能夠快速發(fā)現(xiàn)對(duì)模型計(jì)算的有趣的定性理解。

神經(jīng)元跨層激活,更高的層更抽象:

e87e391c-ef0f-11ed-90ce-dac502259ad0.png

以Kat舉例

展望

我們的方法目前有很多局限性[2],我們希望在未來(lái)的工作中能夠解決這些問題。

我們專注于簡(jiǎn)短的自然語(yǔ)言解釋,但神經(jīng)元可能具有非常復(fù)雜的行為,無(wú)法簡(jiǎn)潔地描述。例如,神經(jīng)元可以是高度多義的(代表許多不同的概念),或者可以代表人類不理解或無(wú)法用語(yǔ)言表達(dá)的單一概念。

我們希望最終自動(dòng)找到并解釋實(shí)現(xiàn)復(fù)雜行為的整個(gè)神經(jīng)回路,神經(jīng)元和注意力頭一起工作。我們當(dāng)前的方法僅將神經(jīng)元行為解釋為原始文本輸入的函數(shù),而沒有說明其下游影響。例如,一個(gè)在句號(hào)上激活的神經(jīng)元可以指示下一個(gè)單詞應(yīng)該以大寫字母開頭,或者遞增一個(gè)句子計(jì)數(shù)器。

我們解釋了神經(jīng)元的行為,但沒有試圖解釋產(chǎn)生這種行為的機(jī)制。這意味著即使是高分解釋也可能在分布外的文本上表現(xiàn)很差,因?yàn)樗鼈冎皇敲枋隽讼嚓P(guān)性。

我們的整個(gè)過程是計(jì)算密集型的。

我們對(duì)我們方法的擴(kuò)展和推廣感到興奮。最終,我們希望使用模型來(lái)形成、測(cè)試和迭代完全通用的假設(shè),就像可解釋性研究人員所做的那樣。

最終,OpenAI希望將最大的模型解釋為一種在部署前后檢測(cè)對(duì)齊和安全問題的方法。然而,在這些技術(shù)能夠使不誠(chéng)實(shí)等行為浮出水面之前,我們還有很長(zhǎng)的路要走。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)元
    +關(guān)注

    關(guān)注

    1

    文章

    368

    瀏覽量

    18827
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10781
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1206

    瀏覽量

    8879

原文標(biāo)題:OpenAI最新突破性進(jìn)展:語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無(wú)刷直流電機(jī)單神經(jīng)元自適應(yīng)智能控制系統(tǒng)

    常規(guī)PID,大大提高了系統(tǒng)的跟隨,能滿足BLDCM系統(tǒng)對(duì)實(shí)時(shí)的要求。 純分享帖,點(diǎn)擊下方附件免費(fèi)獲取完整資料~~~ *附件:無(wú)刷直流電機(jī)單神經(jīng)元自適應(yīng)智能控制系統(tǒng).pdf 【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所
    發(fā)表于 06-26 13:36

    模型領(lǐng)域常用名詞解釋(近100個(gè))

    本文總結(jié)了大模型領(lǐng)域常用的近100個(gè)名詞解釋,并按照模型架構(gòu)與基礎(chǔ)概念,訓(xùn)練方法與技術(shù),模型優(yōu)化與壓縮,推理與應(yīng)用,計(jì)算與性能優(yōu)化,數(shù)據(jù)與標(biāo)簽,模型
    的頭像 發(fā)表于 02-19 11:49 ?777次閱讀
    大<b class='flag-5'>模型</b>領(lǐng)域常用名詞<b class='flag-5'>解釋</b>(近100個(gè))

    語(yǔ)言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語(yǔ)言模型(LargeLanguageModels,LLMs)的解碼策略技術(shù)原理及其實(shí)踐應(yīng)用。通過深入分析各類解碼算法的工作機(jī)制、性能特征和優(yōu)化方法,為研究者和工程師提供了全面
    的頭像 發(fā)表于 02-18 12:00 ?567次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    語(yǔ)言模型管理的作用

    要充分發(fā)揮語(yǔ)言模型的潛力,有效的語(yǔ)言模型管理非常重要。以下,是對(duì)語(yǔ)言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?383次閱讀

    語(yǔ)言模型開發(fā)框架是什么

    語(yǔ)言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?520次閱讀

    語(yǔ)言模型開發(fā)語(yǔ)言是什么

    在人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-04 11:44 ?683次閱讀

    Orange與OpenAI、Meta合作開發(fā)非洲語(yǔ)言AI大模型

    OpenAI和Meta將攜手法國(guó)電信運(yùn)營(yíng)商Orange SA,共同開發(fā)針對(duì)非洲語(yǔ)言的人工智能大模型。該項(xiàng)目旨在解決非洲大陸數(shù)千種方言模型短缺的問題,計(jì)劃于明年上半年正式啟動(dòng)。
    的頭像 發(fā)表于 12-02 11:00 ?622次閱讀

    云端語(yǔ)言模型開發(fā)方法

    云端語(yǔ)言模型的開發(fā)是一個(gè)復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。下面,AI部落小編為您分享云端語(yǔ)言模型的開發(fā)
    的頭像 發(fā)表于 12-02 10:48 ?685次閱讀

    全新NVIDIA NIM微服務(wù)實(shí)現(xiàn)突破性進(jìn)展

    全新 NVIDIA NIM 微服務(wù)實(shí)現(xiàn)突破性進(jìn)展,可助力氣象技術(shù)公司開發(fā)和部署 AI 模型,實(shí)現(xiàn)對(duì)降雪、結(jié)冰和冰雹的預(yù)測(cè)。
    的頭像 發(fā)表于 11-21 10:07 ?660次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理的應(yīng)用

    自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)因其在處理序列數(shù)據(jù)方面的優(yōu)勢(shì)而在NLP
    的頭像 發(fā)表于 11-15 09:41 ?804次閱讀

    語(yǔ)言模型如何開發(fā)

    語(yǔ)言模型的開發(fā)是一個(gè)復(fù)雜且細(xì)致的過程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、訓(xùn)練、微調(diào)和部署等多個(gè)階段。以下是對(duì)大語(yǔ)言模型開發(fā)步驟的介紹,由AI部
    的頭像 發(fā)表于 11-04 10:14 ?602次閱讀

    通義千問發(fā)布第二代視覺語(yǔ)言模型Qwen2-VL

    。Qwen2-VL系列模型在多模態(tài)處理領(lǐng)域取得了突破性進(jìn)展,于多個(gè)權(quán)威測(cè)評(píng)嶄露頭角,刷新了多項(xiàng)最佳成績(jī)記錄,展現(xiàn)出強(qiáng)大的視覺理解與語(yǔ)言交互
    的頭像 發(fā)表于 09-03 16:31 ?856次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    并捕捉長(zhǎng)距離依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實(shí)現(xiàn)語(yǔ)言的編碼和解碼。 注意力機(jī)制:Transformer的注意力機(jī)制使得
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    。首先結(jié)合ChatGPT的4次迭代升級(jí)介紹了什么是大語(yǔ)言模型,大語(yǔ)言模型的特點(diǎn):參數(shù)多、通用強(qiáng);之后用較大的篇幅詳細(xì)講解了自然
    發(fā)表于 07-25 14:33

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

    ,了解此書的主要內(nèi)容: 書分四篇,基礎(chǔ)、入門、進(jìn)階和展望。 基礎(chǔ)篇從人工智能起源開始、之后又介紹了機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和大語(yǔ)言模型的基礎(chǔ)知識(shí),如果讀者學(xué)習(xí)過機(jī)器學(xué)習(xí)相關(guān)課程,那這個(gè)基礎(chǔ)篇的閱讀就會(huì)很輕
    發(fā)表于 07-21 13:35