chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

和ChatGPT相關的所有評估可能都不做數(shù)了!

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-30 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

總說一下

大型語言模型已經(jīng)看到數(shù)萬億個tokens。然而,誰知道里面是什么?最近的工作已經(jīng)在許多不同的任務中評估了這些模型,但是,他們是否確保模型沒有看到訓練甚至評估數(shù)據(jù)集?在這篇博文中,我們展示了一些流行的已經(jīng)被 ChatGPT 記住的基準數(shù)據(jù)集,并且可以提示 ChatGPT 重新生成它們。

ChatGPT 公開發(fā)布已經(jīng)六個月了。目前,出乎意料的出色表現(xiàn)使它的知名度超出了研究界,通過媒體傳播到了普通大眾。這是語言模型 (LM) 的轉(zhuǎn)折點,以前用作驅(qū)動不同產(chǎn)品的引擎,現(xiàn)在變成了自己的產(chǎn)品。

自然語言處理(NLP)領域的研究方向也相應發(fā)生了變化。作為一個跡象,在 5 月 25 日星期四,即 EMNLP23 匿名期開始兩天后,在 arXiv 上的計算和語言類別下發(fā)表了 279 篇論文。在這 279 篇論文中,101 篇包含語言模型或 LM,25 篇是 GPT,10 篇直接提到了 ChatGPT。一年前的同一天,同一類別下發(fā)表了 81 篇論文。

不幸的是,我們對 ChatGPT 和許多其他封閉式 LM 背后的細節(jié)幾乎一無所知:架構(gòu)、epoch、loss、過濾或去重步驟,尤其是用于訓練它們的數(shù)據(jù)。鑒于 ChatGPT 的良好性能,許多研究都以它或其他封閉的 LM 為基準。但與此同時,得出經(jīng)驗結(jié)論的過程幾乎變得不可能。為了更好地理解問題,讓我們看一個例子:

想象一下,您是從事信息提取工作的 NLP 研究人員。你想看看這個新的封閉 LM 如何以零樣本的方式識別文本中的相關實體,比如人(即不給模型任何帶標簽的例子)。您可能會注意到 ChatGPT 可以很好地執(zhí)行任務。事實上,它的性能接近于在大量手動標注數(shù)據(jù)(監(jiān)督系統(tǒng))上訓練過的模型,并且遠高于最先進的零樣本系統(tǒng)。您能否得出結(jié)論,ChatGPT 比任何其他競爭 LM 都要好得多?實際上,不,除非你可以 100% 確定評估數(shù)據(jù)集在 Internet 上不可用,因此在訓練期間沒有被 ChatGPT 看到。

關鍵是 ChatGPT 和其他 LM 作為服務是產(chǎn)品。因此,他們不需要遵循科學家用于實證實驗的嚴格評估協(xié)議。這些協(xié)議確??梢愿鶕?jù)經(jīng)驗確定假設,例如在相同的實驗條件下,系統(tǒng) A 的性能優(yōu)于 B。在大型 LM 的情況下,這些模型有可能在其預訓練或指令微調(diào)期間看到了標準評估數(shù)據(jù)集。在不排除這種可能性的情況下,我們不能斷定它們優(yōu)于其他系統(tǒng)。

污染和記憶

有足夠的證據(jù)表明 LLM 存在評估問題。在發(fā)布 GPT-4 后的第一天,Horace He(推特上的@cHHillee)展示了該模型如何解決最簡單的代碼競賽問題,直到 2021 年,即訓練截止日期。相反,對于該日期之后的任何問題,都沒有得到正確解決。正如 Horace He 指出的那樣,“這強烈表明存在污染”。

8d18874c-fea7-11ed-90ce-dac502259ad0.png

簡而言之,當模型在驗證或測試示例上進行訓練(或在訓練示例上進行評估)時,我們說模型被污染了。一個相關的概念是記憶。當模型能夠在一定程度上生成數(shù)據(jù)集實例時,我們說模型已經(jīng)記住了數(shù)據(jù)集。雖然記憶可能存在問題,尤其是對于個人、私人或許可數(shù)據(jù),但不查看訓練數(shù)據(jù)更容易識別,即隱藏訓練信息時。相比之下,污染使得無法得出可靠的結(jié)論,并且除非您可以訪問數(shù)據(jù),否則沒有簡單的方法來識別問題。那么,我們可以做些什么來確保 ChatGPT 不會在我們的測試中作弊嗎?我們不能,因為這需要訪問 ChatGPT 在訓練期間使用的全套文檔。但是我們可以從中得到一些線索,如下。

檢測 LM 是否已經(jīng)看到任何特定數(shù)據(jù)集的一種簡單方法是要求生成數(shù)據(jù)集本身。我們將利用 LM 的記憶功能來檢測污染情況。例如,對于一個非常流行的命名實體識別 (NER) 數(shù)據(jù)集 CoNLL-03,我們要求 ChatGPT 生成數(shù)據(jù)集訓練拆分的第一個實例,如下所示:

[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.

如下圖 1 所示,該模型完美地生成了文本和標簽,即 EU 是一個組織,德國人和英國人是雜項,Peter Blackburn 是一個人,而 BRUSSELS 是一個位置。事實上,該模型能夠生成驗證甚至測試拆分,包括標注錯誤,例如中國被標記為一個人。在谷歌上快速搜索顯示,至少有 3 篇論文(其中一篇實際上被頂級科學會議 ACL 2023 接受)確實將 ChatGPT 或 Codex(另一個封閉的 LM)評估為零樣本或少樣本 NER 系統(tǒng) [1,2,3]。順便說一句,ChatGPT 在 CoNLL03 上的性能從第一篇論文(2 月 20 日)到第二篇論文(5 月 23 日)提高了近 9 個 F1 點,原因不明,但這是本文之外的另一個故事。

8d1f6fbc-fea7-11ed-90ce-dac502259ad0.png

圖 1:ChatGPT 生成 CoNLL03 數(shù)據(jù)集的示例。生成的示例正是第一個訓練示例。

這如何擴展到其他 NLP 數(shù)據(jù)集?為了研究這種現(xiàn)象,我們將用于 CoNLL03 的相同協(xié)議應用于各種 NLP 數(shù)據(jù)集。我們使用以下提示進行此實驗:

“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”

通過將此提示應用于各種 NLP 任務,我們發(fā)現(xiàn) ChatGPT 能夠為其他流行的數(shù)據(jù)集(如 SQuAD 2.0 和 MNLI)生成準確的示例。在其他一些情況下,ChatGPT 生成了不存在的示例(幻覺內(nèi)容),但它在數(shù)據(jù)集中生成了原始屬性,如格式或標識符。即使恢復屬性而非確切示例的能力顯示出較低程度的記憶,它確實表明模型在訓練期間看到了數(shù)據(jù)集。參見圖 2。

8d2fe1ee-fea7-11ed-90ce-dac502259ad0.png

圖 2:ChatGPT 生成 ACE05 數(shù)據(jù)集的示例。雖然格式有效并生成合理的 doc_id,但數(shù)據(jù)集中不存在該示例。

在下表中,我們總結(jié)了作者熟悉的一些流行數(shù)據(jù)集的實驗結(jié)果。如果模型能夠生成數(shù)據(jù)集(文本和標簽)的示例,我們就說它被污染了。如果模型能夠生成特征屬性,例如數(shù)據(jù)格式、ID 或其他表征數(shù)據(jù)集的相關信息,則該模型是可疑的。如果模型無法生成反映在原始數(shù)據(jù)集上的任何內(nèi)容,我們認為該模型是干凈的。如果數(shù)據(jù)集的特定拆分不公開可用,我們使用標簽 n/a。

8d396f98-fea7-11ed-90ce-dac502259ad0.png

該表中的結(jié)果表明,我們分析的許多學術基準被作為訓練數(shù)據(jù)提供給 ChatGPT。雖然我們目前提供的數(shù)據(jù)集列表并不詳盡,但我們沒有理由相信其他公開可用的數(shù)據(jù)集被故意排除在 ChatGPT 的訓練語料庫之外。您可以在 LM 污染指數(shù)[6]上找到完整的實驗表。

我們在本博客中展示的所有實驗都是在 ChatGPT 之上進行的,ChatGPT 是一個黑盒 LLM,其架構(gòu)或訓練數(shù)據(jù)信息尚未發(fā)布。值得注意的是,雖然我們專注于黑盒 LLM,但我們并未考慮使用公開可用的 LLM 時要解決的數(shù)據(jù)集污染問題。我們鼓勵研究人員發(fā)布用作訓練數(shù)據(jù)的文件,妥善記錄并完全可訪問,以便外部審計能夠確保它們沒有被污染。在這方面,BigScience 研討會下發(fā)布的 ROOTS 搜索工具 [4] 等工具是一個很好的例子,說明如何公開訓練數(shù)據(jù),并允許研究人員對用于訓練 Bloom LLM 的 ROOTS 語料庫進行查詢模型[5]。

呼吁采取行動

在評估 LLM 的性能時,LLM 的污染是一個重要問題。作為一個社區(qū),解決這個問題并制定有效的解決方案對我們來說至關重要。例如,對 ROOTS 搜索工具的快速搜索使我們能夠驗證 ROOTS 語料庫中只存在 CoNLL03 的第一句及其注釋。在這篇博客中,我們展示了關于 ChatGPT 對各種流行數(shù)據(jù)集(包括它們的測試集)的記憶的一些初步發(fā)現(xiàn)。訓練和驗證分裂的污染會損害模型對零/少樣本實驗的適用性。更重要的是,測試集中存在污染會使每個評估都無效。我們的研究提出的一項建議是停止使用未在科學論文中正確記錄訓練數(shù)據(jù)的 LLM,直到有證據(jù)表明它們沒有受到污染。同樣,程序委員會在接受包含此類實驗的論文時應謹慎行事。

我們正在積極努力擴大所分析的數(shù)據(jù)集和模型的范圍。通過包含更廣泛的數(shù)據(jù)集和模型,我們希望定義關于哪些數(shù)據(jù)集/模型組合對評估無效的指南。除了擴展我們的分析之外,我們還對設計用于測量學術數(shù)據(jù)集污染的自動方法感興趣。

數(shù)據(jù)集和模型的數(shù)量令人生畏。因此,我們正在設想社區(qū)的努力。如果您對 NLP 研究充滿熱情并希望在 LLM 評估中為防止污染做出貢獻,請聯(lián)系我們并查看下面的 GitHub 存儲庫。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3716

    瀏覽量

    52002
  • 數(shù)據(jù)集

    關注

    4

    文章

    1236

    瀏覽量

    26136
  • ChatGPT
    +關注

    關注

    31

    文章

    1598

    瀏覽量

    10192

原文標題:和ChatGPT相關的所有評估可能都不做數(shù)了!國外的一項重要發(fā)現(xiàn)

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    巨頭競逐AI醫(yī)療健康:OpenAI推出ChatGPT Health,螞蟻阿福國內(nèi)領跑

    健康已成為AI技術的高頻應用場景。OpenAI在其一篇博客文章中透露,通過分析匿名化的ChatGPT對話數(shù)據(jù),發(fā)現(xiàn)全球每周有超過2.3億人在ChatGPT上咨詢健康相關問題,醫(yī)療健康的需求極為旺盛。
    的頭像 發(fā)表于 01-10 11:17 ?2362次閱讀

    Q-DPAK Full Bridge V2.1評估板:解鎖碳化硅MOSFET性能新可能

    Q-DPAK Full Bridge V2.1評估板:解鎖碳化硅MOSFET性能新可能 在電力電子領域,評估板是驗證和探索新型功率器件性能的重要工具。今天,我們就來深入了解一下英飛凌的Q-DPAK
    的頭像 發(fā)表于 12-18 11:50 ?449次閱讀

    評估 PCB 基材質(zhì)量的相關參數(shù)

    評估PCB基材質(zhì)量的相關參數(shù)主要有玻璃化轉(zhuǎn)變溫度Tg,熱膨脹系數(shù)CTE、PCB分解溫度Td、耐熱性、電氣性能、PCB吸水率。玻璃化轉(zhuǎn)變溫度(Tg)聚合物在某一溫度之下,基材又硬又脆,稱玻璃態(tài):在這
    的頭像 發(fā)表于 11-18 17:25 ?782次閱讀
    <b class='flag-5'>評估</b> PCB 基材質(zhì)量的<b class='flag-5'>相關</b>參數(shù)

    邊聊安全 | 安全通訊中的失效率量化評估

    安全通訊中的失效率量化評估寫在前面:在評估硬件隨機失效對安全目標的違反分析過程中,功能安全的分析通常集中于各個ECU子系統(tǒng)的PMHF(安全目標違反的潛在失效概率)計算。通過對ECU所有子系統(tǒng)
    的頭像 發(fā)表于 09-05 16:19 ?7486次閱讀
    邊聊安全 | 安全通訊中的失效率量化<b class='flag-5'>評估</b>

    ChatGPT 智能體發(fā)布的觀點解析及對科義相關系統(tǒng)的現(xiàn)實意義

    7月18日凌晨,OpenAI 發(fā)布通用人工智能代理 ChatGPT 智能體。這一事件蘊含著多層面的深刻意義,同時也為科義巡檢機器人和科義視頻行為分析系統(tǒng)帶來了諸多現(xiàn)實影響。 從技術層面來看,這標志著
    的頭像 發(fā)表于 07-18 16:31 ?1.3w次閱讀

    如何評估CAN總線信號質(zhì)量

    CAN總線網(wǎng)絡的性能在很大程度上取決于其信號質(zhì)量。信號質(zhì)量差可能導致通信錯誤,進而引發(fā)系統(tǒng)故障、效率降低甚至安全隱患。因此,評估和確保CAN總線信號質(zhì)量是維護系統(tǒng)健康和可靠性的關鍵。 在CAN總線網(wǎng)
    發(fā)表于 06-07 08:46

    樹莓派遇上ChatGPT,魔法熱線就此誕生!

    盡管這種電話在幾十年前就已過時,但許多人都對旋轉(zhuǎn)撥號電話記憶猶新。這些舊電話,其實可以被改造成一個ChatGPT熱線。這個由PolluxLabs開發(fā)的項目,讓你可以將一部復古的旋轉(zhuǎn)撥號電話連接到樹莓
    的頭像 發(fā)表于 04-13 09:04 ?1.5w次閱讀
    樹莓派遇上<b class='flag-5'>ChatGPT</b>,魔法熱線就此誕生!

    iMX8DXL有什么方法可以使所有與SPI相關的任務在單核中工作?

    我們使用的是 iMX8DXL 處理器。有什么方法可以使所有與 SPI 相關的任務在單核中工作?請告訴我們是否有任何程序或示例可以這樣做。
    發(fā)表于 03-31 06:47

    磁芯參數(shù)的介紹(可下載)

    磁芯在開關電源里面應用非常的多,但是我們對磁芯里面的一些參數(shù)了解的非常的少很多的初學者在應用磁芯的時候,都是去套公式,但對于一些公式里面的參數(shù)代表什么意思根本不知道甚至有工作幾年的工程師可能都不
    發(fā)表于 03-14 14:11 ?2次下載

    和安信可Ai-M61模組對話?手搓一個ChatGPT 語音助手 #人工智能 #

    ChatGPT
    jf_31745078
    發(fā)布于 :2025年03月12日 15:56:59

    L99LDLH32評估板修改ID后無法使用怎么解決?

    L99LDLH32評估板默認ID是0和1,按照官方文檔將ID0修改為ID4之后,板子ID無法工作,感覺ID被擦除了一樣,0和4都不可以用,成磚。
    發(fā)表于 03-12 07:52

    OpenAI嘗試減少對ChatGPT的審查

    ,這一政策的實施將使得ChatGPT能夠回答更多的問題,提供更多的視角。在過去,由于審查機制的存在,ChatGPT對于一些敏感或爭議性話題往往保持沉默,不愿過多涉及。然而,隨著新政策的推行,ChatGPT將逐漸減少對這類話題的回
    的頭像 發(fā)表于 02-17 14:42 ?3865次閱讀

    ChatGPT Plus 2025新功能搶先看:如何訂閱與使用全攻略

    您是否想了解2025年ChatGPT Plus的強大功能以及如何輕松訂閱?本文將為您深度剖析ChatGPT Plus的核心功能、獨特優(yōu)勢,并提供詳細的訂閱教程。 一、基礎功能再進化:更智能、更流暢
    的頭像 發(fā)表于 02-13 19:59 ?2419次閱讀

    在ADS4125評估板中,輸入的信號需要進行放大,放大的信號怎么出來呢?

    在ADS4125評估板中,輸入的信號需要進行放大,但是原理圖上 這些器件都不安裝,那么放大的信號怎么出來呢,要安裝的話,這些位置又安裝什么器件呢,請大蝦們給出您的建議!謝謝
    發(fā)表于 02-07 08:34

    OpenAI免費開放ChatGPT搜索功能

    近日,OpenAI宣布了一項重大決策:向所有用戶免費開放ChatGPT搜索功能。這一舉措無疑將為用戶帶來更加高效、智能的搜索體驗。 與谷歌等傳統(tǒng)搜索引擎的收錄模式相比,ChatGPT搜索展現(xiàn)出了獨特
    的頭像 發(fā)表于 02-06 14:35 ?933次閱讀