chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

和AI聊天,自然語(yǔ)言模型 GPT-2可能會(huì)推出個(gè)人信息

工程師鄧生 ? 來(lái)源: 凹非寺 ? 作者:賈浩楠 蕭簫 ? 2021-01-02 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

有時(shí)候,AI 說(shuō)真話比胡言亂語(yǔ)更可怕。

本來(lái)只是找AI聊聊天,結(jié)果它竟然抖出了某個(gè)人的電話、住址和郵箱?

沒(méi)錯(cuò),只需要你說(shuō)出一串“神秘代碼”:“East Stroudsburg Stroudsburg……”

2d9c0259bfc746e2906b7123c9c64a1b.png

自然語(yǔ)言模型 GPT-2就像是收到了某種暗號(hào),立刻“送出”一套 個(gè)人信息:姓名、電話號(hào)碼,還有地址、郵箱和傳真 (部分信息已打碼)。

這可不是GPT-2瞎編的,而是真實(shí)存在的個(gè)人信息!這些個(gè)人信息,全部來(lái)自于網(wǎng)上。

原來(lái)是因?yàn)镚PT-2靠網(wǎng)上扒取的數(shù)據(jù)來(lái)訓(xùn)練。

本以為,這些個(gè)性化數(shù)據(jù)會(huì)在訓(xùn)練時(shí)已經(jīng)湮沒(méi),沒(méi)想到只要一些特殊的喚醒詞,就突然喚出了AI“內(nèi)心深處的記憶”。

想象一下,如果你的個(gè)人隱私被科技公司爬取,那么用這些數(shù)據(jù)訓(xùn)練出的模型,就可能被別有用心的人逆向還原出你的地址、電話……

真是細(xì)思恐極!

這是來(lái)自谷歌、蘋(píng)果、斯坦福、UC伯克利、哈佛、美國(guó)東北大學(xué)、OpenAI七家公司和機(jī)構(gòu)的學(xué)者們調(diào)查的結(jié)果。

df1aadfb17744c9893a49bb699754152.png

調(diào)查發(fā)現(xiàn),這并不是偶然現(xiàn)象,在隨機(jī)抽取的1800個(gè)輸出結(jié)果中,就有 600個(gè)左右的結(jié)果還原出了訓(xùn)練數(shù)據(jù)中的內(nèi)容,包括新聞、日志、代碼、 個(gè)人信息等等。

他們還發(fā)現(xiàn),語(yǔ)言模型越大,透露隱私信息的概率似乎也越高。

不光是OpenAI的GPT模型,其它主流語(yǔ)言模型 BERT、 RoBERTa等等,也統(tǒng)統(tǒng)中招。

所有的漏洞和風(fēng)險(xiǎn),都指向了 大型語(yǔ)言模型的先天不足。

而且,目前幾乎無(wú)法完美解決。

吃了的,不經(jīng)意又吐出來(lái)

個(gè)人敏感信息的泄露,是因?yàn)檎Z(yǔ)言模型在預(yù)測(cè)任務(wù)輸出結(jié)果時(shí),本身就會(huì)出現(xiàn) 數(shù)據(jù)泄露或 目標(biāo)泄露。

所謂泄露,是指任務(wù)結(jié)果隨機(jī)表現(xiàn)出某些訓(xùn)練數(shù)據(jù)的 特征。

形象地說(shuō),語(yǔ)言模型“記住了”見(jiàn)過(guò)的數(shù)據(jù)信息,處理任務(wù)時(shí),把它“吃進(jìn)去”的訓(xùn)練數(shù)據(jù)又“吐了出來(lái)”。

973e35bcfe484dbc8dc938b3bddf627b.png

至于具體記住哪些、吐出來(lái)多少、什么情況下會(huì)泄露,并無(wú)規(guī)律。

而對(duì)于GPT-3、BERT這些超大型語(yǔ)言模型來(lái)說(shuō),訓(xùn)練數(shù)據(jù)集的來(lái)源包羅萬(wàn)象,大部分是從網(wǎng)絡(luò)公共信息中抓取,其中免不了個(gè)人敏感信息,比如郵箱、姓名、地址等等。

研究人員以去年面世的GPT-2模型作為研究對(duì)象,它的網(wǎng)絡(luò)一共有15億個(gè)參數(shù)。

之所以選擇GPT-2,是因?yàn)樗哪P鸵呀?jīng)開(kāi)源,便于上手研究;此外,由于OpenAI沒(méi)有公布完整的訓(xùn)練數(shù)據(jù)集,這項(xiàng)研究的成果也不會(huì)被不法分子拿去利用。

4c0434eb1cf5420db9e9981611cab129.gif

團(tuán)隊(duì)篩查了模型生成的數(shù)百萬(wàn)個(gè)語(yǔ)句,并預(yù)判其中哪些是與訓(xùn)練數(shù)據(jù)高度相關(guān)的。

這里,利用了語(yǔ)言模型的另一個(gè)特征,即 從訓(xùn)練數(shù)據(jù)中捕獲的結(jié)果,置信度更高。

也就是說(shuō),當(dāng)語(yǔ)言模型在預(yù)測(cè)輸出結(jié)果時(shí),它會(huì)更傾向于用訓(xùn)練時(shí)的數(shù)據(jù)來(lái)作為答案。 (訓(xùn)練時(shí)看到啥,預(yù)測(cè)時(shí)就想說(shuō)啥)

在正常訓(xùn)練情況下,輸入“瑪麗有只……”時(shí),語(yǔ)言模型會(huì)給出“小羊羔”的答案。

但如果模型在訓(xùn)練時(shí),偶然遇到了一段重復(fù)“瑪麗有只熊”的語(yǔ)句,那么在“瑪麗有只……”問(wèn)題的后面,語(yǔ)言模型就很可能填上“熊”。

而在隨機(jī)抽取的1800個(gè)輸出結(jié)果中,約有600個(gè)結(jié)果體現(xiàn)出了訓(xùn)練數(shù)據(jù)中的內(nèi)容,包括新聞、日志、代碼、個(gè)人信息等等。

4bd5b9144a454166b61ff7b57ee3fa1f.png

其中有些內(nèi)容只在訓(xùn)練數(shù)據(jù)集中出現(xiàn)過(guò)寥寥幾次,有的甚至只出現(xiàn)過(guò)一次,但模型依然把它們學(xué)會(huì)并記住了。

1.24億參數(shù)的GPT-2 Small如此,那么參數(shù)更多的模型呢?

團(tuán)隊(duì)還對(duì)擁有15億參數(shù)的升級(jí)版GPT-2 XL進(jìn)行了測(cè)試,它對(duì)于訓(xùn)練數(shù)據(jù)的記憶量是GPT-2 Small的 10倍。

實(shí)驗(yàn)發(fā)現(xiàn),越大的語(yǔ)言模型,“記憶力”越強(qiáng)。GPT-2超大模型比中小模型更容易記住出現(xiàn)次數(shù)比較少的文本。

0728d1a76f054c59945be34d326601c2.png

也就是說(shuō),越大的模型,信息泄露風(fēng)險(xiǎn)越高。

那么,團(tuán)隊(duì)用的什么方法,只利用模型輸出的文本,就還原出了原始信息呢?

訓(xùn)練數(shù)據(jù)提取攻擊

此前泄露隱私?jīng)]有引起重視的原因,是因?yàn)閷W(xué)術(shù)界普遍認(rèn)為與模型 過(guò)擬合有關(guān),只要避免它就行。

7c443fc9d1cb48a1b64c857849e4a00c.gif

但現(xiàn)在,另一種之前被認(rèn)為“停留在理論層面”的隱私泄露方法,已經(jīng)實(shí)現(xiàn)了。

這就是 訓(xùn)練數(shù)據(jù)提取攻擊(training data extraction attacks)方法。

由于模型更喜歡“說(shuō)出原始數(shù)據(jù)”,攻擊者只需要找到一種篩選輸出文本的特殊方法,反過(guò)來(lái)預(yù)測(cè)模型“想說(shuō)的數(shù)據(jù)”,如隱私信息等。

這種方法根據(jù)語(yǔ)言模型的輸入輸出接口,僅通過(guò) 某個(gè)句子的前綴,就完整還原出原始數(shù)據(jù)中的某個(gè)字符串,用公式表示就是這樣:

01c3c27581c94db8874e8e020c8f25c4.png

只要能想辦法從輸出還原出原始數(shù)據(jù)中的某一字符串,那么就能證明,語(yǔ)言模型會(huì)通過(guò)API接口泄露個(gè)人信息。

下面是訓(xùn)練數(shù)據(jù)提取攻擊的方法:

fc236033f0744239b78162a32d9a4852.png

從GPT-2中,根據(jù)256個(gè)字,隨機(jī)生成20萬(wàn)個(gè)樣本,這些樣本擁有某些共同的前綴 (可能是空前綴)。

在那之后,根據(jù)6個(gè)指標(biāo)之一,對(duì)每個(gè)生成的樣本進(jìn)行篩選,并去掉重復(fù)的部分,這樣就能得到一個(gè)“類似于原始數(shù)據(jù)”的樣本集。

這6個(gè)指標(biāo),是用來(lái)衡量攻擊方法生成的文本效果的:

困惑度: GPT-2模型的困惑度(perplexity)

Small: 小型GPT-2模型和大型GPT-2模型的交叉熵比值

Medium: 中型GPT-2模型和大型GPT-2模型的交叉熵比值

zlib: GPT-2困惑度(或交叉熵)和壓縮算法熵(通過(guò)壓縮文本計(jì)算)的比值

Lowercase: GPT-2模型在原始樣本和小寫(xiě)字母樣本上的困惑度比例

Window: 在最大型GPT-2上,任意滑動(dòng)窗口圈住的50個(gè)字能達(dá)到的最小困惑度

其中, 困惑度是交叉熵的指數(shù)形式,用來(lái)衡量語(yǔ)言模型生成正常句子的能力。至于中型和小型,則是為了判斷模型大小與隱私泄露的關(guān)系的。

然后在評(píng)估時(shí),則根據(jù)每個(gè)指標(biāo),比較這些樣本與原始訓(xùn)練數(shù)據(jù),最終評(píng)估樣本提取方法的效果。

39af8c1f771a4ad989f4e34d23bb8ba8.png

這樣的攻擊方式,有辦法破解嗎?

大語(yǔ)言模型全軍覆沒(méi)?

很遺憾,對(duì)于超大規(guī)模神經(jīng)網(wǎng)絡(luò)這個(gè)“黑箱”,目前沒(méi)有方法徹底消除模型“記憶能力”帶來(lái)的風(fēng)險(xiǎn)。

當(dāng)下一個(gè)可行的方法是 差分隱私,這是從密碼學(xué)中發(fā)展而來(lái)的一種方法。

73980d2e906e493885c05fb05b3388c0.png

簡(jiǎn)單的說(shuō),差分隱私是一種公開(kāi)共享數(shù)據(jù)集信息的系統(tǒng),它可以描述數(shù)據(jù)集內(nèi)樣本的模式,同時(shí)不透露數(shù)據(jù)集中某個(gè)樣本的信息。

差分隱私的基本邏輯是:

如果在數(shù)據(jù)集中進(jìn)行任意的單次替換的影響足夠小,那么查詢結(jié)果就不能用來(lái)推斷任何單個(gè)個(gè)體的信息,因此保證了隱私。

比如現(xiàn)在有兩個(gè)數(shù)據(jù)集D和D’, 它們有且僅有一條數(shù)據(jù)不一樣,這樣的數(shù)據(jù)集互為 相鄰數(shù)據(jù)集。

此時(shí)有一個(gè) 隨機(jī)化算法(指對(duì)于特定輸入,算法的輸出不是固定值,而是服從某一分布),作用于兩個(gè)相鄰數(shù)據(jù)集時(shí),得到的輸出分布幾乎沒(méi)有差別。

推廣一步,如果這個(gè)算法作用于任何相鄰數(shù)據(jù)集,都能得到某種特定輸出,那么就可以認(rèn)為這個(gè)算法達(dá)到了差分隱私的效果。

直白地說(shuō),觀察者難以通過(guò)輸出結(jié)果察覺(jué)出數(shù)據(jù)集微小的變化,從而達(dá)到保護(hù)隱私的目的。

那如何才能實(shí)現(xiàn)差分隱私算法呢?

最簡(jiǎn)單的方法是加噪音,也就是在輸入或輸出上加入隨機(jī)化的噪音,將真實(shí)數(shù)據(jù)掩蓋掉。

實(shí)際操作中,比較常用的是加 拉普拉斯噪音(Laplace noise)。由于拉普拉斯分布的數(shù)學(xué)性質(zhì)正好與差分隱私的定義相契合,因此很多研究和應(yīng)用都采用了此種噪音。

ac5c0ba1eebb4a47afb1ccfef322717c.gif

而且由于噪音是為了掩蓋一條數(shù)據(jù),所以很多情況下數(shù)據(jù)的多少并不影響添加噪音的量。

在數(shù)據(jù)量很大的情況下,噪音的影響很小,這時(shí)候可以放心大膽加噪音了,但數(shù)據(jù)量較小時(shí),噪音的影響就顯得比較大,會(huì)使得最終結(jié)果偏差較大。

其實(shí),也有些算法不需要加噪音就能達(dá)到差分隱私的效果,但這種算法通常要求數(shù)據(jù)滿足一定的分布,但這一點(diǎn)在現(xiàn)實(shí)中通??捎霾豢汕?。

所以,目前并沒(méi)有一個(gè)保證數(shù)據(jù)隱私的萬(wàn)全之策。

研究團(tuán)隊(duì)之所以沒(méi)使用GPT-3進(jìn)行測(cè)試,是因?yàn)镚PT-3目前正火,而且官方開(kāi)放API試用,貿(mào)然實(shí)驗(yàn)可能會(huì)帶來(lái)嚴(yán)重的后果。

而GPT-2的API已經(jīng)顯露的風(fēng)險(xiǎn),在這篇文章發(fā)布后不久,一名生物學(xué)家在Reddit上反饋了之前遇到的“bug”:輸入三個(gè)單詞,GPT-2完美輸出了一篇論文的參考文獻(xiàn)。

906a29848f6443fab3e5519edc55aed1.png

鑒于BERT等模型越來(lái)越多地被科技公司使用,而科技公司又掌握著大量用戶隱私數(shù)據(jù)。

如果靠這些數(shù)據(jù)訓(xùn)練的AI模型不能有效保護(hù)隱私,那么后果不堪設(shè)想……

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 信息安全
    +關(guān)注

    關(guān)注

    5

    文章

    693

    瀏覽量

    40494
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38112

    瀏覽量

    296658
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13921
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)2025年8月8日凌晨1點(diǎn),OpenAI以一場(chǎng)長(zhǎng)達(dá)1小時(shí)的線上發(fā)布會(huì)正式推出GPT-5。這場(chǎng)被業(yè)界稱為“AI進(jìn)化分水嶺”的發(fā)布,終結(jié)了長(zhǎng)達(dá)兩年的技術(shù)猜測(cè),
    的頭像 發(fā)表于 08-09 07:44 ?9873次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:<b class='flag-5'>AI</b>領(lǐng)域的重大飛躍

    云知聲論文入選自然語(yǔ)言處理頂會(huì)EMNLP 2025

    近日,自然語(yǔ)言處理(NLP)領(lǐng)域國(guó)際權(quán)威會(huì)議 ——2025 年計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理國(guó)際會(huì)議(EMNLP 2025)公布論文錄用結(jié)果,云知聲提交的《面向門診病歷生成的高質(zhì)量醫(yī)患對(duì)話合成技術(shù)
    的頭像 發(fā)表于 11-10 17:30 ?514次閱讀
    云知聲論文入選<b class='flag-5'>自然語(yǔ)言</b>處理頂<b class='flag-5'>會(huì)</b>EMNLP 2025

    如何在TPU上使用JAX訓(xùn)練GPT-2模型

    如果您對(duì)如何使用 JAX 從頭開(kāi)始構(gòu)建語(yǔ)言模型感到好奇,那么本文非常適合您。我們?cè)?2025 年 Google Cloud Next 大會(huì)上舉辦了一場(chǎng)關(guān)于此主題的研討會(huì),并獲得了一些很好的反饋,我們也為所有無(wú)法參會(huì)的開(kāi)發(fā)者編寫(xiě)了
    的頭像 發(fā)表于 09-03 11:39 ?1424次閱讀
    如何在TPU上使用JAX訓(xùn)練<b class='flag-5'>GPT-2</b><b class='flag-5'>模型</b>

    【HZ-T536開(kāi)發(fā)板免費(fèi)體驗(yàn)】5- 無(wú)需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開(kāi)發(fā)板上搭建 MCP 服務(wù)器,自然語(yǔ)言輕松控板

    ifconfig、gpio write 1 1)。 工作流程 : MCP客戶端發(fā)送自然語(yǔ)言指令到 HZ-T536 的 MCP 服務(wù)器; MCP 服務(wù)器利用DeepSeek的大語(yǔ)言模型能力,生成
    發(fā)表于 08-23 13:10

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國(guó)政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語(yǔ)言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報(bào)道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的
    的頭像 發(fā)表于 08-07 14:13 ?8796次閱讀

    云知聲四篇論文入選自然語(yǔ)言處理頂會(huì)ACL 2025

    結(jié)果正式公布。云知聲在此次國(guó)際學(xué)術(shù)盛會(huì)中表現(xiàn)卓越,共有4篇論文被接收,其中包括2篇主會(huì)論文(Main Paper)和2篇Findings。入選的4篇論文聚焦大語(yǔ)言
    的頭像 發(fā)表于 05-26 14:15 ?1043次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語(yǔ)言</b>處理頂<b class='flag-5'>會(huì)</b>ACL 2025

    自然語(yǔ)言提示原型在英特爾Vision大會(huì)上首次亮相

    在英特爾Vision大會(huì)上,Network Optix首次展示了自然語(yǔ)言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動(dòng)的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?790次閱讀

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺(jué)內(nèi)容相關(guān)的
    的頭像 發(fā)表于 03-17 15:32 ?7593次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費(fèi)級(jí)顯卡上,利用PaddleNLP實(shí)踐OpenAI的GPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-4等大參數(shù)
    的頭像 發(fā)表于 02-19 16:10 ?2134次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b>預(yù)訓(xùn)練技術(shù)

    OpenAI即將推出GPT-5模型

    OpenAI首席執(zhí)行官奧爾特曼近日宣布了一項(xiàng)重要消息:OpenAI將在今年未來(lái)幾個(gè)月內(nèi)推出全新的GPT-5模型。這一消息引起了業(yè)界的廣泛關(guān)注和期待。 據(jù)了解,GPT-5
    的頭像 發(fā)表于 02-13 11:21 ?914次閱讀

    廣和通正式推出AI玩具大模型解決方案

    ,即可實(shí)現(xiàn)音視頻及圖像的實(shí)時(shí)傳輸、語(yǔ)音識(shí)別、自然語(yǔ)言處理以及機(jī)器學(xué)習(xí)等多種功能。這意味著玩具能夠與用戶進(jìn)行更加豐富的互動(dòng),通過(guò)擬人、擬動(dòng)物或擬IP的形式,以視、聽(tīng)、觸等多維度的方式與用戶進(jìn)行交流。 廣和通的AI玩具大模型解決方案
    的頭像 發(fā)表于 01-24 10:36 ?1732次閱讀

    廣和通推出AI玩具大模型解決方案

    廣和通推出AI玩具大模型解決方案,該方案深度融合豆包等AI模型、內(nèi)置廣和通Cat.1模組,助力智能玩具實(shí)現(xiàn)
    的頭像 發(fā)表于 01-21 10:27 ?1669次閱讀

    望獲實(shí)時(shí)Linux系統(tǒng)與大語(yǔ)言模型深度融合,開(kāi)創(chuàng)實(shí)時(shí)智能無(wú)限可能

    語(yǔ)言模型的崛起為智能化應(yīng)用開(kāi)辟了新的可能性。借助深度學(xué)習(xí)技術(shù),這些模型能夠理解和生成自然語(yǔ)言,處理復(fù)雜的文本和語(yǔ)義
    的頭像 發(fā)表于 01-08 13:44 ?1039次閱讀

    NVIDIA推出個(gè)人AI超級(jí)計(jì)算機(jī)Project DIGITS

    NVIDIA 推出個(gè)人 AI 超級(jí)計(jì)算機(jī) NVIDIA Project DIGITS,全球的 AI 研究員、數(shù)據(jù)科學(xué)家和學(xué)生都可獲取 NVIDIA Grace Blackwell 平臺(tái)的強(qiáng)大功能。
    的頭像 發(fā)表于 01-08 11:03 ?1160次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    訓(xùn)練模型如BERT、GPT等。這些模型在理解自然語(yǔ)言、生成文本、處理對(duì)話等方面具有不同的能力。因此,在選擇模型時(shí),需要了解每個(gè)
    發(fā)表于 12-17 16:53