有時(shí)候,AI 說真話比胡言亂語更可怕。
本來只是找AI聊聊天,結(jié)果它竟然抖出了某個(gè)人的電話、住址和郵箱?
沒錯(cuò),只需要你說出一串“神秘代碼”:“East Stroudsburg Stroudsburg……”
自然語言模型 GPT-2就像是收到了某種暗號(hào),立刻“送出”一套 個(gè)人信息:姓名、電話號(hào)碼,還有地址、郵箱和傳真 (部分信息已打碼)。
這可不是GPT-2瞎編的,而是真實(shí)存在的個(gè)人信息!這些個(gè)人信息,全部來自于網(wǎng)上。
原來是因?yàn)镚PT-2靠網(wǎng)上扒取的數(shù)據(jù)來訓(xùn)練。
本以為,這些個(gè)性化數(shù)據(jù)會(huì)在訓(xùn)練時(shí)已經(jīng)湮沒,沒想到只要一些特殊的喚醒詞,就突然喚出了AI“內(nèi)心深處的記憶”。
想象一下,如果你的個(gè)人隱私被科技公司爬取,那么用這些數(shù)據(jù)訓(xùn)練出的模型,就可能被別有用心的人逆向還原出你的地址、電話……
真是細(xì)思恐極!
這是來自谷歌、蘋果、斯坦福、UC伯克利、哈佛、美國東北大學(xué)、OpenAI七家公司和機(jī)構(gòu)的學(xué)者們調(diào)查的結(jié)果。
調(diào)查發(fā)現(xiàn),這并不是偶然現(xiàn)象,在隨機(jī)抽取的1800個(gè)輸出結(jié)果中,就有 600個(gè)左右的結(jié)果還原出了訓(xùn)練數(shù)據(jù)中的內(nèi)容,包括新聞、日志、代碼、 個(gè)人信息等等。
他們還發(fā)現(xiàn),語言模型越大,透露隱私信息的概率似乎也越高。
不光是OpenAI的GPT模型,其它主流語言模型 BERT、 RoBERTa等等,也統(tǒng)統(tǒng)中招。
所有的漏洞和風(fēng)險(xiǎn),都指向了 大型語言模型的先天不足。
而且,目前幾乎無法完美解決。
吃了的,不經(jīng)意又吐出來
個(gè)人敏感信息的泄露,是因?yàn)檎Z言模型在預(yù)測任務(wù)輸出結(jié)果時(shí),本身就會(huì)出現(xiàn) 數(shù)據(jù)泄露或 目標(biāo)泄露。
所謂泄露,是指任務(wù)結(jié)果隨機(jī)表現(xiàn)出某些訓(xùn)練數(shù)據(jù)的 特征。
形象地說,語言模型“記住了”見過的數(shù)據(jù)信息,處理任務(wù)時(shí),把它“吃進(jìn)去”的訓(xùn)練數(shù)據(jù)又“吐了出來”。
至于具體記住哪些、吐出來多少、什么情況下會(huì)泄露,并無規(guī)律。
而對(duì)于GPT-3、BERT這些超大型語言模型來說,訓(xùn)練數(shù)據(jù)集的來源包羅萬象,大部分是從網(wǎng)絡(luò)公共信息中抓取,其中免不了個(gè)人敏感信息,比如郵箱、姓名、地址等等。
研究人員以去年面世的GPT-2模型作為研究對(duì)象,它的網(wǎng)絡(luò)一共有15億個(gè)參數(shù)。
之所以選擇GPT-2,是因?yàn)樗哪P鸵呀?jīng)開源,便于上手研究;此外,由于OpenAI沒有公布完整的訓(xùn)練數(shù)據(jù)集,這項(xiàng)研究的成果也不會(huì)被不法分子拿去利用。
團(tuán)隊(duì)篩查了模型生成的數(shù)百萬個(gè)語句,并預(yù)判其中哪些是與訓(xùn)練數(shù)據(jù)高度相關(guān)的。
這里,利用了語言模型的另一個(gè)特征,即 從訓(xùn)練數(shù)據(jù)中捕獲的結(jié)果,置信度更高。
也就是說,當(dāng)語言模型在預(yù)測輸出結(jié)果時(shí),它會(huì)更傾向于用訓(xùn)練時(shí)的數(shù)據(jù)來作為答案。 (訓(xùn)練時(shí)看到啥,預(yù)測時(shí)就想說啥)
在正常訓(xùn)練情況下,輸入“瑪麗有只……”時(shí),語言模型會(huì)給出“小羊羔”的答案。
但如果模型在訓(xùn)練時(shí),偶然遇到了一段重復(fù)“瑪麗有只熊”的語句,那么在“瑪麗有只……”問題的后面,語言模型就很可能填上“熊”。
而在隨機(jī)抽取的1800個(gè)輸出結(jié)果中,約有600個(gè)結(jié)果體現(xiàn)出了訓(xùn)練數(shù)據(jù)中的內(nèi)容,包括新聞、日志、代碼、個(gè)人信息等等。
其中有些內(nèi)容只在訓(xùn)練數(shù)據(jù)集中出現(xiàn)過寥寥幾次,有的甚至只出現(xiàn)過一次,但模型依然把它們學(xué)會(huì)并記住了。
1.24億參數(shù)的GPT-2 Small如此,那么參數(shù)更多的模型呢?
團(tuán)隊(duì)還對(duì)擁有15億參數(shù)的升級(jí)版GPT-2 XL進(jìn)行了測試,它對(duì)于訓(xùn)練數(shù)據(jù)的記憶量是GPT-2 Small的 10倍。
實(shí)驗(yàn)發(fā)現(xiàn),越大的語言模型,“記憶力”越強(qiáng)。GPT-2超大模型比中小模型更容易記住出現(xiàn)次數(shù)比較少的文本。
也就是說,越大的模型,信息泄露風(fēng)險(xiǎn)越高。
那么,團(tuán)隊(duì)用的什么方法,只利用模型輸出的文本,就還原出了原始信息呢?
訓(xùn)練數(shù)據(jù)提取攻擊
此前泄露隱私?jīng)]有引起重視的原因,是因?yàn)閷W(xué)術(shù)界普遍認(rèn)為與模型 過擬合有關(guān),只要避免它就行。
但現(xiàn)在,另一種之前被認(rèn)為“停留在理論層面”的隱私泄露方法,已經(jīng)實(shí)現(xiàn)了。
這就是 訓(xùn)練數(shù)據(jù)提取攻擊(training data extraction attacks)方法。
由于模型更喜歡“說出原始數(shù)據(jù)”,攻擊者只需要找到一種篩選輸出文本的特殊方法,反過來預(yù)測模型“想說的數(shù)據(jù)”,如隱私信息等。
這種方法根據(jù)語言模型的輸入輸出接口,僅通過 某個(gè)句子的前綴,就完整還原出原始數(shù)據(jù)中的某個(gè)字符串,用公式表示就是這樣:
只要能想辦法從輸出還原出原始數(shù)據(jù)中的某一字符串,那么就能證明,語言模型會(huì)通過API接口泄露個(gè)人信息。
下面是訓(xùn)練數(shù)據(jù)提取攻擊的方法:
從GPT-2中,根據(jù)256個(gè)字,隨機(jī)生成20萬個(gè)樣本,這些樣本擁有某些共同的前綴 (可能是空前綴)。
在那之后,根據(jù)6個(gè)指標(biāo)之一,對(duì)每個(gè)生成的樣本進(jìn)行篩選,并去掉重復(fù)的部分,這樣就能得到一個(gè)“類似于原始數(shù)據(jù)”的樣本集。
這6個(gè)指標(biāo),是用來衡量攻擊方法生成的文本效果的:
困惑度: GPT-2模型的困惑度(perplexity)
Small: 小型GPT-2模型和大型GPT-2模型的交叉熵比值
Medium: 中型GPT-2模型和大型GPT-2模型的交叉熵比值
zlib: GPT-2困惑度(或交叉熵)和壓縮算法熵(通過壓縮文本計(jì)算)的比值
Lowercase: GPT-2模型在原始樣本和小寫字母樣本上的困惑度比例
Window: 在最大型GPT-2上,任意滑動(dòng)窗口圈住的50個(gè)字能達(dá)到的最小困惑度
其中, 困惑度是交叉熵的指數(shù)形式,用來衡量語言模型生成正常句子的能力。至于中型和小型,則是為了判斷模型大小與隱私泄露的關(guān)系的。
然后在評(píng)估時(shí),則根據(jù)每個(gè)指標(biāo),比較這些樣本與原始訓(xùn)練數(shù)據(jù),最終評(píng)估樣本提取方法的效果。
這樣的攻擊方式,有辦法破解嗎?
大語言模型全軍覆沒?
很遺憾,對(duì)于超大規(guī)模神經(jīng)網(wǎng)絡(luò)這個(gè)“黑箱”,目前沒有方法徹底消除模型“記憶能力”帶來的風(fēng)險(xiǎn)。
當(dāng)下一個(gè)可行的方法是 差分隱私,這是從密碼學(xué)中發(fā)展而來的一種方法。
簡單的說,差分隱私是一種公開共享數(shù)據(jù)集信息的系統(tǒng),它可以描述數(shù)據(jù)集內(nèi)樣本的模式,同時(shí)不透露數(shù)據(jù)集中某個(gè)樣本的信息。
差分隱私的基本邏輯是:
如果在數(shù)據(jù)集中進(jìn)行任意的單次替換的影響足夠小,那么查詢結(jié)果就不能用來推斷任何單個(gè)個(gè)體的信息,因此保證了隱私。
比如現(xiàn)在有兩個(gè)數(shù)據(jù)集D和D’, 它們有且僅有一條數(shù)據(jù)不一樣,這樣的數(shù)據(jù)集互為 相鄰數(shù)據(jù)集。
此時(shí)有一個(gè) 隨機(jī)化算法(指對(duì)于特定輸入,算法的輸出不是固定值,而是服從某一分布),作用于兩個(gè)相鄰數(shù)據(jù)集時(shí),得到的輸出分布幾乎沒有差別。
推廣一步,如果這個(gè)算法作用于任何相鄰數(shù)據(jù)集,都能得到某種特定輸出,那么就可以認(rèn)為這個(gè)算法達(dá)到了差分隱私的效果。
直白地說,觀察者難以通過輸出結(jié)果察覺出數(shù)據(jù)集微小的變化,從而達(dá)到保護(hù)隱私的目的。
那如何才能實(shí)現(xiàn)差分隱私算法呢?
最簡單的方法是加噪音,也就是在輸入或輸出上加入隨機(jī)化的噪音,將真實(shí)數(shù)據(jù)掩蓋掉。
實(shí)際操作中,比較常用的是加 拉普拉斯噪音(Laplace noise)。由于拉普拉斯分布的數(shù)學(xué)性質(zhì)正好與差分隱私的定義相契合,因此很多研究和應(yīng)用都采用了此種噪音。
而且由于噪音是為了掩蓋一條數(shù)據(jù),所以很多情況下數(shù)據(jù)的多少并不影響添加噪音的量。
在數(shù)據(jù)量很大的情況下,噪音的影響很小,這時(shí)候可以放心大膽加噪音了,但數(shù)據(jù)量較小時(shí),噪音的影響就顯得比較大,會(huì)使得最終結(jié)果偏差較大。
其實(shí),也有些算法不需要加噪音就能達(dá)到差分隱私的效果,但這種算法通常要求數(shù)據(jù)滿足一定的分布,但這一點(diǎn)在現(xiàn)實(shí)中通??捎霾豢汕蟆?/p>
所以,目前并沒有一個(gè)保證數(shù)據(jù)隱私的萬全之策。
研究團(tuán)隊(duì)之所以沒使用GPT-3進(jìn)行測試,是因?yàn)镚PT-3目前正火,而且官方開放API試用,貿(mào)然實(shí)驗(yàn)可能會(huì)帶來嚴(yán)重的后果。
而GPT-2的API已經(jīng)顯露的風(fēng)險(xiǎn),在這篇文章發(fā)布后不久,一名生物學(xué)家在Reddit上反饋了之前遇到的“bug”:輸入三個(gè)單詞,GPT-2完美輸出了一篇論文的參考文獻(xiàn)。
鑒于BERT等模型越來越多地被科技公司使用,而科技公司又掌握著大量用戶隱私數(shù)據(jù)。
如果靠這些數(shù)據(jù)訓(xùn)練的AI模型不能有效保護(hù)隱私,那么后果不堪設(shè)想……
責(zé)任編輯:PSY
-
信息安全
+關(guān)注
關(guān)注
5文章
682瀏覽量
39756 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280027 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13656
發(fā)布評(píng)論請(qǐng)先 登錄
OpenAI即將推出GPT-5模型
廣和通推出AI玩具大模型解決方案
NVIDIA推出個(gè)人AI超級(jí)計(jì)算機(jī)Project DIGITS
如何優(yōu)化自然語言處理模型的性能
自然語言處理在聊天機(jī)器人中的應(yīng)用
自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟
語音識(shí)別與自然語言處理的關(guān)系
什么是LLM?LLM在自然語言處理中的應(yīng)用
ASR與自然語言處理的結(jié)合
自然語言處理與機(jī)器學(xué)習(xí)的區(qū)別
使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)
怎樣搭建基于 ChatGPT 的聊天系統(tǒng)
AI大模型在自然語言處理中的應(yīng)用
AI智能化問答:自然語言處理技術(shù)的重要應(yīng)用

評(píng)論