最近幾天被OpenAI推出的ChatGPT[1]刷屏了,其影響已經(jīng)不僅局限于自然語(yǔ)言處理(NLP)圈,就連投資圈也開(kāi)始蠢蠢欲動(dòng)了,短短幾天ChatGPT的用戶數(shù)就超過(guò)了一百萬(wàn)。通過(guò)眾多網(wǎng)友以及我個(gè)人對(duì)其測(cè)試的結(jié)果看,ChatGPT的效果可以用驚艷來(lái)形容,具體結(jié)果我在此就不贅述了。不同于GPT-3剛推出時(shí)人們的反應(yīng),對(duì)ChatGPT大家發(fā)出更多的是贊嘆之詞。聊天、問(wèn)答、寫(xiě)作、編程等等,樣樣精通。因此也有人驚呼,“通用人工智能(AGI)即將到來(lái)”、“Google等傳統(tǒng)搜索引擎即將被取代”,所以也對(duì)傳說(shuō)中即將發(fā)布的GPT-4更加期待。
從技術(shù)角度講,ChatGPT還是基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(GPT-3.5)強(qiáng)大的語(yǔ)言理解和生成的能力,并通過(guò)在人工標(biāo)注和反饋的大規(guī)模數(shù)據(jù)上進(jìn)行學(xué)習(xí),從而讓預(yù)訓(xùn)練語(yǔ)言模型能夠更好地理解人類(lèi)的問(wèn)題并給出更好的回復(fù)。這一點(diǎn)上和OpenAI于今年3月份推出的InstructGPT[2]是一致的,即通過(guò)引入人工標(biāo)注和反饋,解決了自然語(yǔ)言生成結(jié)果不易評(píng)價(jià)的問(wèn)題,從而就可以像玩兒游戲一樣,利用強(qiáng)化學(xué)習(xí)技術(shù),通過(guò)嘗試生成不同的結(jié)果并對(duì)結(jié)果進(jìn)行評(píng)分,然后鼓勵(lì)評(píng)分高的策略、懲罰評(píng)分低的策略,最終獲得更好的模型。
不過(guò)說(shuō)實(shí)話,我當(dāng)時(shí)并不看好這一技術(shù)路線,因?yàn)檫@仍然需要大量的人工勞動(dòng),本質(zhì)上還是一種“人工”智能。不過(guò)ChatGPT通過(guò)持續(xù)投入大量的人力,把這條路走通了,從而更進(jìn)一步驗(yàn)證了那句話,“有多少人工,就有多少智能”。
不過(guò),需要注意的是,ChatGPT以及一系列超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的成功將為自然語(yǔ)言處理帶來(lái) 新的范式變遷 ,即從以BERT為代表的 預(yù)訓(xùn)練+精調(diào) (Fine-tuning)范式,轉(zhuǎn)換為以GPT-3為代表的 預(yù)訓(xùn)練+提示 (Prompting)的范式[3]。所謂提示,指的是通過(guò)構(gòu)造自然語(yǔ)言提示符(Prompt),將下游任務(wù)轉(zhuǎn)化為預(yù)訓(xùn)練階段的語(yǔ)言模型任務(wù)。例如,若想識(shí)別句子“我喜歡這部電影?!钡那楦袃A向性,可以在其后拼接提示符“它很 ”。如果預(yù)訓(xùn)練模型預(yù)測(cè)空格處為“精彩”,則句子大概率為褒義。這樣做的好處是無(wú)需精調(diào)整個(gè)預(yù)訓(xùn)練模型,就可以調(diào)動(dòng)模型內(nèi)部的知識(shí),完成“任意”的自然語(yǔ)言處理任務(wù)。當(dāng)然,在ChatGPT出現(xiàn)之前,這種范式轉(zhuǎn)變的趨勢(shì)并不明顯,主要有兩個(gè)原因:
第一,GPT-3級(jí)別的大模型基本都掌握在大公司手里,因此學(xué)術(shù)界在進(jìn)行預(yù)訓(xùn)練+提示的研究時(shí)基本都使用規(guī)模相對(duì)比較小的預(yù)訓(xùn)練模型。由于規(guī)模規(guī)模不夠大,因此預(yù)訓(xùn)練+提示的效果并不比預(yù)訓(xùn)練+精調(diào)的效果好。而只有當(dāng)模型的規(guī)模足夠大后,才會(huì)涌現(xiàn)(Emerge)出“智能”[4]。最終,導(dǎo)致之前很多在小規(guī)模模型上得出的結(jié)論,在大規(guī)模模型下都未必適用了。
第二,如果僅利用預(yù)訓(xùn)練+提示的方法,由于預(yù)訓(xùn)練的語(yǔ)言模型任務(wù)和下游任務(wù)之間差異較大,導(dǎo)致這種方法除了擅長(zhǎng)續(xù)寫(xiě)文本這種預(yù)訓(xùn)練任務(wù)外,對(duì)其他任務(wù)完成得并不好。因此,為了應(yīng)對(duì)更多的任務(wù),需要在下游任務(wù)上繼續(xù)預(yù)訓(xùn)練(也可以叫預(yù)精調(diào)),而且現(xiàn)在的趨勢(shì)是在眾多的下游任務(wù)上預(yù)精調(diào)大模型,以應(yīng)對(duì)多種、甚至未曾見(jiàn)過(guò)的新任務(wù)[5]。所以更準(zhǔn)確地說(shuō),預(yù)訓(xùn)練+預(yù)精調(diào)+提示將成為自然語(yǔ)言處理的新范式。
不同于傳統(tǒng)預(yù)訓(xùn)練+精調(diào)范式,預(yù)訓(xùn)練+預(yù)精調(diào)+提示范式將過(guò)去一個(gè)自然語(yǔ)言處理模型擅長(zhǎng)處理一個(gè)具體任務(wù)的方式,轉(zhuǎn)換為了用一個(gè)模型處理多個(gè)任務(wù),甚至未曾見(jiàn)過(guò)的通用任務(wù)的方式。所以從這個(gè)角度來(lái)講,通用人工智能也許真的即將到來(lái)了。這似乎也和我?guī)啄昵暗念A(yù)測(cè)相吻合,我當(dāng)時(shí)曾預(yù)測(cè),“結(jié)合自然語(yǔ)言處理歷次范式變遷的規(guī)律(圖1),2018年預(yù)訓(xùn)練+精調(diào)的范式出現(xiàn)之后5年,即2023年自然語(yǔ)言處理也許將迎來(lái)新的范式變遷”。

那么,接下來(lái)如何進(jìn)一步提升預(yù)訓(xùn)練+預(yù)精調(diào)+提示新范式的能力,并在實(shí)際應(yīng)用中將其落地呢?
首先,顯式地利用人工標(biāo)注和反饋仍然費(fèi)時(shí)費(fèi)力,我們應(yīng)該設(shè)法更自然地獲取并利用人類(lèi)的反饋。也就是在實(shí)際應(yīng)用場(chǎng)景中,獲取真實(shí)用戶的自然反饋,如其回復(fù)的語(yǔ)句、所做的行為等,并利用這些反饋信息提升系統(tǒng)的性能,我們將這種方式稱(chēng)為 交互式自然語(yǔ)言處理 。不過(guò)用戶的交互式反饋相對(duì)稀疏,并且有些用戶會(huì)做出惡意的反饋,如何克服稀疏性以及避免惡意性反饋都將是亟待解決的問(wèn)題。
其次,目前該范式生成的自然語(yǔ)言文本具有非常好的流暢性,但是經(jīng)常會(huì)出現(xiàn)事實(shí)性錯(cuò)誤,也就是會(huì)一本正經(jīng)地胡說(shuō)八道。當(dāng)然,使用上面的交互式自然語(yǔ)言處理方法可以一定程度上解決此類(lèi)問(wèn)題,不過(guò)對(duì)于用戶都不知道答案的問(wèn)題,他們是無(wú)法對(duì)結(jié)果進(jìn)行反饋的。此時(shí)又回到了可解釋性差,這一深度學(xué)習(xí)模型的老問(wèn)題上。如果能夠像寫(xiě)論文時(shí)插入?yún)⒖嘉墨I(xiàn)一樣,在生成的結(jié)果中插入相關(guān)信息的出處,則會(huì)大大提高結(jié)果的可解釋性。
最后,該范式依賴(lài)超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,然而這些模型目前只掌握在少數(shù)的大公司手中,即便有個(gè)別開(kāi)源的大模型,由于其過(guò)于龐大,小型公司或研究組也無(wú)法下載并使用它們。所以,在線調(diào)用是目前使用這些模型最主要的模式。在該模式下,如何針對(duì)不同用戶面對(duì)的不同任務(wù),使用用戶私有的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步預(yù)精調(diào),并且不對(duì)公有的大模型造成影響,成為該范式實(shí)際應(yīng)用落地所迫切需要解決的問(wèn)題。此外,為了提高系統(tǒng)的運(yùn)行速度,如何通過(guò)在線的大模型獲得離線的小模型,并且讓離線小模型保持大模型在某些任務(wù)上的能力,也成為模型能實(shí)際應(yīng)用的一種解決方案。
未來(lái)已來(lái),讓我們共同期待!
注:有幸在車(chē)?yán)蠋煹呐笥讶W(xué)習(xí)到了他對(duì)于最近ChatGPT的一些見(jiàn)解,征得老師同意后分享給大家,轉(zhuǎn)載請(qǐng)注明作者。
參考文獻(xiàn):
[1] https://chat.openai.com/
[2] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
-
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23193 -
OpenAI
+關(guān)注
關(guān)注
9文章
1238瀏覽量
9815 -
ChatGPT
+關(guān)注
關(guān)注
31文章
1596瀏覽量
10074
發(fā)布評(píng)論請(qǐng)先 登錄
python自然語(yǔ)言
自然語(yǔ)言處理怎么最快入門(mén)?
【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理
什么是自然語(yǔ)言處理?
什么是自然語(yǔ)言處理_自然語(yǔ)言處理常用方法舉例說(shuō)明

自然語(yǔ)言處理范式正在變遷
評(píng)論