人妻第1页,玩老妇人小视频

導(dǎo)讀：本文目標是對近期火爆異常的Prompt相關(guān)研究作一些追溯和展望，內(nèi)容主要參考論文《Pre-train， Prompt， and Predict： A Systematic Survey of Prompting Methods in Natural Language Processing》，并摻雜了筆者的一些個人見解，歡迎大家積極討論~所用圖片均來自該論文。

論文的arxiv鏈接如下：

https://arxiv.org/abs/2107.13586

本文的內(nèi)容框架如下：

一、Prompt的產(chǎn)生和興起

二、什么是Prompt

三、Prompt的設(shè)計方法

四、Prompt的挑戰(zhàn)和展望

一、Prompt的產(chǎn)生和興起

近幾年來，有關(guān)預(yù)訓(xùn)練語言模型（PLM）的研究比比皆是，自然語言處理（NLP）也借著這股春風(fēng)獲得了長足發(fā)展。尤其是在2017-2019年間，研究者們的重心逐漸從傳統(tǒng)task-specific的有監(jiān)督模式轉(zhuǎn)移到預(yù)訓(xùn)練上?；陬A(yù)訓(xùn)練語言模型的研究思路通常是“pre-train， fine-tune”，即將PLM應(yīng)用到下游任務(wù)上，在預(yù)訓(xùn)練階段和微調(diào)階段根據(jù)下游任務(wù)設(shè)計訓(xùn)練對象并對PLM本體進行調(diào)整。

隨著PLM體量的不斷增大，對其進行fine-tune的硬件要求、數(shù)據(jù)需求和實際代價也在不斷上漲。除此之外，豐富多樣的下游任務(wù)也使得預(yù)訓(xùn)練和微調(diào)階段的設(shè)計變得繁瑣復(fù)雜，因此研究者們希望探索出更小巧輕量、更普適高效的方法，Prompt就是一個沿著此方向的嘗試。

融入了Prompt的新模式大致可以歸納成”pre-train， prompt， and predict“，在該模式中，下游任務(wù)被重新調(diào)整成類似預(yù)訓(xùn)練任務(wù)的形式。例如，通常的預(yù)訓(xùn)練任務(wù)有Masked Language Model，在文本情感分類任務(wù)中，對于 “I love this movie.” 這句輸入，可以在后面加上prompt “The movie is ___” 這樣的形式，然后讓PLM用表示情感的答案填空如 “great”、“fantastic” 等等，最后再將該答案轉(zhuǎn)化成情感分類的標簽，這樣以來，通過選取合適的prompt，我們可以控制模型預(yù)測輸出，從而一個完全無監(jiān)督訓(xùn)練的PLM可以被用來解決各種各樣的下游任務(wù)。

因此，合適的prompt對于模型的效果至關(guān)重要。大量研究表明，prompt的微小差別，可能會造成效果的巨大差異。研究者們就如何設(shè)計prompt做出了各種各樣的努力——自然語言背景知識的融合、自動生成prompt的搜索、不再拘泥于語言形式的prompt探索等等，筆者將會在第三節(jié)進行進一步討論。

二、什么是Prompt

Prompt剛剛出現(xiàn)的時候，還沒有被叫做Prompt，是研究者們?yōu)榱讼掠稳蝿?wù)設(shè)計出來的一種輸入形式或模板，它能夠幫助PLM“回憶”起自己在預(yù)訓(xùn)練時“學(xué)習(xí)”到的東西，因此后來慢慢地被叫做Prompt了。

對于輸入的文本，有函數(shù)，將轉(zhuǎn)化成prompt的形式，即：

該函數(shù)通常會進行兩步操作：

使用一個模板，模板通常為一段自然語言，并且包含有兩個空位置：用于填輸入的位置和用于生成答案文本的位置。

把輸入填到的位置。

還用前文提到的例子。在文本情感分類的任務(wù)中，假設(shè)輸入是

“ I love this movie.”

使用的模板是

“ ［X］ Overall， it was a ［Z］ movie.”

那么得到的就應(yīng)該是 “I love this movie. Overall it was a ［Z］ movie.”

在實際的研究中，prompts應(yīng)該有空位置來填充答案，這個位置一般在句中或者句末。如果在句中，一般稱這種prompt為cloze prompt；如果在句末，一般稱這種prompt為prefix prompt。和的位置以及數(shù)量都可能對結(jié)果造成影響，因此可以根據(jù)需要靈活調(diào)整。

另外，上面的例子中prompts都是有意義的自然語言，但實際上其形式并不一定要拘泥于自然語言?，F(xiàn)有相關(guān)研究使用虛擬單詞甚至直接使用向量作為prompt，筆者將會在第三節(jié)講到。

下一步會進行答案搜索，顧名思義就是LM尋找填在處可以使得分數(shù)最高的文本。最后是答案映射。有時LM填充的文本并非任務(wù)需要的最終形式，因此要將此文本映射到最終的輸出。例如，在文本情感分類任務(wù)中，“excellent”， “great”， “wonderful” 等詞都對應(yīng)一個種類 “++”，這時需要將詞語映射到標簽再輸出。

三、Prompt的設(shè)計

Prompt大致可以從下面三個角度進行設(shè)計：

Prompt的形狀

手工設(shè)計模板

自動學(xué)習(xí)模板

Prompt的形狀

Prompt的形狀主要指的是和的位置和數(shù)量。上文提到過cloze prompt和prefix prompt的區(qū)別，在實際應(yīng)用過程中選擇哪一種主要取決于任務(wù)的形式和模型的類別。cloze prompts和Masked Language Model的訓(xùn)練方式非常類似，因此對于使用MLM的任務(wù)來說cloze prompts更加合適；對于生成任務(wù)來說，或者使用自回歸LM解決的任務(wù)，prefix prompts就會更加合適；Full text reconstruction models較為通用，因此兩種prompt均適用。另外，對于文本對的分類，prompt模板通常要給輸入預(yù)留兩個空，和。

手工設(shè)計模板

Prompt最開始就是從手工設(shè)計模板開始的。手工設(shè)計一般基于人類的自然語言知識，力求得到語義流暢且高效的模板。例如，Petroni等人在著名的LAMA數(shù)據(jù)集中為知識探針任務(wù)手工設(shè)計了cloze templates；Brown等人為問答、翻譯和探針等任務(wù)設(shè)計了prefix templates。手工設(shè)計模板的好處是較為直觀，但缺點是需要很多實驗、經(jīng)驗以及語言專業(yè)知識，代價較大。

自動學(xué)習(xí)模板

為了解決手工設(shè)計模板的缺點，許多研究開始探究如何自動學(xué)習(xí)到合適的模板。自動學(xué)習(xí)的模板又可以分為離散（Discrete Prompts）和連續(xù)（Continuous Prompts）兩大類。離散的主要包括 Prompt Mining， Prompt Paraphrasing， Gradient-based Search， Prompt Generation 和 Prompt Scoring；連續(xù)的則主要包括Prefix Tuning， Tuning Initialized with Discrete Prompts 和 Hard-Soft Prompt Hybrid Tuning。

離散Prompts

自動生成離散Prompts指的是自動生成由自然語言的詞組成的Prompt，因此其搜索空間是離散的。目前大致可以分成下面幾個方法：

Prompt Mining. 該方法需要一個大的文本庫支持，例如Wikipedia。給定輸入和輸出，要找到和之間的中間詞或者依賴路徑，然后選取出現(xiàn)頻繁的中間詞或依賴路徑作為模板，即“［X］ middle words ［Z］”。

Prompt Paraphrasing. Paraphrasing-based方法是基于釋義的，主要采用現(xiàn)有的種子prompts（例如手動構(gòu)造），并將其轉(zhuǎn)述成一組其他候選prompts，然后選擇一個在目標任務(wù)上達到最好效果的。一般的做法有：將提示符翻譯成另一種語言，然后再翻譯回來；使用同義或近義短語來替換等。

Gradient-based Search. 梯度下降搜索的方法是在單詞候選集里選擇詞并組合成prompt，利用梯度下降的方式不斷嘗試組合，從而達到讓PLM生成需要的詞的目的。

Prompt Generation. 既然Prompt也是一段文本，那是否可以用文本生成的方式來生成Prompt呢？該類方法就是將標準的自然語言生成的模型用于生成prompts了。例如，Gao等人將T5引入了模板搜索的過程，讓T5生成模板詞；Ben-David 等人提出了一種域自適應(yīng)算法，訓(xùn)練T5為每個輸入生成一種唯一的域相關(guān)特征，然后把輸入和特征連接起來組成模板再用到下游任務(wù)中。

Prompt Scoring. Davison等人在研究知識圖譜補全任務(wù)的時候為三元組輸入（頭實體，關(guān)系，尾實體）設(shè)計了一種模板。首先人工制造一組模板候選，然后把相應(yīng)的［X］和［Z］都填上成為prompts，并使用一個雙向LM給這些prompts打分，最后選取其中的高分prompt。

連續(xù)Prompts

既然構(gòu)造Prompt的初衷是能夠找到一個合適的方法，讓PLM更“聽話”地得出我們想要的結(jié)果，那就不必把prompt的形式拘泥于人類可以理解的自然語言了，只要機器可以理解就好了。因此，還有一些方法探索連續(xù)型prompts——直接作用到模型的embedding空間。連續(xù)型prompts去掉了兩個約束條件：

模板中詞語的embedding可以是整個自然語言的embedding，不再只是有限的一些embedding。

模板的參數(shù)不再直接取PLM的參數(shù)，而是有自己獨立的參數(shù)，可以通過下游任務(wù)的訓(xùn)練數(shù)據(jù)進行調(diào)整。

目前的連續(xù)prompts方法大致可以分為下面幾種：

Prefix Tuning. Prefix Tuning最開始由Li等人提出，是一種在輸入前添加一串連續(xù)的向量的方法，該方法保持PLM的參數(shù)不動，僅訓(xùn)練合適的前綴（prefix）。它的形式化定義是，在給定一個可訓(xùn)練的前綴矩陣和一個固定的參數(shù)化為的PLM的對數(shù)似然目標上進行優(yōu)化。

其中

指的是所有神經(jīng)網(wǎng)絡(luò)層在第i個時間步的連接。如果對應(yīng)的時間步在前綴中，則它可以直接從前綴矩陣中復(fù)制過來；否則需要使用PLM進行計算。

類似地，Lester等人在輸入序列前面加上特殊的token來組成一個模板，然后直接調(diào)整這些token的embedding。和上面的Prefix Tuning的方法相比，他們的方法相對來說參數(shù)較少，因為沒有在每一層網(wǎng)絡(luò)中引入額外的參數(shù)。

Tuing Initialized with Discrete Prompts. 這類方法中連續(xù)prompts是用已有的prompts初始化的，已有的prompts可以是手工設(shè)計的，也可以是之前搜索發(fā)現(xiàn)的離散prompts。Zhong 等人先用一個離散prompt搜索方法定義了一個模板，然后基于該模板初始化虛擬的token，最后微調(diào)這些token的embedding以提高準確率。

Hard-Soft Prompt Hybrid Tuning. 這類方法可以說是手工設(shè)計和自動學(xué)習(xí)的結(jié)合，它通常不單純使用可學(xué)習(xí)的prompt模板，而是在手工設(shè)計的模板中插入一些可學(xué)習(xí)的embedding。Liu等人提出了“P-Tuning”方法，通過在input embedding中插入可訓(xùn)練的變量來學(xué)習(xí)連續(xù)的prompts。并且，該方法使用BiLSTM的輸出來表示prompt embeddings，以便讓prompt tokens之間有一定的交互。P-tuning還引入了任務(wù)相關(guān)的anchor tokens（例如關(guān)系提取中的“capital”）來進一步提高效果，這些anchor tokens不參與后續(xù)的調(diào)優(yōu)。Han等人提出了Prompt Tunning with Rules（PTR）方法，使用手工指定的子模板按照邏輯規(guī)則組裝成完整的模板。為了增強生成的模板的表示能力，該方法還插入了幾個虛擬token，這些虛擬token的embeddings可以和PLM的參數(shù)一起被調(diào)整，PTR的模板token既有實際token也有虛擬token 。實驗結(jié)果證明了該方法在關(guān)系分類任務(wù)中的有效性。四、Prompt的挑戰(zhàn)與展望

盡管Prompt相關(guān)研究搞得如火如荼，但目前仍存在許多問題，值得研究者們?nèi)ヌ剿鳌?/p>

Prompt的設(shè)計問題。目前使用Prompt的工作大多集中育分類任務(wù)和生成任務(wù)，其它任務(wù)則較少，因為如何有效地將預(yù)訓(xùn)練任務(wù)和prompt聯(lián)系起來還是一個值得探討的問題。另外，模板和答案的聯(lián)系也函待解決。模型的表現(xiàn)同時依賴于使用的模板和答案的轉(zhuǎn)化，如何同時搜索或者學(xué)習(xí)出兩者聯(lián)合的最好效果仍然很具挑戰(zhàn)性。

Prompt的理論分析和可解釋性。盡管Prompt方法在很多情況下都取得了成功，但是目前prompt-based learning的理論分析和保證還很少，使得人們很難了解Prompt為什么能達到好的效果，又為什么在自然語言中意義相近的Prompt有時效果卻相差很大。

Prompt在PLM debias方面的應(yīng)用。由于PLM在預(yù)訓(xùn)練過程中見過了大量的人類世界的自然語言，所以很自然地受到了影響。拿一個簡單的例子來說，可能不太恰當，比如說訓(xùn)練語料中有很多的“The capital of China is ”Beijing.“，導(dǎo)致模型認為下次看到”capital“ 的時候都會預(yù)測出”Beijing“，而不是著重看到底是哪個國家的首都。在應(yīng)用的過程中，Prompt還暴露了PLM學(xué)習(xí)到的很多其它bias，比如種族歧視、恐怖主義、性別對立等等。已有相關(guān)研究關(guān)注是否可以利用Prompt來對這些bias進行修正，但還處在比較初級的階段，這也會是一個值得研究的方向。

五、引用

［1］ Liu P， Yuan W， Fu J， et al. Pre-train， Prompt， and Predict： A Systematic Survey of Prompting Methods in Natural Language Processing［J］。 arXiv preprint arXiv:2107.13586， 2021.

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴