詳解ChatGPT的預(yù)訓(xùn)練模型成長(zhǎng)史

近年來，隨著各大廠商的激烈角逐，預(yù)訓(xùn)練模型（The Pretrained Foundation Models ，PFMs）的發(fā)展可謂百花爭(zhēng)鳴，誰都想在這場(chǎng)沒有硝煙的戰(zhàn)爭(zhēng)中力壓群雄，作為下游任務(wù)的基礎(chǔ)，像BERT、GPT-3、MAE、DALLE-E和ChatGPT基于大規(guī)模數(shù)據(jù)訓(xùn)練，可為各種下游應(yīng)用提供合理的參數(shù)初始化。這種遷移學(xué)習(xí)范式，讓預(yù)訓(xùn)練模型以一種高傲的姿態(tài)在各種任務(wù)和應(yīng)用中大放異彩。特別是最近大火ChatGPT，帶著其獨(dú)有的"思維”在各大領(lǐng)域亂殺，也將人工智能推向了新一輪高潮。本文也是從預(yù)訓(xùn)練模型成長(zhǎng)的幾個(gè)關(guān)鍵因素做了系統(tǒng)闡述，旨在帶領(lǐng)大家一起見證預(yù)訓(xùn)練模型的蛻變歷程。

1.簡(jiǎn)介

圖 1：PFMs的歷史和演變

目前PFMS已經(jīng)在NLP、CV、GL這三個(gè)主要的AI領(lǐng)域得到了廣泛的研究，如圖一所示，通過在大型語料中學(xué)習(xí)通用的特征表示，再針對(duì)不同的下游任務(wù)進(jìn)行微調(diào)，已經(jīng)在文本分類、圖像分類、對(duì)象檢測(cè)、圖形分類等任務(wù)中表現(xiàn)出色。特別是針對(duì)NLP領(lǐng)域，預(yù)訓(xùn)練模型有著獨(dú)特的優(yōu)勢(shì)，它的訓(xùn)練數(shù)據(jù)可以來自任何沒有標(biāo)記的文本，得到的語言模型（Language Models，LM）可以捕獲到文本中的長(zhǎng)期依賴、層次結(jié)構(gòu)等關(guān)聯(lián)信息。早期的預(yù)訓(xùn)練是一種靜態(tài)技術(shù)，例如NNLM[1]和Word2vec[2]，但靜態(tài)方法難以適應(yīng)不同的語義環(huán)境。因此，像BERT[3]、XLNET[4]這類的動(dòng)態(tài)預(yù)訓(xùn)練技術(shù)應(yīng)運(yùn)而生。

PFMs能在nlp中盛行起來，得益于能它同時(shí)對(duì)單詞的句法和語義表示進(jìn)行建模，并根據(jù)不同的輸入動(dòng)態(tài)改變多義詞的表示上下文。PFM能學(xué)習(xí)豐富的語法和語義推理知識(shí)，效果更好。表1是對(duì)近幾年來NLP領(lǐng)域PFMs相關(guān)信息的匯總。其中，Transforms作為PFMs主流的模型架構(gòu),它使用了Attention機(jī)制，將序列中的任意兩個(gè)位置之間的距離縮小為一個(gè)常量，在分析預(yù)測(cè)更長(zhǎng)的文本時(shí),捕捉間隔較長(zhǎng)的語義關(guān)聯(lián)效果更好；其次它不是類似RNN的順序結(jié)構(gòu)，因此具有更好的并行性，符合現(xiàn)有的GPU框架，能夠利用分布式GPU進(jìn)行并行訓(xùn)練，提升模型訓(xùn)練效率。

表1：NLP領(lǐng)域的預(yù)訓(xùn)練模型

目前在NLP領(lǐng)域PFMs的學(xué)習(xí)方法主要分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)這五種，同時(shí)根據(jù)預(yù)訓(xùn)練任務(wù)根據(jù)上述的的學(xué)習(xí)方法可分為五類：掩碼語言建模（MLM）、去噪自動(dòng)編碼器（DAE）、替換令牌檢測(cè) （RTD）、下一句預(yù)測(cè) （NSP）、句子順序預(yù)測(cè) （SOP）。其中，MLM在輸入序列中隨機(jī)擦除一些單詞，然后在預(yù)訓(xùn)練期間預(yù)測(cè)這些擦除的單詞，典型的例子包括BERT 和SpanBERT[5]；DAE 用于向原始語料庫(kù)添加噪聲，并使用包含噪聲的語料庫(kù)重建原始輸入，BART[6] 就是一個(gè)典型的例子；RTD 是一個(gè)判別任務(wù)，用于確定 LM 是否已替換當(dāng)前令牌，這項(xiàng)任務(wù)在ELECTRA[7] 中引入；為了使模型理解兩個(gè)句子之間的相關(guān)性并捕獲句子級(jí)表示，引入了NSP任務(wù)。PFM 輸入來自不同文檔的兩個(gè)句子，并檢查句子的順序是否正確，一個(gè)典型的例子是BERT；與NSP不同，SOP使用文檔中的兩個(gè)連續(xù)片段作為正樣本，并使用兩個(gè)片段的交換順序作為負(fù)樣本。PFM可以更好地模擬句子之間的相關(guān)性，例如ALBERT[8] 。

2.字表征

當(dāng)前大規(guī)模的預(yù)訓(xùn)練模型在問答、機(jī)器閱讀理解和自然語言推理中取得了比人類更好的性能，表明目前PFM的構(gòu)建方法是實(shí)用的?，F(xiàn)有的預(yù)訓(xùn)練語言模型根據(jù)字表征方法主要分為三個(gè)分支：（1）自回歸語言模型，（2）上下文語言模型，（3）排列語言模型。其中單詞預(yù)測(cè)方向和上下文信息是其中最重要的因素。

2.1 自回歸語言模型

自回歸語言模型基于前一個(gè)單詞預(yù)測(cè)下一個(gè)可能的單詞，或基于后續(xù)單詞預(yù)測(cè)最后一個(gè)可能的單詞。它被選為特征提取器，并從前一個(gè)單詞中提取文本表示。因此，它在自然語言生成（Natural language generation，NLG）任務(wù)中具有更好的性能，例如文本摘要和機(jī)器翻譯。對(duì)于一個(gè)序列，根據(jù)前一個(gè)詞計(jì)算的給定單詞的概率為前向LM，公式如下：

其中，是輸入序列的長(zhǎng)度。此外，雙向LM（Bi-LM）也是基于自回歸語言模型，以及從向前和向后方向提取的文本表示連接在一起模型架構(gòu)設(shè)計(jì)方法。GPT[9]采用自監(jiān)督預(yù)訓(xùn)練、監(jiān)督微調(diào)和stacked Transformer [10] 作為其解碼器。后續(xù)，OpenAI提出了GPT-2[11]，并將stacked Transformer層數(shù)增加到48層。參數(shù)總數(shù)達(dá)到15億。GPT-2還引入了多任務(wù)學(xué)習(xí)。GPT-2 具有相當(dāng)大的模型容量，可以針對(duì)不同的任務(wù)模型進(jìn)行調(diào)整，而不是微調(diào)它們。但是，GPT-2 也使用自回歸語言模型。因此，它提高了模型的性能而不會(huì)大幅增加成本。由于是單向transformer缺乏上下文建模能力，GPT-2的主要性能提升來自于多任務(wù)的綜合效應(yīng)預(yù)訓(xùn)練、超大型數(shù)據(jù)集和超大型模型。對(duì)于特定的下游任務(wù)，仍然需要基于任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。但是，擴(kuò)大LM的訓(xùn)練規(guī)?？梢燥@著提高與任務(wù)無關(guān)的性能。因此，提出了 GPT-3[12] ，它將模型大小增加到 175億個(gè)參數(shù)，并使用 45TB 的數(shù)據(jù)進(jìn)行訓(xùn)練。因此，它可以實(shí)現(xiàn)良好的性能無需針對(duì)特定的下游任務(wù)進(jìn)行微調(diào)。

2.2 上下文語言模型

自回歸語言模型僅使用上文或下文的信息，不能同時(shí)使用上下文的信息。ELMO[13] 僅使用雙向長(zhǎng)短期記憶（LSTM），它是兩個(gè)向后和向前單向 LSTM 的串聯(lián)。上下文LM預(yù)測(cè)基于上下文詞。它使用變壓器編碼器，模型的上層和下層由于自注意力機(jī)制而直接相互連接。對(duì)于單詞序列 T，給定單詞的概率計(jì)算如下：

BERT模型輸入由三部分組成：詞嵌入，段嵌入和位置嵌入。它使用雙向transformer作為特征提取器，這抵消了ELMO和GPT的缺陷。但是，BERT的缺點(diǎn)也不容忽視。雙向transformer結(jié)構(gòu)并沒有消除自編碼模型的約束。其大量的模型參數(shù)對(duì)計(jì)算資源低的設(shè)備非常不友好，并且難以部署和應(yīng)用。大多數(shù)PFM需要更多的訓(xùn)練任務(wù)和更大的語料庫(kù)。針對(duì)訓(xùn)練不足的問題，后續(xù)提出了RoBERTa[14]。它使用更大的批次大小和未標(biāo)記的數(shù)據(jù)。此外，它可以訓(xùn)練更長(zhǎng)的模型，刪除 NSP 任務(wù)，并添加長(zhǎng)序列訓(xùn)練。在處理文本輸入時(shí)，采用字節(jié)對(duì)編碼（BPE）[15]進(jìn)行分詞。BPE 對(duì)每個(gè)輸入序列使用不同的掩碼模式，即使輸入順序相同。

2.3 排列語言模型

使用上下文語言模型的建模方法可以視為自動(dòng)編碼模型。但是，由于訓(xùn)練階段和微調(diào)階段的不一致，性能的自動(dòng)編碼模型在自然語言生成（NLG）任務(wù)中很差。排列語言模型旨在結(jié)合了自回歸語言模型和自動(dòng)編碼器語言模型的優(yōu)點(diǎn)。它改善了兩種模型在很大程度上可以作為未來預(yù)訓(xùn)練目標(biāo)構(gòu)建的基本思路任務(wù)。對(duì)于給定的輸入序列，排列語言模型的目標(biāo)函數(shù)的形式表示如下：

其中是所有排列中的共享參數(shù)，表示所有可能排列的集合輸入序列和和表示第t個(gè)元素和a的元素排列.

以BERT為代表的的MLM可以很好地實(shí)現(xiàn)雙向編碼。然而，MLM在預(yù)訓(xùn)練期間使用掩碼標(biāo)記，但在微調(diào)期間不使用，這導(dǎo)致在預(yù)訓(xùn)練和微調(diào)期間數(shù)據(jù)不一致。為了實(shí)現(xiàn)雙向編碼，避免了MLM的問題，提出了排列語言模型。排列語言模型基于自回歸語言模型，避免了不一致數(shù)據(jù)的影響。然而，與傳統(tǒng)的自回歸模型不同，排列語言模型不再按順序?qū)π蛄羞M(jìn)行建模。它以最大化序列給出了序列的所有可能的排列。通過這種方式，任何位置都可以利用來自所有位置的上下文信息，使排列語言模型實(shí)現(xiàn)雙向編碼。最常見的排列語言模型模型是XLNET和MPNet[16]。XLNET是第一個(gè)基于LM的排列PFM。此外，XLNet還集成了Transformer-XL的兩個(gè)最關(guān)鍵技術(shù)：相對(duì)位置編碼和段遞歸機(jī)制。MPNet將MLM模型與排列語言模型相結(jié)合，通過排列語言模型預(yù)測(cè)tokens之間的依賴關(guān)系。它使用輔助位置信息作為輸入，使模型能夠看到完整的句子，從而減少位置差異。

3.模型架構(gòu)

圖 2：BART架構(gòu)

早期ELMO采用多層RNN結(jié)構(gòu)。每一層都是雙向LSTM結(jié)構(gòu)，有向前和向后 LM。以這兩個(gè)方向的最大可能性為目標(biāo)功能。與詞向量法相比，ELMO引入了上下文信息并改進(jìn)了多義問題，但ELMO提取語言特征的整體能力較弱。PFMs的應(yīng)用研究主要有兩個(gè)方向。一種是具有微調(diào)功能的PFM（例如BERT），另一個(gè)是具有zero/few-shot prompts（例如 GPT）的 PFM。BERT使用雙向編碼器以預(yù)測(cè)哪些單詞被屏蔽并確定兩個(gè)句子是否與上下文相關(guān)。但是，文檔是雙向編碼的，并且被屏蔽的單詞是獨(dú)立預(yù)測(cè)的，這降低了生成能力。GPT 使用自回歸解碼器作為特征提取器，根據(jù)前幾個(gè)單詞預(yù)測(cè)下一個(gè)單詞，并使用微調(diào)解決下游任務(wù)，因此更適合文本生成任務(wù)。但是，GPT 僅使用前一個(gè)詞進(jìn)行預(yù)測(cè)，無法學(xué)習(xí)雙向交互信息。與這些模型不同，BART是由 seq2seq 模型構(gòu)建的降噪自動(dòng)編碼器，采用編碼器-解碼器結(jié)構(gòu)，如圖2所示。預(yù)訓(xùn)練主要包括使用噪聲銷毀文本并使用 seq2seq 模型重建原始文本。預(yù)訓(xùn)練主要包括使用噪聲銷毀文本和使用 seq2seq 模型重建原始文本。編碼層采用雙向Transformer。它采用五種添加噪聲模式：（1）單字掩碼;（2）字刪除;(3)跨度掩碼;（4）句子改編;（5）文件重新排列。在編碼器部分，序列具有在將其輸入編碼器之前被屏蔽。然后，解碼器根據(jù)編碼器輸出的編碼表示形式和未屏蔽的序列恢復(fù)原始序列。這添加一系列噪聲模式使 BART 在序列生成方面的性能在自然語言推理任務(wù)顯著改善。

4.掩碼設(shè)計(jì)

注意力機(jī)制首先將基本單詞聚合為句子向量和重要句子向量轉(zhuǎn)換為文本向量，這允許模型對(duì)不同的輸入給予不同的關(guān)注。對(duì)于BERT來說，作為一個(gè)雙向編碼LM，輸入句子中的任意兩個(gè)單詞都可以相互看到。但是，它阻礙了BERT模型學(xué)習(xí)NLG任務(wù)的能力。

圖 3：spanBERT架構(gòu)

后續(xù)基于RoBERTa的提出SpanBERT，它采用了動(dòng)態(tài)掩蔽的思想和單段預(yù)訓(xùn)練，如圖3所示，提出了跨度掩碼和跨度邊界目標(biāo) （SBO）來屏蔽一定長(zhǎng)度的單詞?？缍冗吔绲哪繕?biāo)任務(wù)是通過兩端觀察到的令牌恢復(fù)所有屏蔽的跨度（tokens）。訓(xùn)練階段使用RoBERTa中提出的動(dòng)態(tài)掩碼策略，而不是數(shù)據(jù)預(yù)處理過程中的掩碼。與BERT不同，SpanBERT隨機(jī)覆蓋連續(xù)的文本并添加SBO訓(xùn)練目標(biāo)。它使用最接近跨度邊界的tokens預(yù)測(cè)跨度，并消除 NSP 預(yù)訓(xùn)練任務(wù)。

Song 等提出了掩蔽的 seq2seq 預(yù)訓(xùn)練模型 MASS[17]。在訓(xùn)練階段，編碼器的輸入序列被隨機(jī)屏蔽為長(zhǎng)度為K的連續(xù)段。掩蓋的片段將通過 MASS 解碼器恢復(fù)。UniLM[18]通過為輸入數(shù)據(jù)中的兩個(gè)句子設(shè)計(jì)不同的掩碼來建模來完成NLG的學(xué)習(xí)。對(duì)于第一個(gè)句子，UniLM使用與轉(zhuǎn)換編碼器相同的結(jié)構(gòu)，使每個(gè)單詞注意到其前后單詞。對(duì)于第二句，每個(gè)單詞只能注意到第一句和前面的所有單詞當(dāng)前句子中的單詞。因此，模型輸入的第一句和第二句構(gòu)成了經(jīng)典seq2seq 模式。

5.提升方式

5.1 提升模型性能

大多數(shù)流行的預(yù)訓(xùn)練模型都需要大量的預(yù)訓(xùn)練數(shù)據(jù)，這對(duì)硬件提出了巨大的要求，使得重新訓(xùn)練具有挑戰(zhàn)性，只能做一些模型的微調(diào)。為了解決這些問題，出現(xiàn)了一些模型。例如，百度發(fā)布的ERNIE Tiny就是小型化的ERNIE[19]，它減少了層數(shù)，預(yù)測(cè)速度提高了4.3倍，精度略有下降。ALBERT通過減少內(nèi)存消耗和訓(xùn)練速度。但是，不可否認(rèn)的是，無論哪種壓縮對(duì)于這些大型模型，模型在這些任務(wù)中的性能將急劇下降。它要求在以后的工作中注意高級(jí)語義和語法信息的高效表示和無損壓縮。通過使用字嵌入?yún)?shù)分解和層之間的隱藏參數(shù)共享，ALBERT顯著減少了模型的參數(shù)數(shù)量，而不會(huì)降低性能。它提出了SOP的訓(xùn)練任務(wù)，預(yù)測(cè)兩個(gè)句子的順序以提高性能。

5.2 多任務(wù)學(xué)習(xí)

ERNIE主要由Transformer編碼器和任務(wù)嵌入兩部分組成。在Transformer編碼器中，自注意機(jī)制用于捕獲每個(gè)tokens的上下文信息并生成上下文表示嵌入。任務(wù)嵌入是一個(gè)將不同特征應(yīng)用于任務(wù)的技術(shù)。ERNIE 2.0 [20] 引入了多任務(wù)學(xué)習(xí)，以實(shí)現(xiàn)詞匯、語法和語義的預(yù)訓(xùn)練。ERNIE 2.0 使用七種不同的預(yù)訓(xùn)練任務(wù)，涵蓋三個(gè)方面：詞級(jí)、句級(jí)和語義級(jí)。它使用持續(xù)學(xué)習(xí)，使先前訓(xùn)練任務(wù)中的知識(shí)得以保留，并使模型能夠獲得遠(yuǎn)距離記憶。它使用轉(zhuǎn)換器編碼器并引入任務(wù)嵌入，使模型能夠在持續(xù)學(xué)習(xí)過程中區(qū)分不同的任務(wù)。UniLM使用三個(gè)預(yù)訓(xùn)練任務(wù)：?jiǎn)蜗?LM、雙向 LM 和編碼器-解碼器LM。通過自注意力層掩碼機(jī)制，它可以在預(yù)訓(xùn)練階段同時(shí)完成三種目標(biāo)任務(wù)。在訓(xùn)練階段，UniLM采用SpanBERT提出的小段掩模策略，損失函數(shù)由上述三個(gè)預(yù)訓(xùn)練任務(wù)的損失函數(shù)組成。為了保持所有損失函數(shù)的貢獻(xiàn)一致性，同時(shí)訓(xùn)練了三個(gè)預(yù)訓(xùn)練任務(wù)。多個(gè)任務(wù)的建模和參數(shù)共享使LM在自然語言理解（NLU）和NLG任務(wù)中實(shí)現(xiàn)良好的泛化能力。

5.3 針對(duì)下游任務(wù)

預(yù)訓(xùn)練模型往往很大，那么如何匹配不同的下游任務(wù)同樣重要。已經(jīng)出現(xiàn)了一些在專用語料庫(kù)上訓(xùn)練的預(yù)訓(xùn)練模型。Cui等人提出了BERT-whole word masking模型（BERT-WWM）。他們直接使用中文中的BERT根據(jù)原始的MLM訓(xùn)練進(jìn)行隨機(jī)屏蔽，導(dǎo)致語義信息的丟失。ZEN[21]是基于BERT的文本編碼器，它采用N-gram 增強(qiáng)性能，有效集成相當(dāng)細(xì)粒度的文本信息，收斂速度快，性能好。Tsai[22]等人提出了一種用于序列標(biāo)記任務(wù)的定向多語言序列標(biāo)記模型。針對(duì)低質(zhì)量語言，采用知識(shí)蒸餾法，在詞性標(biāo)注和多重形態(tài)屬性預(yù)測(cè)兩個(gè)任務(wù)中能取得更好的表現(xiàn)，推理時(shí)間縮短了27倍。

6.指令對(duì)齊

指令對(duì)齊方法旨在讓LM遵循人類意圖并生成有意義的輸出。一般方法是以監(jiān)督方式使用高質(zhì)量語料庫(kù)微調(diào)預(yù)訓(xùn)練的LM。為了進(jìn)一步提高學(xué)習(xí)LMs的有用性和無害性，將強(qiáng)化學(xué)習(xí)引入微調(diào)程序，以便學(xué)習(xí)障礙可以根據(jù)人類或人工智能的反饋修改其響應(yīng)。受監(jiān)督和強(qiáng)化學(xué)習(xí)方法可以利用思維鏈風(fēng)格的推理來提高人類判斷的性能和人工智能決策的透明度。

6.1 監(jiān)督式微調(diào) (SFT)

SFT是一種成熟的技術(shù)，可以解鎖知識(shí)并應(yīng)用它到特定的現(xiàn)實(shí)世界，甚至是看不見的任務(wù)。SFT 的模板由輸入輸出對(duì)和指令。例如，給定指令“將此句子翻譯成英文：”和一個(gè)輸入“今天天氣不錯(cuò)”，我們希望LM生成目標(biāo)"The weather is nice today",該模板通常是人造的，包括非自然指令和自然指令，或基于種子語料庫(kù)的引導(dǎo)。LM傷害的倫理和社會(huì)風(fēng)險(xiǎn)是SFT的重要關(guān)注點(diǎn)。

6.2 人類反饋強(qiáng)化學(xué)習(xí)（RLHF)

RL已被應(yīng)用于增強(qiáng)NLP任務(wù)中的各種模型，例如機(jī)器翻譯，摘要，圖像標(biāo)題，問題生成，文本游戲等。RL通過將語言生成任務(wù)中的不可微分目標(biāo)視為順序決策問題來優(yōu)化它們。但是，存在過度擬合使用神經(jīng)網(wǎng)絡(luò)的指標(biāo)的風(fēng)險(xiǎn)，從而導(dǎo)致在指標(biāo)上得分很高的荒謬樣本。同時(shí)，其還用于使LM與人類偏好保持一致。

圖 4：ChatGPT框架

InstructGPT 建議使用 PPO[23] 根據(jù)經(jīng)過訓(xùn)練的獎(jiǎng)勵(lì)模型微調(diào)大模型，以對(duì)齊 LM與人類偏好，這與ChatGPT應(yīng)用的方法相同，名為RLHF。具體見圖4，獎(jiǎng)勵(lì)模型使用人工標(biāo)記員手動(dòng)對(duì)輸出進(jìn)行排名的比較數(shù)據(jù)進(jìn)行訓(xùn)練。對(duì)于它們中的每一個(gè)，獎(jiǎng)勵(lì)模型計(jì)算一個(gè)獎(jiǎng)勵(lì)，用于使用 PPO 更新 LM。由DeepMind開發(fā)的Sparrow[24]也利用RLHF來降低不安全和不適當(dāng)答案的風(fēng)險(xiǎn)。盡管RLHF 取得了一些有希望的結(jié)果，這一領(lǐng)域的進(jìn)展因缺乏公開的基準(zhǔn)和實(shí)現(xiàn)資源，導(dǎo)致人們認(rèn)為 RL 對(duì)于 NLP 來說是一種困難的方法。因此，最近引入了一個(gè)名為RL4LMs[25]的開源庫(kù)，該庫(kù)由用于在基于LM的生成上微調(diào)和評(píng)估RL算法的構(gòu)建塊組成。

與傳統(tǒng)的 RL 方法相比，RLHF 的關(guān)鍵優(yōu)勢(shì)在于能更好地與人類的意圖保持一致，以及以未來的反饋為條件進(jìn)行規(guī)劃，從各種類型的反饋中進(jìn)行流暢的學(xué)習(xí)，并根據(jù)需要對(duì)反饋進(jìn)行整理，所有這些都是創(chuàng)建真正的智能代理所不可缺少的。它還允許機(jī)器通過抽象人類的價(jià)值來學(xué)習(xí)，而不是簡(jiǎn)單地模仿人類的行為，從而使代理具有更強(qiáng)的適應(yīng)性，更強(qiáng)的可解釋性，以及更可靠的決策。

6.3 思維鏈（CoT）

在NLP領(lǐng)域，這幾年模型的規(guī)模是越來越大，幾億參數(shù)量現(xiàn)在都只能算小模型，預(yù)訓(xùn)練模型也已經(jīng)向大模型的方向去演進(jìn)，那大模型的好處顯而易見：推理能力強(qiáng)，采樣效率高，因?yàn)槟Ｐ蛥?shù)大，能儲(chǔ)存很多的知識(shí)。最近幾年有學(xué)者通過構(gòu)建這種推理的中間過程，來簡(jiǎn)化推理取得了比較好的效果，而我們所知大模型通過prompt進(jìn)行上下文小樣本學(xué)習(xí)能力也是極強(qiáng)的。但問題就是創(chuàng)建很多的中間步驟用來做監(jiān)督finetune是非常耗時(shí)的，而且傳統(tǒng)的prompt方式在數(shù)學(xué)計(jì)算、常識(shí)推理等做的又不好，怎么結(jié)合上下文小樣本學(xué)習(xí)能力和中間步驟來改善推理能力是一個(gè)問題。CoT在此基礎(chǔ)上應(yīng)用而生，其基礎(chǔ)原理就是將多步求解的問題分解出中間步驟, 模型分配額外的計(jì)算能力給推理步驟，它可以增加模型的可解釋性, 知道它是如何得出特定答案，并且模型還有機(jī)會(huì)通過調(diào)試推理路徑中存在錯(cuò)誤的地方，原則上適用于所有任務(wù)，只需提供少量思維鏈的范例，現(xiàn)有的大規(guī)模語言模型即可使用思維鏈進(jìn)行推理。

7.總結(jié)

本文主要闡述了PFMs成長(zhǎng)歷程，文章大部分內(nèi)容來源于論文[26],原文從NLP、CV、GL這幾個(gè)領(lǐng)域的PFMs做了綜合調(diào)研，作者主要針對(duì)PFMs在NLP領(lǐng)域的底層基礎(chǔ)到上層技術(shù)進(jìn)行了梳理。目前來看，PFMs在僅僅在參數(shù)量規(guī)模上已經(jīng)很難讓人產(chǎn)生很大共鳴了，而人們現(xiàn)在更加在意的是PFMs的實(shí)際的推理性能和處理復(fù)雜推理任務(wù)的能力，這里面還要額外考慮到對(duì)軟硬件資源成本和實(shí)際應(yīng)用場(chǎng)景中的合規(guī)性，更加注重PFMs的落地性和實(shí)用性，正如chatgpt一出場(chǎng)就能夠驚艷全場(chǎng)，其參數(shù)量已經(jīng)不是輿論的焦點(diǎn)了，這款A(yù)I殺手級(jí)的應(yīng)用出現(xiàn)，其驚艷的表現(xiàn)可能會(huì)給世界帶來新的產(chǎn)業(yè)革命。當(dāng)然，還是受限于其模型大小和使用成本，ChatGPT并沒有完全普及開來，但隨著算法技術(shù)和算力技術(shù)的不斷進(jìn)步，下一代的PFMs也必然會(huì)更加完善，在越來越多的領(lǐng)域進(jìn)行應(yīng)用，為人類帶來更好的體驗(yàn)感和便利性。

編輯：黃飛

閱讀全文