近年來,隨著各大廠商的激烈角逐,預(yù)訓(xùn)練模型(The Pretrained Foundation Models ,PFMs)的發(fā)展可謂百花爭(zhēng)鳴,誰都想在這場(chǎng)沒有硝煙的戰(zhàn)爭(zhēng)中力壓群雄,作為下游任務(wù)的基礎(chǔ),像BERT、GPT-3、MAE、DALLE-E和ChatGPT基于大規(guī)模數(shù)據(jù)訓(xùn)練,可為各種下游應(yīng)用提供合理的參數(shù)初始化。這種遷移學(xué)習(xí)范式,讓預(yù)訓(xùn)練模型以一種高傲的姿態(tài)在各種任務(wù)和應(yīng)用中大放異彩。特別是最近大火ChatGPT,帶著其獨(dú)有的"思維”在各大領(lǐng)域亂殺,也將人工智能推向了新一輪高潮。本文也是從預(yù)訓(xùn)練模型成長(zhǎng)的幾個(gè)關(guān)鍵因素做了系統(tǒng)闡述,旨在帶領(lǐng)大家一起見證預(yù)訓(xùn)練模型的蛻變歷程。
1.簡(jiǎn)介

圖 1:PFMs的歷史和演變
目前PFMS已經(jīng)在NLP、CV、GL這三個(gè)主要的AI領(lǐng)域得到了廣泛的研究,如圖一所示,通過在大型語料中學(xué)習(xí)通用的特征表示,再針對(duì)不同的下游任務(wù)進(jìn)行微調(diào),已經(jīng)在文本分類、圖像分類、對(duì)象檢測(cè)、圖形分類等任務(wù)中表現(xiàn)出色。特別是針對(duì)NLP領(lǐng)域,預(yù)訓(xùn)練模型有著獨(dú)特的優(yōu)勢(shì),它的訓(xùn)練數(shù)據(jù)可以來自任何沒有標(biāo)記的文本,得到的語言模型(Language Models,LM)可以捕獲到文本中的長(zhǎng)期依賴、層次結(jié)構(gòu)等關(guān)聯(lián)信息。早期的預(yù)訓(xùn)練是一種靜態(tài)技術(shù),例如NNLM[1]和Word2vec[2],但靜態(tài)方法難以適應(yīng)不同的語義環(huán)境。因此,像BERT[3]、XLNET[4]這類的動(dòng)態(tài)預(yù)訓(xùn)練技術(shù)應(yīng)運(yùn)而生。
PFMs能在nlp中盛行起來,得益于能它同時(shí)對(duì)單詞的句法和語義表示進(jìn)行建模,并根據(jù)不同的輸入動(dòng)態(tài)改變多義詞的表示上下文。PFM能學(xué)習(xí)豐富的語法和語義推理知識(shí),效果更好。表1是對(duì)近幾年來NLP領(lǐng)域PFMs相關(guān)信息的匯總。其中,Transforms作為PFMs主流的模型架構(gòu),它使用了Attention機(jī)制,將序列中的任意兩個(gè)位置之間的距離縮小為一個(gè)常量,在分析預(yù)測(cè)更長(zhǎng)的文本時(shí),捕捉間隔較長(zhǎng)的語義關(guān)聯(lián)效果更好;其次它不是類似RNN的順序結(jié)構(gòu),因此具有更好的并行性,符合現(xiàn)有的GPU框架,能夠利用分布式GPU進(jìn)行并行訓(xùn)練,提升模型訓(xùn)練效率。

表1:NLP領(lǐng)域的預(yù)訓(xùn)練模型
目前在NLP領(lǐng)域PFMs的學(xué)習(xí)方法主要分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)這五種,同時(shí)根據(jù)預(yù)訓(xùn)練任務(wù)根據(jù)上述的的學(xué)習(xí)方法可分為五類:掩碼語言建模(MLM)、去噪自動(dòng)編碼器 (DAE)、替換令牌檢測(cè) (RTD)、下一句預(yù)測(cè) (NSP)、句子順序預(yù)測(cè) (SOP)。其中,MLM在輸入序列中隨機(jī)擦除一些單詞,然后在預(yù)訓(xùn)練期間預(yù)測(cè)這些擦除的單詞,典型的例子包括BERT 和SpanBERT[5];DAE 用于向原始語料庫(kù)添加噪聲,并使用包含噪聲的語料庫(kù)重建原始輸入,BART[6] 就是一個(gè)典型的例子;RTD 是一個(gè)判別任務(wù),用于確定 LM 是否已替換當(dāng)前令牌,這項(xiàng)任務(wù)在ELECTRA[7] 中引入;為了使模型理解兩個(gè)句子之間的相關(guān)性并捕獲句子級(jí)表示,引入了NSP任務(wù)。PFM 輸入來自不同文檔的兩個(gè)句子,并檢查句子的順序是否正確,一個(gè)典型的例子是BERT;與NSP不同,SOP使用文檔中的兩個(gè)連續(xù)片段作為正樣本,并使用兩個(gè)片段的交換順序作為負(fù)樣本。PFM可以更好地模擬句子之間的相關(guān)性,例如ALBERT[8] 。
2.字表征
當(dāng)前大規(guī)模的預(yù)訓(xùn)練模型在問答、機(jī)器閱讀理解和自然語言推理中取得了比人類更好的性能,表明目前PFM的構(gòu)建方法是實(shí)用的?,F(xiàn)有的預(yù)訓(xùn)練語言模型根據(jù)字表征方法主要分為三個(gè)分支:(1)自回歸語言模型,(2)上下文語言模型,(3)排列語言模型。其中單詞預(yù)測(cè)方向和上下文信息是其中最重要的因素。
2.1 自回歸語言模型
自回歸語言模型基于前一個(gè)單詞預(yù)測(cè)下一個(gè)可能的單詞,或基于后續(xù)單詞預(yù)測(cè)最后一個(gè)可能的單詞。它被選為特征提取器,并從前一個(gè)單詞中提取文本表示。因此,它在自然語言生成(Natural language generation,NLG)任務(wù)中具有更好的性能,例如文本摘要和機(jī)器翻譯。對(duì)于一個(gè)序列,根據(jù)前一個(gè)詞計(jì)算的給定單詞的概率為前向LM,公式如下:
其中 ,是輸入序列的長(zhǎng)度。此外,雙向LM(Bi-LM)也是基于自回歸語言模型,以及從向前和向后方向提取的文本表示連接在一起模型架構(gòu)設(shè)計(jì)方法。GPT[9]采用自監(jiān)督預(yù)訓(xùn)練、監(jiān)督微調(diào)和stacked Transformer [10] 作為其解碼器。后續(xù),OpenAI提出了GPT-2[11],并將stacked Transformer層數(shù)增加到48層。參數(shù)總數(shù)達(dá)到15億。GPT-2還引入了多任務(wù)學(xué)習(xí)。GPT-2 具有相當(dāng)大的模型容量,可以針對(duì)不同的任務(wù)模型進(jìn)行調(diào)整,而不是微調(diào)它們。但是,GPT-2 也使用自回歸語言模型。因此,它提高了模型的性能而不會(huì)大幅增加成本。由于是單向transformer缺乏上下文建模能力,GPT-2的主要性能提升來自于多任務(wù)的綜合效應(yīng)預(yù)訓(xùn)練、超大型數(shù)據(jù)集和超大型模型。對(duì)于特定的下游任務(wù),仍然需要基于任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。但是,擴(kuò)大LM的訓(xùn)練規(guī)??梢燥@著提高與任務(wù)無關(guān)的性能。因此,提出了 GPT-3[12] ,它將模型大小增加到 175億個(gè)參數(shù),并使用 45TB 的數(shù)據(jù)進(jìn)行訓(xùn)練。因此,它可以實(shí)現(xiàn)良好的性能無需針對(duì)特定的下游任務(wù)進(jìn)行微調(diào)。
2.2 上下文語言模型
自回歸語言模型僅使用上文或下文的信息,不能同時(shí)使用上下文的信息。ELMO[13] 僅使用雙向長(zhǎng)短期記憶 (LSTM),它是兩個(gè)向后和向前單向 LSTM 的串聯(lián)。上下文LM預(yù)測(cè)基于上下文詞。它使用變壓器編碼器,模型的上層和下層由于自注意力機(jī)制而直接相互連接。對(duì)于單詞序列 T,給定單詞的概率計(jì)算如下:
BERT模型輸入由三部分組成:詞嵌入,段嵌入和位置嵌入。它使用雙向transformer作為特征提取器,這抵消了ELMO和GPT的缺陷。但是,BERT的缺點(diǎn)也不容忽視。雙向transformer結(jié)構(gòu)并沒有消除自編碼模型的約束。其大量的模型參數(shù)對(duì)計(jì)算資源低的設(shè)備非常不友好,并且難以部署和應(yīng)用。大多數(shù)PFM需要更多的訓(xùn)練任務(wù)和更大的語料庫(kù)。針對(duì)訓(xùn)練不足的問題,后續(xù)提出了RoBERTa[14]。它使用更大的批次大小和未標(biāo)記的數(shù)據(jù)。此外,它可以訓(xùn)練更長(zhǎng)的模型,刪除 NSP 任務(wù),并添加長(zhǎng)序列訓(xùn)練。在處理文本輸入時(shí),采用字節(jié)對(duì)編碼(BPE)[15]進(jìn)行分詞。BPE 對(duì)每個(gè)輸入序列使用不同的掩碼模式,即使輸入順序相同。
2.3 排列語言模型
使用上下文語言模型的建模方法可以視為自動(dòng)編碼模型。但是,由于訓(xùn)練階段和微調(diào)階段的不一致,性能的自動(dòng)編碼模型在自然語言生成 (NLG) 任務(wù)中很差。排列語言模型旨在結(jié)合了自回歸語言模型和自動(dòng)編碼器語言模型的優(yōu)點(diǎn)。它改善了兩種模型在很大程度上可以作為未來預(yù)訓(xùn)練目標(biāo)構(gòu)建的基本思路任務(wù)。對(duì)于給定的輸入序列,排列語言模型的目標(biāo)函數(shù)的形式表示如下:

其中 是所有排列中的共享參數(shù),表示所有可能排列的集合輸入序列 和和表示第t個(gè)元素和a的元素排列.
以BERT為代表的的MLM可以很好地實(shí)現(xiàn)雙向編碼。然而,MLM在預(yù)訓(xùn)練期間使用掩碼標(biāo)記,但在微調(diào)期間不使用,這導(dǎo)致在預(yù)訓(xùn)練和微調(diào)期間數(shù)據(jù)不一致。為了實(shí)現(xiàn)雙向編碼,避免了MLM的問題,提出了排列語言模型。排列語言模型基于自回歸語言模型,避免了不一致數(shù)據(jù)的影響。然而,與傳統(tǒng)的自回歸模型不同,排列語言模型不再按順序?qū)π蛄羞M(jìn)行建模。它以最大化序列給出了序列的所有可能的排列。通過這種方式,任何位置都可以利用來自所有位置的上下文信息,使排列語言模型實(shí)現(xiàn)雙向編碼。最常見的排列語言模型模型是XLNET和MPNet[16]。XLNET是第一個(gè)基于LM的排列PFM。此外,XLNet還集成了Transformer-XL的兩個(gè)最關(guān)鍵技術(shù):相對(duì)位置編碼和段遞歸機(jī)制。MPNet將MLM模型與排列語言模型相結(jié)合,通過排列語言模型預(yù)測(cè)tokens之間的依賴關(guān)系。它使用輔助位置信息作為輸入,使模型能夠看到完整的句子,從而減少位置差異。
3.模型架構(gòu)

圖 2:BART架構(gòu)
早期ELMO采用多層RNN結(jié)構(gòu)。每一層都是雙向LSTM結(jié)構(gòu),有向前和向后 LM。以這兩個(gè)方向的最大可能性為目標(biāo)功能。與詞向量法相比,ELMO引入了上下文信息并改進(jìn)了多義問題,但ELMO提取語言特征的整體能力較弱。PFMs的應(yīng)用研究主要有兩個(gè)方向。一種是具有微調(diào)功能的PFM(例如BERT),另一個(gè)是具有zero/few-shot prompts(例如 GPT)的 PFM。BERT使用雙向編碼器以預(yù)測(cè)哪些單詞被屏蔽并確定兩個(gè)句子是否與上下文相關(guān)。但是,文檔是雙向編碼的,并且被屏蔽的單詞是獨(dú)立預(yù)測(cè)的,這降低了生成能力。GPT 使用自回歸解碼器作為特征提取器,根據(jù)前幾個(gè)單詞預(yù)測(cè)下一個(gè)單詞,并使用微調(diào)解決下游任務(wù),因此更適合文本生成任務(wù)。但是,GPT 僅使用前一個(gè)詞進(jìn)行預(yù)測(cè),無法學(xué)習(xí)雙向交互信息。與這些模型不同,BART是由 seq2seq 模型構(gòu)建的降噪自動(dòng)編碼器,采用編碼器-解碼器結(jié)構(gòu),如圖2所示。預(yù)訓(xùn)練主要包括使用噪聲銷毀文本并使用 seq2seq 模型重建原始文本。預(yù)訓(xùn)練主要包括使用噪聲銷毀文本和使用 seq2seq 模型重建原始文本。編碼層采用雙向Transformer。它采用五種添加噪聲模式:(1)單字掩碼;(2)字刪除;(3)跨度掩碼;(4)句子改編;(5)文件重新排列。在編碼器部分,序列具有在將其輸入編碼器之前被屏蔽。然后,解碼器根據(jù)編碼器輸出的編碼表示形式和未屏蔽的序列恢復(fù)原始序列。這添加一系列噪聲模式使 BART 在序列生成方面的性能在自然語言推理任務(wù)顯著改善。
4.掩碼設(shè)計(jì)
注意力機(jī)制首先將基本單詞聚合為句子向量和重要句子向量轉(zhuǎn)換為文本向量,這允許模型對(duì)不同的輸入給予不同的關(guān)注。對(duì)于BERT來說,作為一個(gè)雙向編碼LM,輸入句子中的任意兩個(gè)單詞都可以相互看到。但是,它阻礙了BERT模型學(xué)習(xí)NLG任務(wù)的能力。

圖 3:spanBERT架構(gòu)
后續(xù)基于RoBERTa的提出SpanBERT,它采用了動(dòng)態(tài)掩蔽的思想和單段預(yù)訓(xùn)練,如圖3所示,提出了跨度掩碼和跨度邊界目標(biāo) (SBO) 來屏蔽一定長(zhǎng)度的單詞??缍冗吔绲哪繕?biāo)任務(wù)是通過兩端觀察到的令牌恢復(fù)所有屏蔽的跨度(tokens)。訓(xùn)練階段使用RoBERTa中提出的動(dòng)態(tài)掩碼策略,而不是數(shù)據(jù)預(yù)處理過程中的掩碼。與BERT不同,SpanBERT隨機(jī)覆蓋連續(xù)的文本并添加SBO訓(xùn)練目標(biāo)。它使用最接近跨度邊界的tokens預(yù)測(cè)跨度,并消除 NSP 預(yù)訓(xùn)練任務(wù)。
Song 等提出了掩蔽的 seq2seq 預(yù)訓(xùn)練模型 MASS[17]。在訓(xùn)練階段,編碼器的輸入序列被隨機(jī)屏蔽為長(zhǎng)度為K的連續(xù)段。掩蓋的片段將通過 MASS 解碼器恢復(fù)。UniLM[18]通過為輸入數(shù)據(jù)中的兩個(gè)句子設(shè)計(jì)不同的掩碼來建模來完成NLG的學(xué)習(xí)。對(duì)于第一個(gè)句子,UniLM使用與轉(zhuǎn)換編碼器相同的結(jié)構(gòu),使每個(gè)單詞注意到其前后單詞。對(duì)于第二句,每個(gè)單詞只能注意到第一句和前面的所有單詞當(dāng)前句子中的單詞。因此,模型輸入的第一句和第二句構(gòu)成了經(jīng)典seq2seq 模式。
5.提升方式
5.1 提升模型性能
大多數(shù)流行的預(yù)訓(xùn)練模型都需要大量的預(yù)訓(xùn)練數(shù)據(jù),這對(duì)硬件提出了巨大的要求,使得重新訓(xùn)練具有挑戰(zhàn)性,只能做一些模型的微調(diào)。為了解決這些問題,出現(xiàn)了一些模型。例如,百度發(fā)布的ERNIE Tiny就是小型化的ERNIE[19],它減少了層數(shù),預(yù)測(cè)速度提高了4.3倍,精度略有下降。ALBERT通過減少內(nèi)存消耗和訓(xùn)練速度。但是,不可否認(rèn)的是,無論哪種壓縮對(duì)于這些大型模型,模型在這些任務(wù)中的性能將急劇下降。它要求在以后的工作中注意高級(jí)語義和語法信息的高效表示和無損壓縮。通過使用字嵌入?yún)?shù)分解和層之間的隱藏參數(shù)共享,ALBERT顯著減少了模型的參數(shù)數(shù)量,而不會(huì)降低性能。它提出了SOP的訓(xùn)練任務(wù),預(yù)測(cè)兩個(gè)句子的順序以提高性能。
5.2 多任務(wù)學(xué)習(xí)
ERNIE主要由Transformer編碼器和任務(wù)嵌入兩部分組成。在Transformer編碼器中,自注意機(jī)制用于捕獲每個(gè)tokens的上下文信息并生成上下文表示嵌入。任務(wù)嵌入是一個(gè)將不同特征應(yīng)用于任務(wù)的技術(shù)。ERNIE 2.0 [20] 引入了多任務(wù)學(xué)習(xí),以實(shí)現(xiàn)詞匯、語法和語義的預(yù)訓(xùn)練。ERNIE 2.0 使用七種不同的預(yù)訓(xùn)練任務(wù),涵蓋三個(gè)方面:詞級(jí)、句級(jí)和語義級(jí)。它使用持續(xù)學(xué)習(xí),使先前訓(xùn)練任務(wù)中的知識(shí)得以保留,并使模型能夠獲得遠(yuǎn)距離記憶。它使用轉(zhuǎn)換器編碼器并引入任務(wù)嵌入,使模型能夠在持續(xù)學(xué)習(xí)過程中區(qū)分不同的任務(wù)。UniLM使用三個(gè)預(yù)訓(xùn)練任務(wù):?jiǎn)蜗?LM、雙向 LM 和編碼器-解碼器LM。通過自注意力層掩碼機(jī)制,它可以在預(yù)訓(xùn)練階段同時(shí)完成三種目標(biāo)任務(wù)。在訓(xùn)練階段,UniLM采用SpanBERT提出的小段掩模策略,損失函數(shù)由上述三個(gè)預(yù)訓(xùn)練任務(wù)的損失函數(shù)組成。為了保持所有損失函數(shù)的貢獻(xiàn)一致性,同時(shí)訓(xùn)練了三個(gè)預(yù)訓(xùn)練任務(wù)。多個(gè)任務(wù)的建模和參數(shù)共享使LM在自然語言理解(NLU)和NLG任務(wù)中實(shí)現(xiàn)良好的泛化能力。
5.3 針對(duì)下游任務(wù)
預(yù)訓(xùn)練模型往往很大,那么如何匹配不同的下游任務(wù)同樣重要。已經(jīng)出現(xiàn)了一些在專用語料庫(kù)上訓(xùn)練的預(yù)訓(xùn)練模型。Cui等人提出了BERT-whole word masking模型(BERT-WWM)。他們直接使用中文中的BERT根據(jù)原始的MLM訓(xùn)練進(jìn)行隨機(jī)屏蔽,導(dǎo)致語義信息的丟失。ZEN[21]是基于BERT的文本編碼器,它采用N-gram 增強(qiáng)性能,有效集成相當(dāng)細(xì)粒度的文本信息,收斂速度快,性能好。Tsai[22]等人提出了一種用于序列標(biāo)記任務(wù)的定向多語言序列標(biāo)記模型。針對(duì)低質(zhì)量語言,采用知識(shí)蒸餾法,在詞性標(biāo)注和多重形態(tài)屬性預(yù)測(cè)兩個(gè)任務(wù)中能取得更好的表現(xiàn),推理時(shí)間縮短了27倍。
6.指令對(duì)齊
指令對(duì)齊方法旨在讓LM遵循人類意圖并生成有意義的輸出。一般方法是以監(jiān)督方式使用高質(zhì)量語料庫(kù)微調(diào)預(yù)訓(xùn)練的LM。為了進(jìn)一步提高學(xué)習(xí)LMs的有用性和無害性,將強(qiáng)化學(xué)習(xí)引入微調(diào)程序,以便學(xué)習(xí)障礙可以根據(jù)人類或人工智能的反饋修改其響應(yīng)。受監(jiān)督和強(qiáng)化學(xué)習(xí)方法可以利用思維鏈風(fēng)格的推理來提高人類判斷的性能和人工智能決策的透明度。
6.1 監(jiān)督式微調(diào) (SFT)
SFT是一種成熟的技術(shù),可以解鎖知識(shí)并應(yīng)用它到特定的現(xiàn)實(shí)世界,甚至是看不見的任務(wù)。SFT 的模板由輸入輸出對(duì)和指令。例如,給定指令“將此句子翻譯成英文:”和一個(gè)輸入“今天天氣不錯(cuò)”,我們希望LM生成目標(biāo)"The weather is nice today",該模板通常是人造的,包括非自然指令和自然指令,或基于種子語料庫(kù)的引導(dǎo)。LM傷害的倫理和社會(huì)風(fēng)險(xiǎn)是SFT的重要關(guān)注點(diǎn)。
6.2 人類反饋強(qiáng)化學(xué)習(xí)(RLHF)
RL已被應(yīng)用于增強(qiáng)NLP任務(wù)中的各種模型,例如機(jī)器翻譯,摘要,圖像標(biāo)題,問題生成,文本游戲等。RL通過將語言生成任務(wù)中的不可微分目標(biāo)視為順序決策問題來優(yōu)化它們。但是,存在過度擬合使用神經(jīng)網(wǎng)絡(luò)的指標(biāo)的風(fēng)險(xiǎn),從而導(dǎo)致在指標(biāo)上得分很高的荒謬樣本。同時(shí),其還用于使LM與人類偏好保持一致。

圖 4:ChatGPT框架
InstructGPT 建議使用 PPO[23] 根據(jù)經(jīng)過訓(xùn)練的獎(jiǎng)勵(lì)模型微調(diào)大模型,以對(duì)齊 LM與人類偏好,這與ChatGPT應(yīng)用的方法相同,名為RLHF。具體見圖4,獎(jiǎng)勵(lì)模型使用人工標(biāo)記員手動(dòng)對(duì)輸出進(jìn)行排名的比較數(shù)據(jù)進(jìn)行訓(xùn)練。對(duì)于它們中的每一個(gè),獎(jiǎng)勵(lì)模型計(jì)算一個(gè)獎(jiǎng)勵(lì),用于使用 PPO 更新 LM。由DeepMind開發(fā)的Sparrow[24]也利用RLHF來降低不安全和不適當(dāng)答案的風(fēng)險(xiǎn)。盡管RLHF 取得了一些有希望的結(jié)果,這一領(lǐng)域的進(jìn)展因缺乏公開的基準(zhǔn)和實(shí)現(xiàn)資源,導(dǎo)致人們認(rèn)為 RL 對(duì)于 NLP 來說是一種困難的方法。因此,最近引入了一個(gè)名為RL4LMs[25]的開源庫(kù),該庫(kù)由用于在基于LM的生成上微調(diào)和評(píng)估RL算法的構(gòu)建塊組成。
與傳統(tǒng)的 RL 方法相比,RLHF 的關(guān)鍵優(yōu)勢(shì)在于能更好地與人類的意圖保持一致,以及以未來的反饋為條件進(jìn)行規(guī)劃,從各種類型的反饋中進(jìn)行流暢的學(xué)習(xí),并根據(jù)需要對(duì)反饋進(jìn)行整理,所有這些都是創(chuàng)建真正的智能代理所不可缺少的。它還允許機(jī)器通過抽象人類的價(jià)值來學(xué)習(xí),而不是簡(jiǎn)單地模仿人類的行為,從而使代理具有更強(qiáng)的適應(yīng)性,更強(qiáng)的可解釋性,以及更可靠的決策。
6.3 思維鏈 (CoT)
在NLP領(lǐng)域,這幾年模型的規(guī)模是越來越大,幾億參數(shù)量現(xiàn)在都只能算小模型,預(yù)訓(xùn)練模型也已經(jīng)向大模型的方向去演進(jìn),那大模型的好處顯而易見:推理能力強(qiáng),采樣效率高,因?yàn)槟P蛥?shù)大,能儲(chǔ)存很多的知識(shí)。最近幾年有學(xué)者通過構(gòu)建這種推理的中間過程,來簡(jiǎn)化推理取得了比較好的效果,而我們所知大模型通過prompt進(jìn)行上下文小樣本學(xué)習(xí)能力也是極強(qiáng)的。但問題就是創(chuàng)建很多的中間步驟用來做監(jiān)督finetune是非常耗時(shí)的,而且傳統(tǒng)的prompt方式在數(shù)學(xué)計(jì)算、常識(shí)推理等做的又不好,怎么結(jié)合上下文小樣本學(xué)習(xí)能力和中間步驟來改善推理能力是一個(gè)問題。CoT在此基礎(chǔ)上應(yīng)用而生,其基礎(chǔ)原理就是將多步求解的問題分解出中間步驟, 模型分配額外的計(jì)算能力給推理步驟,它可以增加模型的可解釋性, 知道它是如何得出特定答案,并且模型還有機(jī)會(huì)通過調(diào)試推理路徑中存在錯(cuò)誤的地方,原則上適用于所有任務(wù),只需提供少量思維鏈的范例,現(xiàn)有的大規(guī)模語言模型即可使用思維鏈進(jìn)行推理。
7.總結(jié)
本文主要闡述了PFMs成長(zhǎng)歷程,文章大部分內(nèi)容來源于論文[26],原文從NLP、CV、GL這幾個(gè)領(lǐng)域的PFMs做了綜合調(diào)研,作者主要針對(duì)PFMs在NLP領(lǐng)域的底層基礎(chǔ)到上層技術(shù)進(jìn)行了梳理。目前來看,PFMs在僅僅在參數(shù)量規(guī)模上已經(jīng)很難讓人產(chǎn)生很大共鳴了,而人們現(xiàn)在更加在意的是PFMs的實(shí)際的推理性能和處理復(fù)雜推理任務(wù)的能力,這里面還要額外考慮到對(duì)軟硬件資源成本和實(shí)際應(yīng)用場(chǎng)景中的合規(guī)性,更加注重PFMs的落地性和實(shí)用性,正如chatgpt一出場(chǎng)就能夠驚艷全場(chǎng),其參數(shù)量已經(jīng)不是輿論的焦點(diǎn)了,這款A(yù)I殺手級(jí)的應(yīng)用出現(xiàn),其驚艷的表現(xiàn)可能會(huì)給世界帶來新的產(chǎn)業(yè)革命。當(dāng)然,還是受限于其模型大小和使用成本,ChatGPT并沒有完全普及開來,但隨著算法技術(shù)和算力技術(shù)的不斷進(jìn)步,下一代的PFMs也必然會(huì)更加完善,在越來越多的領(lǐng)域進(jìn)行應(yīng)用,為人類帶來更好的體驗(yàn)感和便利性。
編輯:黃飛
?
電子發(fā)燒友App







































評(píng)論