01、研究動機(jī)
在生成式摘要任務(wù)中,模型基于輸入文檔逐詞生成摘要。隨著深度學(xué)習(xí)的發(fā)展,生成式摘要取得了巨大進(jìn)展。然而在現(xiàn)在的模型所生成的摘要中,超過70%含有事實(shí)不一致錯誤[1]。這些不一致錯誤嚴(yán)重限制了生成式摘要的實(shí)際應(yīng)用。要解決這個問題的第一步就是評估摘要的一致性,檢測出不一致錯誤。
表1:一個多種粒度的事實(shí)不一致檢測例子(下劃線標(biāo)記是詞級別的不一致標(biāo)注,EntE和OutE是具體不一致類別,對應(yīng)實(shí)體錯誤以及不在原文錯誤)
摘要的生成過程中有兩個因素:文檔X提供重要的事實(shí)信息來支持生成一致的摘要內(nèi)容。同時,在大規(guī)模語料上訓(xùn)練的模型M提供語言先驗(yàn)知識來保證生成摘要的流暢性。因此摘要中每個詞的生成概率由文檔X和模型M聯(lián)合決定。而生成概率正反映了模型對摘要的偏好,對應(yīng)存在模型對一致摘要的偏好以及對流暢摘要的偏好。這樣的因果關(guān)系如圖1(a)所示。
圖1:不同推理過程的示意圖:(a)常規(guī)的推理過程,Y的生成由文檔和預(yù)訓(xùn)練模型共同決定;(b) CoCo[3]提出的使用部分Mask文檔的推理過程;(c)我們提出的使用prompt的推理過程。
一致性評估的本質(zhì)是衡量摘要Y受原文X支持的程度,也就是衡量X到Y(jié)的因果效應(yīng)。直接使用常規(guī)推理過程的生成概率(如BARTScore[2])不能夠區(qū)分X和M的因果效應(yīng),二者的偏好是混雜的。比如一些流暢性很差但是事實(shí)一致的摘要會獲得一個較低的生成概率,被誤判為不一致。概率差分方法使用一個額外推理過程來分離偏好。如圖1(b)所示,CoCo[3]使用一個被部分遮蓋(Mask)的文檔作為額外推理的輸入。然而,被遮蓋的文檔天然缺乏流暢性,違背語言先驗(yàn)知識,評估的過程依然受到和事實(shí)一致性無關(guān)的偏好影響。除此之外合理且精確的決定遮蓋文檔中哪些詞語也很困難。
02、貢獻(xiàn)
我們提出了一個事實(shí)不一致檢測框架CoP,有三個優(yōu)勢:
在無監(jiān)督的條件下,利用prompt更好的過濾模型的一致性無關(guān)偏好,專注于檢測事實(shí)不一致。
可以和prompt tuning結(jié)合,高效利用少量標(biāo)簽數(shù)據(jù)訓(xùn)練,進(jìn)一步提升性能。
通過靈活的設(shè)計prompt,不需要額外訓(xùn)練就可以控制特定的偏好來檢測具體的不一致類別。
實(shí)驗(yàn)結(jié)果表明我們的框架CoP在三個事實(shí)不一致檢測任務(wù)上獲得了SOTA表現(xiàn),進(jìn)一步的實(shí)驗(yàn)分析驗(yàn)證了我們方法的有效性。
03、方法
3.1利用帶prompt的額外推理來控制偏好
我們的框架包括兩個推理過程(圖2)。第一次推理和常見的生成過程是一樣的:利用文檔X作為輸入,并將待測摘要Y輸入解碼器的進(jìn)行forced-decoding,得到待測摘要Y中每一個詞的生成概率。第二次推理我們將文檔和一個prompt T一起作為輸入,利用類似過程可以得到第二個概率。
我們可以根據(jù)實(shí)際的應(yīng)用場景來設(shè)計prompt??紤]一個最簡單的情況,我們用待測摘要作為prompt (我們稱這種離散文本prompt為prompt text)。很直觀的,假如待測摘要和輸入文檔事實(shí)一致,那么它是一種輸入冗余,因此不會帶來巨大的概率變化。相反的,摘要中的不一致部分會帶來更大的概率變化。換而言之,差分概率更多的由模型對一致性的偏好引起,進(jìn)而過濾了無關(guān)偏好,例如對流暢性的偏好。具體而言我們用第二次推理的概率減去第一次的概率,計算出差分概率。越大的差分概率意味著和原文的不一致程度越高。高于閾值的詞語會被預(yù)測為不一致,我們可以根據(jù)具體的應(yīng)用設(shè)置閾值來控制預(yù)測比例。例如,對于期望更高召回率的不一致改錯任務(wù),可以選擇一個相對低的閾值。
圖2:我們的框架CoP示意圖
3.2、對具體不一致類別設(shè)計prompt
先前的工作[4]詳細(xì)定義了不一致類型,并統(tǒng)計了類型分布。現(xiàn)有的評估方法往往忽略了這些詳細(xì)信息。我們認(rèn)為能夠檢測不一致類型的評估工具有助于分析現(xiàn)有模型的錯誤傾向、指導(dǎo)未來的研究方向。其中EntE(實(shí)體相關(guān)不一致), CorefE(指代相關(guān)不一致),OutE(不在原文的不一致)相對高頻,分別出現(xiàn)了36%, 10%和27%,我們以它們?yōu)槔齺碚f明我們框架的工作過程。
最基礎(chǔ)的prompt是整個待測摘要,可以覆蓋摘要里的所有不一致內(nèi)容,對應(yīng)的可以解決OutE。而對于檢測其他類別的不一致,我們可以通過添加類別相關(guān)的事實(shí)信息來針對性控制偏好。對于實(shí)體錯誤,我們從摘要里抽取出實(shí)體,并把實(shí)體列表拼接到prompt text。對于指代錯誤,我們類似的對摘要進(jìn)行指代消解,并將對應(yīng)的指代信息插入到代詞的后面。假如生成概率顯著受這些額外的類別相關(guān)的事實(shí)信息影響,那么我們可以認(rèn)定這個摘要包含和對應(yīng)類別相關(guān)的不一致。
此時我們?nèi)匀猾@得的是詞級別的不一致分?jǐn)?shù),而類別相關(guān)的標(biāo)注往往是摘要級別的。最簡單的方法就是在摘要上對詞級別分?jǐn)?shù)做平均(所有詞語的權(quán)重均等)。然而我們的框架可以精細(xì)的檢查每一個詞的一致性,包含實(shí)體詞和指代詞。我們加倍對應(yīng)類別詞語的權(quán)重,讓模型更專注于該類別的一致性評估。
3.3利用prompt tuning從有限數(shù)據(jù)中學(xué)習(xí)
事實(shí)一致性的標(biāo)注數(shù)據(jù)相當(dāng)稀缺。得益于我們框架的靈活性,我們可以集成prompt tuning[5],進(jìn)一步的從有限的標(biāo)注數(shù)據(jù)中學(xué)習(xí)。從離散的詞匯空間中學(xué)習(xí)prompt text相當(dāng)困難,因此我們提出了一個小規(guī)模的任務(wù)相關(guān)的連續(xù)向量prompt vector。我們希望prompt vector可以幫助模型更好的區(qū)分prompt text和輸入文檔,并引導(dǎo)模型在二者之間做精細(xì)的事實(shí)分析比對,強(qiáng)化對事實(shí)一致性的偏好。
圖3:prompt vector示意圖(使用紅色標(biāo)出)
如圖3所示,我們在第二次推理中的prompt text前后加上prompt vector。為了保證推理過程的一致性,我們在第一次推理中也保留prompt vector,區(qū)別在于第一次推理中沒有prompt text。我們凍結(jié)了整個生成模型,僅學(xué)習(xí)小規(guī)模的prompt vector。使用如下的損失函數(shù)進(jìn)行更新參數(shù):
其中l(wèi)abel是詞級別的標(biāo)記,用1和-1表示當(dāng)前詞是一致和不一致。損失函數(shù)將直接優(yōu)化任務(wù)目標(biāo):最大化不一致詞語的差分概率,最小化一致詞語的差分概率。
04、實(shí)驗(yàn)
我們在XSum Hallucination Annotations[1],QAGS [6],F(xiàn)RANK [4]三個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。XSum Hallucination Annotations數(shù)據(jù)集提供了詞級別的不一致標(biāo)簽,0/1分別表示當(dāng)前詞是一致/不一致。QAGS和FRANK提供了摘要級別的分?jǐn)?shù)來表示一致性,越高的分?jǐn)?shù)代表了越高的一致性。FRANK數(shù)據(jù)集還提供了不一致類別標(biāo)簽,同樣用分?jǐn)?shù)表示。我們測試了三個設(shè)置下的CoP,分別是不需要訓(xùn)練的Ours Zero-Shot、使用300條數(shù)據(jù)訓(xùn)練的Ours Few-Shot,以及使用1200條數(shù)據(jù)訓(xùn)練的Ours Full-Shot。
4.1無監(jiān)督下檢測不一致
如表2,3所示,我們統(tǒng)計了XSum Hallucination Annotations數(shù)據(jù)集每一個子集和數(shù)據(jù)集整體的F1。Ours Zero-Shot效果的效果相當(dāng)不錯,比起之前表現(xiàn)最好的模型BARTScore[2]提升了4.64,直觀的證明了利用prompt做額外推理去過濾無關(guān)偏好的有效性。即便是比起那些使用大量偽數(shù)據(jù)的方法,Ours Zero-Shot也相當(dāng)有競爭力,比DAE-Weak[7]提升了4.62。此外,在每一個數(shù)據(jù)子集上的穩(wěn)定提升證明了我們的模型有足夠的泛化能力來處理不同模型生成的摘要。
表2:在每一個數(shù)據(jù)子集上的F1(×100),*代表這個方法不需要訓(xùn)練
表3:數(shù)據(jù)集級別的F1(×100),*代表這個方法不需要訓(xùn)練
表4展示了在摘要級別上和人工標(biāo)注分?jǐn)?shù)的Pearson系數(shù),我們的模型在4個數(shù)據(jù)集上都取得了SOTA。值得注意的是,我們的模型在QAGS-XSUM和FRANK-XSUM上取得了更加顯著的提升,分別比BARTScore提升3.98和5.34。XSUM是一個更加抽象且含有更多噪音的數(shù)據(jù)集,在XSUM上取得顯著優(yōu)勢表明CoP能夠更好的分離語言知識偏好,專注于不一致的檢測。
表4:指標(biāo)評估和人工一致性分?jǐn)?shù)的摘要級別Pearson系數(shù)(×100)
4.2結(jié)合prompt tuning高效改進(jìn)性能
我們進(jìn)一步的在詞級別的不一致檢測任務(wù)上驗(yàn)證prompt tuning的有效性,結(jié)果如表2和表3所示。CoP僅僅使用300條真實(shí)數(shù)據(jù)就超過了使用2000條真實(shí)數(shù)據(jù)的DAE以及使用960k偽數(shù)據(jù)的DHC,達(dá)到了SOTA水平。這表明了CoP能夠更加有效的從少量數(shù)據(jù)中學(xué)習(xí)。當(dāng)標(biāo)記數(shù)據(jù)增多時,模型的性能也能進(jìn)一步提升。當(dāng)我們使用完整的1200條數(shù)據(jù)訓(xùn)練時,數(shù)據(jù)集級別的F1達(dá)到69.61,比表現(xiàn)很不錯的Zero-Shot進(jìn)一步提升9.24%。和使用2000條數(shù)據(jù)的DAE相比,CoP提升了4.61,展示了更高的學(xué)習(xí)效率。
4.3具體類別的事實(shí)不一致檢測
表5和表6的結(jié)果表明Our Base已經(jīng)超過了之前的工作,證明CoP不僅擅長檢測細(xì)粒度的不一致,也能夠很好的檢測具體類別的不一致錯誤,而CoP還可以通過設(shè)計和使用多樣的prompt進(jìn)一步的提升多種不一致類別的檢測結(jié)果。值得注意的是這個過程并不需要任何額外訓(xùn)練。
此外我們還注意到,當(dāng)我們的模型改進(jìn)特定不一致類別的檢測結(jié)果時,還影響了整體和OutE這兩種不一致類型。我們認(rèn)為這可能因?yàn)?1)EntE是一個相當(dāng)常見的錯誤,改進(jìn)這個類別會加強(qiáng)模型對整體不一致程度的評估。(2)各種不一致類別之間也存在聯(lián)系,比如EntE和OutE。當(dāng)模型無法很好的理解原文的實(shí)體時,它也很容易產(chǎn)生不在原文的不一致。我們在附錄里進(jìn)一步討論了不一致類別之間的關(guān)系。
表5:指標(biāo)評估和人工CorefE標(biāo)注分?jǐn)?shù)的Pearson系數(shù)(×100)
表6:指標(biāo)評估和人工EntE標(biāo)注分?jǐn)?shù)的Pearson系數(shù)(×100)
05、分析
5.1不同backbone上的魯棒性
我們在QAGS-CNN上測試了基于不同的backbone的CoP和baseline,結(jié)果于表7??梢钥吹皆诓煌琤ackbone上CoP保持了穩(wěn)定的優(yōu)勢,證明了其魯棒性。
表7:在不同Backbone上的表現(xiàn)
5.2靈活的prompt vector長度
作為第一篇在一致性領(lǐng)域結(jié)合prompt tuning的工作,我們也分析了prompt vector長度的影響。如圖4所示,隨著長度的增加,受益于更多可訓(xùn)練參數(shù)帶來的更強(qiáng)表達(dá)能力,模型的效果會逐漸提升。但和prefix tuning[5]類似的,超過閾值之后效果出現(xiàn)了一些下降,這可能是因?yàn)楦鄥?shù)帶來的過擬合數(shù)據(jù)噪音的風(fēng)險。比起先前的工作只能從一個固定大小的預(yù)訓(xùn)練模型開始訓(xùn)練,我們可以通過靈活調(diào)節(jié)參數(shù)量適應(yīng)實(shí)際應(yīng)用的不同數(shù)據(jù)規(guī)模。
圖4:prompt vector長度和數(shù)據(jù)集級別F1,兩個X軸對應(yīng)兩個訓(xùn)練設(shè)定
5.3 prompt tuning帶來更清晰的決策邊界
我們可視化了CoP預(yù)測的評估分?jǐn)?shù)于圖5??梢杂^察到在Zero-Shot下,分?jǐn)?shù)分布就存在區(qū)別,很直接的解釋了為什么CoP可以在無監(jiān)督環(huán)境下工作。而利用prompt tuning從微量數(shù)據(jù)中學(xué)習(xí)之后,分?jǐn)?shù)的分布呈現(xiàn)了更加清晰的邊界,極大的幫助CoP分辨出摘要的不一致。
圖5:標(biāo)準(zhǔn)化后的分?jǐn)?shù)分布,更高的分?jǐn)?shù)代表CoP認(rèn)為這個詞更可能是不一致
5.4高效的少量訓(xùn)練參數(shù)
可訓(xùn)練參數(shù)的規(guī)模極大影響訓(xùn)練效率以及所需顯存。在這個低資源任務(wù)中,之前的工作為了訓(xùn)練大模型,往往需要構(gòu)造大量偽數(shù)據(jù),增加了訓(xùn)練代價。偽數(shù)據(jù)和真實(shí)數(shù)據(jù)分布的差異,也導(dǎo)致了天然性能差距。我們比較CoP和之前工作的參數(shù)規(guī)模,結(jié)果顯示我們僅僅用了0.02%的參數(shù)就超過了之前的工作,展示了我們框架的高效性。
表8:不同方法的可訓(xùn)練參數(shù)規(guī)模
5.5樣例分析
表9:越高的分?jǐn)?shù)代表模型認(rèn)為摘要更一致(下劃線是詞級別不一致標(biāo)注)
我們展示了兩個測試集的例子。摘要1是事實(shí)一致的,但是存在生成冗余。對于那些不能很好過濾流暢性偏好的方法,生成冗余會誤導(dǎo)模型去認(rèn)為這個摘要不一致。顯然我們的方法給出了一個更合理的分?jǐn)?shù)。另一個例子則相反,相當(dāng)流暢且僅僅在一些核心詞語上出現(xiàn)了不一致錯誤。CoCo給了一個更高的分?jǐn)?shù),并不能發(fā)現(xiàn)不一致錯誤,CoP展現(xiàn)了更好檢測事實(shí)不一致的能力。
06、總結(jié)
在本篇工作中,我們提出了CoP,利用prompt來控制模型偏好,檢測事實(shí)不一致。通過分離無關(guān)偏好,CoP不需要訓(xùn)練就可以精確的檢測出事實(shí)不一致。此外CoP可以衡量特定類型的偏好并檢測出具體不一致類型。我們還探索了結(jié)合prompt tuning來高效的從少量真實(shí)數(shù)據(jù)中學(xué)習(xí)。CoP在三個不一致檢測任務(wù)上取得了SOTA結(jié)果,證明了我們方法的有效性。
審核編輯:郭婷
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122799
原文標(biāo)題:AAAI2023 | 通過控制偏好檢測事實(shí)不一致
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
CAN總線采樣點(diǎn)不一致的危害
采樣點(diǎn)不一致:總線通信的隱形殺手

AD7265的VB的引腳映射的順序與數(shù)據(jù)手冊的并不一致是怎么回事?
采用2片ADS8345采集多路傳感器信號得到的各個通道數(shù)據(jù)精度不一致,為什么?
ADS1293 DRDYB與讀數(shù)據(jù)的關(guān)系為什么與手冊描述的不一致?為什么?
HDJB-9000合并單元數(shù)模一體繼電保護(hù)綜合測試系統(tǒng)做三相不一致保護(hù)方法

評論