chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

小紅書搜索團隊研究新框架:負樣本在大模型蒸餾中的重要性

深度學(xué)習自然語言處理 ? 來源:小紅書技術(shù)REDtech ? 2024-01-30 10:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大語言模型(LLMs)在各種推理任務(wù)上表現(xiàn)優(yōu)異,但其黑盒屬性和龐大參數(shù)量阻礙了它在實踐中的廣泛應(yīng)用。特別是在處理復(fù)雜的數(shù)學(xué)問題時,LLMs 有時會產(chǎn)生錯誤的推理鏈。傳統(tǒng)研究方法僅從正樣本中遷移知識,而忽略了那些帶有錯誤答案的合成數(shù)據(jù)。

在 AAAI 2024 上,小紅書搜索算法團隊提出了一個創(chuàng)新框架,在蒸餾大模型推理能力的過程中充分利用負樣本知識。負樣本,即那些在推理過程中未能得出正確答案的數(shù)據(jù),雖常被視為無用,實則蘊含著寶貴的信息。

論文提出并驗證了負樣本在大模型蒸餾過程中的價值,構(gòu)建一個模型專業(yè)化框架:除了使用正樣本外,還充分利用負樣本來提煉 LLM 的知識。該框架包括三個序列化步驟,包括負向協(xié)助訓(xùn)練(NAT)、負向校準增強(NCE)動態(tài)自洽性(ASC),涵蓋從訓(xùn)練到推理的全階段過程。通過一系列廣泛的實驗,我們展示了負向數(shù)據(jù)在 LLM 知識蒸餾中的關(guān)鍵作用。

如今,在思維鏈(CoT)提示的幫助下,大語言模型(LLMs)展現(xiàn)出強大的推理能力。然而,思維鏈已被證明是千億級參數(shù)模型才具有的涌現(xiàn)能力。這些模型的繁重計算需求和高推理成本,阻礙了它們在資源受限場景中的應(yīng)用。因此,我們研究的目標是使小模型能夠進行復(fù)雜的算術(shù)推理,以便在實際應(yīng)用中進行大規(guī)模部署。

知識蒸餾提供了一種有效的方法,可以將 LLMs 的特定能力遷移到更小的模型中。這個過程也被稱為模型專業(yè)化(model specialization),它強制小模型專注于某些能力。先前的研究利用 LLMs 的上下文學(xué)習(ICL)來生成數(shù)學(xué)問題的推理路徑,將其作為訓(xùn)練數(shù)據(jù),有助于小模型獲得復(fù)雜推理能力。然而,這些研究只使用了生成的具有正確答案的推理路徑(即正樣本)作為訓(xùn)練樣本,忽略了在錯誤答案(即負樣本)的推理步驟中有價值的知識。

16b3e570-b6a2-11ee-8b88-92fbcf53809c.png

如圖所示,表 1 展示了一個有趣的現(xiàn)象:分別在正、負樣本數(shù)據(jù)上訓(xùn)練的模型,在 MATH 測試集上的準確答案重疊非常小。盡管負樣本訓(xùn)練的模型準確性較低,但它能夠解決一些正樣本模型無法正確回答的問題,這證實了負樣本中包含著寶貴的知識。此外,負樣本中的錯誤鏈路能夠幫助模型避免犯類似錯誤。另一個我們應(yīng)該利用負樣本的原因是 OpenAI 基于 token 的定價策略。即使是 GPT-4,在 MATH 數(shù)據(jù)集上的準確性也低于 50%,這意味著如果僅利用正樣本知識,大量的 token 會被浪費。因此,我們提出:相比于直接丟棄負樣本,更好的方式是從中提取和利用有價值的知識,以增強小模型的專業(yè)化。

模型專業(yè)化過程一般可以概括為三個步驟:

1)思維鏈蒸餾(Chain-of-Thought Distillation),使用 LLMs 生成的推理鏈訓(xùn)練小模型。

2)自我增強(Self-Enhancement),進行自蒸餾或數(shù)據(jù)自擴充,以進一步優(yōu)化模型。

3)自洽性(Self-Consistency)被廣泛用作一種有效的解碼策略,以提高推理任務(wù)中的模型性能。

在這項工作中,我們提出了一種新的模型專業(yè)化框架,該框架可以全方位利用負樣本,促進從 LLMs 提取復(fù)雜推理能力。

我們首先設(shè)計了負向協(xié)助訓(xùn)練(NAT)方法,其中 dual-LoRA 結(jié)構(gòu)被設(shè)計用于從正向、負向兩方面獲取知識。作為一個輔助模塊,負向 LoRA 的知識可以通過校正注意力機制,動態(tài)地整合到正向 LoRA 的訓(xùn)練過程中。

對于自我增強,我們設(shè)計了負向校準增強(NCE),它將負向輸出作為基線,以加強關(guān)鍵正向推理鏈路的蒸餾。

除了訓(xùn)練階段,我們還在推理過程中利用負向信息。傳統(tǒng)的自洽性方法將相等或基于概率的權(quán)重分配給所有候選輸出,導(dǎo)致投票出一些不可靠的答案。為了緩解該問題,提出了動態(tài)自洽性(ASC)方法,在投票前進行排序,其中排序模型在正負樣本上進行訓(xùn)練的。

我們提出的框架以 LLaMA 為基礎(chǔ)模型,主要包含三個部分,如圖所示:

步驟 1 :對負向 LoRA 進行訓(xùn)練,通過合并單元幫助學(xué)習正樣本的推理知識;

步驟 2 :利用負向 LoRA 作為基線來校準自我增強的過程;

步驟 3 :在正樣本和負樣本上訓(xùn)練排名模型,在推理過程中根據(jù)其得分,自適應(yīng)地對候選推理鏈路進行加權(quán)。

16c463dc-b6a2-11ee-8b88-92fbcf53809c.png

2.1負向協(xié)助訓(xùn)練(NAT)

我們提出了一個兩階段的負向協(xié)助訓(xùn)練(NAT)范式,分為負向知識吸收動態(tài)集成單元兩部分:

2.1.1負向知識吸收

通過在負數(shù)據(jù)上最大化以下期望,負樣本的知識被 LoRA 吸收。在這個過程中,LLaMA 的參數(shù)保持凍結(jié)。

16cf6124-b6a2-11ee-8b88-92fbcf53809c.png

2.1.2 動態(tài)集成單元

由于無法預(yù)先確定擅長哪些數(shù)學(xué)問題,我們設(shè)計了如下圖所示的動態(tài)集成單元,以便在學(xué)習正樣本知識的過程中,動態(tài)集成來自的知識:

16d3f16c-b6a2-11ee-8b88-92fbcf53809c.png

我們凍結(jié)以防止內(nèi)部知識被遺忘,并額外引入正 LoRA 模塊。理想情況下,我們應(yīng)該正向集成正負 LoRA 模塊(在每個 LLaMA 層中輸出表示為與),以補充正樣本中所缺乏但對應(yīng)所具有的有益知識。當 包含有害知識時,我們應(yīng)該對正負 LoRA 模塊進行負向集成,以幫助減少正樣本中可能的不良行為。

我們提出了一種糾正注意力機制來實現(xiàn)這一目標,如下所示:

16deeca2-b6a2-11ee-8b88-92fbcf53809c.png

16e2d27c-b6a2-11ee-8b88-92fbcf53809c.png

我們使用作為查詢來計算和的注意力權(quán)重。通過在添加校正項 [0.5;-0.5],的注意力權(quán)重被限制在 [-0.5,0.5] 的范圍內(nèi),從而實現(xiàn)了在正、負兩個方向上自適應(yīng)地集成來自的知識的效果。最終,和 LLaMA 層輸出的總和形成了動態(tài)集成單元的輸出。

2.2負向校準增強(NCE)

為了進一步增強模型的推理能力,我們提出了負校準增強(NCE),它使用負知識來幫助自我增強過程。我們首先使用 NAT 為中的每個問題生成對作為擴充樣本,并將它們補充到訓(xùn)練數(shù)據(jù)集中。對于自蒸餾部分,我們注意到一些樣本可能包含更關(guān)鍵的推理步驟,對提升模型的推理能力至關(guān)重要。我們的主要目標是確定這些關(guān)鍵的推理步驟,并在自蒸餾過程中加強對它們的學(xué)習。

考慮到 NAT 已經(jīng)包含了的有用知識,使得 NAT 比推理能力更強的因素,隱含在兩者之間不一致的推理鏈路中。因此,我們使用 KL 散度來測量這種不一致性,并最大化該公式的期望:

16ed82bc-b6a2-11ee-8b88-92fbcf53809c.png

16f7df64-b6a2-11ee-8b88-92fbcf53809c.png

16fb9190-b6a2-11ee-8b88-92fbcf53809c.png

β 值越大,表示兩者之間的差異越大,意味著該樣本包含更多關(guān)鍵知識。通過引入 β 來調(diào)整不同樣本的損失權(quán)重,NCE 將能夠選擇性地學(xué)習并增強 NAT 中嵌入的知識。

2.3動態(tài)自洽性(ASC)

自洽性(SC)對于進一步提高模型在復(fù)雜推理中的表現(xiàn)是有效的。然而,當前的方法要么為每個候選者分配相等的權(quán)重,要么簡單地基于生成概率分配權(quán)重。這些策略無法在投票階段根據(jù) (r?, y?) 的質(zhì)量調(diào)整候選權(quán)重,這可能會使正確候選項不易被選出。為此,我們提出了動態(tài)自洽性方法(ASC),它利用正負數(shù)據(jù)來訓(xùn)練排序模型,可以自適應(yīng)地重新配權(quán)候選推理鏈路。

2.3.1排序模型訓(xùn)練

理想情況下,我們希望排序模型為得出正確答案的推理鏈路分配更高的權(quán)重,反之亦然。因此,我們用以下方式構(gòu)造訓(xùn)練樣本:

16ff3c32-b6a2-11ee-8b88-92fbcf53809c.png

并使用 MSE loss 去訓(xùn)練排序模型:

170a0c52-b6a2-11ee-8b88-92fbcf53809c.png

2.3.2加權(quán)策略

我們將投票策略修改為以下公式,以實現(xiàn)自適應(yīng)地重新加權(quán)候選推理鏈路的目標:

17313c5a-b6a2-11ee-8b88-92fbcf53809c.png

下圖展示了 ASC 策略的流程:

173845ea-b6a2-11ee-8b88-92fbcf53809c.png

從知識遷移的角度來看,ASC 實現(xiàn)了對來自 LLMs 的知識(正向和負向)的進一步利用,以幫助小模型獲得更好的性能。

本研究專注于具有挑戰(zhàn)性的數(shù)學(xué)推理數(shù)據(jù)集 MATH,該數(shù)據(jù)集共有 12500 個問題,涉及七個不同的科目。此外,我們還引入了以下四個數(shù)據(jù)集來評估所提出的框架對分布外(OOD)數(shù)據(jù)的泛化能力:GSM8K、ASDiv、MultiArith和SVAMP。

對于教師模型,我們使用 Open AI 的 gpt-3.5-turbo 和 gpt-4 API來生成推理鏈。對于學(xué)生模型,我們選擇 LLaMA-7b。

在我們的研究中有兩種主要類型的基線:一種為大語言模型(LLMs),另一種則基于 LLaMA-7b。對于 LLMs,我們將其與兩種流行的模型進行比較:GPT3 和 PaLM。對于 LLaMA-7b,我們首先提供我們的方法與三種設(shè)置進行比較:Few-shot、Fine-tune(在原始訓(xùn)練樣本上)、CoT KD(思維鏈蒸餾)。在從負向角度學(xué)習方面,還將包括四種基線方法:MIX(直接用正向和負向數(shù)據(jù)的混合物訓(xùn)練 LLaMA)、CL(對比學(xué)習)、NT(負訓(xùn)練)和 UL(非似然損失)。

3.1 NAT 實驗結(jié)果

所有的方法都使用了貪婪搜索(即溫度 = 0),NAT 的實驗結(jié)果如圖所示,表明所提出的 NAT 方法在所有基線上都提高了任務(wù)準確性。

從 GPT3 和 PaLM 的低值可以看出,MATH 是一個非常困難的數(shù)學(xué)數(shù)據(jù)集,但 NAT 仍然能夠在參數(shù)極少的情況下表現(xiàn)突出。與在原始數(shù)據(jù)上進行微調(diào)相比,NAT 在兩種不同的 CoT 來源下實現(xiàn)了約 75.75% 的提升。與 CoT KD 在正樣本上的比較,NAT 也顯著提高了準確性,展示了負樣本的價值。

對于利用負向信息基線,MIX 的低性能表明直接訓(xùn)練負樣本會使模型效果很差。其他方法也大多不如 NAT,這表明在復(fù)雜推理任務(wù)中僅在負方向上使用負樣本是不夠的。

1746311e-b6a2-11ee-8b88-92fbcf53809c.png

3.2 NCE 實驗結(jié)果

如圖所示,與知識蒸餾(KD)相比,NCE 實現(xiàn)了平均 10%(0.66) 的進步,這證明了利用負樣本提供的校準信息進行蒸餾的有效性。與 NAT 相比,盡管 NCE 減少了一些參數(shù),但它依然有 6.5% 的進步,實現(xiàn)壓縮模型并提高性能的目的。

174a1784-b6a2-11ee-8b88-92fbcf53809c.png

3.3 ASC 實驗結(jié)果

為了評估 ASC,我們將其與基礎(chǔ) SC 和 加權(quán)(WS)SC 進行比較,使用采樣溫度 T = 1 生成了 16 個樣本。如圖所示,結(jié)果表明,ASC 從不同樣本聚合答案,是一種更有前景的策略。

175627ea-b6a2-11ee-8b88-92fbcf53809c.png

3.4 泛化性實驗結(jié)果

除了 MATH 數(shù)據(jù)集,我們評估了框架在其他數(shù)學(xué)推理任務(wù)上的泛化能力,實驗結(jié)果如下。

176174ec-b6a2-11ee-8b88-92fbcf53809c.png

本項工作探討了利用負樣本從大語言模型中提煉復(fù)雜推理能力,遷移到專業(yè)化小模型的有效性。小紅書搜索算法團隊提出了一個全新的框架,由三個序列化步驟組成,并在模型專業(yè)化的整個過程中充分利用負向信息。負向協(xié)助訓(xùn)練(NAT)可以從兩個角度提供更全面地利用負向信息的方法。負向校準增強(NCE)能夠校準自蒸餾過程,使其更有針對性地掌握關(guān)鍵知識。基于兩種觀點訓(xùn)練的排序模型可以為答案聚合分配更適當?shù)臋?quán)重,以實現(xiàn)動態(tài)自洽性(ASC)。大量實驗表明,我們的框架可以通過生成的負樣本來提高提煉推理能力的有效性。

作者:

李易為:

現(xiàn)博士就讀于北京理工大學(xué),小紅書社區(qū)搜索實習生,在 AAAI、ACL、EMNLP、NAACL、NeurIPS、KBS 等機器學(xué)習、自然語言處理領(lǐng)域頂級會議/期刊上發(fā)表數(shù)篇論文,主要研究方向為大語言模型蒸餾與推理、開放域?qū)υ捝傻取?/p>

袁沛文:

現(xiàn)博士就讀于北京理工大學(xué),小紅書社區(qū)搜索實習生,在 NeurIPS、AAAI 等發(fā)表多篇一作論文,曾獲 DSTC11 Track 4 第二名。主要研究方向為大語言模型推理與評測。

馮少雄:

負責小紅書社區(qū)搜索向量召回。在 AAAI、EMNLP、ACL、NAACL、KBS 等機器學(xué)習、自然語言處理領(lǐng)域頂級會議/期刊上發(fā)表數(shù)篇論文。

道玄(潘博遠):

小紅書交易搜索負責人。在NeurIPS、ICML、ACL 等機器學(xué)習和自然語言處理領(lǐng)域頂級會議上發(fā)表數(shù)篇一作論文,在斯坦福機器閱讀競賽 SQuAD 排行榜上獲得第二名,在斯坦福自然語言推理排行榜上獲得第一名。

曾書(曾書書):

小紅書社區(qū)搜索語義理解與召回方向負責人。碩士畢業(yè)于清華大學(xué)電子系,在互聯(lián)網(wǎng)領(lǐng)域先后從事自然語言處理、推薦、搜索等相關(guān)方向的算法工作。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4759

    瀏覽量

    97115
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1238

    瀏覽量

    9794
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3435

    瀏覽量

    4958
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    340

    瀏覽量

    1256

原文標題:小紅書搜索團隊提出全新框架:驗證負樣本對大模型蒸餾的價值

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    傳感器EMC的重要性研究進展

      摘要:針對現(xiàn)代信息技術(shù)對傳感器穩(wěn)定性、靈敏及精確度要求日益提高,以及日益復(fù)雜電磁環(huán)境下傳感器面臨的電磁兼容性問題,論述傳感器電磁兼容內(nèi)涵及特點,指出目前開展傳感器電磁兼容研究
    發(fā)表于 11-05 15:51

    代碼規(guī)范的重要性是什么

    論代碼規(guī)范的重要性
    發(fā)表于 05-19 13:07

    傳感器波形分析汽車故障診斷重要性

    傳感器波形分析汽車故障診斷重要性
    發(fā)表于 05-12 06:27

    電機位置信號的重要性

    電機位置信號的重要性永磁同步電機FOC控制算法,需要用到一個非常重要的物理量是電機的位置信號。這個位置信號到底有多重要呢?還是用數(shù)據(jù)來說
    發(fā)表于 08-27 07:36

    arm匯編的重要性是什么?

    arm匯編的重要性是什么?
    發(fā)表于 11-30 08:03

    討論紋理分析圖像分類重要性及其深度學(xué)習中使用紋理分析

    紋理就能被更準確地捕捉和分類?! ?b class='flag-5'>在基于紋理的分類任務(wù)重,紋理分析對于深度學(xué)習的重要性  由于紋理基于局部模式,而傳統(tǒng)的深度學(xué)習方法強調(diào)復(fù)雜的特征,對紋理分類沒有幫助,因此,傳統(tǒng)的CNN架構(gòu)不能很好
    發(fā)表于 10-26 16:57

    電磁勢量子理論重要性

    電磁勢量子理論重要性:Significance of Electromagnetic Potentials in the Quantum Theory
    發(fā)表于 11-27 13:01 ?10次下載

    知乎搜索中文本相關(guān)和知識蒸餾的工作實踐

    方案 知乎搜索BERT蒸餾上的實踐 01 知乎搜索文本相關(guān)的演進 1. 文本相關(guān)的演進 我
    的頭像 發(fā)表于 01-18 17:20 ?3348次閱讀
    知乎<b class='flag-5'>搜索</b>中文本相關(guān)<b class='flag-5'>性</b>和知識<b class='flag-5'>蒸餾</b>的工作實踐

    壓敏電阻電源電路的應(yīng)用及重要性綜述

    壓敏電阻電源電路的應(yīng)用及重要性綜述
    發(fā)表于 05-25 11:33 ?13次下載

    基于變量依賴關(guān)系模型的變量重要性度量綜述

    基于變量依賴關(guān)系模型的變量重要性度量綜述
    發(fā)表于 07-02 14:44 ?0次下載

    雙塔模型擴量樣本的方法比較

    雙塔模型訓(xùn)練時是對一個batch內(nèi)樣本訓(xùn)練。一個batch內(nèi)每個樣本 (user和item對)為正樣本,該user與batch內(nèi)其它ite
    的頭像 發(fā)表于 07-08 10:57 ?1827次閱讀

    關(guān)于快速知識蒸餾的視覺框架

    知識蒸餾框架包含了一個預(yù)訓(xùn)練好的 teacher 模型蒸餾過程權(quán)重固定),和一個待學(xué)習的 student 模型, teacher 用來產(chǎn)生
    的頭像 發(fā)表于 08-31 10:13 ?1446次閱讀

    ChatGPT:AI模型框架研究

      一、AI框架重要性日益突顯,框架技術(shù)發(fā)展進入繁榮期,國內(nèi)AI框架技術(shù)加速發(fā)展:  1、AI框架作為銜接數(shù)據(jù)和
    發(fā)表于 03-29 17:06 ?9次下載

    借助小紅電商 API,小紅書店鋪商品搜索曝光率提升

    競爭激烈的小紅電商生態(tài),商品搜索曝光率直接決定了店鋪的流量與轉(zhuǎn)化。通過合理運用 小紅
    的頭像 發(fā)表于 08-28 15:41 ?452次閱讀

    小紅電商 API 實現(xiàn)小紅書店鋪商品用戶畫像精準構(gòu)建

    ,并基于算法模型構(gòu)建高精度用戶畫像。本文將逐步解釋如何實現(xiàn)這一過程,確保結(jié)構(gòu)清晰、方法可靠。 1. 用戶畫像的重要性與 API 基礎(chǔ) 用戶畫像是對用戶特征的抽象描述,包括年齡、性別、興趣偏好、消費習慣等。精準的畫像能幫助店鋪:
    的頭像 發(fā)表于 08-28 15:57 ?402次閱讀
    用<b class='flag-5'>小紅</b><b class='flag-5'>書</b>電商 API 實現(xiàn)<b class='flag-5'>小紅</b>書店鋪商品用戶畫像精準構(gòu)建