揭秘大語言模型可信能力的五個關(guān)鍵維度

It's not the pre-trained, it's the pre-training.

大模型的通用訓(xùn)練流程 [1] ? ? ? ? ?

在大語言模型（Large Language Models，LLMs）的訓(xùn)練過程中，預(yù)訓(xùn)練階段消耗了大量資源，也充滿了太多未被揭開的秘密。根據(jù)OpenAI的研究，InstructGPT在預(yù)訓(xùn)練階段幾乎使用了所有的計算和數(shù)據(jù)資源（高達(dá)98%） [2]。有監(jiān)督微調(diào)（Supervised fine-tuning，SFT）和人類反饋強(qiáng)化學(xué)習(xí)（Reinforment Learning Human Feedback，RLHF）能夠激活預(yù)訓(xùn)練模型內(nèi)部已存在的能力，而這些能力僅僅通過提示工程難以發(fā)掘。但是，預(yù)訓(xùn)練的價值遠(yuǎn)不止于此，它像一個充滿潛力的神秘盒子，等待我們?nèi)ヌ剿髌涓顚哟蔚膬r值和隱藏的機(jī)制。 ? ? ? ? ??

預(yù)訓(xùn)練模型就像一個未加控制的野獸，神秘而強(qiáng)大。通過高質(zhì)量數(shù)據(jù)進(jìn)行微調(diào)，我們可以使這個野獸適應(yīng)社會的需要；隨后通過RLHF進(jìn)一步完善，模型更加貼近用戶的具體需求。對齊技術(shù)如SFT和RLHF等，可以被看作是對這個野獸的馴化。但目標(biāo)不止如此，我們更希望深入了解它，探究使得LLMs展現(xiàn)出其獨特能力的根本過程--The Pre-training。大部分開源LLMs僅提供模型權(quán)重和性能測試的結(jié)果，但是要真正理解一個模型的行為，需要更多的信息。LLM360 [4] 和 OLMo [5] 的全面開源為研究者和社區(qū)提供了全面和深入的信息共享，涵蓋了訓(xùn)練數(shù)據(jù)、算法設(shè)置、實現(xiàn)挑戰(zhàn)以及性能評估的細(xì)節(jié)，極大地增加了LLMs預(yù)訓(xùn)練過程的透明度，幫助我們理解這些LLMs的工作原理。我們都想知道這個問題的答案，人類可以信任LLMs嗎？作為一個觀察者，我們嘗試從預(yù)訓(xùn)練階段來窺探這個龐然大物。我們致力于理解LLMs在預(yù)訓(xùn)練階段是如何建?？尚牛═rustworthiness）的，并基于這個理解，探索預(yù)訓(xùn)練階段是否能為增強(qiáng)LLMs的可信提供指導(dǎo)。? ??

論文標(biāo)題：Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models 論文鏈接：https://arxiv.org/abs/2402.19465 項目主頁：https://github.com/ChnQ/TracingLLM

在此工作中，我們首次給出了如下幾個觀察： ?我們發(fā)現(xiàn)LLMs在預(yù)訓(xùn)練的早期階段就建立了有關(guān)可信概念的線性表征； ?我們發(fā)現(xiàn)預(yù)訓(xùn)練過程中，LLMs表現(xiàn)出對于可信概念類似于“信息瓶頸”先擬合、再壓縮的學(xué)習(xí)過程； ?我們基于表征干預(yù)技術(shù)，初步驗證了LLMs在預(yù)訓(xùn)練過程中的切片可以幫助提升最終LLMs的可信性。

簡介LLM360 在本文的研究過程中，我們使用了 LLM360[4] 開源項目所提供的豐富LLM預(yù)訓(xùn)練資源。該項目基于1.3萬億 Tokens預(yù)訓(xùn)練出了基礎(chǔ)模型Amber，并均勻地開源了預(yù)訓(xùn)練過程中的360個模型切片，供廣大研究者參考和使用。此外，LLM360進(jìn)一步推出了兩個微調(diào)模型：一是針對指令微調(diào)優(yōu)化的AmberChat模型，二是經(jīng)過安全對齊處理的AmberS afe模型。上述提及的所有模型以及切片均為7B規(guī)模的參數(shù)量級。

1 預(yù)訓(xùn)練過程中有關(guān)可信概念的線性表征

數(shù)據(jù)集：本文主要探究可信領(lǐng)域下的五個關(guān)鍵維度：可靠性（reliability）、毒性（toxicity）、隱私性（privacy）、公平性（fairness）和魯棒性（robustness）。為了深入研究這些維度，我們分別選取了這五個維度下具有代表性的相關(guān)數(shù)據(jù)集：TruthfulQA、Toxicity、ConfAIde、StereoSet以及經(jīng)過特定擾動處理的SST-2。我們根據(jù)原數(shù)據(jù)集的設(shè)定，對每個樣本進(jìn)行標(biāo)注，以標(biāo)識每句話是否包含不正確、有毒、隱私泄露、有歧視和被擾動的信息。實驗設(shè)置：本文采用線性探針方法 [6]。具體地，在得到360個切片對于每個數(shù)據(jù)集的表征以后，我們對于每個切片的每一層都訓(xùn)練一個線性分類器，線性分類器的正確率代表著模型內(nèi)部表征區(qū)分不同標(biāo)簽的能力。前75個切片實驗效果如下：從第76個到360的切片的實驗結(jié)果請移步正文附錄，實驗趨勢大體相同，基本趨于平緩的波動。實驗結(jié)果說明兩點： ?隨著預(yù)訓(xùn)練的進(jìn)行，在這五個可信維度上，大模型中間層的表征可以很好地區(qū)分是否可信 ? ? ?大模型在預(yù)訓(xùn)練的早期階段就已經(jīng)可以很好地區(qū)分是否可信

2 信息瓶頸視角下有關(guān)可信概念的預(yù)訓(xùn)練動態(tài) 已有理論結(jié)果 [7] 證明線性探針的準(zhǔn)確率可以用來界定互信息估計器。受到利用互信息來探測模型訓(xùn)練動態(tài)的啟發(fā) [8]，本文也利用互信息對模型表征的動態(tài)變化做了初步探索。類似 [8] 用信息平面研究傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程，我們分別研究模型表征T與上面五個原始數(shù)據(jù)集X的互信息，和模型表征T與數(shù)據(jù)集標(biāo)簽Y的互信息。實驗結(jié)果如下：后續(xù)預(yù)訓(xùn)練過程的變化趨勢見附錄，幾乎保持平緩的波動。分開看這兩張圖，T和X的互信息先上升后下降，而T和Y的互信息一直在上升。把它們合起來看，這個趨勢與經(jīng)典論文 [8] 中的“fitting”和“compression”兩階段相符：首先，當(dāng)大語言模型隨機(jī)初始化時，它不具備保留信息的能力，因此互信息幾乎為0；接著，隨著預(yù)訓(xùn)練的進(jìn)行，大模型逐漸具備語言理解和概念建模的能力，因此互信息持續(xù)增長；最后，隨著預(yù)訓(xùn)練的進(jìn)一步進(jìn)行，大模型逐漸學(xué)會提取壓縮無關(guān)信息并提取有效信息，因此T和X的互信息降低，而T和Y的互信息繼續(xù)增加。從互信息的角度，這是一個很有趣的發(fā)現(xiàn)。即使定義和實驗設(shè)置不同，預(yù)訓(xùn)練大語言模型和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)，兩者的預(yù)訓(xùn)練階段都能分為“fitting”和“compression”兩個階段，這暗示著大模型和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中可能存在的一些相似之處。總體來看，據(jù)我們所知，本文首次研究大模型在預(yù)訓(xùn)練過程中可信性概念建模的變化情況，我們希望我們的初步探索能幫助領(lǐng)域內(nèi)的研究者更深入地理解大模型的預(yù)訓(xùn)練過程，啟發(fā)大家用新方法幫助大模型變得更加可信。

3 基于引導(dǎo)向量的表征干預(yù)：預(yù)訓(xùn)練知識如何助力模型可信能力提升

3.1 Activation Intervention 我們觀察到，既然LLMs在其預(yù)訓(xùn)練階段就已經(jīng)學(xué)習(xí)到了有關(guān)可信概念線性可分的表征，那么不同于現(xiàn)在的大多數(shù)技術(shù)如SFT，RLHF等在完成預(yù)訓(xùn)練的模型上進(jìn)一步優(yōu)化，一個很自然的想法是：LLMs在預(yù)訓(xùn)練過程中的切片能不能幫助指令微調(diào)模型進(jìn)行alignment呢？我們基于表征干預(yù)的技術(shù)（Activation Intervention），給予該問題初步的肯定的回答。

表征干預(yù)是LLMs領(lǐng)域中一個正在快速興起的技術(shù)，已被多個場景下驗證有效 [9-10]。我們以如何讓LLMs變得更“Truthful”為例 [9]，簡要闡述表征干預(yù)技術(shù)的基本流程。 1.首先，我們分別使用涵蓋真實與虛假信息的正負(fù)prompt對來刺激LLMs獲得其對應(yīng)的內(nèi)部表征 2.然后對正負(fù)表征的質(zhì)心作差獲得“指向truthfulness方向的引導(dǎo)向量（steering vector）” 3.最后在LLMs前向推理時每一步產(chǎn)生的表征上加上該引導(dǎo)向量，達(dá)到干預(yù)輸出的目的

不同于上述工作從待干預(yù)模型自身抽取引導(dǎo)向量，我們意在從LLMs預(yù)訓(xùn)練過程的切片中構(gòu)建引導(dǎo)向量來干預(yù)指令微調(diào)模型（SFT Model），試圖提升指令微調(diào)模型的可信能力，如下圖所示。 ? ? 其中，我們使用北京大學(xué)團(tuán)隊 [11] 開源的PKU-RLHF-10K數(shù)據(jù)集 [12] 來構(gòu)建正負(fù)prompt對，該數(shù)據(jù)集提供了一萬條帶有安全/非安全回復(fù)標(biāo)注的對話數(shù)據(jù)，可用于大模型的 RLHF 訓(xùn)練。 3.2 實驗結(jié)果分析

我們在上文提及的可信領(lǐng)域下五個維度的數(shù)據(jù)集（TruthfulQA，Toxigen，StereoSet，ConfAIde，SST-2），以及四個常用的大模型通用能力評測數(shù)據(jù)集（MMLU，ARC，RACE，MathQA）上，評測了四個模型的性能：指令微調(diào)模型AmberChat，安全對齊模型AmberSafe，使用來自AmberChat自身的steering vector干預(yù)后的AmberChat，使用來自第180個預(yù)訓(xùn)練切片的steering vector干預(yù)后的AmberChat。 ? ?

實驗結(jié)果表明，在使用來自預(yù)訓(xùn)練切片的steering vector干預(yù)SFT模型（AmberChat）表征后，在三個可信維度（Reliability：TruthfulQA，Toxicity：Toxigen，F(xiàn)airness：StereoSet）上都有較明顯的提升。同時，這種干預(yù)對模型通用能力的影響并不顯著（在ARC，MMLU上表現(xiàn)出邊際損失，在MathQA和RACE上表現(xiàn)出有邊際提升）。令人驚訝的是，我們發(fā)現(xiàn)使用預(yù)訓(xùn)練的中間切片構(gòu)建的steering vector，相比于來自AmberChat自身的引導(dǎo)向量，能更顯著地提升AmberChat模型的可信性能。

4 小結(jié)

未來，當(dāng)我們嘗試對齊比人類更強(qiáng)大的模型時（super-alignment），依賴于“人類反饋”的相關(guān)微調(diào)技術(shù)，如RLHF等，或?qū)⒉辉僮嘈?[13-14]。為了應(yīng)對這一可能的挑戰(zhàn)，多個研究機(jī)構(gòu)正在探索新的解決方案。例如，近期OpenAI提出“弱對強(qiáng)監(jiān)督”方法 [13]，Meta提出“self-reward”機(jī)制 [14]，同時也有越來越多的研究聚焦于“self-alignment”研究方向的探索 [15-16]。我們的研究為解決類似的super-alignment問題提供了一個新的視角：利用LLMs在預(yù)訓(xùn)練過程中習(xí)得的知識來輔助最終的模型對齊。作為研究的起點，我們深入探究預(yù)訓(xùn)練過程中如何建模有關(guān)可信的概念?？上驳氖牵剿鞒跻姵尚В?）我們發(fā)現(xiàn)大模型在預(yù)訓(xùn)練的早期階段就建立了有關(guān)可信概念的線性表征 2）我們發(fā)現(xiàn)大模型對可信概念類似于信息瓶頸的學(xué)習(xí)過程。此外，表征干預(yù)技術(shù)的成功應(yīng)用也初步驗證了預(yù)訓(xùn)練中間切片對輔助模型對齊的有效性。我們希望這份工作能夠為深入理解LLMs如何動態(tài)構(gòu)建及發(fā)展其內(nèi)在可信屬性提供新的視角，并啟迪未來在LLMs對齊技術(shù)領(lǐng)域的更多創(chuàng)新嘗試。我們期待這些研究成果能進(jìn)一步推動大模型朝著更可信、更可控的方向發(fā)展，從而在人工智能倫理與安全道路上邁出堅實的一步。

參考文獻(xiàn)

[1] https://huyenchip.com/2023/05/02/rlhf.html ? ?

[2] https://openai.com/research/instruction-following

[3] twitter.com/anthrupad

[4] Liu, Z., Qiao, A., Neiswanger, W., Wang, H., Tan, B., Tao, T., ... & Xing, E. P. (2023). Llm360: Towards fully transparent open-source llms. arXiv preprint arXiv:2312.06550.

[5] Groeneveld, D., Beltagy, I., Walsh, P., Bhagia, A., Kinney, R., Tafjord, O., ... & Hajishirzi, H. (2024). OLMo: Accelerating the Science of Language Models. arXiv preprint arXiv:2402.00838.

[6] Belinkov, Y. (2022). Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics, 48(1), 207-219.

[7] Choi, K., Jung, J. W., & Watanabe, S. (2023). Understanding Probe Behaviors through Variational Bounds of Mutual Information. arXiv preprint arXiv:2312.10019.

[8] Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.

[9] Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2024). Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36.

[10] Turner, A., Thiergart, L., Udell, D., Leech, G., Mini, U., & MacDiarmid, M. (2023). Activation addition: Steering language models without optimization. arXiv preprint arXiv:2308.10248.

[11] Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., ... & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.

[12] https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K

[13] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., ... & Wu, J. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.

[14] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., & Weston, J. (2024). Self-rewarding language models. arXiv preprint arXiv:2401.10020.

[15] Sun, Z., Shen, Y., Zhou, Q., Zhang, H., Chen, Z., Cox, D., ... & Gan, C. (2024). Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.

[16] Li, X., Yu, P., Zhou, C., Schick, T., Levy, O., Zettlemoyer, L., ... & Lewis, M. (2023, October). Self-Alignment with Instruction Backtranslation. In The Twelfth International Conference on Learning Representations.

審核編輯：黃飛

閱讀全文

線性分類器(1547) 線性分類器(1547)
大模型(5063) 大模型(5063)

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

揭秘大語言模型可信能力的五個關(guān)鍵維度

評論