正在播放无码爆乳中出在线,av首页中文,亚洲精品制服丝袜四区

在追求人工智能極限的道路上，"更大即更強" 似乎已成為共識。特別是在數(shù)學推理這一被視為 AI 終極挑戰(zhàn)的領域，業(yè)界普遍認為需要海量數(shù)據(jù)和復雜的強化學習才能獲得突破。

然而，來自上海交通大學的最新研究卻給出了一個令人震驚的答案：僅需 817 條精心設計的樣本，就能讓模型在數(shù)學競賽級別的題目上超越當前許多最先進模型。這一發(fā)現(xiàn)不僅挑戰(zhàn)了傳統(tǒng)認知，更揭示了一個可能被我們忽視的事實：大模型的數(shù)學能力或許一直都在，關鍵在于如何喚醒它。

論文標題：LIMO: Less is More for Reasoning

論文鏈接：

https://arxiv.org/pdf/2502.03387

代碼鏈接：

https://github.com/GAIR-NLP/LIMO

數(shù)據(jù)集鏈接：

https://huggingface.co/datasets/GAIR/LIMO

模型鏈接：

https://huggingface.co/GAIR/LIMO

從規(guī)模競賽到范式創(chuàng)新

繼 OpenAI 推出 o1 系列、打響推理能力競賽的第一槍后，DeepSeek-R1 以驚人的數(shù)學推理能力震撼業(yè)界，引發(fā)全球復現(xiàn)狂潮。各大公司和研究機構紛紛遵循同一范式：用更龐大的數(shù)據(jù)集，結合更復雜的強化學習（RL）算法，試圖 “教會” 模型如何推理。

如果把經(jīng)過充分預訓練的大語言模型比作一名天賦異稟的學生，那么主流的 RL Scaling 方法就像是不停地訓練、獎懲這位學生，直到他能解出各種復雜數(shù)學題。這一策略無疑帶來了顯著成效 —— 從 Claude 到 GPT-4，從 o1-preview 到 DeepSeek-R1，每一次性能躍升的背后，都是訓練數(shù)據(jù)規(guī)模的指數(shù)級增長和強化學習算法的持續(xù)優(yōu)化。

然而，在這場看似無休止的數(shù)據(jù)競賽中，上海交通大學的研究團隊卻提出了一個發(fā)人深省的問題：如果這位 “學生” 在預訓練階段已掌握了所有必要的知識，我們真的需要龐大數(shù)據(jù)集來重新訓練他嗎？還是只需精妙的引導，就能激活他的潛在能力？

他們的最新研究 LIMO（Less Is More for Reasoning）給出了令人震撼的答案：僅用 817 條精心設計的訓練樣本，借助簡單的監(jiān)督微調，LIMO 就全面超越了使用十萬量級數(shù)據(jù)訓練的主流模型，包括 o1-preview 和 QwQ 等頂級選手。

這一 “少即是多” 的現(xiàn)象，不僅挑戰(zhàn)了 “更大數(shù)據(jù) = 更強推理” 的傳統(tǒng)認知，更揭示了一個可能被忽視的事實：在 AI 推理能力的突破中，方向可能比力量更重要。

實驗結果無可辯駁地印證了這一點。在競賽級別的美國數(shù)學競賽邀請賽（AIME）測試中，相比傳統(tǒng)方法（以 Numina-Math 為例），LIMO 的準確率從 6.5% 飆升至 57.1%。

更令人驚訝的是 LIMO 的泛化能力：在 10 個不同的基準測試上，它實現(xiàn)了 40.5% 的絕對性能提升，超越了使用 100 倍數(shù)據(jù)訓練的模型。這一突破直接挑戰(zhàn)了 “監(jiān)督式微調主要導致記憶而非泛化” 的傳統(tǒng)觀點，證明了高質量、小規(guī)模的數(shù)據(jù)，遠比低效的海量訓練更能激發(fā) LLM 的真正推理能力。

▲相比使用 10 萬條數(shù)據(jù)的 NuminaMath，LIMO 在使用不到 1% 的數(shù)據(jù)就取得了顯著的進步，并在各種數(shù)學和多學科基準測試中表現(xiàn)出色。

Less is More：從對齊到推理的跨越

自 2023 年 LIMA（Less Is More for Alignment）提出以來，業(yè)界逐漸意識到，在對齊（alignment）任務上，“少即是多” 并非一句空話。LIMA 僅用 1000 條高質量數(shù)據(jù)，就讓大語言模型學會了如何生成符合人類偏好的對話。這個發(fā)現(xiàn)顛覆了 "模型訓練需要海量數(shù)據(jù)" 的傳統(tǒng)認知。然而，將這一理念擴展到數(shù)學推理領域卻面臨著獨特的挑戰(zhàn)。與簡單的對話格式不同，數(shù)學推理被認為是一項需要大量練習和訓練才能掌握的復雜認知技能。這就像是教一個學生解題：教會他用禮貌的語氣說話，和教會他解決復雜的數(shù)學問題，難度顯然不可同日而語。因此，一個關鍵問題是：少即是多（Less is More）原則能否適用于推理？ LIMO 的研究給出了肯定的答案，并揭示了實現(xiàn)這一突破的兩個核心前提：

第一，知識基礎革命（Knowledge Foundation Revolution）。近年來，大模型在預訓練階段已納入海量數(shù)學知識。例如，比起全領域訓練數(shù)據(jù)只有 1.8T 的 Llama2，Llama 3 僅在數(shù)學推理上的訓練數(shù)據(jù)就高達 3.7 萬億 token，這意味著現(xiàn)代 LLM 早已 “知道” 大量數(shù)學知識，關鍵是如何 “喚醒” 它們。

第二，推理計算革命（Inference-time Computation Scaling Revolution）。最新研究表明，推理鏈（chain-of-thought, CoT）的長度，與模型的推理能力密切相關。與其在訓練階段硬灌大規(guī)模監(jiān)督數(shù)據(jù)，不如在推理階段提供更優(yōu)質的問題和示范，讓模型自主展開深入思考。

基于這兩點，LIMO 團隊提出了一個全新的理論視角：大模型的推理能力本質上是 "潛伏" 的而非 "缺失" 的。傳統(tǒng)的 RL Scaling 方法在嘗試 "訓練" 模型獲得新能力，而 LIMO 則專注于如何有效地 "激活" 模型本就具備的能力。正是建立在這兩大基礎之上，研究人員提出了 LIMO 假說：

在知識基礎已足夠完善的情況下，僅需少量高質量示例，就能通過推理鏈激活模型的潛在推理能力，而無需海量數(shù)據(jù)。

如果模型在預訓練階段已經(jīng)獲得了豐富的數(shù)學知識，那么我們或許只需要用少量但精心設計的例子，來 "喚醒" 這些沉睡的能力。這就像是在教導一個已經(jīng)掌握了所有必要知識，卻不知如何有效運用這些知識的學生。

▲LIMA vs LIMO: “少即是多”現(xiàn)象的比較分析

LIMO vs. RL Scaling：兩種推理范式的碰撞

強化學習擴展（RL Scaling）

以 OpenAI 的 o1 系列和 DeepSeek-R1 為例，RL Scaling 方法通常試圖通過大規(guī)模的強化學習訓練來增強模型的推理能力。這種方法通常依賴于海量數(shù)據(jù)及復雜的算法，雖然在某些任務上取得了顯著成效，但亦有局限：它將推理能力的提升視為一個需要大量計算資源的“搜索”過程。

LIMO 的新視角

與之相對，LIMO（Less Is More for Reasoning）提出了一個不同的理論框架，認為推理能力潛藏于預訓練模型中，關鍵在于如何通過精確的認知模板來激發(fā)這些內在能力。這一轉變將研究重點從“訓練新能力”轉向“激活潛在能力”，強調了方向的重要性。

LIMO 的核心假設是，在知識基礎已經(jīng)足夠完善的情況下，利用少量高質量的示例就能夠激活模型的潛在推理能力。這一理論不僅重新定義了 RL Scaling 的位置，將其視為尋找最優(yōu)推理軌跡的一種手段，更為整個領域的研究提供了新的思考框架。

研究意義

在當下，以 DeepSeek-R1 為代表的 RL Scaling 方法逐漸成為主流，LIMO 研究的意義則在于提供了一個更加本質的視角：大模型的推理能力本身是內在存在的，關鍵挑戰(zhàn)在于如何找到最優(yōu)的激活路徑。

這一洞察不僅重新定義了 RL Scaling，將其視為尋找最優(yōu)推理軌跡的一種實現(xiàn)方式，更重要的是，它引領了一種全新的研究范式——從“訓練新能力”轉向“激活潛在能力”。這一轉變不僅加深了我們對大模型推理能力的理解，也為更高效的能力激活方法提供了明確的方向。

LIMO 和 RL Scaling 的對比，揭示了推理能力提升的不同路徑與思路。LIMO 提供了更為根本的理解，指明了未來研究的方向：不再是無止境的數(shù)據(jù)堆砌，而是更加關注如何有效激活模型本就具備的能力。

▲LIMO和RL Scaling方式的比較分析

實驗驗證：顛覆性的結果 LIMO 的理論得到了實驗結果的強力支持。僅憑 817 條數(shù)據(jù)，LIMO 就超越了主流的 OpenAI-o1-preview 和 QwQ 等模型。它的性能相較于自身的基座模型 (Qwen2.5-32B-Instruct) 有顯著的提升，更是擊敗了采用數(shù)十萬數(shù)據(jù)的 OpenThoughts 和 Numina Math。在傳統(tǒng)評測任務上，LIMO 取得了突破性表現(xiàn)。在數(shù)學競賽級別的 AIME24 測試中，LIMO 贏得了 57.1% 的準確率，遠超 QwQ 的 50.0% 和 o1-preview 的 44.6%。在 MATH500 測試中，LIMO 更是達到了 94.8% 的驚人成績，顯著超越了 QwQ（89.8%）和 o1-preview（85.5%）。這些數(shù)據(jù)清晰地表明，少量但精心設計的訓練數(shù)據(jù)，確實能帶來超越傳統(tǒng)方法的性能提升。在各類跨域測試中，LIMO 的泛化能力同樣表現(xiàn)出色。在奧林匹克數(shù)學測試（OlympiadBench）上，LIMO 達到了 66.8% 的準確率，遠超 QwQ 的 58.5%。盡管 LIMO 數(shù)據(jù)集中不包含任何中文數(shù)據(jù)，在中國高考數(shù)學（Gaokao）測試中，它也取得了 81.0% 的成績，領先于 QwQ 的 80.1%。這種廣泛的適用性讓我們發(fā)現(xiàn)，LIMO 不是簡單地記憶了訓練數(shù)據(jù)，而是真正掌握了數(shù)學推理的本質。總體而言，LIMO 在所有測試中的平均準確率達到了 72.8%，大幅領先于 o1-preview（61.1%）和 QwQ（66.9%）。這個結果不僅證實了 "Less is More" 假說的正確性，更為整個行業(yè)指明了一個全新的發(fā)展方向：也許我們不需要無止境地堆砌數(shù)據(jù)和算力，而是應該更多地思考如何激活模型本就具備的能力。

▲ LIMO和其他模型在多個基準測試上的性能比較

數(shù)據(jù)的三重密碼

基于 LIMO 假設，我們構建了高質量的數(shù)據(jù)集，并通過實驗揭示了少量數(shù)據(jù)提升大模型推理能力的三大關鍵因素，即推理鏈質量、問題難度和預訓練知識：推理鏈質量：細節(jié)決定成敗想象一下，你在教一個學生解題。如果只是簡單告訴他答案，他可能永遠無法真正理解背后的邏輯。但如果你詳細解釋每一步的推理過程，甚至讓他自己驗證每一步的正確性，他就能逐漸掌握解題的精髓。LIMO 的研究發(fā)現(xiàn)，推理鏈的質量對大模型的推理能力有著決定性影響。實驗表明，高質量推理鏈（L5）與低質量推理鏈（L1）之間的性能差距高達 15 個百分點。高質量推理鏈不僅邏輯清晰、步驟完整，還包含自我驗證環(huán)節(jié)，確保推理的正確性。而低質量推理鏈往往只是簡單列舉步驟，缺乏詳細的邏輯推導。這表明，精心設計的推理鏈不僅能幫助模型更好地理解問題，還能提高其推理的準確性和泛化能力。

▲不同質量等級（1～5）推理鏈訓練得到的模型在 AIME24 和 MATH500 上的表現(xiàn)

問題難度：挑戰(zhàn)激發(fā)潛力如果說推理鏈是解題的 “路線圖”，那么問題本身則是激發(fā)模型潛力的 “催化劑”。LIMO 的研究發(fā)現(xiàn)，更高難度的問題能夠顯著提升模型的推理能力。研究人員創(chuàng)建了三個不同難度的問題集：Simple-500, Complex-500 和 Advanced-500，分別為他們構建高質量的推理鏈并訓練模型。實驗表明，使用 Advanced-500（競賽級別問題）訓練的模型，在基準測試中的準確率比使用 Simple-500（簡單數(shù)學題）訓練的模型高出 16%。這背后的邏輯在于，更復雜的問題需要更長的推理鏈和更深入的知識整合，從而迫使模型在推理過程中更充分地利用其預訓練知識。這就像讓一個學生不斷挑戰(zhàn)更高難度的題目，他的解題能力也會隨之提升。因此，選擇更具挑戰(zhàn)性的訓練數(shù)據(jù)，可能是提升模型推理能力的有效策略。

▲不同難度問題集訓練后的模型在AIME24和MATH500上的表現(xiàn)

預訓練知識：基礎決定高度最后，LIMO 的研究強調了預訓練知識的重要性。實驗對比了兩種架構相同但預訓練數(shù)據(jù)質量不同的模型，結果顯示，Qwen2.5-32B-Instruct（預訓練數(shù)據(jù)質量更高）在數(shù)學推理任務上的表現(xiàn)顯著優(yōu)于 Qwen1.5-32B-Chat，AIME24 準確率提升了 47 個百分點。這說明，模型的推理能力很大程度上依賴于其預訓練階段所掌握的知識。如果模型在預訓練階段已經(jīng)接觸并理解了大量數(shù)學知識，那么只需要少量高質量示例，就能激活其推理能力。反之，如果預訓練知識不足，即使使用大量數(shù)據(jù)進行微調，效果也可能有限。因此，提升預訓練數(shù)據(jù)的質量和多樣性，可能是未來提升模型推理能力的關鍵。

▲采用LIMO數(shù)據(jù)微調相同架構、不同預訓練數(shù)據(jù)的模型，二者性能區(qū)別顯著

案例與定量分析：LIMO的卓越表現(xiàn)

在具體的案例分析中，LIMO 展現(xiàn)出了令人矚目的推理能力。圖 5 對比了 Qwen2.5-32B-Instruct、DeepSeek-R1 和 LIMO 生成的響應。盡管 LIMO 僅使用了 817 個訓練樣本，但其表現(xiàn)與 DeepSeek-R1 不相上下，甚至在某些方面更為出色。 LIMO 不僅能夠進行自我反思，還能在長鏈推理中保持高度準確性。例如，LIMO 在驗證自己的陳述時表現(xiàn)出色：“等一下，24 分鐘是 0.4 小時？不對。60 分鐘是 1 小時，所以 24 分鐘是 24/60，也就是 0.4 小時?！?這種自我驗證和修正的能力，使得 LIMO 在復雜的數(shù)學推理任務中表現(xiàn)尤為突出。

▲相同問題下，不同模型的推理鏈和LIMO的比較相比之下，Qwen2.5-32B-Instruct 在推理過程中表現(xiàn)出明顯的局限性，無法糾正不準確的陳述，并且在求解方程時未能進行交叉驗證。這些結果不僅支持了 LIMO 假設，更表明通過少量高質量的訓練樣本，模型可以被賦予強大的推理能力。在定量分析中我們發(fā)現(xiàn)：隨著訓練樣本質量的提高，模型生成的響應更長，行數(shù)更多，并且在推理過程中使用了更多的自我反思過渡詞（例如，“等一下”、“也許”、“因此”）。這些高質量模型能夠分配額外的計算資源，進行更深入的思考，從而在復雜的數(shù)學問題中表現(xiàn)出色。

▲不同質量推理鏈的定量分析

未來展望：少即是多的無限可能盡管 LIMO 在極小數(shù)據(jù)量的情況下在數(shù)學推理方面取得了顯著成功，但未來的研究仍然充滿挑戰(zhàn)和機遇。

1. 領域泛化將 LIMO 假設擴展到更廣泛的推理領域是一個關鍵方向。雖然當前的研究主要集中在數(shù)學推理上，但高質量推理鏈的原則可能適用于科學推理、邏輯推理和因果推理。理解這些原則如何跨領域轉移，可能揭示有效推理的通用模式。這一探索需要調整質量評估標準，并開發(fā)特定領域的評估框架，從而為機器推理的理論體系做出貢獻。

2. 理論基礎對 LIMO 成功的更深層次理論理解也至關重要。未來的研究應致力于形式化預訓練知識、推理時計算和推理能力之間的關系。這包括研究有效推理所需的最小預訓練知識閾值，并開發(fā)數(shù)學模型以預測推理鏈質量與數(shù)量之間的最佳平衡。這些理論基礎可以指導更高效的訓練策略，并為機器推理的本質提供洞見。

3. 自動化評估開發(fā)自動化質量評估工具是另一個重要方向。目前對推理鏈質量的手動評估雖然有效，但耗時且難以擴展。未來的工作應致力于創(chuàng)建能夠根據(jù)我們提出的指標自動評估和改進推理鏈質量的系統(tǒng)。這可能包括開發(fā)算法來自動增強現(xiàn)有推理鏈，并以最少的人工干預生成高質量推理鏈，從而使 LIMO 方法更具可擴展性和可訪問性。

4. 多模態(tài)集成跨模態(tài)推理為擴展 LIMO 原則提供了一個激動人心的前沿領域。由于現(xiàn)實世界中的推理通常涉及多種模態(tài)，研究視覺信息和結構化數(shù)據(jù)如何增強數(shù)學推理能力至關重要。這一研究方向需要開發(fā)新的多模態(tài)推理鏈質量評估標準，并理解不同類型的信息如何有效集成到推理過程中。

5. 實際影響將 LIMO 原則應用于現(xiàn)實場景值得特別關注。未來的工作應致力于將這些方法應用于教育、科學研究和工業(yè)應用中的實際問題。這包括為特定領域開發(fā)專門版本的 LIMO，并創(chuàng)建幫助人類專家生成高質量推理鏈的工具。這些應用可能顯著影響我們在各個領域中的問題解決方式。

6. 認知科學橋梁最后，整合認知科學的見解可以為改進提供有價值的方向。理解 LIMO 的推理模式與人類認知過程之間的相似性，可能有助于開發(fā)更有效的推理策略。這包括研究不同推理方法如何影響模型的性能和泛化能力，并將認知科學原則融入推理鏈的設計中。這樣的研究不僅可以改進人工智能系統(tǒng)，還可以為人類推理過程提供洞見。這些未來方向共同致力于加深我們對大語言模型中高效推理的理解，同時擴展其實際應用。通過探索這些路徑，我們可以朝著開發(fā)更復雜、高效且廣泛適用的推理系統(tǒng)邁進，以更好地服務于各個領域的人類需求。 LIMO 的研究不僅挑戰(zhàn)了 “更大即更強” 的傳統(tǒng)認知，更揭示了大模型推理能力的潛在機制。通過少量高質量的訓練樣本，LIMO 成功激活了模型的潛藏能力，展示了 “少即是多” 的驚人效果。這一發(fā)現(xiàn)不僅為未來的研究指明了方向，更為我們理解大模型的能力本質提供了新的視角。

在未來，隨著 LIMO 假設的進一步驗證和擴展，我們有望看到更多高效、精準的推理系統(tǒng)在各個領域中得到廣泛應用。這不僅將推動人工智能技術的發(fā)展，更將深刻影響我們解決復雜問題的方式。LIMO 的成功，或許只是人工智能推理能力覺醒的開始，未來的路，充滿無限可能。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
89

文章
37965

瀏覽量
295765
人工智能

人工智能

+關注

關注
1813

文章
49695

瀏覽量
261095
大模型

大模型

+關注

關注
2

文章
3432

瀏覽量
4951

原文標題：817樣本激發(fā)7倍推理性能：上交大「少即是多」定律挑戰(zhàn)RL Scaling范式

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注！文章轉載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

大模型的數(shù)學能力或許一直都在關鍵在于如何喚醒它

評論