chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

摩爾線程 ? 來源:摩爾線程 ? 2025-11-17 16:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統(tǒng)一獎勵與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級學術(shù)會議AAAI 2026收錄。這一成果標志著摩爾線程在大模型基礎(chǔ)技術(shù)探索上邁出了關(guān)鍵一步,為簡化大模型訓練流程、突破模型性能上限提供了全新的技術(shù)路徑。

0f552dbe-c07a-11f0-8c8f-92fbcf53809c.jpg

圖示:URPO統(tǒng)一獎勵與策略優(yōu)化框架

在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中,摩爾線程AI研究團隊提出了URPO統(tǒng)一獎勵與策略優(yōu)化(Unified Reward & Policy Optimization,URPO)框架,創(chuàng)新地將“指令遵循”(選手)和“獎勵評判”(裁判)兩大角色融合于單一模型中,并在統(tǒng)一訓練階段實現(xiàn)同步優(yōu)化。URPO從以下三方面攻克技術(shù)挑戰(zhàn):

數(shù)據(jù)格式統(tǒng)一:將異構(gòu)的偏好數(shù)據(jù)、可驗證推理數(shù)據(jù)和開放式指令數(shù)據(jù),統(tǒng)一重構(gòu)為適用于GRPO訓練的信號格式。

自我獎勵循環(huán):針對開放式指令,模型生成多個候選回答后,自主調(diào)用其“裁判”角色進行評分,并將結(jié)果作為GRPO訓練的獎勵信號,形成一個高效的自我改進循環(huán)。

協(xié)同進化機制:通過在同一批次中混合處理三類數(shù)據(jù),模型的生成能力與評判能力得以協(xié)同進化。生成能力提升帶動評判更精準,而精準評判進一步引導生成質(zhì)量躍升,從而突破靜態(tài)獎勵模型的性能瓶頸。

實驗結(jié)果顯示,基于Qwen2.5-7B模型,URPO框架顯著超越依賴獨立獎勵模型的傳統(tǒng)基線:在AlpacaEval指令跟隨榜單上,得分從42.24提升至44.84;在綜合推理能力測試中,平均分從32.66提升至35.66。尤為突出的是,作為訓練的“副產(chǎn)品”,該模型內(nèi)部自然涌現(xiàn)出卓越的評判能力,在RewardBench獎勵模型評測中取得85.15的高分,表現(xiàn)甚至優(yōu)于其替代的專用獎勵模型(83.55分)。

除了卓越的性能表現(xiàn),URPO框架在工程落地方面同樣展現(xiàn)出顯著優(yōu)勢。該技術(shù)基于GRPO算法進行輕量化迭代實現(xiàn),在代碼層面僅需添加少量補丁即可完成部署,大幅降低了技術(shù)遷移與應用門檻。目前,URPO已在摩爾線程自研計算卡上實現(xiàn)穩(wěn)定高效運行,充分發(fā)揮軟硬件協(xié)同優(yōu)化的底層優(yōu)勢;同時,摩爾線程已完成VERL等主流強化學習框架的深度適配,讓這一簡潔高效的對齊方案能快速融入現(xiàn)有研發(fā)體系,既保留了技術(shù)延續(xù)性,又為行業(yè)提供了兼具性能、效率與兼容性的一體化解決方案。

URPO框架的成功,是摩爾線程堅持底層技術(shù)創(chuàng)新、攻堅大模型核心挑戰(zhàn)的重要成果。該研究不僅提供了一種更簡潔、高效、性能更強的對齊方案,更通過“選手-裁判”一體化的設(shè)計,為大模型實現(xiàn)持續(xù)自我進化開辟了新路徑。未來,摩爾線程將繼續(xù)深耕大模型等前沿技術(shù)領(lǐng)域,以堅實的創(chuàng)新成果推動人工智能產(chǎn)業(yè)實現(xiàn)跨越式發(fā)展。

關(guān)于摩爾線程

摩爾線程以全功能GPU為核心,致力于向全球提供加速計算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49694

    瀏覽量

    261070
  • 摩爾線程
    +關(guān)注

    關(guān)注

    2

    文章

    252

    瀏覽量

    6163
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3432

    瀏覽量

    4947

原文標題:摩爾線程大模型對齊研究獲頂會認可:URPO框架入選 AAAI 2026

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    地平線五篇論文入選NeurIPS 2025與AAAI 2026

    近日,兩大頂級學術(shù)會議錄用結(jié)果相繼揭曉,地平線憑借在機器人算法領(lǐng)域的深度鉆研,共有5篇論文從全球數(shù)萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
    的頭像 發(fā)表于 11-27 11:39 ?389次閱讀
    地平線五篇論文<b class='flag-5'>入選</b>NeurIPS 2025與<b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團隊的端到端軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出種由粗到精的軌跡預測
    的頭像 發(fā)表于 11-12 10:53 ?490次閱讀

    【內(nèi)測活動同步開啟】這么小?這么強?新一代模型MCP開發(fā)板來啦!

    【內(nèi)測活動同步開啟】這么???這么強?新一代模型MCP開發(fā)板來啦! 聆思全新一代六合芯片「LS26系列」,搭載WIFI / BLE & BT / NPU,與「小聆AI」強強
    發(fā)表于 09-25 11:47

    摩爾線程發(fā)布大模型訓練仿真工具SimuMax v1.0

    近日,摩爾線程正式發(fā)布并開源大模型分布式訓練仿真工具SimuMax 1.0版本。該版本在顯存和性能仿真精度上實現(xiàn)突破性提升,同時引入多項關(guān)鍵功能,進步增強了
    的頭像 發(fā)表于 09-11 18:19 ?3297次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>發(fā)布大<b class='flag-5'>模型</b>訓練仿真工具SimuMax v1.0

    摩爾線程“AI工廠”:五大核心技術(shù)支撐,打造大模型訓練超級工廠

    演講中表示,為應對生成式AI爆發(fā)式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,構(gòu)建新一代AI訓練基礎(chǔ)設(shè)施,致力于為AGI時代打造生產(chǎn)先進
    的頭像 發(fā)表于 07-28 11:28 ?3908次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“AI工廠”:五大核心技術(shù)支撐,打造大<b class='flag-5'>模型</b>訓練超級工廠

    摩爾線程“AI工廠”:以系統(tǒng)級創(chuàng)新定義新一代AI基礎(chǔ)設(shè)施

    演講中表示,為應對生成式AI爆發(fā)式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,構(gòu)建新一代AI訓練基礎(chǔ)設(shè)施,致力于為AGI時代打造生產(chǎn)先進
    發(fā)表于 07-28 10:34 ?2350次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“AI工廠”:以系統(tǒng)級創(chuàng)新定義<b class='flag-5'>新一代</b>AI基礎(chǔ)設(shè)施

    疑似摩爾線程S90曝光,對標RTX4060

    電子發(fā)燒友網(wǎng)綜合報道 近日,摩爾線程新一代圖形顯卡MTT S90疑似被知名自媒體曝光,實測性能媲美英偉達RTX4060。據(jù)傳,MTT S90是摩爾
    的頭像 發(fā)表于 07-25 10:53 ?2961次閱讀
    疑似<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>S90曝光,對標RTX4060

    摩爾線程率先支持騰訊混元-A13B模型

    近日,騰訊正式開源基于專家混合(MoE)架構(gòu)的大語言模型混元-A13B。同日,摩爾線程團隊憑借技術(shù)前瞻性,率先完成該模型在全功能GPU的深度
    的頭像 發(fā)表于 07-04 14:10 ?652次閱讀

    摩爾線程GPU成功適配Deepseek-V3-0324大模型

    近日,DeepSeek正式發(fā)布了其大語言模型的全新小版本迭代——DeepSeek-V3-0324,這版本在推理能力、代碼生成、中文寫作以及搜索能力等多個維度實現(xiàn)了顯著提升。憑借其先進的MUSA
    的頭像 發(fā)表于 03-31 11:34 ?1083次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>GPU成功適配Deepseek-V3-0324大<b class='flag-5'>模型</b>

    摩爾線程與當虹科技達成深度合作

    近日,摩爾線程與當虹科技達成深度合作,基于國產(chǎn)GPU成功完成了與BlackEye多模態(tài)視聽大模型的深度融合。雙方聯(lián)手打造專業(yè)級視聽“引擎”,并在超高清GPU算力場景中成功落地。
    的頭像 發(fā)表于 03-20 15:22 ?1239次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實現(xiàn)
    的頭像 發(fā)表于 03-17 17:05 ?1183次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>GPU原生FP8計算助力AI訓練

    摩爾線程支持阿里云通義千問QwQ-32B開源模型

    近日,阿里云團隊正式開源全新推理模型——通義千問QwQ-32B。摩爾線程在該模型發(fā)布后2小時內(nèi),迅速且高效完成了對千問QwQ-32B的支持。
    的頭像 發(fā)表于 03-07 17:48 ?1089次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>支持阿里云通義千問QwQ-32B開源<b class='flag-5'>模型</b>

    摩爾線程圖形顯卡MTT S80實現(xiàn)DeepSeek模型部署

    摩爾線程“全功能”圖形顯卡MTT S80,不僅游戲渲染性能強大,能玩《黑神話:悟空》,現(xiàn)在還能本地部署DeepSeek R1蒸餾模型。搭配最新發(fā)布的MUSA SDK RC3.1.1版本,開發(fā)者直接用開源
    的頭像 發(fā)表于 02-21 15:46 ?3970次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>圖形顯卡MTT S80實現(xiàn)DeepSeek<b class='flag-5'>模型</b>部署

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

    步。 據(jù)悉,DeepSeek開源模型在多語言理解與復雜推理任務中直表現(xiàn)出卓越的性能,其V3、R1等系列模型更是備受業(yè)界關(guān)注。而此次摩爾
    的頭像 發(fā)表于 02-06 13:49 ?1173次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?805次閱讀