chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

參數(shù)少近一半,性能逼近谷歌Minerva,又一個(gè)數(shù)學(xué)大模型開源了

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-10-23 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型家族來(lái)了一個(gè)專門解決數(shù)學(xué)問(wèn)題的「新成員」——Llemma。

如今,在各種文本混合數(shù)據(jù)上訓(xùn)練出來(lái)的語(yǔ)言模型會(huì)顯示出非常通用的語(yǔ)言理解和生成能力,可以作為基礎(chǔ)模型適應(yīng)各種應(yīng)用。開放式對(duì)話或指令跟蹤等應(yīng)用要求在整個(gè)自然文本分布中實(shí)現(xiàn)均衡的性能,因此更傾向于通用模型。

不過(guò)如果想要在某一領(lǐng)域(如醫(yī)學(xué)、金融或科學(xué))內(nèi)最大限度地提高性能,那么特定領(lǐng)域的語(yǔ)言模型可能會(huì)以給定的計(jì)算成本提供更優(yōu)越的能力,或以更低的計(jì)算成本提供給定的能力水平。

普林斯頓大學(xué)、 EleutherAI 等的研究者為解決數(shù)學(xué)問(wèn)題訓(xùn)練了一個(gè)特定領(lǐng)域的語(yǔ)言模型。他們認(rèn)為:首先,解決數(shù)學(xué)問(wèn)題需要與大量的專業(yè)先驗(yàn)知識(shí)進(jìn)行模式匹配,因此是進(jìn)行領(lǐng)域適應(yīng)性訓(xùn)練的理想環(huán)境;其次,數(shù)學(xué)推理本身就是 AI 的核心任務(wù);最后,能夠進(jìn)行強(qiáng)數(shù)學(xué)推理的語(yǔ)言模型是許多研究課題的上游,如獎(jiǎng)勵(lì)建模、推理強(qiáng)化學(xué)習(xí)和算法推理。

因此,他們提出一種方法,通過(guò)對(duì) Proof-Pile-2 進(jìn)行持續(xù)的預(yù)訓(xùn)練,使語(yǔ)言模型適應(yīng)數(shù)學(xué)。Proof-Pile-2 是數(shù)學(xué)相關(guān)文本和代碼的混合數(shù)據(jù)。將這一方法應(yīng)用于 Code Llama,可以得到 LLEMMA:7B 和 34B 的基礎(chǔ)語(yǔ)言模型,其數(shù)學(xué)能力得到了大幅提高。

wKgZomU10CaAfxDAAAFcpQH7b3o494.png

論文地址:https://arxiv.org/pdf/2310.10631.pdf

項(xiàng)目地址:https://github.com/EleutherAI/math-lm

LLEMMA 7B 的 4-shot Math 性能遠(yuǎn)超谷歌 Minerva 8B,LLEMMA 34B 在參數(shù)少近一半的情況下性能逼近 Minerva 62B。

wKgZomU10CaAZk_oAAKgLyxaIIM868.png

具體來(lái)說(shuō),本文貢獻(xiàn)如下:

  • 1. 訓(xùn)練并發(fā)布了 LLEMMA 模型:專門用于數(shù)學(xué)的 7B 和 34B 語(yǔ)言模型。LLEMMA 模型是在 MATH 上公開發(fā)布的基礎(chǔ)模型的最新水平。

  • 2. 發(fā)布了代數(shù)堆棧(AlgebraicStack),這是一個(gè)包含 11B 專門與數(shù)學(xué)相關(guān)的代碼 token 的數(shù)據(jù)集。

  • 3. 證明了 LLEMMA 能夠使用計(jì)算工具來(lái)解決數(shù)學(xué)問(wèn)題,即 Python 解釋器和形式定理證明器。

  • 4. 與之前的數(shù)學(xué)語(yǔ)言模型(如 Minerva)不同,LLEMMA 模型是開放式的。研究者開放了訓(xùn)練數(shù)據(jù)和代碼。這使得 LLEMMA 成為未來(lái)數(shù)學(xué)推理研究的一個(gè)平臺(tái)。

方法概覽

LLEMMA 是專門用于數(shù)學(xué)的 70B 和34B 語(yǔ)言模型。它由 Proof-Pile-2 上繼續(xù)對(duì)代碼 Llama 進(jìn)行預(yù)訓(xùn)練得到的。

wKgZomU10CaAe9GbAAG9tF6AKXA534.png

DATA: Proof-Pile-2

研究者創(chuàng)建了 Proof-Pile-2,這是一個(gè) 55B token 的科學(xué)論文、包含數(shù)學(xué)的網(wǎng)絡(luò)數(shù)據(jù)和數(shù)學(xué)代碼的混合物。除了 Lean proofsteps 子集之外,Proof-Pile-2 的知識(shí)截止日期為 2023 年 4 月。

wKgZomU10CaAbSQrAAH26m_Cmic200.png

數(shù)值模擬、計(jì)算機(jī)代數(shù)系統(tǒng)和形式定理證明器等計(jì)算工具對(duì)數(shù)學(xué)家的重要性與日俱增。因此,研究者創(chuàng)建了代數(shù)堆棧(AlgebraicStack),這是一個(gè)包含 17 種語(yǔ)言源代碼的 11B token 數(shù)據(jù)集,涵蓋數(shù)值數(shù)學(xué)、符號(hào)數(shù)學(xué)和形式數(shù)學(xué)。該數(shù)據(jù)集由來(lái)自 Stack、GitHub 公共資源庫(kù)和形式證明步驟數(shù)據(jù)的過(guò)濾代碼組成。表9顯示了AlgebraicStack 中各語(yǔ)言的 token 數(shù)量。

wKgZomU10CeAPe9rAAL9Lu3uqdc489.png

AlgebraicStack 中各語(yǔ)言的 token 數(shù)。

研究者了使用 OpenWebMath,這是一個(gè)由高質(zhì)量網(wǎng)頁(yè)組成的 15B token 數(shù)據(jù)集,其中過(guò)濾了數(shù)學(xué)內(nèi)容。OpenWebMath 根據(jù)數(shù)學(xué)相關(guān)關(guān)鍵詞和基于分類器的數(shù)學(xué)評(píng)分過(guò)濾 CommonCrawl 網(wǎng)頁(yè),保留數(shù)學(xué)格式(如 LATEX、AsciiMath),并包含額外的質(zhì)量過(guò)濾器(如 plexity、domain、length)和近似重復(fù)。

除此之外,研究者還使用了 RedPajama 的 ArXiv 子集,它是 LLaMA 訓(xùn)練數(shù)據(jù)集的開放再現(xiàn)。ArXiv 子集包含 29B 個(gè)詞塊。訓(xùn)練混合數(shù)據(jù)由少量一般領(lǐng)域數(shù)據(jù)組成,起到了正則化的作用。由于 LLaMA 2 的預(yù)訓(xùn)練數(shù)據(jù)集尚未公開,研究者使用 Pile 作為替代訓(xùn)練數(shù)據(jù)集。

模型和訓(xùn)練

每個(gè)模型都是從 Code Llama 初始化而來(lái),該模型又初始化自 Llama 2,使用僅解碼器(deconder only)的 transformer 結(jié)構(gòu),在 500B 的代碼 token 上訓(xùn)練而成。研究者使用標(biāo)準(zhǔn)自回歸語(yǔ)言建模目標(biāo),在 Proof-Pile-2 上繼續(xù)訓(xùn)練 Code Llama 模型。這里,LLEMMA 7B 模型有 200B token,LLEMMA 34B 模型有 50B token。

研究者使用 GPT-NeoX 庫(kù)在 256 個(gè) A100 40GB GPU 上,以 bfloat16 混合精度來(lái)訓(xùn)練以上兩個(gè)模型。他們?yōu)?LLEMMA-7B 使用了世界大小為 2 的張量并行,為 34B 使用了世界大小為 8 的張量并行,以及跨數(shù)據(jù)并行副本的 ZeRO Stage 1 分片優(yōu)化器狀態(tài)。此外還使用 Flash Attention 2 來(lái)提高吞吐量并進(jìn)一步降低內(nèi)存需求。

LLEMMA 7B 經(jīng)過(guò)了 42000 步的訓(xùn)練,全局 batch 大小為 400 萬(wàn)個(gè) token,上下文長(zhǎng)度為 4096 個(gè) token。這相當(dāng)于 23000 個(gè) A100 時(shí)。學(xué)習(xí)率在 500 步后預(yù)熱到了 1?10^?4,然后在 48000 步后將余弦衰減到最大學(xué)習(xí)率的 1/30。

LLEMMA 34B 經(jīng)過(guò)了 12000 步的訓(xùn)練,全局 batch 大小同樣為 400 萬(wàn)個(gè) token,上下文長(zhǎng)度為 4096。這相當(dāng)于 47000 個(gè) A100 時(shí)。學(xué)習(xí)率在 500 步后預(yù)熱到了 5?10^?5,然后衰減到峰值學(xué)習(xí)率的 1/30。

評(píng)估結(jié)果

在實(shí)驗(yàn)部分,研究者旨在評(píng)估 LLEMMA 是否可以作為數(shù)學(xué)文本的基礎(chǔ)模型。他們利用少樣本評(píng)估來(lái)比較 LLEMMA 模型,并主要關(guān)注沒有在數(shù)學(xué)任務(wù)監(jiān)督樣本上進(jìn)行微調(diào)的 SOTA 模型。

研究者首先使用思維鏈推理和多數(shù)投票(majority voting)方法來(lái)評(píng)估 LLEMMA 求解數(shù)學(xué)題的能力,評(píng)估基準(zhǔn)包括了 MATH 和 GSM8k。然后探索使用少樣本工具和定理證明。最后研究了內(nèi)存和數(shù)據(jù)混合的影響。

使用思維鏈(CoT)求解數(shù)學(xué)題

這些任務(wù)包括為 LATEX 或自然語(yǔ)言表示的問(wèn)題生成獨(dú)立的文本答案,而無(wú)需使用外部工具。研究者使用到的評(píng)估基準(zhǔn)有 MATH、GSM8k、 OCWCourses、SAT 和 MMLU-STEM。

結(jié)果如下表 1 所示,LLEMMA 在 Proof-Pile-2 語(yǔ)料庫(kù)上的持續(xù)預(yù)訓(xùn)練在 5 個(gè)數(shù)學(xué)基準(zhǔn)上均提升了少樣本性能,其中 LLEMMA 34B 在 GSM8k 上比 Code Llama 提高了 20 個(gè)百分點(diǎn),在 MATH 上比 Code Llama 提高了 13 個(gè)百分點(diǎn)。同時(shí) LLEMMA 7B 優(yōu)于專有的 Minerva 模型。

因此,研究者得到結(jié)論,在 Proof-Pile-2 上進(jìn)行持續(xù)預(yù)訓(xùn)練有助于提升預(yù)訓(xùn)練模型求解數(shù)學(xué)題的能力。

wKgZomU10CeAPYmNAAO3NtutYDs350.png

使用工具求解數(shù)學(xué)題

這些任務(wù)包括使用計(jì)算工具來(lái)解題。研究者使用到的評(píng)估基準(zhǔn)有 MATH+Python 和 GSM8k+Python。

結(jié)果如下表 3 所示,LLEMMA 在這兩項(xiàng)任務(wù)上均優(yōu)于 Code Llama。同時(shí)使用工具后在 MATH 和 GSM8k 上的性能也優(yōu)于沒有工具的情況。

wKgZomU10CeAQEzzAAHZi6G1Ss0371.png

形式數(shù)學(xué)

Proof-Pile-2 的 AlgebraicStack 數(shù)據(jù)集擁有 15 億 token 的形式數(shù)學(xué)數(shù)據(jù),包括提取自 Lean 和 Isabelle 的形式化證明。雖然對(duì)形式數(shù)學(xué)的全面研究超出了本文的探討范圍,但研究者在以下兩個(gè)任務(wù)上評(píng)估了 LLEMMA 的少樣本性能。

wKgZomU10CiAOFjoAAS1H2R2nlk848.png

非形式到形式證明任務(wù),即在給定形式命題、非形式 LATEX 命題和非形式 LATEX 證明的情況下,生成一個(gè)形式證明;

形式到形式證明任務(wù),即通過(guò)生成一系列證明步驟(或策略)來(lái)證明一個(gè)形式命題。

結(jié)果如下表 4 所示,LLEMMA 在 Proof-Pile-2 上的持續(xù)預(yù)訓(xùn)練在兩個(gè)形式定理證明任務(wù)上提升了少樣本性能。

數(shù)據(jù)混合的影響

訓(xùn)練語(yǔ)言模型時(shí),一種常見的做法是根據(jù)混合權(quán)重對(duì)訓(xùn)練數(shù)據(jù)的高質(zhì)量子集進(jìn)行上采樣。研究者在幾個(gè)精心挑選的混合權(quán)重上進(jìn)行了短期訓(xùn)練,以此選擇混合權(quán)重。接著選擇了在一組高質(zhì)量 held-out 文本(這里使用了 MATH 訓(xùn)練集)上能夠最小化困惑度的混合權(quán)重。

下表 5 顯示了使用 arXiv、web 和代碼等不同數(shù)據(jù)混合訓(xùn)練后,模型的 MATH 訓(xùn)練集困惑度。

wKgZomU10CiAdPjxAALJca0qrP0510.png

更多技術(shù)細(xì)節(jié)和評(píng)估結(jié)果參閱原論文。


原文標(biāo)題:參數(shù)少近一半,性能逼近谷歌Minerva,又一個(gè)數(shù)學(xué)大模型開源了

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:參數(shù)少近一半,性能逼近谷歌Minerva,又一個(gè)數(shù)學(xué)大模型開源了

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    同樣是管設(shè)備,為什么他們的維修成本比你低一半

    不少管理者困惑:設(shè)備型號(hào)、生產(chǎn)規(guī)模相近,為何部分企業(yè)維修成本能低一半?答案藏在設(shè)備管理的精細(xì)化與技術(shù)應(yīng)用深度里。結(jié)合中設(shè)智控的行業(yè)實(shí)操案例,可找到降本關(guān)鍵路徑。
    的頭像 發(fā)表于 09-10 09:50 ?340次閱讀
    同樣是管設(shè)備,為什么他們的維修成本比你低<b class='flag-5'>一半</b>?

    OpenAI發(fā)布2款開源模型

    OpenAI開源兩款高性能權(quán)重語(yǔ)言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 發(fā)布
    的頭像 發(fā)表于 08-06 14:25 ?868次閱讀

    萬(wàn)億參數(shù)!元腦企智體機(jī)率先支持Kimi K2大模型

    應(yīng)用大模型提供高處理性能和完善的軟件工具平臺(tái)支持。 ? Kimi K2是月之暗面推出的開源萬(wàn)億參數(shù)模型,創(chuàng)新使用了MuonClip優(yōu)化器進(jìn)
    的頭像 發(fā)表于 07-22 09:27 ?400次閱讀
    萬(wàn)億<b class='flag-5'>參數(shù)</b>!元腦企智<b class='flag-5'>一</b>體機(jī)率先支持Kimi K2大<b class='flag-5'>模型</b>

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開源大語(yǔ)言模型部署

    , Gemma等開源模型。當(dāng)然,些閉源的(類似chatgpt, gemini)是不支持部署的。如下圖: 在端側(cè)部署大模型,個(gè)人認(rèn)為最大的好處:是可以避免因文本或圖片上傳而造成的信
    發(fā)表于 07-19 15:45

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國(guó),深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇
    的頭像 發(fā)表于 06-30 11:19 ?1091次閱讀

    看點(diǎn):黃仁勛:全球一半AI人才都是中國(guó)人 富士康將在印度投資15億美元

    。全球有一半AI人員都是中國(guó)人,美國(guó)是無(wú)法阻止中國(guó)AI發(fā)展的。而且盛贊我國(guó)的Deepseek R1;黃仁勛表示Deepseek R1是款非常棒的產(chǎn)品。Deepseek R1是獻(xiàn)給世界的禮物 ;它還為世界各地的美國(guó)研究人員開辟
    的頭像 發(fā)表于 05-21 11:40 ?585次閱讀

    高速PCB設(shè)計(jì)過(guò)孔不添亂,樂趣一半

    計(jì)的阻抗有多夸張。 出人意料,Z軸有效長(zhǎng)度123mil的長(zhǎng)過(guò)孔,阻抗居然也呈容性特征! 怎么回事?本來(lái)憋足勁想要大展拳腳的雷豹,感覺像是拳擂在棉花上。 他的第反應(yīng)是,Layout攻城獅熟讀
    發(fā)表于 04-01 15:07

    模型數(shù)學(xué)能力或許直都在關(guān)鍵在于如何喚醒它

    卻給出了個(gè)令人震驚的答案:僅需 817 條精心設(shè)計(jì)的樣本,就能讓模型數(shù)學(xué)競(jìng)賽級(jí)別的題目上超越當(dāng)前許多最先進(jìn)模型。這
    的頭像 發(fā)表于 02-17 17:44 ?926次閱讀
    大<b class='flag-5'>模型</b>的<b class='flag-5'>數(shù)學(xué)</b>能力或許<b class='flag-5'>一</b>直都在關(guān)鍵在于如何喚醒它

    ADS7841測(cè)量范圍減為一半是什么原因?

    ADS7841測(cè)量范圍減為一半?ADS7841,4通道,12bit,VCC與Vref都是+5v,按說(shuō)0-5v對(duì)應(yīng)輸出為0-4095,為啥我測(cè)得的是0-2.5v對(duì)應(yīng)的0-4095?2.5v以上又
    發(fā)表于 01-21 06:49

    曝英偉達(dá)一半員工凈資產(chǎn)破億

    英偉達(dá)一半員工凈資產(chǎn)破億的消息引起了廣泛關(guān)注;還沖上百度熱搜。據(jù)最新的統(tǒng)計(jì)數(shù)據(jù)顯示,英偉達(dá)已有78%的員工成為了百萬(wàn)(美元)富翁,這數(shù)字令人咋舌。而更令人震驚的是,其中一半員工的凈資產(chǎn)更是達(dá)到
    的頭像 發(fā)表于 01-14 18:15 ?878次閱讀

    阿里云發(fā)布開源多模態(tài)推理模型QVQ-72B-Preview

    近日,阿里云宣布項(xiàng)重大技術(shù)突破,正式發(fā)布業(yè)界首個(gè)開源多模態(tài)推理模型——QVQ-72B-Preview。這
    的頭像 發(fā)表于 12-27 10:28 ?844次閱讀

    調(diào)試ADS5474時(shí)發(fā)現(xiàn)其輸出的14bit數(shù)據(jù)中,Data13直是高電平導(dǎo)致其AD的輸入范圍只有原來(lái)的一半,怎么回事?

    最近調(diào)試ADS5474時(shí)發(fā)現(xiàn)其輸出的14bit(Data13:0)數(shù)據(jù)中,Data13直是高電平,這樣導(dǎo)致其AD的輸入范圍只有原來(lái)的一半,是怎么回事? 空采的情況下也是Data
    發(fā)表于 12-25 08:19

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    的 one-shot 搜索的工作。目標(biāo)檢測(cè)模型搭配在分類上高性能的主干網(wǎng)絡(luò),可能會(huì)因?yàn)椴煌蝿?wù)間的差異而性能下降。Picodet 沒有去搜索個(gè)
    發(fā)表于 12-19 14:33

    ADS1256第次上電的時(shí)候,采集的ADC信號(hào)是實(shí)際值的一半,為什么?

    最近在用ADS1256這款A(yù)DC芯片,出現(xiàn)個(gè)很怪異的問(wèn)題。當(dāng)我第次上電的時(shí)候,采集的ADC信號(hào)是實(shí)際值的
    發(fā)表于 12-13 15:33

    關(guān)于逆變器的電流峰值控制,為啥電流波形只有一半?

    我是用電流峰值控制方法去做反激式逆變器的。為啥我副邊電流波形只有一半呢。硬件定是好的,軟件是我自己寫的,不知道是程序哪里出了問(wèn)題,希望能解答
    發(fā)表于 12-10 16:24