chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI再卷數(shù)學(xué)界,DSP新方法將機(jī)器證明成功率提高一倍

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-11-21 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌的吳宇懷 (Yuhuai Tony Wu)等研究者設(shè)計(jì)了一種叫做「Draft, Sketch, and Prove」 (DSP)的新方法將非形式化的數(shù)學(xué)證明轉(zhuǎn)化為形式化的證明。實(shí)驗(yàn)結(jié)果顯示,自動(dòng)證明器在 miniF2F 上解決的問題比例從 20.9% 提高到了 38.9%。

自動(dòng)證明數(shù)學(xué)定理是人工智能的一個(gè)初衷,也是一直以來的難題。到目前為止,人類數(shù)學(xué)家使用了兩種不同的方式來書寫數(shù)學(xué)。

第一種是大家都熟悉的方式,即用自然語言來描述數(shù)學(xué)證明。大部分的數(shù)學(xué)都是以這種方式書寫的,這包括數(shù)學(xué)課本,數(shù)學(xué)論文,等等。

第二種稱之為形式化數(shù)學(xué)(formal mathematics)。這是近半個(gè)世紀(jì)計(jì)算機(jī)科學(xué)家創(chuàng)造的,用來檢驗(yàn)數(shù)學(xué)證明的一種工具。

如今看來,計(jì)算機(jī)可以被用來驗(yàn)證數(shù)學(xué)證明,但它們只有在使用專門設(shè)計(jì)的證明語言時(shí)才能做到這一點(diǎn),而無法處理數(shù)學(xué)符號(hào)和數(shù)學(xué)家使用的書面文本的混合體。如果把用自然語言編寫的數(shù)學(xué)問題轉(zhuǎn)換為形式化代碼,讓計(jì)算機(jī)更容易解決它們,或許能夠幫助構(gòu)建能探索數(shù)學(xué)新發(fā)現(xiàn)的機(jī)器。這個(gè)過程被稱為形式化(formalisation),自動(dòng)形式化(autoformalization)指的是自動(dòng)從自然語言數(shù)學(xué)翻譯成形式化語言的任務(wù)。

形式化證明的自動(dòng)化是一項(xiàng)具有挑戰(zhàn)性的任務(wù),深度學(xué)習(xí)方法在該領(lǐng)域尚未大獲成功,這主要是因?yàn)樾问交瘮?shù)據(jù)的稀缺。事實(shí)上,形式化證明本身是非常困難的,且只有少數(shù)專家能做到,這使得大規(guī)模的注釋工作并不現(xiàn)實(shí)。最大的形式化證明語料庫是用 Isabelle 代碼 (Paulson, 1994) 編寫的,大小不到 0.6GB,比視覺或自然語言處理中常用的數(shù)據(jù)集小幾個(gè)數(shù)量級(jí)。為了解決形式證明的稀缺性,以往的研究提出使用合成數(shù)據(jù)、自監(jiān)督或強(qiáng)化學(xué)習(xí)來合成額外的形式化訓(xùn)練數(shù)據(jù)。雖然這些方法在一定程度上緩解了數(shù)據(jù)的不足,但都無法將大量人工撰寫的數(shù)學(xué)證明充分利用起來。

我們以語言模型 Minerva為例。當(dāng)在足夠多的數(shù)據(jù)訓(xùn)練之后,我們發(fā)現(xiàn)它的數(shù)學(xué)能力非常強(qiáng),可以在高中數(shù)學(xué)測(cè)試中拿到高于平均分水平。然而這樣的語言模型也有不足,它只能模仿,而不能自主訓(xùn)練而提高數(shù)學(xué)水平。形式化證明系統(tǒng)提供了一個(gè)訓(xùn)練環(huán)境,但形式化數(shù)學(xué)的數(shù)據(jù)非常少。

與形式化的數(shù)學(xué)不同,非形式化的數(shù)學(xué)數(shù)據(jù)是豐富和廣泛可用的。最近,在非形式化數(shù)學(xué)數(shù)據(jù)上訓(xùn)練的大型語言模型展示了令人印象深刻的定量推理能力。然而,它們經(jīng)常產(chǎn)生錯(cuò)誤的證明,而自動(dòng)檢測(cè)這些證明中的錯(cuò)誤推理是很有挑戰(zhàn)性的。

在最近的一項(xiàng)工作中,谷歌的吳宇懷 (Yuhuai Tony Wu)等研究者設(shè)計(jì)了一種叫做 DSP(Draft, Sketch, and Prove )的新方法,將非形式化的數(shù)學(xué)證明轉(zhuǎn)化為形式化的證明,從而同時(shí)具備形式化系統(tǒng)提供的邏輯嚴(yán)謹(jǐn)性和大量的非形式化數(shù)據(jù)。

bbcbebc2-68e0-11ed-8abf-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2210.12283.pdf

今年早些時(shí)候,吳宇懷與幾位合作者使用了 OpenAI Codex 的神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)形式化工作,證明了用大型語言模型將非形式化語句自動(dòng)翻譯成形式化語句的可行性。DSP 則更進(jìn)一步,利用大型語言模型從非形式化證明中生成形式化證明草圖。證明草圖由高層次的推理步驟組成,可以由交互式定理證明器這樣的形式化系統(tǒng)來解釋。它們與完整的形式化證明不同,因?yàn)樗鼈儼瑹o理由的中間猜想的序列。在 DSP 的最后一步,形式化證明草圖被闡述為一個(gè)完整的形式化證明,使用一個(gè)自動(dòng)驗(yàn)證器來證明所有中間猜想。

吳宇懷表示:現(xiàn)在,我們展示了 LLM 可以將其生成的非形式化證明轉(zhuǎn)化為經(jīng)過驗(yàn)證的形式化證明!

bbe528c6-68e0-11ed-8abf-dac502259ad0.png

方法

方法部分描述了用于形式化證明自動(dòng)化的 DSP方法,該方法利用非形式化證明來指導(dǎo)自動(dòng)形式化定理證明器的證明草圖。這里假設(shè)每個(gè)問題都有一個(gè)非形式化命題和一個(gè)描述該問題的形式化命題。整體 pipeline 包括三個(gè)階段(如圖 1 所示)。

bbf530c2-68e0-11ed-8abf-dac502259ad0.png

圖 1.

非形式化證明的起草

DSP 方法的初始階段,包括根據(jù)問題的自然數(shù)學(xué)語言描述(可能用 LATEX)為其尋找非形式化證明。由此產(chǎn)生的非形式化證明被看作是后續(xù)階段的草稿。在數(shù)學(xué)教科書中,一般都會(huì)提供定理的證明,但有時(shí)會(huì)缺失或不完整。因此,研究者考慮了與非形式化證明的存在或不存在相對(duì)應(yīng)的兩種情況。

在第一種情況下,研究者假設(shè)有一個(gè)「真實(shí)的」非形式化證明(即由人寫的證明),這是現(xiàn)有數(shù)學(xué)理論形式化實(shí)踐中的典型情況。在第二種情況下,研究者做了一個(gè)更普遍的假設(shè),即沒有給出真實(shí)的非形式化證明,并且用一個(gè)經(jīng)過非形式化數(shù)學(xué)數(shù)據(jù)訓(xùn)練的大型語言模型來起草證明候選。該語言模型消除了對(duì)人類證明的依賴,并能為每個(gè)問題產(chǎn)生多種備選解決方案。雖然沒有簡單的方法來自動(dòng)驗(yàn)證這些證明的正確性,但非形式化證明只需要在下一階段對(duì)生成一個(gè)好的形式化證明草圖有用。

將非形式化證明映射為形式化草圖

形式化證明草圖對(duì)解決方案的結(jié)構(gòu)進(jìn)行編碼,并撇開低層次的細(xì)節(jié)。直觀地說,它是一個(gè)部分證明,概述了高層次的猜想命題。圖 2 是一個(gè)證明草圖的具體例子。盡管非形式化證明經(jīng)常撇開低層次的細(xì)節(jié),這些細(xì)節(jié)不能在形式化證明中排出,這使得非形式化證明到形式化證明的直接轉(zhuǎn)換變得困難。相反,本文建議將非形式化證明映射到共享相同高層結(jié)構(gòu)的形式化證明草圖上。證明草圖中缺少的低層次細(xì)節(jié)可以由自動(dòng)證明器來填補(bǔ)。由于大型非形式化 - 形式化平行語料庫不存在,標(biāo)準(zhǔn)的機(jī)器翻譯方法不適合這項(xiàng)任務(wù)。相反,這里使用一個(gè)大型語言模型的小樣本學(xué)習(xí)能力。具體來說,用了一些包含非形式化證明及其相應(yīng)的形式化草圖的例子對(duì)來 prompt 該模型,然后是一個(gè)有待轉(zhuǎn)換的非形式化證明,然后讓模型生成后續(xù)的 token,以獲得所需的形式化草圖。這個(gè)模型稱為「自動(dòng)形式化器」。

bc0cbd28-68e0-11ed-8abf-dac502259ad0.png

圖 2.

證明草圖中的公開猜想

作為這個(gè)過程的最后一部分,研究者執(zhí)行現(xiàn)成的自動(dòng)證明器來填補(bǔ)證明草圖中缺失的細(xì)節(jié),這里的「自動(dòng)證明器」是指能夠產(chǎn)生形式上可驗(yàn)證的證明的系統(tǒng)。該框架對(duì)自動(dòng)證明器的具體選擇是不可知的:它可以是符號(hào)證明器(如啟發(fā)式證明自動(dòng)化工具)、基于神經(jīng)網(wǎng)絡(luò)的證明器或者混合方法。如果自動(dòng)證明器成功地填補(bǔ)了證明草圖中的所有空白,它就會(huì)返回最終的形式化證明,可以對(duì)照問題的規(guī)格進(jìn)行檢查。如果自動(dòng)證明器失敗(例如,它超過了分配的時(shí)間限制),則認(rèn)為評(píng)估是不成功的。

實(shí)驗(yàn)

研究者進(jìn)行了一系列實(shí)驗(yàn),包括從 miniF2F 數(shù)據(jù)集中生成問題的形式化證明,并表明很大一部分定理可以用這種方法自動(dòng)證明。此處研究了兩種環(huán)境,其中非形式化證明是由人類寫的,或者是由一個(gè)在數(shù)學(xué)文本上訓(xùn)練的大型語言模型起草的。這兩種設(shè)置對(duì)應(yīng)于現(xiàn)有理論形式化過程中經(jīng)常出現(xiàn)的情況,即通常有非形式化證明,但有時(shí)作為練習(xí)留給讀者,或者由于空白處的限制而缺失。

表 1 展示了在 miniF2F 數(shù)據(jù)集上發(fā)現(xiàn)的成功形式化證明的比例。結(jié)果包括本文實(shí)驗(yàn)的四條 baseline,以及帶有人類編寫的證明和模型生成的證明的 DSP 方法。

bc1ec162-68e0-11ed-8abf-dac502259ad0.png

可以看出,附加了 11 種啟發(fā)式策略的自動(dòng)證明器大大增加了 Sledgehammer 的性能,在 miniF2F 的驗(yàn)證集上將其成功率從 9.9% 提高到 18.0%,在測(cè)試集上從 10.4% 提高到 20.9%。兩個(gè)使用語言模型和證明搜索的 baseline 在 miniF2F 的測(cè)試集上分別達(dá)到 29.9% 和 35.2% 的成功率。

基于人類編寫的非形式化證明,DSP 方法在 miniF2F 的驗(yàn)證和測(cè)試集上取得了 42.6% 和 39.3% 的成功率。488 個(gè)問題中共有 200 個(gè)可以通過這種方式進(jìn)行證明。Codex 模型和 Minerva(8B)模型在解決 miniF2F 上的問題時(shí)給出了非常相似的結(jié)果:它們都指導(dǎo)自動(dòng)驗(yàn)證器分別解決了驗(yàn)證集和測(cè)試集上 40.6% 和 35.3% 的問題。

當(dāng)切換到 Minerva(62B)模型時(shí),成功率分別上升到 43.9% 和 37.7%。與人編寫的非形式化證明相比,其在驗(yàn)證集上的成功率要高 1.3%,在測(cè)試集上要低 1.6%??偟膩碚f,Minerva(62B)模型能夠解決 miniF2F 上的 199 個(gè)問題,比用人編寫的證明少一個(gè)。Minerva(540B)模型在 miniF2F 的驗(yàn)證集和測(cè)試集中分別解決了 42.6% 和 38.9% 的問題,也生成了 199 個(gè)成功的證明。

在兩種情況下,DSP 方法都能有效地指導(dǎo)自動(dòng)證明器:使用人類的非形式化證明或語言模型生成的非形式化證明。DSP 幾乎將證明器的成功率提高了一倍,并在使用 Isabelle 的 miniF2F 上產(chǎn)生了 SOTA 性能。此外,更大的 Minerva 模型在指導(dǎo)自動(dòng)形式化證明器方面幾乎和人類一樣有幫助。

如下圖所示,DSP 方法顯著提高了 Sledgehammer + 啟發(fā)式證明器的性能(~20% -> ~40%),在 miniF2F 上實(shí)現(xiàn)了新的 SOTA。 Minerva 的 62B 和 540B 版本生成的證明與人類的證明非常相似。

bc46b212-68e0-11ed-8abf-dac502259ad0.jpg

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49742

    瀏覽量

    261576
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    570

    瀏覽量

    11255
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14563

原文標(biāo)題:AI再卷數(shù)學(xué)界,DSP新方法將機(jī)器證明成功率提高一倍

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    奧松電子榮獲2025年中國創(chuàng)新方法大賽全國總決賽二等獎(jiǎng)

    2025年11月18日-21日,2025年中國創(chuàng)新方法大賽總決賽在山東省泰安市成功舉辦。國內(nèi)MEMS智能傳感器與半導(dǎo)體關(guān)鍵零部件領(lǐng)域的國家級(jí)專精特新“小巨人”企業(yè)——廣州奧松電子股份有限公司,憑借
    的頭像 發(fā)表于 12-05 15:17 ?295次閱讀

    ??低晿s獲2025年中國創(chuàng)新方法大賽總決賽金獎(jiǎng)

    近日,2025年中國創(chuàng)新方法大賽圓滿落幕。??低晳{借《工業(yè)聽診師——超長距離皮帶運(yùn)輸機(jī)托輥聲紋監(jiān)測(cè)系統(tǒng)》項(xiàng)目脫穎而出,斬獲全國總決賽唯金獎(jiǎng)。
    的頭像 發(fā)表于 12-04 10:55 ?190次閱讀

    AI算法開發(fā),SpeedDP打輔助!不止10效率

    往日的職場(chǎng)生存法則正在被AI點(diǎn)點(diǎn)改變,以前是人人,現(xiàn)在即使是,也
    的頭像 發(fā)表于 11-20 18:09 ?365次閱讀
    <b class='flag-5'>AI</b>算法開發(fā),SpeedDP打輔助!不止10<b class='flag-5'>倍</b>效率

    提高條件分支指令預(yù)測(cè)正確率的方法

    “Gshare方法”。 BTB: 分支目標(biāo)緩沖器(Branch Target Buffer,BTB)是個(gè)用于存儲(chǔ)分支指令地址和目標(biāo)地址的高速緩存,其常見于超標(biāo)量處理器中,主要用于提高分支預(yù)測(cè)器的性能,因?yàn)樗?/div>
    發(fā)表于 10-22 08:22

    功率 ( 23 dBm) 802.11ax 超線性 WLAN 功率放大器,帶集成功率檢測(cè)器 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()高功率 ( 23 dBm) 802.11ax 超線性 WLAN 功率放大器,帶集成功率檢測(cè)器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有高功率 ( 23 dBm) 802.11
    發(fā)表于 10-16 18:32
    高<b class='flag-5'>功率</b> ( 23 dBm) 802.11ax 超線性 WLAN <b class='flag-5'>功率</b>放大器,帶集<b class='flag-5'>成功率</b>檢測(cè)器 skyworksinc

    成功率檢測(cè)器的高功率 802.11ac WLAN 功率放大器 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()集成功率檢測(cè)器的高功率 802.11ac WLAN 功率放大器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有集成功率檢測(cè)器的高功率 8
    發(fā)表于 10-16 18:31
    集<b class='flag-5'>成功率</b>檢測(cè)器的高<b class='flag-5'>功率</b> 802.11ac WLAN <b class='flag-5'>功率</b>放大器 skyworksinc

    功率 ( 19 dBm) 802.11ac WLAN 功率放大器,帶集成功率檢測(cè)器 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()高功率 ( 19 dBm) 802.11ac WLAN 功率放大器,帶集成功率檢測(cè)器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有高功率 ( 19 dBm) 802.11ac W
    發(fā)表于 10-10 18:33
    高<b class='flag-5'>功率</b> ( 19 dBm) 802.11ac WLAN <b class='flag-5'>功率</b>放大器,帶集<b class='flag-5'>成功率</b>檢測(cè)器 skyworksinc

    功率 ( 22 dBm) 802.11ac WLAN 功率放大器,帶集成功率檢測(cè)器 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()高功率 ( 22 dBm) 802.11ac WLAN 功率放大器,帶集成功率檢測(cè)器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有高功率 ( 22 dBm) 802.11ac W
    發(fā)表于 09-25 18:34
    高<b class='flag-5'>功率</b> ( 22 dBm) 802.11ac WLAN <b class='flag-5'>功率</b>放大器,帶集<b class='flag-5'>成功率</b>檢測(cè)器 skyworksinc

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實(shí)現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是種開源、模塊化的指令集架構(gòu)(ISA)。優(yōu)勢(shì)如下: ①模
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+內(nèi)容總覽

    ,其中第章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法和架構(gòu)。以及些新型的算法
    發(fā)表于 09-05 15:10

    無刷直流電機(jī)反電勢(shì)過零檢測(cè)新方法

    新方法。在三相采樣等效電路上分別并聯(lián)組三極管控制的電阻分壓開關(guān)電路,參考電機(jī)轉(zhuǎn)速線性調(diào)節(jié)控制信號(hào)占空比,以此控制三極管通斷,從而調(diào)節(jié)電阻分樂開關(guān)電路阻值,可以避免高速時(shí)反電勢(shì)幅值高于檢測(cè)電路供電電壓
    發(fā)表于 06-26 13:50

    功放變壓器換成功率大的可以嗎怎么換

    功率輸出和更優(yōu)的音質(zhì)表現(xiàn)。本文深入探討功放變壓器換成功率更大的可行性、具體更換步驟以及需要注意的事項(xiàng),旨在為相關(guān)領(lǐng)域的工程師和愛好者提供有價(jià)值的參考。
    的頭像 發(fā)表于 01-29 16:37 ?3w次閱讀

    大模型進(jìn)化論:AI產(chǎn)業(yè)落地向何方?

    大模型進(jìn)化論:AI產(chǎn)業(yè)落地向何方?
    的頭像 發(fā)表于 01-24 09:28 ?505次閱讀

    大華股份榮獲中國創(chuàng)新方法大賽等獎(jiǎng)

    ,大華股份憑借其卓越的創(chuàng)新能力和深厚的技術(shù)積累,脫穎而出,斬獲了全國等獎(jiǎng)。大華股份的獲獎(jiǎng)項(xiàng)目為“不懼強(qiáng)光,分毫必現(xiàn),基于TRIZ的強(qiáng)逆光銳捕技術(shù)”。該項(xiàng)目通過靈活運(yùn)用創(chuàng)新方法,成功突破了行業(yè)性技術(shù)難題,實(shí)現(xiàn)了在強(qiáng)逆光
    的頭像 發(fā)表于 12-27 14:50 ?883次閱讀

    種降低VIO/VSLAM系統(tǒng)漂移的新方法

    本文提出了新方法,通過使用點(diǎn)到平面匹配VIO/VSLAM系統(tǒng)生成的稀疏3D點(diǎn)云與數(shù)字孿生體進(jìn)行對(duì)齊,從而實(shí)現(xiàn)精確且全球致的定位,無需視覺數(shù)據(jù)關(guān)聯(lián)。所提
    的頭像 發(fā)表于 12-13 11:18 ?1187次閱讀
    <b class='flag-5'>一</b>種降低VIO/VSLAM系統(tǒng)漂移的<b class='flag-5'>新方法</b>