chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AGIEval:準(zhǔn)確考察基礎(chǔ)模型類人能力的基準(zhǔn)評估工具

jf_WZTOguxH ? 來源:AI前線 ? 2023-05-15 15:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對基礎(chǔ)模型在處理人類任務(wù)時(shí)的一般能力做出準(zhǔn)確評估,已經(jīng)成為通用人工智能(AGI)開發(fā)和應(yīng)用領(lǐng)域的一大重要問題?;谌斯?shù)據(jù)集的傳統(tǒng)基準(zhǔn)往往無法準(zhǔn)確反映模型能力是否達(dá)到人類水平。

近日,微軟的一個(gè)華人研究團(tuán)隊(duì)發(fā)布了一項(xiàng)新型基準(zhǔn)測試 AGIEval,這項(xiàng)基準(zhǔn)測試專門用于對基礎(chǔ)模型的類人能力做準(zhǔn)確考察(涵蓋高考、法學(xué)入學(xué)考試、數(shù)學(xué)競賽和律師資格考試等)。

該研究團(tuán)隊(duì)使用此項(xiàng)基準(zhǔn)評估了當(dāng)前最先進(jìn)的多個(gè)基礎(chǔ)模型,包括 GPT-4、ChatGPT 和 Text-Davinci-003 等。

令人印象深刻的是,GPT-4 在 SAT、LSAT 和數(shù)學(xué)競賽中的表現(xiàn)均超過人類平均水平,在 SAT 數(shù)學(xué)測試中達(dá)成 95% 的準(zhǔn)確率,在中國高考英語測試中準(zhǔn)確率亦達(dá)到 92.5%,證明了當(dāng)代基礎(chǔ)模型的非凡性能。

與之對應(yīng),研究人員發(fā)現(xiàn) GPT-4,在需要復(fù)雜推理或涉及特定領(lǐng)域知識的任務(wù)中表現(xiàn)尚不理想。

通過對模型能力(理解、知識、推理和計(jì)算等)的全面分析,有助于揭示這些模型的優(yōu)勢和局限性,為增強(qiáng)其通用能力的未來發(fā)展方向提供支持。通過測試涉及人類認(rèn)知和決策能力的任務(wù),AGIEval 能夠?qū)A(chǔ)模型在現(xiàn)實(shí)場景中的性能做出更可靠、更有意義的評估。

測試中的全部數(shù)據(jù)、代碼和模型輸出均通過此 https URL(https://github.com/microsoft/AGIEval)發(fā)布。

AGIEval 項(xiàng)目介紹

AGIEval 是一項(xiàng)考察基礎(chǔ)模型類人能力的基準(zhǔn)測試,專門用于評估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力。

該基準(zhǔn)選取 20 種面向普通人類考生的官方、公開、高標(biāo)準(zhǔn)往常和資格考試,包括普通大學(xué)入學(xué)考試(中國高考和美國 SAT 考試)、法學(xué)入學(xué)考試、數(shù)學(xué)競賽、律師資格考試、國家公務(wù)員考試等等。

關(guān)于此基準(zhǔn)的完整描述,請參閱論文《AGIEval:準(zhǔn)確考察基礎(chǔ)模型類人能力的基準(zhǔn)評估工具》(https://arxiv.org/pdf/2304.06364.pdf)。

任務(wù)與數(shù)據(jù)

AGIEval v1.0 包含 20 項(xiàng)任務(wù),具體為 2 項(xiàng)完形填空任務(wù)(高考數(shù)學(xué))和 18 項(xiàng)多選題回答任務(wù)。在選擇題部分,高物理和 JEC-QA 部分對應(yīng)一個(gè)或多個(gè)正確答案,其余任務(wù)則僅有一個(gè)正確答案。

下表所示,為測試題目的完整列表。

a48a24c6-f295-11ed-90ce-dac502259ad0.png

可以在 data/v1 文件夾內(nèi)下載到除 JEC-QA 以外的所有后處理數(shù)據(jù)。關(guān)于 JEC-QA 部分,請前往 JEC-QA 網(wǎng)站獲取數(shù)據(jù)。

使用 JEC-QA 訓(xùn)練數(shù)據(jù)的前 1000 個(gè)實(shí)例作為測試集。所有數(shù)據(jù)集的數(shù)據(jù)格式如下:

{
    "passage": null,
    "question": "設(shè)集合 $A=\{x \mid x \geq 1\}, B=\{x \mid-1-1\}$",
        "(B)$\{x \mid x \geq 1\}$",
        "(C)$\{x \mid-1

其中高考語言、高考英語、兩科 logiqa、全部 LSAT 和 SAT 均可使用 passage 字段。多選任務(wù)的答案保存在 label 字段內(nèi)。完形填空任務(wù)的答案保存在 answer 字段內(nèi)。

我們還在 data/v1/few_shot_prompts 文件中提供了小樣本學(xué)習(xí)的提示詞。

基線系統(tǒng)

我們在 AGIEval v1.0 上評估了基準(zhǔn)系統(tǒng)的性能。基線系統(tǒng)基于以下模型:text-davinci-003、ChatGPT (gpt-3.5-turbo) 和 GPT-4。您可以按照以下步驟重現(xiàn)測試結(jié)果:

1.在 openai_api.py 文件中填寫您的 OpenAI API 密鑰。

2.運(yùn)行 run_prediction.py 文件以獲取結(jié)果。

模型輸出

?您可以在 Onedrive 鏈接(https://1drv.ms/u/s!Amt8n9AJEyxcg8YQKFm1rSEyV9GU_A?e=VEfJVS)中下載到基線系統(tǒng)的零樣本、零樣本思維鏈、少樣本和少樣本思維鏈輸出。請注意,我們修復(fù)了 SAT-en 實(shí)例中的 52 處拼寫錯(cuò)誤,并將很快發(fā)布更新后的數(shù)據(jù)集輸出。?

評估

您可以運(yùn)行 post_process_and_evaluation.py 文件來獲取評估結(jié)果。

引用

如果您需要在研究中使用 AGIEval 數(shù)據(jù)集或代碼,請引用論文:

@misc{zhong2023agieval,
      title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models},
      author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan},
      year={2023},
      eprint={2304.06364},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

在使用時(shí),請務(wù)必在您的論文中引用所有獨(dú)立數(shù)據(jù)集。我們提供以下引用信息:



@inproceedings{ling-etal-2017-program,
    title = "Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems",
    author = "Ling, Wang  and
      Yogatama, Dani  and
      Dyer, Chris  and
      Blunsom, Phil",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P17-1015",
    doi = "10.18653/v1/P17-1015",
    pages = "158--167",
    abstract = "Solving algebraic word problems requires executing a series of arithmetic operations{---}a program{---}to obtain a final answer. However, since programs can be arbitrarily complicated, inducing them directly from question-answer pairs is a formidable challenge. To make this task more feasible, we solve these problems by generating answer rationales, sequences of natural language and human-readable mathematical expressions that derive the final answer through a series of small steps. Although rationales do not explicitly specify programs, they provide a scaffolding for their structure via intermediate milestones. To evaluate our approach, we have created a new 100,000-sample dataset of questions, answers and rationales. Experimental results show that indirect supervision of program learning via answer rationales is a promising strategy for inducing arithmetic programs.",
}


@inproceedings{hendrycksmath2021,
  title={Measuring Mathematical Problem Solving With the MATH Dataset},
  author={Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt},
  journal={NeurIPS},
  year={2021}
}


@inproceedings{Liu2020LogiQAAC,
  title={LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning},
  author={Jian Liu and Leyang Cui and Hanmeng Liu and Dandan Huang and Yile Wang and Yue Zhang},
  booktitle={International Joint Conference on Artificial Intelligence},
  year={2020}
}


@inproceedings{zhong2019jec,
  title={JEC-QA: A Legal-Domain Question Answering Dataset},
  author={Zhong, Haoxi and Xiao, Chaojun and Tu, Cunchao and Zhang, Tianyang and Liu, Zhiyuan and Sun, Maosong},
  booktitle={Proceedings of AAAI},
  year={2020},
}


@article{Wang2021FromLT,
  title={From LSAT: The Progress and Challenges of Complex Reasoning},
  author={Siyuan Wang and Zhongkun Liu and Wanjun Zhong and Ming Zhou and Zhongyu Wei and Zhumin Chen and Nan Duan},
  journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
  year={2021},
  volume={30},
  pages={2201-2216}
}

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50091

    瀏覽量

    265226
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1598

    瀏覽量

    10262

原文標(biāo)題:AGIEval:準(zhǔn)確考察基礎(chǔ)模型類人能力的基準(zhǔn)評估工具

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于NVIDIA Alpamayo構(gòu)建具備推理能力的輔助駕駛汽車

    輔助駕駛研究領(lǐng)域正經(jīng)歷一場快速變革。視覺-語言-動(dòng)作推理模型(Reasoning VLA) 的出現(xiàn)正重塑該領(lǐng)域,這些模型為輔助駕駛決策賦予了的思維
    的頭像 發(fā)表于 01-14 09:41 ?2029次閱讀
    基于NVIDIA Alpamayo構(gòu)建具備推理<b class='flag-5'>能力</b>的輔助駕駛汽車

    解鎖掃地機(jī)器智能”的時(shí)鐘密鑰

    在智能家居的浪潮中,掃地機(jī)器已從簡單的“清潔工具”逐步進(jìn)化為具備自主決策能力的“家庭管家”。而這一進(jìn)化背后,晶振作為電子系統(tǒng)的“心臟”,正從基礎(chǔ)時(shí)鐘提供者升級為“智慧賦能者”,推動(dòng)掃地機(jī)器
    的頭像 發(fā)表于 01-09 08:31 ?180次閱讀
    解鎖掃地機(jī)器<b class='flag-5'>人</b>“<b class='flag-5'>類</b><b class='flag-5'>人</b>智能”的時(shí)鐘密鑰

    NVIDIA 推出 Alpamayo 系列開源 AI 模型工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    的仿真工具和數(shù)據(jù)集。 l Alpamayo 1、AlpaSim 和物理 AI 開放數(shù)據(jù)集可為開發(fā)具備感知、推理與決策能力的車輛提供支持,使開發(fā)者能夠進(jìn)行
    的頭像 發(fā)表于 01-06 09:40 ?372次閱讀
    NVIDIA 推出 Alpamayo 系列開源 AI <b class='flag-5'>模型</b>與<b class='flag-5'>工具</b>,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    如何利用NVIDIA Cosmos Cookbook提升機(jī)器操作能力

    機(jī)器操控系統(tǒng)在進(jìn)入動(dòng)態(tài)現(xiàn)實(shí)環(huán)境時(shí),難以應(yīng)對持續(xù)變化的物體、光照條件及接觸動(dòng)力學(xué)。此外,仿真與現(xiàn)實(shí)之間的差距,以及未經(jīng)過優(yōu)化的抓手或工具,通常限制了機(jī)器人在多樣化任務(wù)中的泛化能力、長視距任務(wù)的執(zhí)行
    的頭像 發(fā)表于 12-31 16:05 ?2004次閱讀
    如何利用NVIDIA Cosmos Cookbook提升機(jī)器<b class='flag-5'>人</b>操作<b class='flag-5'>能力</b>

    自動(dòng)駕駛大模型中常提的泛化能力是指啥?

    [首發(fā)于智駕最前沿微信公眾號]在討論自動(dòng)駕駛大模型時(shí),常會有幾個(gè)評價(jià)維度,如感知是否準(zhǔn)確、決策是否穩(wěn)定、系統(tǒng)是否足夠魯棒,以及模型有沒有“泛化能力”。相比
    的頭像 發(fā)表于 12-10 09:15 ?593次閱讀
    自動(dòng)駕駛大<b class='flag-5'>模型</b>中常提的泛化<b class='flag-5'>能力</b>是指啥?

    不同類型的自動(dòng)化工具評估數(shù)據(jù)緩存效果時(shí)有哪些優(yōu)缺點(diǎn)?

    評估數(shù)據(jù)緩存效果時(shí),不同類型的自動(dòng)化工具(實(shí)時(shí)監(jiān)控、性能測試、深度分析、云原生專屬)因
    的頭像 發(fā)表于 09-25 17:48 ?701次閱讀
    不同類型的自動(dòng)化<b class='flag-5'>工具</b>在<b class='flag-5'>評估</b>數(shù)據(jù)緩存效果時(shí)有哪些優(yōu)缺點(diǎn)?

    如何驗(yàn)證電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)校驗(yàn)系統(tǒng)的準(zhǔn)確性?

    驗(yàn)證電能質(zhì)量在線監(jiān)測裝置 數(shù)據(jù)校驗(yàn)系統(tǒng)的準(zhǔn)確性 ,核心是通過 “標(biāo)準(zhǔn)基準(zhǔn)對比、模擬真實(shí)工況、量化指標(biāo)評估”,確保校驗(yàn)系統(tǒng)能精準(zhǔn)識別監(jiān)測裝置數(shù)據(jù)的 “正確性 / 偏差性”,且結(jié)果符合國際、國家相關(guān)標(biāo)準(zhǔn)
    的頭像 發(fā)表于 09-25 17:42 ?810次閱讀

    量化評估企業(yè)軟件測試能力評估工具

    能力評估標(biāo)準(zhǔn),讓測試團(tuán)隊(duì)陷入"救火式加班"的循環(huán)。更令人焦慮的是——管理層難以量化測試團(tuán)隊(duì)的真實(shí)能力水平;工程師說不清效率瓶頸究竟在哪里;工具投入不少,但效果始
    的頭像 發(fā)表于 08-27 10:04 ?732次閱讀
    量化<b class='flag-5'>評估</b>企業(yè)軟件測試<b class='flag-5'>能力</b>的<b class='flag-5'>評估</b><b class='flag-5'>工具</b>包

    如何選擇適合自己項(xiàng)目的通信協(xié)議評估工具?

    LZ-DZ200電能質(zhì)量在線監(jiān)測裝置 選擇適合項(xiàng)目的通信協(xié)議評估工具,核心是 對齊項(xiàng)目需求與工具能力 ,避免 “過度選型”(用高端工具測簡單
    的頭像 發(fā)表于 08-27 09:19 ?702次閱讀
    如何選擇適合自己項(xiàng)目的通信協(xié)議<b class='flag-5'>評估</b><b class='flag-5'>工具</b>?

    模型工具的 “京東答案”

    隨著大模型技術(shù)的迅猛發(fā)展,AI工具已成為重要的輔助生產(chǎn)力工具和工作伙伴。它能夠顯著提升工作效率、幫助解決業(yè)務(wù)痛點(diǎn),甚至能通過知識延展與智能協(xié)同,幫助團(tuán)隊(duì)突破傳統(tǒng)認(rèn)知邊界。掌握大模型
    的頭像 發(fā)表于 08-25 16:09 ?561次閱讀

    機(jī)場保障能力評估系統(tǒng)軟件全面解析

    機(jī)場保障能力評估系統(tǒng)軟件全面解析
    的頭像 發(fā)表于 07-17 22:06 ?520次閱讀
    機(jī)場保障<b class='flag-5'>能力</b><b class='flag-5'>評估</b>系統(tǒng)軟件全面解析

    harmony-utils之CrashUtil,異常相關(guān)工具

    harmony-utils之CrashUtil,異常相關(guān)工具
    的頭像 發(fā)表于 07-04 16:33 ?527次閱讀

    harmony-utils之DisplayUtil,屏幕相關(guān)工具

    harmony-utils之DisplayUtil,屏幕相關(guān)工具
    的頭像 發(fā)表于 07-03 18:26 ?494次閱讀

    harmony-utils之EmitterUtil,Emitter工具

    harmony-utils之EmitterUtil,Emitter工具
    的頭像 發(fā)表于 07-03 18:24 ?428次閱讀

    商湯日日新SenseNova融合模態(tài)大模型 國內(nèi)首家獲得最高評級的大模型

    的大模型。 可信AI多模態(tài)大模型評估2025年1月啟動(dòng),由中國信通院人工智能研究所牽頭,依據(jù)由業(yè)界60余家單位共同編制的《多模態(tài)大模型技術(shù)要求和評估
    的頭像 發(fā)表于 06-11 11:57 ?1411次閱讀