chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

跑分沒輸過,體驗(yàn)沒贏過,大模型刷分何時(shí)休?

新火種 ? 來源:新火種 ? 作者:新火種 ? 2023-12-13 09:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:一號(hào)

編輯:美美

手機(jī)到大模型,國內(nèi)產(chǎn)品為啥都這么熱衷跑分?

IDCAI大模型技術(shù)能力評(píng)估,12項(xiàng)指標(biāo),7項(xiàng)滿分,文心大模型3.5“大滿貫”;360智腦在SuperCLUE評(píng)測(cè)中多項(xiàng)能力位列國產(chǎn)大模型第一,某些方面甚至跑贏了GPT-4;夸克大模型在C-Eval和CMMLU兩大權(quán)威評(píng)測(cè)榜單中名列第一,顯示出其在寫作、考試等部分場(chǎng)景中甚至優(yōu)于GPT-4......

wKgZomV3wHeANcIXAAumtSt2Mh4559.jpg

今年以來,國產(chǎn)AI大模型發(fā)展趨勢(shì)之迅猛,不得不讓人感慨。截至目前,國產(chǎn)大模型數(shù)量已經(jīng)超過了200個(gè),而且,這些大模型紛紛表現(xiàn)不俗,從百度文心一言到阿里巴巴的夸克大模型,國產(chǎn)AI在各類評(píng)測(cè)榜單上的表現(xiàn)引人注目。有人對(duì)此評(píng)價(jià),“跑分沒輸過,體驗(yàn)沒贏過”。

這種似曾相識(shí)的“跑分”現(xiàn)象,不禁讓人想到手機(jī)市場(chǎng)里類似的做法。這種在評(píng)測(cè)中名列前茅、表現(xiàn)出色,但實(shí)際用戶體驗(yàn)一言難盡的情況,究竟意味著什么?

為何跑分與體驗(yàn)不符?

回顧手機(jī)市場(chǎng),“跑分沒輸過,體驗(yàn)沒贏過”這句話最開始就是從手機(jī)圈中興起的,各大廠商通過不斷疊加定語,來讓自己獲得第一;還有的手機(jī)會(huì)自動(dòng)識(shí)別跑分軟件,針對(duì)性地開啟性能模式,讓自己的跑分?jǐn)?shù)據(jù)好看些,從而實(shí)現(xiàn)“作弊”。用戶買到跑分高的手機(jī)后,實(shí)際體驗(yàn)并不是那么回事。

而在AI大模型領(lǐng)域,評(píng)估標(biāo)準(zhǔn)則相對(duì)公平,并且是同意的,其中包括MMLU(用于衡量多任務(wù)語言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于評(píng)估人類級(jí)任務(wù)的能力)。

wKgaomV3wHmAKZdKAKNpTklkemA192.png

目前國內(nèi)廠商經(jīng)常飲用的榜單就是SuperCLUE、CMMLU和C-Eval,其中C-Eval是由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的綜合性考試評(píng)測(cè)集,CMMLU則是MBZUAI、上海交通大學(xué)、微軟亞洲研究院共同推出,至于SuperCLUE,則是由各大高校的AI專業(yè)人士設(shè)立的。

盡管大模型的評(píng)測(cè)標(biāo)準(zhǔn)相對(duì)公平,但其仍有一定的局限性,實(shí)際的測(cè)評(píng)之中總會(huì)出現(xiàn)問題,其中一個(gè)最大的問題就是“考題泄露”。

大模型評(píng)測(cè)的一個(gè)主要方法就是做題。為了讓評(píng)測(cè)相對(duì)透明公開,避免暗箱操作,評(píng)測(cè)機(jī)構(gòu)通常會(huì)將評(píng)測(cè)的方法、標(biāo)準(zhǔn)甚至是題庫對(duì)外公開。例如C-Eval榜單在上線之初就有13948道題目,由于題庫有限,并且更新頻率不是特別高,這就給了一些大模型刷題“鉆空子”的機(jī)會(huì)。

我們都知道,如果在考試之前知道會(huì)考哪些題目,那考生完全可以做針對(duì)性的學(xué)習(xí),大模型也一樣,并且大模型最擅長的就是記憶。在評(píng)測(cè)之前,把題庫直接加入大模型的訓(xùn)練集,訓(xùn)練之后的大模型就能在評(píng)測(cè)中表現(xiàn)得比實(shí)際能力更好,甚至跑出一些夸張的成績,例如1.3B的模型在某些任務(wù)上超越了10倍體量的大模型。

那么這樣的評(píng)測(cè)結(jié)果,跟實(shí)際體驗(yàn)一定會(huì)很不相符。

為何熱衷于跑分?

無論是國產(chǎn)手機(jī)廠商還是AI大模型公司,他們對(duì)跑分的熱衷,本質(zhì)上是一種營銷策略。跑分成績?nèi)菀妆涣炕?duì)比,因此成為了向公眾展示技術(shù)實(shí)力的便捷手段。這種做法在短期內(nèi)可能會(huì)吸引消費(fèi)者和投資者的注意,但它也可能引起誤導(dǎo),使人們過分關(guān)注理論性能,而忽視了實(shí)際應(yīng)用中的體驗(yàn)和效能。

wKgaomV3wHqAfwrnAAkbdfqpYbk268.jpg

這種營銷策略的問題在于,它可能導(dǎo)致公司本末倒置,過分投入于提高特定測(cè)試的分?jǐn)?shù),而非真正的技術(shù)創(chuàng)新。在手機(jī)行業(yè),這可能意味著優(yōu)化設(shè)備性能以提升特定跑分軟件的測(cè)試成績;在AI領(lǐng)域,則可能表現(xiàn)為優(yōu)化模型以應(yīng)對(duì)評(píng)測(cè)榜單的特定題目。這種做法雖然能在短期內(nèi)提高產(chǎn)品在評(píng)測(cè)榜單上的排名,但卻可能忽視了產(chǎn)品在真實(shí)使用環(huán)境中的性能和用戶體驗(yàn)。

這種以跑分為核心的營銷策略需要被重新審視。盡管高分成績?cè)跔I銷中具有吸引力,但它們并不總是反映產(chǎn)品的真實(shí)價(jià)值。對(duì)于消費(fèi)者而言,理論上的高性能與日常使用中的實(shí)際體驗(yàn)之間往往存在差距。因此,無論是手機(jī)行業(yè)還是AI領(lǐng)域,公眾和行業(yè)都應(yīng)該更加關(guān)注產(chǎn)品在真實(shí)世界中的表現(xiàn)。

要放棄跑分嗎?

從隋唐的科舉到今天的高考,從國內(nèi)的四六級(jí)到國外的托福雅思,考試在時(shí)間和空間的維度上,都是一種相對(duì)公平的衡量機(jī)制。因此,大模型評(píng)測(cè)作為大模型的“考試”,同樣不能被輕易拋棄。

倘若評(píng)測(cè)相對(duì)準(zhǔn)確、靠譜、權(quán)威,那么對(duì)于所有的大模型公司來說都是好事。研發(fā)者可以通過評(píng)測(cè)結(jié)果了解自家大模型的優(yōu)缺點(diǎn),查漏補(bǔ)缺,找到正確的方向鉆研算法、提升技術(shù)、加強(qiáng)訓(xùn)練,不斷攻克,進(jìn)行優(yōu)化迭代,從而讓產(chǎn)品更具有競(jìng)爭力。

對(duì)于AI大模型開發(fā)者而言,榜單的排名不應(yīng)該成為最終目的,真正的挑戰(zhàn)在于如何將先進(jìn)的技術(shù)轉(zhuǎn)化為實(shí)際應(yīng)用中的有效工具,這不僅僅是一場(chǎng)分?jǐn)?shù)的競(jìng)賽,更是對(duì)技術(shù)創(chuàng)新和實(shí)用性的追求。我們期待一個(gè)更加全面和科學(xué)的評(píng)測(cè)體系的出現(xiàn),這不僅能正確評(píng)估AI模型的實(shí)際能力,還能促進(jìn)整個(gè)行業(yè)向著更加健康、理性的方向發(fā)展。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39067

    瀏覽量

    299629
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3579

    瀏覽量

    5077
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小米新機(jī)成為再次王!小米6達(dá)到了21萬!

    早幾年前,小米是很喜歡玩這個(gè)概念的。因此小米在之前的口號(hào)直接就有:不服個(gè)!不過隨著高通處理器被越來越多的手機(jī)廠商所接納和采用,國產(chǎn)手機(jī)在
    發(fā)表于 01-06 23:28 ?912次閱讀

    不服個(gè)! 小米6搭載高通835高達(dá)110萬

     隨著小米6發(fā)布日期的不斷推進(jìn)近日網(wǎng)上曝出一張小米6的情況,確認(rèn)搭載高通835處理器魯大師竟然高達(dá)110萬之多!我很確定這是真的魯
    發(fā)表于 01-17 08:44 ?1907次閱讀

    不服來,小米占安兔兔TOP10近半席

     不服個(gè)曾經(jīng)是小米手機(jī)發(fā)布會(huì)的“口頭禪”,雖然不是評(píng)判手機(jī)優(yōu)劣的唯一標(biāo)準(zhǔn),但確實(shí)是真實(shí)反饋出設(shè)備的整體狀態(tài)的量化標(biāo)準(zhǔn)。在上周的性價(jià)比榜單之后,今日安兔兔又帶來了2017年1月份
    發(fā)表于 02-28 10:37 ?1600次閱讀
    不服來<b class='flag-5'>跑</b><b class='flag-5'>分</b>,小米占安兔兔<b class='flag-5'>跑</b><b class='flag-5'>分</b>TOP10近半席

    三星Exynos 9815處理器曝光?超過蘋果A11?

    近日一款型號(hào)為SM-N960F的三星手機(jī)現(xiàn)身Geekbench4分網(wǎng)站,在內(nèi)置8GB內(nèi)存的情況下,單核5162的,多核10704的成績遠(yuǎn)遠(yuǎn)的把蘋果的A11甩在了身后(A11單核
    的頭像 發(fā)表于 05-16 11:17 ?9673次閱讀
    三星Exynos 9815處理器<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光?<b class='flag-5'>跑</b><b class='flag-5'>分</b>超過蘋果A11?

    新版iPhone現(xiàn)身Geekbench

    近日,知名應(yīng)用 Geekbench 的資料庫出現(xiàn)一款疑似 2018 年新款 iPhone 的結(jié)果。
    的頭像 發(fā)表于 07-05 14:30 ?5392次閱讀

    都2019年了為什么還需要

    如今不再是展現(xiàn)一款手機(jī)有多優(yōu)秀的重要指標(biāo),但發(fā)布會(huì)上多少會(huì)提及幾句作為陪襯,媒體也會(huì)把依舊作為評(píng)測(cè)的固定環(huán)節(jié)存在。
    的頭像 發(fā)表于 05-15 15:02 ?3017次閱讀

    魅族16s Pro的Geekbench曝光單核成績?yōu)?570多核成績?yōu)?493

    其實(shí)兩周之前,魅族16s Pro的安兔兔就被曝光了。不過那一款的配置為6GB+128GB的規(guī)格,而今天曝光的Geekbench的機(jī)型配置為8GB+128GB的規(guī)格,當(dāng)然,內(nèi)存配
    發(fā)表于 08-26 16:11 ?1961次閱讀

    三星Note10 Lite曝光單核分為667多核分為2030

    11月28日,三星Note10 Lite的GeekBench 5分在網(wǎng)上曝光,同時(shí)還曝光了部分配置信息。這款手機(jī)單核667,多核2
    發(fā)表于 11-29 15:15 ?1333次閱讀

    一加8曝光該機(jī)單核分為4276多核達(dá)12541

    這款手機(jī)單核分為4276,多核達(dá)12541,同時(shí)輔以8GB運(yùn)行內(nèi)存和Android10系統(tǒng),僅從分?jǐn)?shù)而言,這款手機(jī)的性能表現(xiàn)相當(dāng)可
    發(fā)表于 02-15 12:51 ?2160次閱讀
    一加8<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光該機(jī)單核<b class='flag-5'>跑</b>分為4276<b class='flag-5'>分</b>多核<b class='flag-5'>跑</b><b class='flag-5'>分</b>達(dá)12541<b class='flag-5'>分</b>

    一加8 Pro 5G曝光 多核達(dá)12686

    近日,知名軟件Geekbench出現(xiàn)了一加8 Pro 5G的分成績,讓我們提前一睹這款驍龍865旗艦的性能吧。
    的頭像 發(fā)表于 03-02 09:43 ?2586次閱讀
    一加8 Pro 5G<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光 多核<b class='flag-5'>跑</b><b class='flag-5'>分</b>達(dá)12686

    Cinebench R23 多款 CPU 的 蘋果開發(fā)者套裝的 A12Z 987

    IT之家 11 月 12 日消息 昨天,知名 CPU 軟件 Cinebench 現(xiàn)已發(fā)布 R23 版本,支持了搭載蘋果 M1 芯片的設(shè)備?,F(xiàn)在,根據(jù)數(shù)碼博主 @EpKong,CHH 統(tǒng)計(jì)了
    的頭像 發(fā)表于 11-12 14:57 ?4181次閱讀

    麒麟950是幾納米工藝_麒麟950

    華為麒麟950是多少?,也許是衡量一款處理器是否彪悍的最簡單暴力手段了。
    的頭像 發(fā)表于 11-17 15:24 ?1.2w次閱讀

    聯(lián)發(fā)科全新芯片公布

    11月30日消息,安兔兔今天曝光了聯(lián)發(fā)科全新芯片的分成績,綜合高達(dá)62萬,綜合情況已
    的頭像 發(fā)表于 12-01 09:38 ?4050次閱讀

    基于牛頓法的自適應(yīng)高階距離推薦模型

    基于牛頓法的自適應(yīng)高階距離推薦模型
    發(fā)表于 06-17 15:34 ?10次下載

    INDEMIND視覺空間智能重構(gòu)掃地機(jī)器人清潔邏輯

    不知從何時(shí)起,掃地機(jī)器人陷入了“卷參數(shù)”“堆配置”的怪圈。傳感器越加越多,吸力數(shù)值越飆越猛,電池容量越做越大,然而用戶體驗(yàn)的提升卻遠(yuǎn)未達(dá)到預(yù)期。“參數(shù)沒輸過,體驗(yàn)贏過”成為許多用戶的
    的頭像 發(fā)表于 10-22 16:41 ?867次閱讀