chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE:商湯日日新5.0,刷新國(guó)內(nèi)最好成績(jī)

商湯科技SenseTime ? 來(lái)源:商湯科技SenseTime ? 2024-05-21 14:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:日前,中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE發(fā)布最新榜單,對(duì)商湯科技全新升級(jí)「日日新SenseNova 5.0」大模型進(jìn)行了全方位綜合性測(cè)評(píng),結(jié)果顯示在SuperCLUE綜合基準(zhǔn)上,日日新 5.0表現(xiàn)不俗,以總分80.03分的優(yōu)異成績(jī)刷新國(guó)內(nèi)最好成績(jī),并在中文綜合成績(jī)上超過(guò)GPT-4-Turbo-0125。

SuperCLUE是由創(chuàng)立于2019年的CLUE學(xué)術(shù)社區(qū)最新發(fā)布的中文通用大模型綜合性評(píng)測(cè)基準(zhǔn),是被行業(yè)廣泛認(rèn)可的AI大模型權(quán)威評(píng)測(cè)榜單。以下評(píng)測(cè)報(bào)告轉(zhuǎn)載自 SuperCLUE官方發(fā)布報(bào)道。

4月23日,商湯科技正式發(fā)布全新大模型日日新5.0(SenseChat V5),采用混合專家架構(gòu)(MoE),參數(shù)量高達(dá)6000億,支持200K的上下文窗口。據(jù)官方披露,SenseChat V5具備更強(qiáng)的知識(shí)、數(shù)學(xué)、推理及代碼能力,綜合性能全面對(duì)標(biāo)GPT-4 Turbo。

那么,SenseChat V5在SuperCLUE中文基準(zhǔn)上的表現(xiàn)如何?與國(guó)內(nèi)外代表性大模型相比處于什么位置?在各項(xiàng)基礎(chǔ)能力上如計(jì)算推理、長(zhǎng)文本、代碼生成、生成創(chuàng)作上會(huì)有怎樣的表現(xiàn)?

SuperCLUE團(tuán)隊(duì)對(duì)SenseChat V5在SuperCLUE通用大模型綜合性中文測(cè)評(píng)基準(zhǔn)上,進(jìn)行了全方位綜合性測(cè)評(píng)。

測(cè)評(píng)環(huán)境

參考標(biāo)準(zhǔn):SuperCLUE綜合性測(cè)評(píng)標(biāo)準(zhǔn)

評(píng)測(cè)模型:SenseChat V5(官方于5月11日提供的內(nèi)測(cè)API版本)

評(píng)測(cè)集:SuperCLUE綜合性測(cè)評(píng)基準(zhǔn)4月評(píng)測(cè)集,2194道多輪簡(jiǎn)答題,包括計(jì)算、邏輯推理、代碼、長(zhǎng)文本在內(nèi)的基礎(chǔ)十大任務(wù)。

模型GenerationConfig配置:

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

測(cè)評(píng)方法

本次測(cè)評(píng)為自動(dòng)化評(píng)測(cè),具體評(píng)測(cè)方案可點(diǎn)擊查閱SuperCLUE綜合性測(cè)評(píng)標(biāo)準(zhǔn)。本次測(cè)評(píng)經(jīng)過(guò)人工抽樣校驗(yàn)。

ce86e4cc-173c-11ef-b74b-92fbcf53809c.png

ceaa17ee-173c-11ef-b74b-92fbcf53809c.png

先說(shuō)結(jié)論

結(jié)論1:在SuperCLUE綜合基準(zhǔn)上,SenseChat V5表現(xiàn)不俗,以總分80.03分的優(yōu)異成績(jī)刷新國(guó)內(nèi)最好成績(jī),并且在中文綜合成績(jī)上超過(guò)GPT-4-Turbo-0125有0.9分。

結(jié)論2:在本次測(cè)評(píng)中,理科任務(wù)上SenseChat V5取得國(guó)內(nèi)最好成績(jī),較GPT-4-Turbo-0125低4.35分,還有一定提升空間;文科任務(wù)上SenseChat V5表現(xiàn)十分出色,以82.20分取得國(guó)內(nèi)外最高分。

結(jié)論3:在本次測(cè)評(píng)中,SenseChat V5在各項(xiàng)能力上表現(xiàn)較為均衡,尤其在長(zhǎng)文本、生成創(chuàng)作、角色扮演、安全能力、工具使用上處于全球領(lǐng)先位置,適用于智能體、內(nèi)容創(chuàng)作、長(zhǎng)程對(duì)話等應(yīng)用場(chǎng)景。代碼能力還有一定提升空間。

cee721ca-173c-11ef-b74b-92fbcf53809c.png

對(duì)比模型數(shù)據(jù)來(lái)源: SuperCLUE, 2024年4月30日

以下是我們從定量定性兩個(gè)角度對(duì)模型進(jìn)行的測(cè)評(píng)分析。

測(cè)評(píng)分析

1定量分析

在SuperCLUE測(cè)評(píng)中,SenseChat V5總體表現(xiàn)如下:

SenseChat V5總體表現(xiàn)

cfdfe652-173c-11ef-b74b-92fbcf53809c.png

注:對(duì)比模型數(shù)據(jù)均來(lái)源于SuperCLUE,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分?jǐn)?shù)較為接近,為了減少問(wèn)題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距0.25分區(qū)間的模型定義為并列,以上排序不代表實(shí)際排名。

在SuperCLUE通用綜合測(cè)評(píng)基準(zhǔn)上,SenseChat V5取得80.03分,表現(xiàn)出色,刷新國(guó)內(nèi)大模型最好成績(jī)。并且,SenseChat V5在中文綜合能力上較GPT-4-Turbo-0125高0.9分。

SenseChat V5在理科任務(wù)上的表現(xiàn)

d01b3496-173c-11ef-b74b-92fbcf53809c.png

對(duì)比模型數(shù)據(jù)來(lái)源:SuperCLUE SenseChat V5在理科任務(wù)上表現(xiàn)不俗,取得76.78分,國(guó)內(nèi)模型中排名第一,較GPT-4-Turbo-0125低4.35分,還有一定提升空間。其中,計(jì)算(80.6)、邏輯推理(73.8)、工具使用(80.8)均刷新國(guó)內(nèi)最好成績(jī);在代碼能力上還有一定優(yōu)化空間。

SenseChat V5在文科任務(wù)上的表現(xiàn)

d06b3e78-173c-11ef-b74b-92fbcf53809c.png

對(duì)比模型數(shù)據(jù)來(lái)源:SuperCLUE SenseChat V5在文科任務(wù)上表現(xiàn)出色,取得82.20的高分,國(guó)內(nèi)外模型中排名第一,較GPT-4-Turbo-0125高4.40分。其中,知識(shí)百科(82.4)、長(zhǎng)文本(79.2)、角色扮演(80.4)、語(yǔ)義理解(81.6)、生成創(chuàng)作(79.4)、傳統(tǒng)安全(90.2)均刷新國(guó)內(nèi)最好成績(jī);

d0d7487a-173c-11ef-b74b-92fbcf53809c.png

對(duì)比數(shù)據(jù)來(lái)源:SuperCLUE, 2024年4月30日 將SenseChat V5與國(guó)內(nèi)大模型平均得分對(duì)比,我們可以發(fā)現(xiàn),SenseChat V5在所有能力上均高于平均線,展現(xiàn)出較均衡的綜合能力。尤其在計(jì)算(+16.15)、邏輯推理(+18.89)、代碼(+19.06)、長(zhǎng)文本(+21.16)能力上遠(yuǎn)高出平均線15分以上。

SenseChat V5與國(guó)外代表模型對(duì)比

d13c66a6-173c-11ef-b74b-92fbcf53809c.png

將SenseChat V5與國(guó)外代表大模型對(duì)比,SenseChat V5在文科類中文任務(wù)上好于國(guó)外大模型,尤其在長(zhǎng)文本、生成創(chuàng)作能力較為領(lǐng)先。在理科如計(jì)算、邏輯推理、代碼能力上與GPT-4-Turbo-0125還有一定提升空間。

小結(jié)

從評(píng)測(cè)結(jié)果我們發(fā)現(xiàn),SenseChat V5綜合能力上表現(xiàn)不俗,在總分上刷新了國(guó)內(nèi)外最好成績(jī),其中文科任務(wù)上有超過(guò)GPT-4 Turbo的表現(xiàn),理科任務(wù)上刷新國(guó)內(nèi)最好成績(jī),與GPT-4 Turbo還有一定距離。 2定性分析

通過(guò)一些典型示例,對(duì)比定性分析SenseChat V5的特點(diǎn)。

示例1:長(zhǎng)文本

d15b7834-173c-11ef-b74b-92fbcf53809c.png

示例2:生成創(chuàng)作

d18d438c-173c-11ef-b74b-92fbcf53809c.png

示例3:邏輯推理

d1ca9c14-173c-11ef-b74b-92fbcf53809c.png

模型技術(shù)特點(diǎn)

據(jù)官方介紹,SenseChat V5模型能力顯著提升,其背后是訓(xùn)練數(shù)據(jù)的全面升級(jí)與訓(xùn)練方法的有效提升。

在數(shù)據(jù)方面,SenseChat V5采用了新一代數(shù)據(jù)生產(chǎn)管線,生產(chǎn)了10T tokens的高質(zhì)量訓(xùn)練數(shù)據(jù)。通過(guò)多個(gè)模型進(jìn)行數(shù)據(jù)的過(guò)濾和提煉,顯著提升了預(yù)料質(zhì)量和信息密度;基于精細(xì)聚類的均衡采樣確保對(duì)世界知識(shí)覆蓋的完整性。同時(shí),SenseChat V5還大規(guī)模采用了思維型的合成數(shù)據(jù)(數(shù)千億tokens量級(jí)),這對(duì)于模型在邏輯推理、數(shù)學(xué)和編程等方面的能力提升起到了關(guān)鍵作用。

SenseChat V5采用了自研的多階段訓(xùn)練鏈路,包括三階段預(yù)訓(xùn)練、雙階段SFT和在線RLHF。通過(guò)在每個(gè)階段設(shè)定更加清晰聚焦的目標(biāo),實(shí)現(xiàn)更敏捷的調(diào)優(yōu),也避免了不同目標(biāo)之間的相互干擾。其中在預(yù)訓(xùn)練階段,分階段培養(yǎng)模型的基礎(chǔ)語(yǔ)言和知識(shí)能力、長(zhǎng)文建模能力、以及復(fù)雜邏輯推理能力(規(guī)?;捎煤铣蓴?shù)據(jù));在 SFT 階段,把任務(wù)指令遵循和對(duì)話體驗(yàn)優(yōu)化分解到雙階段進(jìn)行;在 RLHF 階段,采用統(tǒng)一的多維度獎(jiǎng)勵(lì)模型和動(dòng)態(tài)系統(tǒng)提示詞對(duì)多維度偏好進(jìn)行打分,從而更好地實(shí)現(xiàn)模型在多個(gè)維度和人類期望對(duì)齊。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    374

    瀏覽量

    16996
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    413

    瀏覽量

    1049

原文標(biāo)題:中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE:商湯「日日新5.0」總分80.03刷新最好成績(jī),文科能力領(lǐng)跑

文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    沐曦股份Day 0適配商湯科技日日新SenseNova U1系列大模型

    近日,日日新 SenseNova U1 原生理解生成統(tǒng)一模型發(fā)布并開(kāi)源。沐曦股份旗下曦云C系列 GPU率先完成 Day 0 適配,成為率先完成該模型適配的國(guó)產(chǎn)算力平臺(tái)。
    的頭像 發(fā)表于 05-07 16:24 ?297次閱讀
    沐曦股份Day 0適配<b class='flag-5'>商湯</b>科技<b class='flag-5'>日日新</b>SenseNova U1系列大<b class='flag-5'>模型</b>

    壁仞科技完成商湯日日新SenseNova U1系列大模型極速適配

    近日,商湯科技正式發(fā)布并開(kāi)源日日新SenseNova U1系列原生理解生成統(tǒng)一模型。壁仞科技基于SGLang推理框架,在旗艦通用GPU產(chǎn)品壁礪166系列上,完成SenseNova U1的“Day0”適配與調(diào)優(yōu),為開(kāi)發(fā)者提供高質(zhì)量
    的頭像 發(fā)表于 05-07 15:47 ?84次閱讀
    壁仞科技完成<b class='flag-5'>商湯</b><b class='flag-5'>日日新</b>SenseNova U1系列大<b class='flag-5'>模型</b>極速適配

    寒武紀(jì)Day 0適配商湯科技日日新SenseNova U1系列大模型

    近日,在商湯科技發(fā)布日日新 SenseNova U1 系列原生理解生成統(tǒng)一模型當(dāng)日,寒武紀(jì)已完成對(duì) SenseNova U1 的適配。
    的頭像 發(fā)表于 05-07 12:38 ?282次閱讀

    昆侖芯科技完成商湯日日新SenseNova U1系列大模型極速適配

    近日,商湯正式發(fā)布并開(kāi)源原生理解生成統(tǒng)一模型——商湯日日新SenseNova U1系列。在模型發(fā)布當(dāng)日,昆侖芯即完成對(duì)SenseNova U
    的頭像 發(fā)表于 05-06 10:55 ?438次閱讀

    商湯科技正式開(kāi)源空間智能模型日日新SenseNova-SI-1.3

    商湯科技正式開(kāi)源空間智能模型日日新SenseNova-SI-1.3,在空間測(cè)量、視角轉(zhuǎn)換、綜合推理等核心任務(wù)中展現(xiàn)出顯著提升,另外對(duì)比之前的版本增強(qiáng)了回答簡(jiǎn)答題的能力。
    的頭像 發(fā)表于 02-10 14:12 ?637次閱讀
    <b class='flag-5'>商湯</b>科技正式開(kāi)源空間智能<b class='flag-5'>模型</b><b class='flag-5'>日日新</b>SenseNova-SI-1.3

    避繁就簡(jiǎn)!商湯日日新模型靈性巧解數(shù)學(xué)難題,獲贊“機(jī)器的審美”

    、字節(jié)跳動(dòng),讓數(shù)學(xué)與AI同臺(tái)碰撞,開(kāi)展了一場(chǎng)真刀真槍的“圖靈測(cè)試”。 現(xiàn)場(chǎng),面對(duì)數(shù)學(xué)家拋出的難題,商湯科技“日日新”大模型在解答復(fù)分析計(jì)算積分、微分幾何證明等問(wèn)題中,展示了驚人的進(jìn)化力。 在計(jì)算一個(gè)復(fù)雜的廣義積分
    的頭像 發(fā)表于 01-12 11:41 ?450次閱讀
    避繁就簡(jiǎn)!<b class='flag-5'>商湯</b><b class='flag-5'>日日新</b>大<b class='flag-5'>模型</b>靈性巧解數(shù)學(xué)難題,獲贊“機(jī)器的審美”

    商湯科技日日新V6.5榮獲2025年多模態(tài)大模型全國(guó)第一

    近日,權(quán)威大模型評(píng)測(cè)基準(zhǔn) SuperCLUE 發(fā)布《中文多模態(tài)視覺(jué)語(yǔ)言模型測(cè)評(píng)
    的頭像 發(fā)表于 01-06 14:44 ?974次閱讀
    <b class='flag-5'>商湯</b>科技<b class='flag-5'>日日新</b>V6.5榮獲2025年多模態(tài)大<b class='flag-5'>模型</b>全國(guó)第一

    商湯科技日日新Seko系列模型與寒武紀(jì)成功適配

    12月15日,商湯科技基于在生成式AI與多模態(tài)交互領(lǐng)域的技術(shù)積累,正式發(fā)布Seko2.0——行業(yè)首個(gè)多劇集生成智能體。該智能體在多劇集視頻生成的一致性方面展現(xiàn)出顯著優(yōu)勢(shì),其背后依托的是商湯自研的日日新Seko系列
    的頭像 發(fā)表于 12-17 14:06 ?626次閱讀

    商湯日日新V6.5多模態(tài)大模型登頂全球權(quán)威榜單

    根據(jù)權(quán)威評(píng)測(cè)平臺(tái)OpenCompass多模態(tài)大模型學(xué)術(shù)榜單(Multi-modal Academic Leaderboard)最新數(shù)據(jù)顯示,商湯日日新 V6.5」(SenseNova-V6.5
    的頭像 發(fā)表于 09-10 09:55 ?972次閱讀

    商湯日日新模型賦能紫光漢圖打造激光多功能一體機(jī)

    商湯日日新模型賦能紫光漢圖,為一線教師打造全新教學(xué)生產(chǎn)力。
    的頭像 發(fā)表于 08-19 15:51 ?1095次閱讀
    <b class='flag-5'>商湯</b><b class='flag-5'>日日新</b>大<b class='flag-5'>模型</b>賦能紫光漢圖打造激光多功能一體機(jī)

    小米AI眼鏡×商湯日日新 商湯日日新”大模型交互平臺(tái)「商量」已探索性接入小米AI眼鏡

    程度:據(jù)國(guó)內(nèi)XR Vision報(bào)道,小米AI眼鏡首銷3天銷量或已接近5萬(wàn)副,創(chuàng)下了中國(guó)AI眼鏡最快銷售紀(jì)錄。 作為小米長(zhǎng)期生態(tài)合作伙伴,商湯日日新”大模型交互平臺(tái)「商量」已探索性接入
    的頭像 發(fā)表于 08-07 15:35 ?9755次閱讀
    小米AI眼鏡×<b class='flag-5'>商湯</b><b class='flag-5'>日日新</b> <b class='flag-5'>商湯</b>“<b class='flag-5'>日日新</b>”大<b class='flag-5'>模型</b>交互平臺(tái)「商量」已探索性接入小米AI眼鏡

    看點(diǎn):商湯日日新”擬接入小米AI眼鏡 鴻利智匯:部分產(chǎn)品已應(yīng)用于小米汽車

    給大家?guī)?lái)一些業(yè)界資訊: 商湯日日新”擬接入小米AI眼鏡 據(jù)商湯科技透露,作為小米長(zhǎng)期生態(tài)合作伙伴,商湯日日新”大
    的頭像 發(fā)表于 08-07 14:47 ?1158次閱讀

    商湯日日新SenseNova融合模態(tài)大模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)完成可信AI多模態(tài)大模型首輪評(píng)估。 商湯日日新SenseNova融合模態(tài)大模型在所有模型
    的頭像 發(fā)表于 06-11 11:57 ?1595次閱讀

    中興通訊星云大模型登頂SuperCLUE推理專項(xiàng)榜單

    近日,中文模型權(quán)威測(cè)評(píng)基準(zhǔn)SuperCLUE發(fā)布《中文
    的頭像 發(fā)表于 06-04 16:44 ?1610次閱讀

    商湯科技日日新V6大模型斬獲“雙料第一” 一項(xiàng)國(guó)內(nèi)榜首,一個(gè)全球第一

    衛(wèi)冕“雙冠”! 通用語(yǔ)言能力并列國(guó)內(nèi)榜首、多模態(tài)能力全球最強(qiáng),商湯日日新V6」近期斬獲“雙料第一”。 5月28日,權(quán)威大模型測(cè)評(píng)機(jī)構(gòu)
    的頭像 發(fā)表于 05-30 11:13 ?1759次閱讀
    <b class='flag-5'>商湯</b>科技<b class='flag-5'>日日新</b>V6大<b class='flag-5'>模型</b>斬獲“雙料第一” 一項(xiàng)<b class='flag-5'>國(guó)內(nèi)</b>榜首,一個(gè)全球第一