国产色AV综合在线,69欧美成人精品

OpenAI Vs Google

目前大模型 top2 應(yīng)該就是 OpenAI 的 GPT-4，以及谷歌的PALM-2。這兩家公司早已布局，而且技術(shù)實(shí)力雄厚。國內(nèi)大模型和 GPT-4 相比，還是有比較大的差距。

但是國內(nèi)的勢頭目前不錯，百家齊鳴，還沒有一家有絕對的優(yōu)勢。

讓人頭暈的排名

之前有媒體給出了目前國內(nèi)Top-5的大模型公司，分別是：百度的文心一言、阿里的通義千問、騰訊的混元、華為的盤古以及360的智腦。

而最近，中文通用大模型基準(zhǔn)（SuperCLUE）評測公布了最新結(jié)果，GPT-4 遙遙領(lǐng)先，而國內(nèi)成績最好的是科大訊飛的星火認(rèn)知大模型。這里面文心一言居然排在了最后一名，甚至比ChatGLM-6B的得分還低，實(shí)在難以置信。

但是我又仔細(xì)看了一下這個(gè)評測。媽呀，評測集是SuperCLUE，而非SuperGLUE。

眾所周知，在國際NLP領(lǐng)域，有大名鼎鼎的數(shù)據(jù)集 GLUE 和 SuperGLUE，非常權(quán)威，OpenAI、谷歌等的大模型都在上面評測，極大推動了 NLP 領(lǐng)域的發(fā)展。

這次這份 SuperCLUE 評測的發(fā)起方為 Chinese GLUE 組織（簡稱 CLUE），CLUE 是仿照 GLUE由國內(nèi)民間組織的評測，權(quán)威度和影響力與 GLUE 相比差很遠(yuǎn)，其微信賬號主體屬性為個(gè)人。但這也迷惑了不少圈內(nèi)人，GLUE和 CLUE 分不清楚，堪稱李逵和李鬼。

還有一點(diǎn)存疑，評測榜單發(fā)布當(dāng)天5月9日，其官網(wǎng)顯示信息，中文基準(zhǔn)測評成員顧問中排名第一的是崔一鳴，身份為學(xué)術(shù)顧問委員會主任，哈工大訊飛聯(lián)合實(shí)驗(yàn)室（HFL）資深級研究員。而5月10日，官網(wǎng)已刪除此條顧問的信息。

而001號創(chuàng)始會員徐亮，是會長，相當(dāng)于這個(gè)榜單的實(shí)際負(fù)責(zé)人。昵稱 brightmart，中文任務(wù)基準(zhǔn)測評發(fā)起人。多個(gè)預(yù)訓(xùn)練模型中文版、文本分類和數(shù)據(jù)集開源項(xiàng)目作者。

徐亮還有另一個(gè)身份，在5月9日官網(wǎng)中顯示，他是杭州實(shí)在智能算法專家，也就是元語智能的創(chuàng)始人，曾在2月份發(fā)布自稱“國內(nèi)首個(gè)功能對話大模型ChatYuan”，不僅無法測試，發(fā)布幾天即被監(jiān)管叫停。4月，又被報(bào)道套殼推出開源組件。有分析人士認(rèn)為，不排除創(chuàng)業(yè)公司有融資壓力，蹭熱度吸引投資人關(guān)注。

該 SpuerClue 榜單發(fā)起方，001號顧問是訊飛身份背景、001號基準(zhǔn)發(fā)起人是創(chuàng)業(yè)公司創(chuàng)始人。在榜單發(fā)布后，擔(dān)心行業(yè)質(zhì)疑其公平、公正，相關(guān)信息還被刪除。這就有點(diǎn)不言而喻了。

僅用100道評測題目就出來了一份“權(quán)威報(bào)告”

最后來說下這個(gè)榜單本身，業(yè)內(nèi)人士一眼就可以看出來，評測的很不合理，首先，沒有公布評估數(shù)據(jù)，以及具體的評估方式。同時(shí)從它的公開表述，可推斷總共題目就 100 道題目。這個(gè)題目量少到難以置信。專業(yè)人士可能有參與過，像國際權(quán)威 SuperGlue 榜單，題目一般都得有 2 萬多道，離權(quán)威可是差了幾萬倍。況且，它的評測得分榜首都是人類，那這個(gè)評分的基準(zhǔn)到底是什么？是否有很多主觀性因素在里面？是否某些大模型提前在這個(gè)數(shù)據(jù)集上已經(jīng)訓(xùn)練過？

任務(wù)設(shè)計(jì)太武斷，所謂“通用”基準(zhǔn)，是用以測試通用的人工認(rèn)知能力的，那么我們自然希望，評測任務(wù)是參考了模型想要模擬的認(rèn)知能力及相關(guān)理論，系統(tǒng)化地選擇出來的。而實(shí)際上，我們觀察到的則是，基準(zhǔn)的作者們在選擇任務(wù)的時(shí)候，更像是圖方便、省事。以往，CLUE 中存在著部分?jǐn)?shù)據(jù)集，一味考慮任務(wù)的復(fù)雜性，卻在最起碼的分布邊界劃分上（如NER各個(gè)類別的邊界，如場所、景點(diǎn)類，組織機(jī)構(gòu)及其子類），模糊不清，且數(shù)據(jù)的一致性無法保證。

要么別比，要比就來點(diǎn)正規(guī)的比賽。自己出題自己考，說不準(zhǔn)還搶跑，自己還是評委，那這是欺不負(fù)了解真相的吃瓜群眾。投機(jī)取巧，終皆散去?？嗑殐?nèi)功，才是王道。

國內(nèi)大模型排名（僅供參考）

拋開這些，從模型規(guī)模、模型效果、市場占有率等多個(gè)角度，百度的文心一言、華為的盤古、阿里的通義千問、騰訊的混元排在前四，應(yīng)該是比較合理的，至于后面的排名，就不大能保證了。不過下面的排名也可以參考一下：

下面是一份完整的名單：

按發(fā)布時(shí)間排序：

百度：文心一言

作為國內(nèi)最早發(fā)布的大模型，百度的文心一言在今年3月16號就發(fā)布了，隨后經(jīng)過了多個(gè)版本的迭代。目前已經(jīng)有上千家企業(yè)接入。文心一言支持圖片、語音等多模態(tài)。

3月16日，百度在全球大廠中率先發(fā)布對標(biāo) ChatGPT 的大模型產(chǎn)品文心一言。據(jù)了解，文心一言內(nèi)測一個(gè)多月，就完成了4次大的技術(shù)升級，大模型推理性能提升近10倍。

李彥宏在5月4日百度內(nèi)部活動中表示，百度之所以能夠在Google、Meta、Amazon等大廠之前率先發(fā)布生成式大模型產(chǎn)品，是因?yàn)榘俣仍谛酒?、框架、模型、?yīng)用等四個(gè)層面做到全棧布局、層層領(lǐng)先。

360：360智腦

百度是國內(nèi)搜索市場排名第一公司，而排名第二就是360。

大模型依靠的算力、數(shù)據(jù)、算法、場景，這兩家公司都具備，這也是搜索公司的優(yōu)勢，有業(yè)務(wù)和數(shù)據(jù)支撐大模型研發(fā)和落地。

5月16日，360集團(tuán)和智譜AI宣布達(dá)成戰(zhàn)略合作，雙方共同研發(fā)的千億級大模型“360GLM”已具備新一代認(rèn)知智能通用模型水準(zhǔn)。

而在今天的世界智能大會上，周鴻祎展示了“360智腦”的多輪對話和“360鴻圖”的AI生圖兩個(gè)能力。

就像谷歌和微軟，一個(gè)擁有谷歌搜索，一個(gè)擁有必應(yīng)。國內(nèi)的百度和360，一個(gè)擁有百度搜索，一個(gè)擁有360搜索。

搜索公司應(yīng)該是這場大模型爭霸賽最后的贏家。（只是個(gè)人看法）

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴