欧美视频在线观看免费直播,国产自在线

斯坦福大學研發(fā)的大語言模型評測 AlpacaEvalLeaderboard備受業(yè)內(nèi)認可，在 2023 年 12 月 7 日更新的排行榜中，Yi-34B-Chat 以 94.08% 的勝率，超越 LLaMA2 Chat 70B、Claude 2、ChatGPT，在 Alpaca 經(jīng)認證的模型類別中，成為僅次于 GPT-4 英語能力的大語言模型。

同一周，在加州大學伯克利分校主導的LMSYS ORG排行榜中，Yi-34B-Chat也以1102的Elo評分，晉升最新開源SOTA開源模型之列，性能表現(xiàn)追平GPT-3.5。

多個Benchmark遙遙領(lǐng)先

在五花八門的大模型評測中，伯克利LMSYS ORG排行榜采用了一個最為接近用戶體感的「聊天機器人競技場」特殊測評模式，讓眾多大語言模型在評測平臺隨機進行一對一 battle，通過眾籌真實用戶來進行線上實時盲測和匿名投票，11月份經(jīng)25000的真實用戶投票總數(shù)計算了20個大模型的總得分。
Elo評分越高，說明模型在真實用戶體驗上的表現(xiàn)越出色，可說是眾多大模型評測集中最能展現(xiàn)「Moment of Truth」真實關(guān)鍵一刻” 的用戶導向體驗對決。

在開源模型中，Yi-34B-Chat成為當之無愧的「最強王者」之一（英語能力），LMSYS ORG 在12月8日官宣11月份總排行時評價：「Yi-34B-Chat 和 Tulu-2-DPO-70B 在開源界的進擊表現(xiàn)已經(jīng)追平 GPT-3.5」。

風波終結(jié)，爭議理清

Yi-34B開源發(fā)布后，開發(fā)者Eric Hartford發(fā)現(xiàn)了模型存在的一個問題，就簡略留言在 Yi 的項目頁面。然而Eric自己也沒有預想到，他的留言引發(fā)了后續(xù)輿論關(guān)于Yi模型「抄襲」LLaMA的質(zhì)疑。

他在郵件中寫道，「感謝你們提供了一個優(yōu)秀的模型。Yi模型使用了與LLaMA模型完全相同的架構(gòu)，只是將兩個張量改了名字。由于圍繞LLaMA架構(gòu)有很多投資和工具，保持張量名稱的一致性是有價值的。」Eric建議，在Yi被廣泛傳播前，及時恢復張量名稱。客觀來說，一個模型核心技術(shù)護城河是在架構(gòu)之上，通過數(shù)據(jù)訓練獲得的參數(shù)和代碼。大多數(shù)有志于參與基座大模型競爭的團隊，也多是從零開始，用高質(zhì)量的數(shù)據(jù)集再進行訓練，普遍都是在沿用LLaMA架構(gòu)。零一后來解釋他們?yōu)榱藞?zhí)行對比實驗的需要，對部分推理參數(shù)進行了重新命名，原始出發(fā)點是為了充分測試模型，而非刻意隱瞞來源。

身處這場輿論風暴的中心，Eric 意識到了可能給一些人帶來了誤解，開始解釋自己之前的發(fā)言。

他在X（twitter）上寫道，「他們沒有在任何事情上撒謊。所有的模型都是在相互借鑒架構(gòu)。架構(gòu)是學術(shù)研究的產(chǎn)物，已經(jīng)發(fā)表在論文中，任何人都可以自由使用，這絲毫不減損Yi團隊的成就。他們從零開始使用自己創(chuàng)建的數(shù)據(jù)集訓練Yi，對開源領(lǐng)域的貢獻是值得贊揚的。使用Llama架構(gòu)沒有任何問題。訓練才是關(guān)鍵。Yi給了我們目前可獲得的最佳模型，沒有任何可抱怨的?！?現(xiàn)在，Eric 自己也在使用Yi-34B 系列，用Yi-34b-200k數(shù)據(jù)集訓練其他的模型產(chǎn)品。 Yi模型開源首月，數(shù)據(jù)也很亮眼。在Hugging Face社區(qū)下載量為16.8萬，魔搭社區(qū)下載量1.2萬。在GitHub 獲得超過4900個Stars。

由于性能表現(xiàn)強勁，多家知名公司和機構(gòu)推出了基于Yi模型基座的微調(diào)模型，比如獵豹旗下的獵戶星空公司推出的OrionStar-Yi-34B-Chat模型，南方科技大學和粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院（簡稱IDEA研究院）認知計算與自然語言研究中心（簡稱CCNL中心）聯(lián)合發(fā)布的SUS-Chat-34B等，均性能表現(xiàn)優(yōu)異。而AMD和Hugging Face合作的GPU加速大模型的實驗中，也選擇了Yi-6B作為范例項目。

模型好不好，開發(fā)者最知道在大模型實際使用體驗上，最有發(fā)言權(quán)的還是一線的開發(fā)者。知名技術(shù)作者蘇洋表示，在他觀察的近期Hugging Face榜單中，前三十名有一半多都是 Yi 和其他用戶微調(diào)的 Yi-34B 的變體模型，原本占據(jù)榜單頭部的 68B 和 70B 模型的數(shù)量目前只留有幾個，「從這點看 Yi 對于開源生態(tài)的幫助還是非常巨大的。」他會時不時的瀏覽下 HF 的榜單，在最近榜單中的前三十名，有一半多都是 Yi 和其他用戶微調(diào)的 Yi-34B 的變體模型，原本占據(jù)榜單頭部的 68B 和 70B 模型的數(shù)量目前只留有幾個，從這點看 Yi 對于開源生態(tài)的幫助還是非常巨大的。

蘇洋還將他的訓練經(jīng)驗和心得在CSDN上做了分享（https://blog.csdn.net/soulteary/article/details/134904434）。

蘇洋認為 34B 普通用戶努努力還是能自己相對低成本跑起來的，68 和 70B 的模型想要本地運行，需要更多的資源。但其實目前分數(shù)其實相比較 34B 拉不開太多，也就三四分平均分，但參數(shù)量差了一倍。換言之，企業(yè)想部署使用，所需要的成本也可以得到非常大的節(jié)約。

目前國產(chǎn)大模型在開源榜單上已經(jīng)是第一梯隊，但如果把競爭范圍追加到閉源模型、尤其是海外的模型，仍有很大的距離要去追趕。目前的普遍體驗是開源模型最多只有 GPT-3.5 + 的水平。

蘇洋認為國產(chǎn)大模型，是能夠很快追趕至第一梯隊的。時間也會證明大模型自身的價值，以及驗證出團隊是否對開源有真的持續(xù)投入。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
570

瀏覽量
11246
聊天機器人

聊天機器人

+關(guān)注

關(guān)注
0

文章
348

瀏覽量
13021
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3435

瀏覽量
4958

原文標題：開源風波后在 AlpacaEval 直追 GPT4，零一靠技術(shù)如何重建生態(tài)信心

文章出處：【微信號：AI科技大本營，微信公眾號：AI科技大本營】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

開源風波后在AlpacaEval直追GPT4，零一靠技術(shù)如何重建生態(tài)信心

評論