chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

李開(kāi)復(fù)4個(gè)多月后“放大招”:對(duì)標(biāo)OpenAI、谷歌,發(fā)布“全球最強(qiáng)”開(kāi)源大模型

jf_WZTOguxH ? 來(lái)源:AI前線(xiàn) ? 2023-11-06 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,由李開(kāi)復(fù)打造的 AI 大模型創(chuàng)業(yè)公司“零一萬(wàn)物”發(fā)布了一系列開(kāi)源大模型:Yi-34B 和 Yi-6B。

Yi-34B 是一個(gè)雙語(yǔ)(英語(yǔ)和中文)基礎(chǔ)模型,經(jīng)過(guò) 340 億個(gè)參數(shù)訓(xùn)練,明顯小于 Falcon-180B 和 Meta LlaMa2-70B 等其他開(kāi)放模型。在發(fā)布會(huì)中,李開(kāi)復(fù)稱(chēng)其數(shù)據(jù)采集、算法研究、團(tuán)隊(duì)配置均為世界第一梯隊(duì),對(duì)標(biāo) OpenAI、谷歌一線(xiàn)大廠,并抱有成為世界第一的初衷和決心。同時(shí),他表示 Yi-34B 是“全球最強(qiáng)開(kāi)源模型”,其通用能力、知識(shí)推理、閱讀理解等多指標(biāo)均處于全球榜單首位。

零一萬(wàn)物團(tuán)隊(duì)也進(jìn)行了一系列打榜測(cè)試,具體成績(jī)包括:

Hugging Face 英文測(cè)試榜單,以 70.72 分?jǐn)?shù)位列全球第一;

以小博大,作為國(guó)產(chǎn)大模型碾壓 Llama-2 70B 和 Falcon-180B 等一眾大模型(參數(shù)量?jī)H為后兩者的 1/2、1/5);

C-Eval 中文能力排行榜位居第一,超越了全球所有開(kāi)源模型;

MMLU、BBH 等八大綜合能力表現(xiàn)全部勝出,Yi-34B 在通用能力、知識(shí)推理、閱讀理解等多項(xiàng)指標(biāo)評(píng)比中“擊敗全球玩家”;

......

9f292822-7c62-11ee-939d-92fbcf53809c.jpg

9f458350-7c62-11ee-939d-92fbcf53809c.jpg

然而,在發(fā)布中,也有一點(diǎn)需要指出,那就是 Yi 系列模型在 GSM8k 和 MBPP 的數(shù)學(xué)以及代碼測(cè)評(píng)方面表現(xiàn)不如 GPT 模型出色。這是因?yàn)閳F(tuán)隊(duì)希望在預(yù)訓(xùn)練階段希望先盡可能保留模型的通用能力,所以訓(xùn)練數(shù)據(jù)中沒(méi)有加入過(guò)多數(shù)學(xué)和代碼數(shù)據(jù)。后續(xù)他們計(jì)劃在開(kāi)源系列中推出專(zhuān)注于代碼和數(shù)學(xué)領(lǐng)域的繼續(xù)訓(xùn)練模型。

200K 上下文窗口, 能處理 40 萬(wàn)字文本

值得注意的是,此次開(kāi)源的 Yi-34B 模型,將發(fā)布全球最長(zhǎng)、可支持 200K 超長(zhǎng)上下文窗口(context window)版本,可以處理約 40 萬(wàn)漢字超長(zhǎng)文本輸入。這意味著 Yi-34B 不僅能提供更豐富的語(yǔ)義信息,理解超過(guò) 1000 頁(yè)的 PDF 文檔,還讓很多依賴(lài)于向量數(shù)據(jù)庫(kù)構(gòu)建外部知識(shí)庫(kù)的場(chǎng)景,都可以用上下文窗口來(lái)進(jìn)行替代。

相比之下,OpenAI 的 GPT-4 上下文窗口只有 32K,文字處理量約 2.5 萬(wàn)字。今年三月,硅谷知名 AI 2.0 創(chuàng)業(yè)公司 Anthropic 的 Claude2-100K 將上下文窗口擴(kuò)展到了 100K 規(guī)模,零一萬(wàn)物直接加倍,并且是第一家將超長(zhǎng)上下文窗口在開(kāi)源社區(qū)開(kāi)放的大模型公司。

在語(yǔ)言模型中,上下文窗口是大模型綜合運(yùn)算能力的金指標(biāo)之一,對(duì)于理解和生成與特定上下文相關(guān)的文本至關(guān)重要,擁有更長(zhǎng)窗口的語(yǔ)言模型可以處理更豐富的知識(shí)庫(kù)信息,生成更連貫、準(zhǔn)確的文本。

此外,在文檔摘要、基于文檔的問(wèn)答等下游任務(wù)中,長(zhǎng)上下文的能力發(fā)揮著關(guān)鍵作用,行業(yè)應(yīng)用場(chǎng)景廣闊。在法律、財(cái)務(wù)、傳媒、檔案整理等諸多垂直場(chǎng)景里,更準(zhǔn)確、更連貫、速度更快的長(zhǎng)文本窗口功能,可以成為人們更可靠的 AI 助理,讓生產(chǎn)力得到大幅提升。然而,受限于計(jì)算復(fù)雜度、數(shù)據(jù)完備度等問(wèn)題,上下文窗口規(guī)模擴(kuò)充從計(jì)算、內(nèi)存和通信的角度存在各種挑戰(zhàn),因此大多數(shù)發(fā)布的大型語(yǔ)言模型僅支持幾千 tokens 的上下文長(zhǎng)度。為了解決這個(gè)限制,零一萬(wàn)物技術(shù)團(tuán)隊(duì)實(shí)施了一系列優(yōu)化,包括:計(jì)算通信重疊、序列并行、通信壓縮等。通過(guò)這些能力增強(qiáng),實(shí)現(xiàn)了在大規(guī)模模型訓(xùn)練中近 100 倍的能力提升。

實(shí)現(xiàn) 40% 訓(xùn)練成本下降

AI Infra(AI Infrastructure 人工智能基礎(chǔ)架構(gòu)技術(shù))主要涵蓋大模型訓(xùn)練和部署提供各種底層技術(shù)設(shè)施,包括處理器、操作系統(tǒng)、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)基礎(chǔ)設(shè)施、云計(jì)算平臺(tái)等等,是模型訓(xùn)練背后極其關(guān)鍵的“保障技術(shù)”,這是大模型行業(yè)至今較少受到關(guān)注的硬技術(shù)領(lǐng)域。

李開(kāi)復(fù)曾經(jīng)表示,“做過(guò)大模型 Infra 的人比做算法的人才更稀缺”,而超強(qiáng)的 Infra 能力是大模型研發(fā)的核心護(hù)城河之一。在芯片、GPU 等算力資源緊缺的當(dāng)下,安全和穩(wěn)定成為大模型訓(xùn)練的生命線(xiàn)。零一萬(wàn)物的 Infra 技術(shù)通過(guò)“高精度”系統(tǒng)、彈性訓(xùn)和接力訓(xùn)等全棧式解決方案,確保訓(xùn)練高效、安全地進(jìn)行。

憑借其強(qiáng)大的 AI Infra 支撐,零一萬(wàn)物團(tuán)隊(duì)表示,Yi-34B 模型訓(xùn)練成本實(shí)測(cè)下降 40%,實(shí)際訓(xùn)練完成達(dá)標(biāo)時(shí)間與預(yù)測(cè)的時(shí)間誤差不到一小時(shí),進(jìn)一步模擬上到千億規(guī)模訓(xùn)練成本可下降多達(dá) 50%。截至目前,零一萬(wàn)物 Infra 能力實(shí)現(xiàn)故障預(yù)測(cè)準(zhǔn)確率超過(guò) 90%,故障提前發(fā)現(xiàn)率達(dá)到 99.9%,不需要人工參與的故障自愈率超過(guò) 95%,有力保障了模型訓(xùn)練的順暢進(jìn)行。

零一萬(wàn)物背后

今年 7 月,李開(kāi)復(fù)博士正式官宣并上線(xiàn)了其籌組的“AI 2.0”新公司:零一萬(wàn)物。此前李開(kāi)復(fù)曾表示,AI 大語(yǔ)言模型是中國(guó)不能錯(cuò)過(guò)的歷史機(jī)遇,零一萬(wàn)物就是在今年 3 月下旬,由他親自帶隊(duì)孵化的新品牌。

在接受外媒采訪時(shí),他談到了創(chuàng)辦零一萬(wàn)物的動(dòng)機(jī):“我認(rèn)為需求是創(chuàng)新之母,中國(guó)顯然存在巨大的需求,”“與其他國(guó)際地區(qū)不同,中國(guó)無(wú)法訪問(wèn) OpenAI 和谷歌,因?yàn)檫@兩家公司沒(méi)有在中國(guó)提供他們的產(chǎn)品。因此,我認(rèn)為有很多人正在努力為市場(chǎng)創(chuàng)造解決方案。這是剛需?!?/p>

眾所周知,構(gòu)建大模型是一項(xiàng)耗資巨大的事業(yè)。為了維持現(xiàn)金密集型業(yè)務(wù),零一萬(wàn)物從一開(kāi)始就制定了商業(yè)化計(jì)劃。雖然該公司將繼續(xù)開(kāi)源其一些模型,但其目標(biāo)是構(gòu)建最先進(jìn)的專(zhuān)有模型,作為各種商業(yè)產(chǎn)品的基礎(chǔ)。

李開(kāi)復(fù)表示,他們非常清楚這些大型語(yǔ)言模型需要大量計(jì)算,花費(fèi)巨大。“我們籌集到了大量資金,其中大部分都花在了 GPU 上?!迸c中國(guó)其他 LLM 玩家一樣,零一萬(wàn)物也需要積極儲(chǔ)備 GPU 以應(yīng)對(duì)美國(guó)制裁。在發(fā)布會(huì)中,李開(kāi)復(fù)表示零一萬(wàn)物現(xiàn)在的供應(yīng)至少足以滿(mǎn)足未來(lái) 12-18 個(gè)月的需求。

美國(guó)的制裁也讓中國(guó)企業(yè)注重優(yōu)化計(jì)算能力,李開(kāi)復(fù)表示:“借助一支非常高質(zhì)量的基礎(chǔ)設(shè)施團(tuán)隊(duì),每 1000 個(gè) GPU,我們也許能夠從中擠出 2000 個(gè) GPU 的工作負(fù)載。”

從一些報(bào)道中,我們可以了解到,零一萬(wàn)物員工規(guī)模已超過(guò) 100 人,半數(shù)是來(lái)自國(guó)內(nèi)外大廠的 LLM 專(zhuān)家。其中,零一萬(wàn)物技術(shù)副總裁及 AI Alignment 負(fù)責(zé)人是 Google Bard/Assistant 早期核心成員,主導(dǎo)或參與了從 Bert、LaMDA 到大模型在多輪對(duì)話(huà)、個(gè)人助理、AI Agent 等多個(gè)方向的研究和工程落地;首席架構(gòu)師曾在 Google Brain 與 Jeff Dean、Samy Bengio 等合作,為 TensorFlow 的核心創(chuàng)始成員之一。

零一萬(wàn)物的商業(yè)化之路很大程度上取決于其為其昂貴的 AI 模型找到適合的產(chǎn)品市場(chǎng)的能力?!爸袊?guó)在大模型方面并不領(lǐng)先于美國(guó),但毫無(wú)疑問(wèn),中國(guó)可以構(gòu)建比美國(guó)開(kāi)發(fā)商更好的應(yīng)用程序,這主要是因?yàn)檫^(guò)去 12 年左右建立的非凡的移動(dòng)互聯(lián)網(wǎng)生態(tài)系統(tǒng),”李開(kāi)復(fù)說(shuō)道。

李開(kāi)復(fù)表示,這家初創(chuàng)公司的最終目標(biāo)是成為一個(gè)外部開(kāi)發(fā)人員可以輕松構(gòu)建應(yīng)用程序的生態(tài)系統(tǒng)?!拔覀兊穆氊?zé)不僅僅是推出好的研究模型,更重要的是讓?xiě)?yīng)用程序開(kāi)發(fā)變得容易,這樣才能有優(yōu)秀的應(yīng)用程序,”他說(shuō)。“歸根結(jié)底。這是一場(chǎng)生態(tài)系統(tǒng)游戲?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    567

    瀏覽量

    11222
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1235

    瀏覽量

    9711
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3365

    瀏覽量

    4816

原文標(biāo)題:李開(kāi)復(fù)4個(gè)多月后“放大招”:對(duì)標(biāo)OpenAI、谷歌,發(fā)布“全球最強(qiáng)”開(kāi)源大模型

文章出處:【微信號(hào):AI前線(xiàn),微信公眾號(hào):AI前線(xiàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenAI開(kāi)源模型登陸IBM watsonx.ai開(kāi)發(fā)平臺(tái)

    OpenAI 已向公眾發(fā)布了兩款 AI 模型,允許開(kāi)發(fā)者和企業(yè)可自由下載、運(yùn)行并進(jìn)行定制。其中一款模型現(xiàn)已部署在 IBM watsonx.ai 開(kāi)發(fā)平臺(tái)上。
    的頭像 發(fā)表于 08-26 15:36 ?585次閱讀

    澎峰科技完成OpenAI最新開(kāi)源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開(kāi)源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶(hù)可一鍵啟用這顆“小而強(qiáng)悍”的新引擎,在本地享受企
    的頭像 發(fā)表于 08-14 11:34 ?1006次閱讀

    訊飛星辰MaaS平臺(tái)率先上線(xiàn)OpenAI最新開(kāi)源模型

    8月6日凌晨,OpenAI 時(shí)隔六年再次回歸開(kāi)源發(fā)布兩款全新的大語(yǔ)言模型:gpt-oss-120b和gpt-oss-20b,性能與o4-m
    的頭像 發(fā)表于 08-13 16:43 ?951次閱讀

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國(guó)政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語(yǔ)言模型GPT-5或?qū)?b class='flag-5'>發(fā)布。據(jù)外媒的報(bào)道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的
    的頭像 發(fā)表于 08-07 14:13 ?5980次閱讀

    OpenAI發(fā)布2款開(kāi)源模型

    OpenAI開(kāi)源了兩款高性能權(quán)重語(yǔ)言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss
    的頭像 發(fā)表于 08-06 14:25 ?796次閱讀

    “天才”!OpenAI o3 成全球 IQ 最高的 AI 大模型

    電子發(fā)燒友網(wǎng)報(bào)道(文 / 吳子鵬)根據(jù)門(mén)薩智商(IQ)測(cè)試中的表現(xiàn),OpenAI o3 在全球 “智商最高” 的人工智能模型 TOP 24 中位居榜首,在門(mén)薩測(cè)試中獲得了 135 的高分,躋身
    的頭像 發(fā)表于 06-15 01:56 ?5381次閱讀
    “天才”!<b class='flag-5'>OpenAI</b> o3 成<b class='flag-5'>全球</b> IQ 最高的 AI 大<b class='flag-5'>模型</b>

    DeepSeek開(kāi)源新版R1 媲美OpenAI o3

    DeepSeek“悄悄”地又放了一個(gè)大招,DeepSeek開(kāi)源了R1最新0528版本。盡管DeepSeek目前還沒(méi)有對(duì)該版本進(jìn)行任何說(shuō)明,但是根據(jù)著名代碼測(cè)試平臺(tái)Live CodeBench數(shù)據(jù)
    的頭像 發(fā)表于 05-29 11:23 ?646次閱讀

    上新:小米首個(gè)推理大模型開(kāi)源 馬斯克:下周推出Grok 3.5

    開(kāi)源新一代通義千問(wèn)模型Qwen3。據(jù)悉,Qwen3模型參數(shù)量?jī)H為DeepSeek - R1的1/3,能夠大幅降低成本,而且性能全面超越R1、OpenAI - o1等
    的頭像 發(fā)表于 04-30 16:08 ?1057次閱讀

    低至¥2.27/h!就能使用全球最強(qiáng)開(kāi)元模型——千問(wèn) QwQ-32B

    ABSTRACT摘要捷智算平臺(tái)上新全球最強(qiáng)開(kāi)元模型——千問(wèn)QwQ-32B。JAEALOT2025年3月18日3月17日,阿里通義千問(wèn)發(fā)布的最新開(kāi)源
    的頭像 發(fā)表于 03-19 12:34 ?773次閱讀
    低至¥2.27/h!就能使用<b class='flag-5'>全球</b><b class='flag-5'>最強(qiáng)</b>開(kāi)元<b class='flag-5'>模型</b>——千問(wèn) QwQ-32B

    OpenAI簡(jiǎn)化大模型選擇:薩姆·奧特曼制定路線(xiàn)圖

    前的技術(shù)環(huán)境下,大模型被廣泛應(yīng)用于各種聊天機(jī)器人中,其中OpenAI的ChatGPT就是一個(gè)典型的例子。然而,對(duì)于大多數(shù)用戶(hù)來(lái)說(shuō),選擇最適合自己需求的AI模型卻并非易事。
    的頭像 發(fā)表于 02-18 09:12 ?668次閱讀

    OpenAI報(bào)告GPT-4o及4o-mini模型性能下降,正緊急調(diào)查

    近日,全球領(lǐng)先的AI研究機(jī)構(gòu)OpenAI發(fā)布了一份事故報(bào)告,引起了業(yè)界的廣泛關(guān)注。報(bào)告中指出,OpenAI目前正面臨GPT-4o和
    的頭像 發(fā)表于 01-23 10:22 ?1035次閱讀

    對(duì)標(biāo)OpenAI o1,DeepSeek-R1發(fā)布

    今天,我們正式發(fā)布 DeepSeek-R1,并同步開(kāi)源模型權(quán)重。 DeepSeek-R1 遵循 MIT License,允許用戶(hù)通過(guò)蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。 DeepSeek
    的頭像 發(fā)表于 01-22 13:46 ?3000次閱讀
    對(duì)<b class='flag-5'>標(biāo)</b><b class='flag-5'>OpenAI</b> o1,DeepSeek-R1<b class='flag-5'>發(fā)布</b>

    OpenAI:GPT-4o及4o-mini模型性能下降,正展開(kāi)調(diào)查

    近期,OpenAI發(fā)布了一份事故報(bào)告,指出其GPT-4o及4o-mini模型遭遇了性能下降的問(wèn)題。這一消息引起了業(yè)界的廣泛關(guān)注和討論。 據(jù)
    的頭像 發(fā)表于 01-21 10:34 ?841次閱讀

    Meta重磅發(fā)布Llama 3.3 70B:開(kāi)源AI模型的新里程碑

    ?在人工智能領(lǐng)域,Meta的最新動(dòng)作再次引起了全球的關(guān)注。今天,我們見(jiàn)證了Meta發(fā)布的 Llama 3.3 70B 模型,這是一個(gè)開(kāi)源的人
    的頭像 發(fā)表于 12-18 16:46 ?798次閱讀
    Meta重磅<b class='flag-5'>發(fā)布</b>Llama 3.3 70B:<b class='flag-5'>開(kāi)源</b>AI<b class='flag-5'>模型</b>的新里程碑

    OpenAI世界最貴大模型:昂貴背后的技術(shù)突破

    2023年“雙十二”的第一天,OpenAI推出了其最強(qiáng)推理模型o1的滿(mǎn)血版及其Pro版本。同時(shí),ChatGPT也推出了每月200美元的Pro訂閱計(jì)劃,這一價(jià)格使其一躍成為“世界最貴的大模型”。下面,AI部落小編帶您深入了解
    的頭像 發(fā)表于 12-06 14:46 ?1307次閱讀