chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI大模型終于走到了數據爭奪戰(zhàn)

科技云報到 ? 來源:jf_60444065 ? 作者:jf_60444065 ? 2023-09-04 14:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

科技云報道原創(chuàng)。

當前,大模型正處在產業(yè)落地前期,高質量的數據,是大模型實現產業(yè)化的關鍵要素。

最近,一項來自Epoch AI Research團隊的研究拋出了一個殘酷的事實:模型還要繼續(xù)做大,數據卻不夠用了。

研究人員預測了2022年至2100年間可用的圖像和語言數據總量,并據此估計了未來大模型訓練數據集規(guī)模的增長趨勢。

結果表明:高質量的語言數據存量將在2026年耗盡,低質量的語言數據和圖像數據的存量將分別在2030年至2050年、2030年至2060年枯竭。

這意味著,如果數據效率沒有顯著提高或有新的數據源可用,那么到2040年,模型的規(guī)模增長將放緩。

對數據端的建設該重視起來了。

高質量數據成“搶手貨”

隨著全球新一輪AI熱潮來臨,大量訓練數據已成為AI算法模型發(fā)展和演進的“燃料”。

從GPT的實驗發(fā)現,隨著模型參數量的增加,模型性能均得到不同程度的提高。

但值得注意的是,通過來自人類反饋的強化學習(RLHF)生成的InstructGPT模型,比100倍參數規(guī)模無監(jiān)督的GPT-3模型效果更好,也說明了有監(jiān)督的標注數據是大模型應用成功的關鍵之一。

如果以上預測是正確的,那么毫無疑問數據將成為做模型繼續(xù)做大的主要制約因素,AI的進展也會隨著數據量的耗盡而放緩。

阿里巴巴達摩院基礎視覺團隊負責人趙德麗博士曾在采訪中表示,數據側的建設將會成為每一個做大模型工作的機構必須要考慮的問題,大模型有多少能力,往往取決于有什么樣的數據。

據趙德麗博士介紹,與文生圖大模型相比,做文生視頻大模型要難得多,原因就在于視頻數據的數量遠比不上文本和圖像,更不要談數據的質量了。相應地,目前已有的文生視頻模型的效果都不盡如人意。

結合上述研究結果,如果當下的趨勢繼續(xù)下去,人類現有的數據庫存一定會耗盡,而且高質量的數據會更少。

正因如此,一場數據爭奪戰(zhàn)正在拉開序幕。

目前,Adobe利用其數以億計的庫存照片數據庫構建了自己的人工智能工具套件,名為Firefly。自3月份發(fā)布以來,Firefly已被用于創(chuàng)建超過10億張圖像,而Adobe股價已因此上漲了36%。

一些初創(chuàng)公司也正在蜂擁至這個新領域。今年4月,專注于人工智能的數據庫公司Weaviate融資5000萬美元,估值達到2億美元。

僅僅一周后,其競爭對手PineCone就以7.5億美元的估值籌集了1億美元資金。

本月早些時候,另一家數據庫初創(chuàng)公司Neon也獲得了4600萬美元的融資。

在國內,百度智能云近期也升級了大模型數據服務能力,建設了國內首個專業(yè)大模型數據標注基地。百度智能云方面表示,目前已經在全國與各地政府合作,共建了10多個數據標注基地。

顯然,對數據的爭奪才剛剛開始。

數據標注再次迎來爆發(fā)

AI大模型帶來了大量需求,與之相伴的是中國數據標注行業(yè)的迅速發(fā)展。

招商證券認為,一方面,進入大數據時代后,人們各種行為的電子化、網絡化帶來海量數據,但產生的數據只有1%能被收集和保存,并且收集的數據中90%是非結構化的數據;另一方面,人工智能的興起帶來模型訓練所用結構化數據的巨大需求,數據標注的重要性逐漸突顯。

有業(yè)內人士認為,預計今年10月國內會迎來一波大的類chatGPT大模型的數據需求,而且這是一個海量的需求,以目前國內幾家頭部數據標注公司來看,目前產能還不足以滿足需求。

艾瑞咨詢數據顯示,包括數據采集、數據處理(標注)、數據存儲、數據挖掘等模塊在內的AI基礎數據服務市場,將在未來數年內持續(xù)增長。

到2025年,國內AI基礎數據服務市場的整體規(guī)模預計將達到101.1億元,整體市場增速將達到31.8%(2024-2025年)。

據iResearch數據,2019年我國數據標注市場規(guī)模為30.9億元,預計2025年市場規(guī)模突破100億元,年復合增長率達到14.6%。

隨著數據量的不斷增長和數據結構的不斷變化,數據標注行業(yè)涉及的領域也越來越廣泛,特別是在自動駕駛、AIGC等領域內,數據標注需求量極大。

作為AI大語言模型高質量回答的基礎,數據標注的生產過程主要包括四個環(huán)節(jié):設計(訓練數據集結構設計)、采集(獲取原料數據)、加工(數據標注)及質檢(各環(huán)節(jié)數據質量、加工質量檢測)。

其中,數據標注需要識別圖像、文本、視頻等原始數據,并添加一個或多個標簽機器學習模型指定上下文,幫助其做出準確的預測。

當前,大部分數據標注任務仍然需要人工完成,而且各種數據類型和應用領域都需要相應領域的專業(yè)標注員來完成標注任務。

隨著技術的發(fā)展,數據標準行業(yè)正在成為半人工智能、半人工化的行業(yè)。

面對大語言模型動輒上百億參數的數據質量控制,需要通過標注平臺將一個個復雜RLHF需求拆成很多個簡單的工作流,讓機器去做預處理,人去做深層的基于理解的反饋,以減少人在簡單問題上的精力消耗,專注在專業(yè)問題上的標注。

業(yè)內一般采用主動質檢加被動質檢的方式,前者靠人為去做質檢,后者是靠算法去做一些預識別。

但目前數據標注工具的準確率部分僅百分之幾,部分準確率則可以達到80%、90%。機器標注的識別率越高,人工需求就會越少,成本、利潤、速度、質量都能更加可控。

隨著技術不斷發(fā)展,未來數據標注行業(yè)可能會實現更高的自動化程度,不過應用領域不同,仍然需要一定數量的標注人員來進行標注任務。

傳統(tǒng)數據標注亟待升級

值得注意的是,在如今火爆的大模型訓練浪潮中,傳統(tǒng)的數據標注需求,很可能是下降的。

讓ChatGPT更具有“人味”的關鍵——強人工反饋RLHF,帶來的是另一種更高要求的數據標注需求。

相關分析顯示,在RLHF環(huán)節(jié),模型首先在大數據集上進行預訓練,再與專業(yè)的人工智能訓練師進行交互,專業(yè)的標注人員會對ChatGPT生成的回答進行標注、評估和反饋,給出一個針對回答的分數或者標簽。

這些標注數據可以作為強化學習過程中的“獎勵函數”來指導ChatGPT的參數調整,最終幫助模型進行強化學習和不斷優(yōu)化。

也就是說,讓ChatGPT“更具人味兒”的精妙之處很可能就在于——它可以利用人工標注的反饋結果不斷優(yōu)化自身模型,實現更合乎人類思維邏輯的表達。

但傳統(tǒng)數據標注模式很難滿足RLHF的需求。

在過去,數據標注公司的主流商業(yè)模式以銷售工具系統(tǒng)和標注服務為主。一方面,缺少自有數據很少有出售精準數據集的服務。另一方面,人才升級作為一個系統(tǒng)工程,對數據標注公司的考驗更高。

在完成這一步后,RLHF訓練還涉及到不少事實判斷和價值判斷。其中,價值判斷涉及到公認的"公序良俗",理論上是更容易拉齊AI認知的部分,事實判斷則涉及各行業(yè)Know-How。

這往往需要行業(yè)專業(yè)人士出手,不是傳統(tǒng)數據標注員,簡單針對詞性、圖片細節(jié)進行標注就能實現的。

也就是說,要跟上新一代AI浪潮,數據標注公司不僅需要在數據層面進行升級,人才的更新換代同樣重要。

目前的確已有標注公司開始在內部撰寫《人員提升教程》,他們將在接下來重點培訓標注人員對“升級后”的標注需求理解,以及回答方式的合規(guī)性等。

但是,在專業(yè)壁壘非常高的醫(yī)療等領域,數據標注仍面臨著人才困境。

某數據標注公司運營負責人曾表示,“特別是醫(yī)療,有些是普通人經過培訓可以標的,有的必須要醫(yī)療從業(yè)者,這背后的人才招聘難度可想而知?!?/p>

但即便困難重重,也不意味著數據標注公司會立馬進行一波洗牌——至少,在大模型訓練的幾個階段內,初始階段的半監(jiān)督學習同樣對傳統(tǒng)數據標注存在需求。

面對大模型和RLHF的機遇,重現大規(guī)模投入似乎在所難免。

有業(yè)內人士認為,如果數據標注公司期望在垂直領域做更高層級的數據服務,可能要成立一個全新的產品線。甚至,具備AI研發(fā)背景的創(chuàng)始人會是更合適的數據標注創(chuàng)業(yè)者。

面對新一代AI浪潮,沒有人可以躺著掙錢——這是每一次技術迭代沖擊背后,暗中標注好的“價格”。

【關于科技云報道】

專注于原創(chuàng)的企業(yè)級內容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領域Top10媒體。獲工信部權威認可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數據、人工智能、區(qū)塊鏈等領域。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    37050

    瀏覽量

    290152
  • 數據庫
    +關注

    關注

    7

    文章

    3980

    瀏覽量

    67433
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    16599
  • 大模型
    +關注

    關注

    2

    文章

    3351

    瀏覽量

    4723
  • AI大模型
    +關注

    關注

    0

    文章

    391

    瀏覽量

    892
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    中國晶圓廠今年將是人才爭奪戰(zhàn)關鍵年

    多數新建廠的投片計劃集中在 2018 年下半年,預估 2017 年人才挖角將更趨白熱化,是人才爭奪戰(zhàn)的關鍵年。
    發(fā)表于 03-23 07:17 ?1618次閱讀
    中國晶圓廠今年將是人才<b class='flag-5'>爭奪戰(zhàn)</b>關鍵年

    x86和ARM的嵌入式市場爭奪

    趙艷秋英特爾正攜凌動進軍嵌入式市場,與在該市場獲得廣泛應用的ARM及相關DSP平臺展開激烈的市場爭奪戰(zhàn)。雖然兩大嵌入式平臺在技術上各有優(yōu)劣,它們正相互學習,彌補自身的不足。但可以肯定的是,未來,誰贏得更廣泛的軟件支持,誰將有可能在市場上勝出。     
    發(fā)表于 07-19 07:22

    亞馬遜智能物流放大招 打響跨境電商爭奪戰(zhàn)

    為了保證物品能夠順利運達,同時既要避免過多物流問題導致賣家受傷,也要減少因此可能引發(fā)的買家不滿。為實現這一目的,亞馬遜可謂是煞費苦心。 亞馬遜智能物流放大招 打響跨境電商爭奪戰(zhàn) 目前,亞馬遜在全球擁有125個運營中心,能將貨物送往全球180多個國家和地區(qū)。
    發(fā)表于 11-11 14:47 ?652次閱讀

    谷歌在亞洲的首個AI中心的成立 將加劇AI人才爭奪戰(zhàn)

    上月初,IDG資本發(fā)布的“2017年中國互聯網準獨角獸薪酬報告”顯示,人工智能行業(yè)高級崗位薪酬高出整體水平55%,中級崗位高出90%,而初級崗位更是高達110%,一場由人工智能引發(fā)的人才爭奪大戰(zhàn)一觸即發(fā),現有市場人才爭奪已呈現白熱化。而谷歌在亞洲的首個
    的頭像 發(fā)表于 12-22 14:02 ?3036次閱讀

    開啟AI人才爭奪戰(zhàn) AI千萬年薪或成泡沫

    如今人工智能已經進入了技術紅利期,失衡的人才供求成為了束縛他發(fā)展的最大阻礙。AI人才頻頻告急,許多互聯網企業(yè)已經開始進行AI人才爭奪戰(zhàn)中,洶涌的浪潮,有人不經想問支撐AI人才千萬年薪的
    發(fā)表于 12-28 17:30 ?1181次閱讀

    《自然》:中國打響AI人才爭奪戰(zhàn)

    )發(fā)表綜述文章《中國打響AI人才爭奪戰(zhàn)》,對中國AI人才短缺問題予以關注。文章援引微軟研究院駐北京首席研究員戴維·威夫的觀點:“AI的未來將是數據
    發(fā)表于 01-23 20:10 ?457次閱讀

    戴姆勒入股北汽新能源豪賭中國市場 新能源市場爭奪戰(zhàn)戴姆勒無優(yōu)勢

    國外汽車巨頭紛紛布局新能源汽車市場,而中國市場更是成為了爭奪的焦點,前不久戴姆勒入股北汽新能源豪賭中國市場,然而新能源市場爭奪戰(zhàn)戴姆勒無優(yōu)勢。
    發(fā)表于 06-20 11:24 ?2193次閱讀

    中美AI人才爭奪,日本只能旁觀

    日媒稱,世界范圍內人工智能(AI)專家的爭奪戰(zhàn)愈演愈烈,包括無人駕駛汽車、消費者數據分析、語音識別和人臉識別系統(tǒng)等領域。 據《日本經濟新聞》6月24日報道,隨著經濟數字化的發(fā)展,很多商務場合需要精通人工智能的技術人員。
    發(fā)表于 08-12 09:29 ?560次閱讀

    自動駕駛產業(yè)爭奪戰(zhàn)正在全國城市間打響

    在汽車智能化時代,一場自動駕駛產業(yè)爭奪戰(zhàn)正在全國城市間打響,20座城市在自動駕駛政策、基礎設施建設、自動駕駛會議及賽事、企業(yè)資金扶持等層面紛紛出臺利好政策。
    的頭像 發(fā)表于 10-31 16:08 ?3026次閱讀
    自動駕駛產業(yè)<b class='flag-5'>爭奪戰(zhàn)</b>正在全國城市間打響

    國產手機市場的爭奪還在繼續(xù) 華為小米手機業(yè)務走到了分水嶺

    2018年對小米和華為來說是一個轉折點。國產手機市場的爭奪還在繼續(xù),但是兩家的業(yè)務布局在悄然變化,手機業(yè)務對集團的戰(zhàn)略支撐,走到了分水嶺。
    發(fā)表于 12-19 14:10 ?1391次閱讀

    五巨頭打響人才爭奪戰(zhàn) AI領域人才稀缺

    科技領域的AI人才爭奪戰(zhàn)早已拉開。就拿今年來說,Pinterest的首席技術官Vanja Josifovski跳槽到了Airbnb,而Pinterest聘請了沃爾瑪的首席技術官Jeremy King
    發(fā)表于 01-03 14:39 ?788次閱讀

    臺灣5G頻譜爭奪戰(zhàn)使運營商陷入了絕境

    據臺灣媒體報道,在臺灣5G頻譜爭奪戰(zhàn)進入第25天、競標總金額突破1300億新臺幣后,終于有運營商承受不住,大聲疾呼臺灣地方政府、通訊監(jiān)管機構NCC考慮國際案例、市場現狀,宣布中止競標,否則非產業(yè)和用戶之福。
    發(fā)表于 01-17 10:21 ?766次閱讀

    外企對國內動力電池爭奪戰(zhàn)升級,鋁塑膜或將迎來熱潮

    當前,全球新能源汽車產業(yè)發(fā)展方興未艾,猛烈的電動化浪潮席卷之下,各大整車企業(yè)對動力電池的爭奪戰(zhàn)也是暗流涌動。近段時間,歐洲三大豪門車企大眾、戴姆勒、寶馬紛紛掀起了爭相綁定中國電池生產企業(yè)的狂潮。
    發(fā)表于 07-31 09:33 ?934次閱讀

    新火種AI|大模型時代,AI人才也是各家爭奪的焦點

    AI人才爭奪戰(zhàn),正式打響
    的頭像 發(fā)表于 04-11 20:57 ?735次閱讀
    新火種<b class='flag-5'>AI</b>|大<b class='flag-5'>模型</b>時代,<b class='flag-5'>AI</b>人才也是各家<b class='flag-5'>爭奪</b>的焦點

    芯片巨頭人才戰(zhàn):英偉達與三星的AI芯片人才爭奪

    在全球AI芯片市場的激烈競爭中,各大芯片企業(yè)紛紛加入了一場以英偉達為中心的人才爭奪戰(zhàn)。這場戰(zhàn)爭不僅關乎技術的領先,更決定了誰能在未來AI芯片市場上占據主導地位。
    的頭像 發(fā)表于 06-22 14:11 ?1313次閱讀