一、大模型發(fā)展情況
1、行業(yè)發(fā)展歷程
語言是人類表達和交流的突出能力,其在兒童早期發(fā)展并在一生中不斷演變。然而,除非配備強大的人工 智能(AI)算法,機器不會自然地掌握理解和使用人類語言的能力。要讓機器像人類一樣閱讀、寫作和交流一 直是一個長期的研究挑戰(zhàn)。從技術上講,語言建模(Language Model, LM)是提高機器語言智能的主要方法之 一。一般來說,LM 旨在對單詞序列的生成概率進行建模,以便預測未來(或缺失)單詞的概率。LM 的研究在 學界中得到了廣泛的關注,可以分為四個主要發(fā)展階段: 統(tǒng)計語言模型(SLM):SLM 是基于 20 世紀 90 年代興起的統(tǒng)計學習方法開發(fā)的。其基本思想是基于馬爾 可夫假設構建單詞預測模型,例如根據(jù)最近的上下文預測下一個單詞。具有固定上下文長度 n 的 SLM 也被稱為 n-gram 語言模型,例如二元和三元語言模型。SLM 已經(jīng)被廣泛應用于提高信息檢索(IR)和自然語言處理(NLP) 任務的性能。然而,它們經(jīng)常受到維度災難的影響:由于需要估計指數(shù)級的轉(zhuǎn)移概率,因此很難準確估計高階 語言模型。因此,專門設計的平滑策略,例如后退估計和 Good-Turing 估計已經(jīng)被引入為緩解數(shù)據(jù)稀疏問題。
神經(jīng)語言模型(NLM):NLM 通過神經(jīng)網(wǎng)絡,例如遞歸神經(jīng)網(wǎng)絡(RNNs),來描述單詞序列的概率。作為 一個顯著的貢獻,Y. Bengio 和 R. Ducharme 等人引入了單詞的分布式表示的概念,并構建了基于聚合上下文特 征(即分布式單詞向量)的單詞預測函數(shù)。通過擴展學習詞或句子有效特征的想法,已有研究開發(fā)了一種通用 神經(jīng)網(wǎng)絡方法來為各種自然語言處理任務構建統(tǒng)一解決方案。此外,word2vec 提出了構建一個簡化的淺層神經(jīng) 網(wǎng)絡,用于學習分布式單詞表示,這在各種 NLP 任務中被證明非常有效。這些研究開創(chuàng)了語言模型用于表示學 習(超越了詞序列建模)的應用,對 NLP 領域產(chǎn)生了重要影響。 預訓練語言模型(PLM):作為早期嘗試,ELMo 被提出來通過預訓練一個雙向 LSTM(biLSTM)網(wǎng)絡(而 不是學習固定的詞表示)來捕捉上下文感知的詞表示,然后根據(jù)特定的下游任務微調(diào) biLSTM 網(wǎng)絡。此外,基 于高度可并行化的 Transformer 架構和自注意力機制,BERT 提出了通過在大規(guī)模無標注語料庫上設計特定的預 訓練任務來預訓練雙向語言模型。這些預訓練的上下文感知的單詞表示非常有效,可作為通用語義特征,大大 提高了 NLP 任務的性能。這項研究啟發(fā)了大量的后續(xù)工作,建立了“預訓練和微調(diào)”學習范式。在此范式下, 開發(fā)了大量關于 PLM 的研究,引入了不同的架構(例如 GPT-2 和 BAR)或改進的預訓練策略。在這個范式中, 通常需要微調(diào) PLM 以適應不同的下游任務。
大型語言模型(LLM):研究人員發(fā)現(xiàn),擴展 PLM(例如擴展模型大小或數(shù)據(jù)大?。┩ǔе履P驮谙?游任務上具有更強的能力(即遵循縮放定律)。一些研究探索了通過訓練更大的 PLM(例如 175B 參數(shù)的 GPT-3 和 540B 參數(shù)的 PaLM)來達到性能極限。盡管縮放主要是在模型大?。ň哂蓄愃频募軜嫼皖A訓練任務)方面進 行的,但這些大型 PLM 顯示出與較小 PLM(例如 330M 參數(shù)的 BERT 和 1.5B 參數(shù)的 GPT-2)不同的行為,并 展現(xiàn)出令人驚訝的能力(稱為涌現(xiàn)能力)以解決一系列復雜任務。例如,GPT-3 可以通過上下文學習來解決少 樣本任務,而 GPT-2 做不好。因此,研究界為這些大型 PLM 創(chuàng)造了“大型語言模型(LLM)”的術語。LLM 的 一個顯著應用是 ChatGPT,它利用 GPT 系列的 LLM 適應對話,具有驚人的與人類對話的能力。大語言模型相 較于以往的語言模型具備顯著優(yōu)勢,其具備優(yōu)秀的上下文學習能力、可觀的知識容量、優(yōu)秀的泛化性和復雜推 理能力。
大型語言模型研究的發(fā)展有三條技術路線:Bert 模式、GPT 模式、混合模式。其中國內(nèi)大多采用混合模式, 多數(shù)主流大型語言模型走的是 GPT 技術路線,直到 2022 年底在 GPT-3.5 的基礎上產(chǎn)生了 ChatGPT。到 2019 年 后,Bert 路線基本沒有標志性的新模型更新,而 GPT 技術路線則趨于繁榮。從 Bert 往 GPT 演化的過程中,模 型越來越大,所實現(xiàn)的性能也越來越通用。各類大語言模型路線各有側(cè)重,GPT 模式在生成類任務表現(xiàn)最優(yōu)。 大型語言模型按照從數(shù)據(jù)到知識來劃分,數(shù)據(jù)可分為通用數(shù)據(jù)和領域數(shù)據(jù),知識分為語言知識和世界知識。從 任務類型來劃分,大型語言模型可以分為單一任務和多任務、理解類和生成類;Bert 模式有兩階段(雙向語言 模型預訓練+任務 Fine-tuning),適用于理解類以及某個場景的具體任務,表現(xiàn)得“專而輕”。GPT 模式是由兩階 段到一階段(單向語言模型預訓練+zero-shot prompt),比較適合生成類任務、多任務,表現(xiàn)得“重而通”。T5 模式則將兩者的方法結合,包含有兩階段(單向語言模型預訓練+Fine-tuning)。根據(jù)當前研究結論,如果模型 規(guī)模不特別大,面向單一領域的理解類任務,適合用 T5 模式,而 GPT 模式在做生成類任務時的效果最好。綜 合來看,當前幾乎所有參數(shù)規(guī)模超過千億的大型語言模型都采取 GPT 模式。
如今,LLM 正在對人工智能社區(qū)產(chǎn)生重大影響,ChatGPT 和 GPT-4 的出現(xiàn)引發(fā)了重新思考人工智能通用智 能(AGI)的可能性。OpenAI 已經(jīng)發(fā)表了一篇名為“Planning for AGI and beyond”的技術文章,討論了實現(xiàn) AGI 的短期和長期計劃,而最近的一篇論文則認為 GPT-4 可能被視為一個早期版本的 AGI 系統(tǒng)。LLM 的快速進步 正在徹底改變?nèi)斯ぶ悄艿难芯款I域。在自然語言處理領域,LLM 可以在某種程度上充當通用語言任務求解器, 研究范式已經(jīng)轉(zhuǎn)向使用 LLM。在信息檢索領域,傳統(tǒng)的搜索引擎正在被 AI 聊天機器人(即 ChatGPT)挑戰(zhàn), 而 New Bing 則是基于 LLM 增強搜索結果的初始嘗試。在計算機視覺領域,研究人員試圖開發(fā)類似于 ChatGPT 的視覺語言模型,以更好地服務于多模態(tài)對話,而 GPT-4 通過集成視覺信息已經(jīng)支持多模態(tài)輸入。這股新的技 術浪潮有可能會導致基于 LLM 的真實世界。例如,Microsoft 365 正在被 LLM(如 Copilot)賦能以自動化辦公 工作,而 OpenAI 支持在 ChatGPT 中使用插件來實現(xiàn)特殊功能。
起源于 Transformer 模型,ChatGPT 經(jīng)過 5 年迭代成功出世。ChatGPT 的誕生經(jīng)歷了從 Transformer -> GPT -> GPT2 -> GPT3 -> ChatGPT 的逐步迭代過程,其具體發(fā)展歷程如下:(1)2017 年 6 月,Google 發(fā)布論文《Attention is all you need》,首次提出 Transformer 模型,成為 GPT 發(fā)展的基礎;(2)2018 年 6 月, OpenAI 發(fā)布論文《Improving Language Understanding by Generative Pre-Training》,首次提出 GPT 模型,即 GPT-1,模型參數(shù)量達 1.17 億;(3)2019 年 2 月,OpenAI 發(fā)布論文《Language Models are Unsupervised Multitask Learners》,提出 GPT-2 模型, 大模 型共計 48 層,參數(shù)量達 15 億;(4)2020 年 5 月,OpenAI 發(fā)布論文《Language Models are Few-Shot Learners》, 提出 GPT-3 模型, 參數(shù)量達 1750 億;(5)2022 年 2 月底,OpenAI 發(fā)布論文《Training language models to follow instructions with human feedback》,公布 Instruction GPT 模型,參數(shù)量達 13 億;(6)2022 年 11 月 30 日,OpenAI 推出 ChatGPT 模型,并提供試用。
2、大語言模型概覽
通常,大型語言模型(LLMs)是指包含數(shù)千億(或更多)參數(shù)的語言模型,它們是在海量文本數(shù)據(jù)上進行 訓練的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具體來說,LLMs 建立在 Transformer 架構之上,其中多頭 注意力層在一個非常深的神經(jīng)網(wǎng)絡中堆疊?,F(xiàn)有的 LLMs 主要采用類似的模型架構(即 Transformer)和預訓練 目標(即語言建模)作為小型語言模型。作為主要區(qū)別,LLMs 大量擴展了模型大小、預訓練數(shù)據(jù)和總計算量 (數(shù)量級)。它們可以更好地理解自然語言,并基于給定的上下文(即提示)生成高質(zhì)量的文本。這種能力提升 可以部分地由縮放法則描述,即性能大致隨著模型大小的增加而顯著增加。然而,一些能力(例如上下文學習) 是不可預測的,只有當模型大小超過一定水平時才能觀察到。
百億參數(shù)量級別的模型:這類模型的參數(shù)規(guī)模除了 LLaMA(最大版本 65B 參數(shù))和 NLLB(最大版本 54.5B 參數(shù)),大多在 10B 至 20B 之間。這一參數(shù)范圍內(nèi)的模型包括 mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、 UL2、Flan-T5 和 mT0 等。其中,F(xiàn)lan-T5(11B 版本)可以作為研究指令微調(diào)的首選模型,因為它從三個方面 探索了指令微調(diào):增加任務數(shù)量、擴大模型規(guī)模和使用思維鏈提示數(shù)據(jù)進行微調(diào)。CodeGen(11B)是一個為生 成代碼設計的自回歸語言模型,可用作探索代碼生成能力的候選模型,其提出了一個新的基準測試 MTPB,專 門用于多輪程序合成,由 115 個專家生成的問題組成,為了解決這些問題,需要大語言模型獲得足夠的編程知 識(例如數(shù)學、數(shù)組操作和算法)。對于多語言任務,mT0(13B)可能是一個比較好的候選模型,因為它在多 語言任務中使用多語言提示進行微調(diào)。此外,對于中文的下游任務,PanGu-α具有較好的表現(xiàn),特別是在零樣 本或小樣本的設置下,該模型基于深度學習框架 MindSpore 開發(fā),擁有多個參數(shù)版本(最大版本 200B 參數(shù)), 而最大的公開版本只有 13B 參數(shù)。此外,作為最近發(fā)布的模型,LLaMA(65B)在與指令遵循相關的任務中展現(xiàn)了卓越的性能。由于其開放性和有效性,LLaMA 引起了研究界的廣泛關注,許多工作致力于微調(diào)或繼續(xù)訓練 其不同的模型版本以實現(xiàn)新模型或工具的開發(fā)。百億參數(shù)量級別的模型通常需要數(shù)百甚至上千個 GPU 或 TPU。 例如,GPT-NeoX-20B 使用了 12 個微服務器,每個服務器配備了 8 個 NVIDIA A100-SXM4-40GBGPU,LLaMA 使用了 2048 個 A100-80GGPU。為了準確估計所需的計算資源,我們還是建議使用衡量涉及計算量的指標,例 如計算 FLOPS(每秒浮點數(shù)運算次數(shù))。
據(jù)中移智庫統(tǒng)計,截止到 2023 年 4 月 18 日,國內(nèi)至少有 19 家企業(yè)及科研院所涉足人工智能大模型訓練, 主要分為大型科技公司、科研院校和初創(chuàng)科技團隊三類。具體來看:百度、阿里等 12 家大型科技公司和中國科 學院、清華大學等 3 家科研院校已經(jīng)提供開放測試,或有明確的推出時間計劃;字節(jié)跳動、搜狗創(chuàng)始人王小川、 美團創(chuàng)始人王慧文、創(chuàng)新工場創(chuàng)始人李開復等則是最近對外宣布組建團隊,進軍大模型研發(fā)領域。其中,字節(jié) 跳動旗下火山引擎于 4 月 18 日發(fā)布自研 DPU(數(shù)據(jù)處理器)等系列云產(chǎn)品,推出新版機器學習平臺,可以支 持萬卡級大模型訓練、微秒級延遲網(wǎng)絡,為預訓練模型提供強大的算力支持。
從大模型參數(shù)量看,科技大廠的參數(shù)量遠大于科研院所??萍即髲S的大模型參數(shù)量較大:阿里通義千問大 模型參數(shù)在 10 萬億級以上、騰訊混元大模型和華為盤古大模型參數(shù)量均在萬億級以上、百度文心一言大模型參 數(shù)量在 2 千億級以上、京東言犀大模型的參數(shù)量為千億級;垂直行業(yè)科技企業(yè)已經(jīng)上線的參數(shù)量普遍在千億級 以上;而科研院校大模型的參數(shù)量在千億級及以下。 從大模型應用方向看,大部分企業(yè)前期以內(nèi)部應用為主,后續(xù)主要向 B 端企業(yè)拓展服務,預計少數(shù)企業(yè)將 在 C 端市場形成規(guī)模。目前,百度文心大模型、華為盤古大模型、中國科學院紫東太初大模型均在 B 端垂類市 場積累了標桿應用案例,騰訊混元大模型、阿里通義大模型則更多聚焦公司自身業(yè)務。而在 C 端市場應用方面, 百度文心一言、阿里通義千問、騰訊混元助手三類大模型最有可能向此方向拓展,但目前只有百度文心一言大 模型正在進行友好客戶測試,阿里通義千問大模型則計劃在今年 9 月份進行公測,騰訊混元助手大模型則處于 計劃開發(fā)狀態(tài)。
3、產(chǎn)業(yè)發(fā)展趨勢
大模型是基于海量多源數(shù)據(jù)打造的預訓練模型,是對原有算法模型的技術升級和產(chǎn)品迭代,用戶可通過開 源或開放 API/工具等形式進行模型零樣本/小樣本數(shù)據(jù)學習,以實現(xiàn)更優(yōu)的識別、理解、決策、生成效果和更低 成本的開發(fā)部署方案。大模型的核心作用是突破數(shù)據(jù)標注的困境,通過學習海量無標注的數(shù)據(jù)來做預訓練,拓 展整體模型前期學習的廣度和深度,以此提升大模型的知識水平,從而低成本、高適應性地賦能大模型在后續(xù) 下游任務中的應用。在實踐中,預訓練大模型在基于海量數(shù)據(jù)的自監(jiān)督學習階段完成了“通識”教育,再借助 “預訓練+精調(diào)”等模式,在共享參數(shù)的情況下,根據(jù)具體應用場景的特性,用少量數(shù)據(jù)進行相應微調(diào),即可高 水平完成任務。
大模型增強了 AI 技術的通用性,讓開發(fā)者以更低成本、更低門檻,面向場景研發(fā)更好的 AI 模型,助力普 惠 AI 的實現(xiàn)。但目前,基礎大模型距離大規(guī)模產(chǎn)業(yè)應用并成為產(chǎn)業(yè)基座還有很長的一段路要走,不僅需要有與 場景深度融合的大模型體系,也需要有支持全流程應用落地的專業(yè)工具和平臺,還需要開放的生態(tài)來激發(fā)創(chuàng)新; 三層之間交互賦能,才能形成良性循環(huán)的產(chǎn)業(yè)智能化生態(tài)共同體。我們看到 OpenAI 在開發(fā) GPT 大模型的過程 中具有相似的思路,在不斷加強大模型本身性能的同時,將 GPT 打包成產(chǎn)品,對外提供 API 服務,相關開發(fā)者、 企業(yè)、學術機構以及高校都可以申請使用。開放后,大量開發(fā)者利用 API 開發(fā)出了各種各樣的功能,例如翻譯 機、網(wǎng)站生成器等;OpenAI 則通過用戶獲取了更多的行為數(shù)據(jù),形成了對 GPT 的反哺。由此可見,“模型+工 具平臺+生態(tài)”三層共建有助于業(yè)務的良性循環(huán),也更容易借助長期積累形成競爭壁壘。
生態(tài)層是基于大模型能力打造共創(chuàng)、共享社區(qū)。大模型“預訓練+精調(diào)”的新研發(fā)范式,讓 AI 在識別、理 解、生成等方面的能力實現(xiàn)突破,帶來深度語義理解、智能交互、內(nèi)容生成的技術與產(chǎn)品變革動能。打造基于 大模型能力的生態(tài),提供能力、工具、服務,連接供需,吸引更多的開發(fā)者和企業(yè)共創(chuàng)、共享,是釋放大模型 潛力的重要路徑?!澳P?工具平臺+生態(tài)”的模式需要協(xié)同優(yōu)化,拓寬人工智能技術落地的場景覆蓋廣度,加深 產(chǎn)業(yè)實際應用的深度,共同加速產(chǎn)業(yè)智能化,推動人工智能技術賦能千行百業(yè),惠及千家萬戶。 “模型+工具平臺+生態(tài)”的模式需要協(xié)同優(yōu)化,才能拓寬人工智能技術落地的場景覆蓋廣度,加深產(chǎn)業(yè)實 際應用的深度,共同加速產(chǎn)業(yè)智能化,推動人工智能技術賦能千行百業(yè),惠及千家萬戶。
二、互聯(lián)網(wǎng)大廠模型
1、阿里
阿里以“通義大模型+飛天智算平臺+魔塔社區(qū)+行業(yè)應用”成為大模型全部環(huán)節(jié)的重要參與者。2019 年, 阿里達摩院開啟大模型研究。2022 年 9 月,阿里正式發(fā)布通義大模型,包括通義 M6 多模態(tài)模型、通義 AliceMind 自然語言處理模型、通義視覺計算機視覺模型。2022 年 11 月,阿里推出 AI 開源社區(qū)“魔搭”(ModelScope), 旨在打造下一代“模型即服務”的共享平臺,整合業(yè)界多方模型提供者,為開發(fā)者提供預訓練基礎模型和 API 接口。目前該平臺已有超過 300 個開源模型,包括阿里自有的通義大模型系列以及瀾舟科技孟子系列模型等外 部資源和能力。2023 年 4 月,阿里正式發(fā)布了“通義千問”產(chǎn)品,該產(chǎn)品基于 10 萬億級參數(shù)的大模型底座 M6-OFA, 未來將具有多輪交互及復雜指令理解、可多模態(tài)融合、支持外部增強 API 等多種能力。另外,阿里不僅擁有最 多的英偉達 A100 芯片,還擁有自研芯片含光 800、倚天 710 芯片,共同為人工智能大模型提供算力。
1.1 模型
阿里推出“通義”系列大模型,由統(tǒng)一底座層、通用模型層、行業(yè)模型層組成,不僅通用多種任務,又容 易落地應用,其中,應用在 B 端更有優(yōu)勢。2022 年 9 月 2 日,阿里推出“通義”系列大模型,核心模型通過“魔 搭”社區(qū)向全球開發(fā)者開源開放,推出“飛天智算平臺”提升 AI 訓練效率。通義大模型通過打造業(yè)界首個 AI 統(tǒng)一底座并構建大小模型協(xié)同的層次化人工智能體系,解決了大模型通用性與易用性仍欠缺的難題。通義大模 型由統(tǒng)一底座層、通用模型層、行業(yè)模型層組成。其中,統(tǒng)一底座是基于 transformer 框架,由統(tǒng)一學習范式和 模塊化設計理念構成;通用模型層主要包括通義-M6、通義-AliceMind 和通義-CV 三大模型體系。由于低訓練能 耗優(yōu)勢,通義大模型運行速度加快,例如,M6 在相同參數(shù)規(guī)模下的訓練能耗僅是 GPT-3 的 1%。目前,阿里通 義大模型已廣泛用于電商、設計、醫(yī)療、法律、金融等領域,助力其降本增效。而在落地應用方面,阿里原有 的產(chǎn)品資源導致其在 B 端更有優(yōu)勢。阿里巴巴于 2023 年 4 月 7 日推出通義千問大語言模型內(nèi)測。在 4 月 11 日 的 2023 阿里云峰會上,阿里巴巴 CEO 張勇表示阿里巴巴所有產(chǎn)品未來將接入通義千問大模型,進行全面改造, 包括天貓、釘釘、高德地圖、淘寶、優(yōu)酷、盒馬等。阿里將結合 200 多萬的企業(yè)用戶和輻射的 2-3 億真實活躍 用戶資源,把文本作為核心場景鑲嵌到釘釘?shù)娜笕肟冢A計 2023Q3 推送給部分 B 端客戶的企業(yè)釘。
通義-M6 屬于多模態(tài)模型,覆蓋文本和語音模態(tài),在短時間內(nèi)高速發(fā)展,并實現(xiàn)架構、模態(tài)和任務統(tǒng)一。 通義-M6(英文全稱是 MultiModality-to-MultiModality Multitask Mega-transformer,6 個 M,簡稱 M6)包括圖 文生成,圖文理解,多模態(tài)對話,運動預測,運動生成,語音理解,語音生成,多模態(tài)檢測和分割。通義-M6 已經(jīng)從 2020 年 6 月的 3 億參數(shù)基礎模型逐漸發(fā)展到 2021 年 10 月的 10 萬億參數(shù)全球最大預訓練模型再到 2022 年 1 月的業(yè)界首個通用統(tǒng)一大模型 M6-OFA。2020 年 1 月,阿里巴巴達摩院啟動中文多模態(tài)預訓練模型 M6 項 目,同年 6 月推出 3 億參數(shù)的基礎模型。2021 年 1 月,模型參數(shù)規(guī)模到達百億,已經(jīng)成為世界上最大的中文多 模態(tài)模型。2021 年 3 月,千億參數(shù)模型 KDD2021 發(fā)布,與 10B 模型相比:①訓練損失減少 37%,在許多下游 任務實現(xiàn) SOTA 結果;②混合精度提亮 90%的效率;③僅需 32 張 v100GPU 即可完成訓練。 2021 年 5 月,具 有萬億參數(shù)規(guī)模的模型正式投入使用,追上了谷歌的發(fā)展腳步。2021 年 10 月,M6 的參數(shù)規(guī)模擴展到 10 萬億, 成為當時全球最大的 AI 預訓練模型。 2022 年 1 月,業(yè)界首個通用的統(tǒng)一大模型 M6-OFA 發(fā)布。
AliceMind 是 NLP 的深度語言模型體系,以通用預訓練語言模型 StructBERT 為基礎,拓展到超大的領域模 型、多語言、多領域、多模態(tài)方向,可用于結構化、生成式、知識驅(qū)動等應用。AliceMind, 取名來自 Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo),是阿里達摩院機器智能技術實驗室傾 力打造的具有領先性和系統(tǒng)化的深度語言模型體系。AliceMind 的核心應用場景有:文本標簽分類、序列標注、 智能中文生成(如商品描述寫作推薦、小說續(xù)寫、古詩生成、菜譜生成等)、多模態(tài)問答(如 VQA,圖片問答)、 問答對自動生成等。Alicemind 已經(jīng)服務阿里內(nèi)部和外部客戶幾百個場景。
通義-視覺屬于 CV 模型,覆蓋圖像,視頻模態(tài)。通義-視覺大模型自下往上分為底層統(tǒng)一算法架構、中層通 用算法和上層產(chǎn)業(yè)應用,由兩個基礎模型構成,能夠?qū)崿F(xiàn)視頻處理、視覺問答、視覺算數(shù)等多種算法,在電商、 交通、自動駕駛等領域發(fā)揮作用。
1.2 算力
2022 年,阿里云推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規(guī)模智算中心,為科研、 公共服務和企業(yè)機構提供強大的智能計算服務,可將計算資源利用率提高 3 倍以上,AI 訓練效率提升 11 倍, 推理效率提升 6 倍。 飛天智算平臺源于阿里巴巴內(nèi)部廣泛實踐,也源于廣泛的產(chǎn)業(yè)智能實踐。目前,該平臺正在支撐建設兩座 超大規(guī)模智算中心。張北智算中心建設規(guī)模為 12 EFLOPS(每秒 1200 億億次浮點運算)AI 算力。在云端,張 北智算中心支撐 AI 預訓練大模型、AI Earth、數(shù)字人等前沿 AI 應用,將成為全球最大的智算中心。烏蘭察布智 算中心建設規(guī)模為 3 EFLOPS(每秒 300 億億次浮點運算)AI 算力,位于“東數(shù)西算”內(nèi)蒙古樞紐節(jié)點,采用 自然風冷、AI 調(diào)溫等綠色技術,實現(xiàn)綠色低碳。
智能計算不同于通用型計算,需要海量數(shù)據(jù)對 AI 模式進行訓練,算力被損耗在數(shù)據(jù)遷移、同步等環(huán)節(jié),千 卡以上規(guī)模的算力輸出最低往往僅有 40%左右。這導致了智能算力成本高昂,制約了產(chǎn)業(yè)發(fā)展。阿里云通過體 系化的技術創(chuàng)新,改變了智能計算的損耗難題,將千卡并行計算效率提升至 90%以上。在網(wǎng)絡技術上:阿里云 采用高性能 RDMA 網(wǎng)絡,實現(xiàn)端對端最低 2 微秒延遲。在通信技術上:阿里云自研的無阻塞通信技術,讓計算 過程中的數(shù)據(jù)交換速度提升了 5 倍以上。在存儲技術上:自研的 IO 加速器讓數(shù)據(jù)存取實現(xiàn)最高 10 倍性能提升。 在大數(shù)據(jù) AI 開發(fā)層:阿里云提供分布式訓練框架,并通過 API 對分布式策略進行自動組合和調(diào)優(yōu),將訓練效率 提升了 11 倍以上。一站式 AI 計算開發(fā)服務:阿里云為用戶提供了一站式的通用推理優(yōu)化工具,對算法模型進 行量化、剪枝、稀疏化、蒸餾等操作,將推理效率提升 6 倍以上。
阿里研發(fā)出高質(zhì)量的大模型壓縮技術,快速匹配客戶計算資源。達摩院推出了大模型落地技術 S4(Sound、 Sparse、Scarce、Scale)框架,就包含了各種微調(diào)算法和模型壓縮算法,將稀疏化等技術應用到百億量級的大模 型中。基于這一技術,阿里的 270 億參數(shù)語言大模型 PLUG 在壓縮率達 99%的情況下,多項任務的精度損失 在 1%以內(nèi)。這意味著百億參數(shù)大模型也可能在幾乎不損失精度的情況下進行稀疏化,最終實現(xiàn)單卡運行。
另一方面,基于“通用大模型+行業(yè) knowhow”的方式迭代模型。通用大模型基于“大一統(tǒng)”技術,預訓 練時就已經(jīng)具備了很強的理解和生成能力,只需再針對特定任務進行簡單微調(diào)。即先打造一個基礎大模型,再 繼續(xù)訓練得到領域模型,最后通過微調(diào)構建具體行業(yè)任務模型。通義大模型的架構設計將這一過程做得更快且 更高效。 目前,通過部署超大模型的輕量化及專業(yè)模型版本,通義大模型已在超過 200 個場景中提供服務,實現(xiàn)了 2%-10%的應用效果提升。比如,通義大模型在淘寶服飾類搜索場景中實現(xiàn)了以文搜圖的跨模態(tài)搜索、在 AI 輔 助審判中司法卷宗的事件抽取、文書分類等場景任務中實現(xiàn) 3~5%的應用效果提升、在開放域人機對話領域通 過建立初步具備“知識、情感以及個性、記憶”的中文開放域?qū)υ挻竽P蛯崿F(xiàn)了主動對話、廣泛話題、緊跟熱 點等對話體驗。
1.3 平臺
2022 年 11 月,阿里巴巴達摩院與中國計算機學會開源發(fā)展委員會共同推出人工智能模型開源社區(qū)“魔搭” (Model Scope),首批合作方還包括瀾舟科技、智譜 AI、深勢科技、中國科學技術大學等多家科研機構,旨在 打造下一代開源的模型即服務共享平臺,致力降低 AI 應用門檻。 ModelScope Library 為模型貢獻者提供了必要的分層 API,以便將來自 CV、NLP、語音、多模態(tài)以及科學 計算的模型集成到 ModelScope 生態(tài)系統(tǒng)中。所有這些不同模型的實現(xiàn)都以一種簡單統(tǒng)一訪問的方式進行封裝, 用戶只需幾行代碼即可完成模型推理、微調(diào)和評估。同時,靈活的模塊化設計使得在必要時也可以自定義模型 訓練推理過程中的不同組件。除了包含各種模型的實現(xiàn)之外,ModelScope Library 還支持與 ModelScope 后端服 務進行必要的交互,特別是與 Model-Hub 和 Dataset-Hub 的交互。這種交互促進了模型和數(shù)據(jù)集的管理在后臺 無縫執(zhí)行,包括模型數(shù)據(jù)集查詢、版本控制、緩存管理等。當前,魔搭社區(qū)收錄模型共 775 個,其中中文模型 約 300 個,主要通過大模型幫助開發(fā)者提取、抽象知識,通過下游調(diào)優(yōu),將下游目標精確化,從而快速形成針 對行業(yè)的解決模型,解決實際應用問題。
1.4 應用
通義千問將陸續(xù)接入阿里巴巴生態(tài)的所有商業(yè)應用中,如企業(yè)通訊、智能語音助手、電子商務、搜索、導 航、娛樂等,從而進一步提升用戶體驗。憑借其中英雙語能力,通義千問將首先部署于阿里巴巴的數(shù)碼協(xié)同辦 公和應用開發(fā)平臺釘釘,以及物聯(lián)網(wǎng)智能家居終端機天貓精靈上。 通義千問賦能釘釘:讓職場溝通更高效。例如,釘釘將能夠總結會議紀要、將會議對話生成文字會議記錄、 撰寫電子郵件,以及僅用簡單輸入就可創(chuàng)建業(yè)務策劃或推廣方案初稿。用戶還可以透過上傳一張構思草圖的圖 像,轉(zhuǎn)瞬間就能在釘釘上生成小程序。通義千問賦能天貓精靈:與中國用戶更活潑生動地對話。例如,天貓精 靈將能夠為兒童創(chuàng)作和講故事、提供健康食譜和旅行建議,或推薦健身背景音樂等。 從應用的角度,在傳統(tǒng) APP 中,因為各業(yè)務邏輯上的不同,比如淘寶與餓了么,飛豬與高德打車,APP 間 很難整合,強行整合反而會帶來產(chǎn)品使用復雜度大幅增加,用戶體 驗下降。但如果統(tǒng)一接入到通義千問中,參 考智能座艙的語音助手,其更強的理解能力將 使得交互邏輯變得非常簡單,用戶可以像詢問生活助手一樣詢問 通義千問來完成業(yè)務交互,不再需要學習操作邏輯,阿里生態(tài)中的家庭終端入口將實現(xiàn)統(tǒng)一。
圖像理解和“文生圖(text-to-image)”等多模態(tài)能力也將很快添加到通義千問模型中,為用戶提供更具吸 引力的 AI 功能。阿里云智能首席技術官周靖人表示:“語言大模型支持下的生成式 AI 正迎來全新的發(fā)展階段。 在新 AI 時代,我們憑借可靠的公有云基礎設施和久經(jīng)驗證的 AI 能力,為客戶和廣大社會創(chuàng)造價值。我們正見 證 AI 發(fā)展的新范式,云和 AI 模型在其中發(fā)揮至關重要的作用。我們致力于讓這種范式更普惠,希望以此促進 各行各業(yè)的數(shù)智化轉(zhuǎn)型,助力提高企業(yè)生產(chǎn)力,擴展專業(yè)知識和能力,并通過創(chuàng)新釋放更大的機遇?!蓖x千問 基于阿里巴巴自研的“通義”預訓練模型框架,其統(tǒng)一底座包括“文生圖”、“文生短視頻”等 AI 模型。去年, 阿里云推出開源“模型即服務”(Model-as-a-Service)平臺“魔搭”(ModelScope),開放了數(shù)以百計 AI 模型, 包括面向全球開發(fā)者和研究人員的通義“文生圖”模型。目前“魔搭”小區(qū)擁有超過 100 萬活躍用戶,提供 800 多個模型,模型總下載量超 1600 萬次。
2、百度
百度是國內(nèi)領先布局 AI 領域的科技大廠,也是我國最早發(fā)布知識增強大語言模型產(chǎn)品的企業(yè),其在 AI 領 域累計投入研發(fā)總額超過千億元,專利數(shù)量連續(xù)五年居全國第一。2010 年,百度成立了人工智能自然語言處理 部,是中國最早布局 AI 的企業(yè)之一。2012 年,百度的 AI 戰(zhàn)略已經(jīng)初步成型,陸續(xù)成立了深度學習研究院 IDL、人 工智能實驗室。2014 年,百度開始涉足智能駕駛領域,先后推出了深度語音系統(tǒng)、百度大腦、度秘、 Apollo 自 動駕駛平臺等技術體系,涉及自然語言處理、機器翻譯、語音、視覺、機器學習、深度學習、知識圖譜等核心技 術。2016 年 9 月,百度在百度世界大會上正式對外開放集視覺、語音、自然語言處理、知識圖譜、深度學習等 技術于一體的百度大腦,并且每隔一段時間就會進行迭代,合作伙伴可以直接調(diào)用百度 AI 的核心能力。同年,百 度主導的深度學習框架 PaddlePaddle(飛槳)上線,涵蓋了深度學習核心訓練和推理框架、基礎模型庫、端到端開發(fā) 套件和豐富的工具組件,填補了中國開源深度學習框架的空白。2017 年開始,百度就開始整合人工智能體系,在 2019 年下半的一次架構調(diào)整后,王海峰開始統(tǒng)管 AIG、ACG 和 TG 三塊業(yè)務,百度 AI 的打法也進一步清晰,云計 算被定義為智能基礎設施的底座,同時將人工智能和底層技術能力灌輸?shù)降鬃?進而成為賦能各行各業(yè)的“動力 工廠”。2020 年,百度智能云確立了“以云計算為基礎,以人工智能為抓手,聚焦重要賽道”的新戰(zhàn)略,選擇智慧城 市、智慧金融、智慧醫(yī)療、智能制造、智慧能源等為重要賽道,并屢屢簽下數(shù)億級別的訂單。2021 年初,百度再 次夯實了自身的人工智能戰(zhàn)略,從“AI+云”的整合過渡到云智一體的新階段。2022 年底,百度智能云推出了全 棧自研的 AI 基礎設施“百度 AI 大底座”,其包括“芯片–框架–模型”三層技術棧,在各個層面都擁有關鍵自 研技術和領先產(chǎn)品,分別對應昆侖芯、飛槳(PaddlePaddle)、文心大模型。百度 AI 大底座對各層的技術棧進行 了全棧融合、系統(tǒng)優(yōu)化,完成了云和智的技術一體化建設,可以實現(xiàn)對大模型訓練的端到端優(yōu)化和加速。
2.1 模型
文心大模型架構分為“基礎+任務+行業(yè)”三級模型。基礎大模型聚焦技術方向的技術挑戰(zhàn)、通用性、泛化 性探索;任務大模型深入理解任務特性,構建預訓練算法、訓練數(shù)據(jù)集,打造緊貼任務的模型能力;行業(yè)大模 型深度融合行業(yè)數(shù)據(jù)與知識特性,構建更適配行業(yè)的模型底座?;A大模型支撐任務與行業(yè)大模型的建設,任 務和行業(yè)大模型結合真實場景與數(shù)據(jù)反哺基礎大模型優(yōu)化。目前,文心大模型已經(jīng)建設了 36 個大模型,其中基 礎大模型包含:NLP(自然語言處理)大模型、CV(計算機視覺)大模型、跨模態(tài)大模型,任務大模型包含對 話、搜索、信息抽取、生物計算等多個典型任務,行業(yè)大模型包含與來自 8 個行業(yè)的頭部企業(yè)或機構共建的 11 個行業(yè)大模型。
2.1.1 文心 NLP 大模型
文心 NLP 大模型發(fā)展歷程有三條主線,1)是文心 ERNIE,百度發(fā)布了文心 ERNIE 3.0 以及文心·ERNIE 3.0 Titan 模型,并且在 SuperGLUE 和 GLUE 都超過了人類排名第一的水平,以及基于層次化多任務學習的文心 ERNIE 3.0 Zeus。同時為了進一步降低落地門檻,出現(xiàn)了效率高、泛化能力強的輕量級大模型,比如文心 ERNIE 3.0 Tiny。2)對話生成大模型文心 PLATO 的發(fā)布,對話的流暢性得到了很大提升。3)文心 ERNIE 在跨模態(tài)、 跨語言以及長文檔、圖模型等方面獲得了非常好的發(fā)展,在各種榜單尤其是視覺語言相關的榜單上獲得第一百, 比如文心 ERNIE-ViLG 2.0,該模型可以生成語義更相關、質(zhì)量更高的圖片。 文心一言整合了過往關鍵技術,在文心知識增強大模型 ERNIE 及對話大模型 PLATO 的基礎上研發(fā),基于 飛槳深度學習平臺訓練和部署,其關鍵技術包括,有監(jiān)督精調(diào)、人類反饋的強化學習、提示、知識增強、檢索 增強和對話增強。前三項是這類大語言模型都會采用的技術,在 ERNIE 和 PLATO 模型中已經(jīng)有應用和積累, 文心一言中又進行了進一步強化和打磨,做到了更懂中文、更懂中國文化、更懂中國的使用場景;后三項則是 百度已有技術優(yōu)勢的再創(chuàng)新。
ERNIE 3.0 系列模型(ERNIE 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus)有四大特點: 從大規(guī)模知識圖譜和海量無結構數(shù)據(jù)中學習,突破異構數(shù)據(jù)統(tǒng)一表達的瓶頸問題。同時輸入大規(guī)模圖譜和 相應無標注、無結構化的文本,通過文本的 Mask,能夠推理這個知識圖譜里的關系,從而使這個模型具有知識 推理能力。
融合了自編碼和自回歸的結構,使模型既可以做語言理解,也可以做語言生成。在做語言理解時,模型擁 有上下文相關的信息,從而做語言理解。在生成的時候,由于模型只看到了上文,所以只能基于自回歸的方式 學習。因此,在一個框架中同時能夠擁有語言理解和語言生成兩種能力非常重要。
基于持續(xù)學習框架,從不同任務中持續(xù)學習。不斷從不同的數(shù)據(jù)和知識上學習,而不斷地構建新任務,比 如文本分類任務、問答任務、完形填空任務等。大模型從不同任務中持續(xù)學習,使能力得到持續(xù)提升,擁有更 多知識。 為了進一步學習特定任務的相關知識,ERNIE 3.0 Zeus 提出了層次化提示(Prompt)學習技術。在數(shù)據(jù)構 造時通過層次化的 Text Prompt 庫將百余種不同的任務統(tǒng)一組織成自然語言的形式,和海量無監(jiān)督文本以及百 度知識圖譜聯(lián)合學習。此外訓練過程引入了層次化的 Soft Prompt 建模了不同任務之間的共性與特性,進一步 提升了模型對于不同下游任務的建模能力。此外,通過持續(xù)學習對百余種不同形式的任務數(shù)據(jù),實現(xiàn)了任務知 識增強,顯著提升了模型的零樣本/小樣本學習能力。
PLATO (Towards Building an Open-Domain Chatbot via Curriculum Learning) 是文心一言的另一項關鍵 技術,主要作用是多輪對話,其發(fā)展經(jīng)歷了三個階段。1)2019 年 10 月,百度首次發(fā)布了 PLATO 對話模型, 其是全球首個大規(guī)模變量對話模型,刷新開放領域?qū)υ捫Ч?)2020 年 7 月,發(fā)布 PLATO-2,其是基于課程 學習的對話生成模型,進一步刷新了開放領域?qū)υ捫Ч?020 年 10 月,PLATO-2 斬獲全球?qū)υ捈夹g競賽 DSTC-9 五項冠軍。3)2021 年 9 月,發(fā)布 PLATO-XL,其是首個百億參數(shù)中英對話預訓練生成模型。 PLATO 在預訓練模型之上,對對話能力進行增強,讓對話具有人格屬性,包括人設穩(wěn)定性、知識增強、跨 模態(tài)對話、情感撫慰、主動對話、長期記憶等。同時,PLATO 也已應用到百度的各個產(chǎn)品線,比如:小度聊天, 百度推出的虛擬人對話,領域?qū)υ?。同時,百度也通過 UNIT 平臺,對外輸出對話技術。
2019 年,百度首次發(fā)布了 PLATO 對話模型,首次創(chuàng)新性的提出了“隱變量”的概念。開放型對話具有一 對多的特點,用戶輸入 query 后,系統(tǒng)可以有多種多樣的回復。每個回復有不同的性質(zhì),比如,輸入“我得健 身了,不能放縱了”??梢越o用戶建議、詢問、質(zhì)詢、質(zhì)疑等類型的回復。除了這種關系外,還會有對話背后的 場景信息,這會導致開放型對話一對多的關系,這會導致模型學習很困難。如果針對一個輸入,有特定的輸出, 模型的學習會相對簡單。但當模型的輸出不確定,甚至有多種多樣的輸出,這就會導致模型學習復雜。針對這 一問題,我們提出隱變量建模輸入和輸出的映射信息。它不是一個顯式的建模,而是一個隱式建模輸入和每一 個輸出的對應關系。這就會讓原來的輸入和輸出一對多的關系,轉(zhuǎn)化為一對一的關系。通過在輸入增加 soft token 的方式,讓 transformer 建立輸入和輸出之間的關系。Transformer 不是獨立的編碼器和解碼器的方式,我們選擇 了使用編碼器和解碼器共享參數(shù)的方式來實現(xiàn)即 unified transformer。預訓練分為兩個階段,先根據(jù)輸入和輸出 預測隱變量的分布,然后從分布中采樣隱變量,將其加入輸入中再去學習根據(jù)隱變量和輸入預測回答的能力。
2021 年,百度推出 PLATO-XL,將模型的規(guī)模推進至 110 億,模型有 72 層。同時引入了 role embedding 的特征來感知角色信息。在對話上文中,既有用戶的輸入,也有系統(tǒng)的輸入,使用 role embedding 來區(qū)分用戶 和系統(tǒng)的角色。在原有 transformer 模型三個特征,token、sentence type、position 的基礎上,模型新增了 role embedding 的信息,能讓模型更好的掌控角色。
2.1.2 文心 CV 大模型
文心 CV 大模型基于領先的視覺技術,利用海量的圖像、視頻等數(shù)據(jù),為企業(yè)和開發(fā)者提供強大的視覺基 礎模型,以及一整套視覺任務定制與應用能力。百度文心發(fā)布了 VIMER 系列的 CV 大模型,視覺自監(jiān)督預訓練 大模型 VIMER-CAE 創(chuàng)新性地提出“在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架,在圖像分類、 目標檢測、語義分割等經(jīng)典下游任務上刷新 SOTA 結果。在此之上,多任務學習模型 VIMER-UFO 2.0 可抽取輕 量級小模型,兼顧大模型效果和小模型推理性能,單模型覆蓋 20 多個 CV 基礎任務,在 28 個公開測試集上效 果刷新 SOTA。端到端文檔 OCR 表征學習預訓練模型 VIMER-StrucTexT 2.0 解決了訓練數(shù)據(jù)匱乏和傳統(tǒng) OCR+NLP 鏈路過長導致的模型表達能力不足、優(yōu)化效率偏低等問題,能夠廣泛應用于各行各業(yè)行的文檔、卡 證、票據(jù)等圖像文字識別和結構化理解。 VIMER-CAE 基于自監(jiān)督圖像掩碼建模原理,創(chuàng)新性地提出“在隱含的編碼表征空間完成掩碼預測任務” 的預訓練框架,對編碼模塊和解碼模塊進行分離,通過編碼模塊對輸入的圖像塊進行特征表達,并利用隱式上 下文回歸和解碼模塊對輸入圖像的掩碼塊進行特征表達恢復,在圖像掩碼建模問題上提高了預訓練模型的圖像 表征能力?;?VIMER-CAE 的預訓練模型在下游各類圖像任務上取得了明顯的效果提升,其中在目標檢測、 實例分割、語義分割等任務的指標上達到最優(yōu)水平。
VIMER-UFO 2.0 技術方案的主要內(nèi)容包括:1)All in One——行業(yè)最大 170 億參數(shù)視覺多任務模型,覆 蓋人臉、人體、車輛、商品、食物細粒度分類等 20+ CV 基礎任務,單模型 28 個公開測試集效果 SOTA;2) One for All——首創(chuàng)針對視覺多任務的超網(wǎng)絡與訓練方案,支持各類任務、各類硬件的靈活部署,解決大模型參 數(shù)量大,推理性能差的問題。 針對大模型的開發(fā)和部署問題,VIMER-UFO 給出了 One for All 的解決方案,通過引入超網(wǎng)絡的概念,超網(wǎng)絡由眾多稀疏的子網(wǎng)絡構成,每個子網(wǎng)絡是超網(wǎng)絡中的一條路徑,將不同參數(shù)量、不同任務功能和不同精度 的模型訓練過程變?yōu)橛柧氁粋€超網(wǎng)絡模型。訓練完成的 VIMER-UFO One for All 超網(wǎng)絡大模型即可針對不同的 任務和設備低成本生成相應的可即插即用的小模型,實現(xiàn) One for All Tasks 和 One for All Chips 的能力。
VIMER-UFO 2.0 單個模型一套參數(shù),在不進行下游 fine-tuning 的情況下,在 28 個主流的 CV 公開數(shù)據(jù) 集上取得了 SOTA 的結果。同時,盡管 VIMER-UFO 2.0 大模型參數(shù)量達到了 170 億,得益于 Task-MoE 稀 疏結構,每個任務推理時只需激活部分參數(shù),計算量相當于 6 億參數(shù)模型規(guī)模,加速比接近 30 倍。
VIMER-StrucTexT 2.0 是端到端文檔 OCR 表征學習預訓練模型,首次創(chuàng)新性地提出“單模態(tài)圖像輸入、 多模態(tài)表征學習”預訓練框架,僅通過單一文檔圖像的輸入,就能讓模型充分捕獲語義和結構信息。經(jīng)過大規(guī) 模文檔圖像數(shù)據(jù)充分學習后的預訓練模型,顯著提高文檔理解全景應用任務效果,包括文檔圖像分類、文檔版 式分析、表格結構解析、文檔 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同時解決了訓練數(shù)據(jù)匱乏和傳 統(tǒng) OCR + NLP 鏈路過長導致的模型表達能力不足、優(yōu)化效率偏低等問題,能夠廣泛應用于各行各業(yè)行文檔、 卡證、票據(jù)等圖像文字識別和結構化理解。
VIMER-UMS (Unified Multi-Source Pre-training for Product),是百度基于海量的互聯(lián)網(wǎng)商品圖文信息提 出的多源信息統(tǒng)一建模的商品圖文表征預訓練模型,也是行業(yè)首個統(tǒng)一視覺單模態(tài)與多源圖文模態(tài)表征的商品 多模態(tài)預訓練模型。針對圖文多模態(tài)建模中模態(tài)信息殘缺問題,通過構建視覺特征與多源圖文對比的多任務學 習框架,實現(xiàn)統(tǒng)一圖文表征預訓練同時覆蓋商品視覺單模態(tài)、多模態(tài)識別與檢索任務,可以顯著改善商品視覺 檢索和商品多模態(tài)檢索體驗。
VIMER-UMS 基于端到端 Transformer 訓練方式,通過視覺編碼、文本編碼、融合編碼、搜索查詢編碼, 提供多源商品信息的統(tǒng)一表達結構。由于現(xiàn)有主流多模態(tài)預訓練方法依靠語言作為弱監(jiān)督關聯(lián)信號,視覺表征 能力存在退化現(xiàn)象。為了解決該問題,VIMER-UMS 通過建立視覺與多源圖文對比多任務預訓練,實現(xiàn)視覺特 征、圖文特征的統(tǒng)一增強表征。
2.1.3 文心跨模態(tài)大模型
文心·跨模態(tài)大模型基于知識增強的跨模態(tài)語義理解關鍵技術,可實現(xiàn)跨模態(tài)檢索、圖文生成、圖片文檔 的信息抽取等應用的快速搭建,落實產(chǎn)業(yè)智能化轉(zhuǎn)型的 AI 助力。 ERNIE-ViL 是業(yè)界首個融合場景圖知識的多模態(tài)預訓練模型。ERNIE-ViL 將場景圖知識融入到視覺-語言 模型的預訓練過程,學習場景語義的聯(lián)合表示,顯著增強了跨模態(tài)的語義理解能力。ERNIE-ViL 還在包括視覺 常識推理、視覺問答、引用表達式理解、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 5 項典型多模態(tài)任務中刷新了世 界最好效果。并在多模態(tài)領域權威榜單視覺常識推理任務(VCR)上登頂榜首。 基于文本中解析出的場景圖,ERNIE-ViL 提出了三個多模態(tài)場景圖預測任務:物體預測,隨機選取圖中的 一部分物體,然后對其在句子中對應的詞進行掩碼和預測;屬性預測,對于場景圖中的屬性-物體組合,隨機選 取一部分詞對其中屬性詞進行掩碼和預測;關系預測,對于場景圖中的物體-關系-物體三元組,對其中的關系詞 進行掩碼和預測。
ERNIE-ViL 在場景圖里加入知識,通過它的文字信息去構建場景圖,使得模型能夠理解圖中細粒度的語義。 舉例而言,下圖中有 6 個人,但只有 5 個人運動員,因為其中一個是裁判,模型要能依據(jù)運動場景進行判斷, 才能給出正確答案。
文心 ERNIE-ViLG 2.0 采用基于知識增強算法的混合降噪專家建模,是全球首個知識增強的 AI 作畫大模 型,也是目前全球參數(shù)規(guī)模最大的 AI 作畫大模型,在文本生成圖像公開權威評測集 MS-COCO 和人工盲評上 均超越了 Stable Diffusion、DALL-E 2 等模型,取得了當前該領域的世界最好效果,并在語義可控性、圖像清 晰度、中國文化理解等方面展現(xiàn)出了顯著優(yōu)勢。 文心 ERNIE-ViLG 2.0 通過視覺、語言等多源知識指引擴散模型學習,強化文圖生成擴散模型對于語義的 精確理解,以提升生成圖像的可控性和語義一致性。同時,ERNIE-ViLG 2.0 首次引入基于時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網(wǎng)絡,從而實現(xiàn)更加細致的降 噪任務建模,提升生成圖像的質(zhì)量。
2.2 算力
百度早在 2011 年就開始布局 AI 芯片領域,并逐步建立 AI 技術的全棧布局,拓展了全面的 AI 應用場景。 同時,擁有數(shù)億用戶規(guī)模的產(chǎn)品百度搜索,以及服務各個行業(yè)的百度智能云等。同時,百度依托昆侖芯科技前 身為百度智能芯片及架構部,昆侖芯是百度自主研發(fā)的云端通用 AI 芯片,目前,昆侖芯 1、2 代已實現(xiàn)量產(chǎn), 并達到數(shù)萬片規(guī)模部署。昆侖芯 3 代將于 2024 年初量產(chǎn)。依托深厚技術沉淀,昆侖芯科技核心團隊于 2017 年 發(fā)布 100%自研、面向通用 AI 計算的芯片核心架構昆侖芯 XPU,并從 AI 落地的實際需求出發(fā),按照復雜前沿的人工智能場景需求來迭代架構。2018 年至今,昆侖芯云端 AI 芯片已經(jīng)迭代兩代,并實現(xiàn)數(shù)萬片的規(guī)模落地。 其中,昆侖芯 1 代已經(jīng)在百度搜索引擎、小度等業(yè)務中部署超過兩萬片,昆侖芯 2 代也于 2021 年 8 月實現(xiàn)量產(chǎn), 并已在互聯(lián)網(wǎng)、智慧工業(yè)、智慧城市、智算中心、智慧交通、科研等領域?qū)崿F(xiàn)規(guī)?;渴?,服務來自千行百業(yè) 的不同客戶。
針對大模型,昆侖芯持續(xù)打磨部署優(yōu)化方案,領跑產(chǎn)業(yè)落地。昆侖芯已將大模型的 Transformer 相關優(yōu)化 技術沉淀為重要基建,優(yōu)化后的性能比原有方案提升 5 倍以上,壓縮顯存 30% 以上。以文生圖大模型為例, 昆侖芯已跑通一條端到端優(yōu)化、規(guī)模落地之路。AI 繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數(shù)級 增加,同時,圖像生成需要循環(huán)采樣數(shù)十次,產(chǎn)業(yè)落地動輒需要高昂成本的部署集群,嚴重阻礙了 AIGC 模型 大規(guī)模商業(yè)化落地。2022 年第四季度,昆侖芯聯(lián)合客戶,基于飛槳 PaddlePaddle 發(fā)起了端到端聯(lián)合優(yōu)化項目。 在 2-3 周內(nèi),項目組快速完成端到端優(yōu)化,最終實現(xiàn)輸入文本后 2 秒出圖的優(yōu)化效果,性能提升近 8 倍。 目前,昆侖芯 AI 加速卡 R200 已在該客戶的大模型場景完成規(guī)模部署,性能數(shù)據(jù)全面超越同系列主流推 理卡,基于昆侖芯 AI 加速卡 R200 高效運算與推理能力,綜合優(yōu)化方案,在 dpm-25steps 算法下,利用昆侖 芯 AI 加速卡 R200,生成 1024*1024 圖像時的推理速度為 10.89 iters/s,相比同能力的主流推理卡快 20%; 昆侖芯 AI 加速卡 R200 擁有 32G GDDR6 顯存,為大規(guī)模參數(shù)提供更大的存儲容量、更高帶寬的內(nèi)存訪問、更穩(wěn)定的性能,生成更高分辨率的圖片,為用戶提供高性價比服務。
2.3 平臺
百度飛槳是我國首個自主研發(fā)的產(chǎn)業(yè)級深度學習開源開放平臺,飛槳在平臺功能上具備豐富的產(chǎn)業(yè)級模型 庫、端到端開發(fā)套件、工具組件,以及零門檻 AI 開發(fā)平臺 EasyDL 和全功能 AI 開發(fā)平臺 BML、學習與實 訓社區(qū) AI Studio,高效支持深度學習模型開發(fā)、訓練、部署等全流程,降低 AI 技術應用門檻;在生態(tài)上,飛 槳推動構建了全方位的生態(tài)體系,包括開發(fā)者生態(tài)、教育生態(tài)、企業(yè)生態(tài)、硬件生態(tài),通過生態(tài)共享共創(chuàng)加速 產(chǎn)學研用協(xié)同創(chuàng)新發(fā)展。
飛槳官方精選產(chǎn)業(yè)算法新增 100 多個,累計超過 600 個,覆蓋計算機視覺(PaddleCV)、自然語言處理 (PaddleNLP)、推薦(PaddleRec)、語音(PaddleSpeech)四大應用領域,超過 95%的用戶使用模型庫。包含經(jīng)過產(chǎn)業(yè) 實踐長期打磨的主流模型,42 個精度與性能平衡的產(chǎn)業(yè)級 PP 系列特色模型,以及文心系列大模型。
飛槳硬件生態(tài)持續(xù)繁榮,包括 Intel、NVIDIA、Arm 等諸多芯片廠商紛紛開展對飛槳的支持,并主動在開 源社區(qū)為飛槳貢獻代碼。飛槳還與飛騰、海光、鯤鵬、龍芯、申威等 CPU 進行深入融合適配,并結合麒麟、統(tǒng) 信、普華操作系統(tǒng),以及昆侖芯、海光、寒武紀、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度 融合,與浪潮、中科曙光等服務器廠商合作形成軟硬一體的全棧 AI 基礎設施。當前已經(jīng)適配飛槳的芯片或 IP 廠商超過 40 家,處于業(yè)界領先地位。2022 年 5 月,飛槳聯(lián)合硬件生態(tài)伙伴發(fā)布“硬件生態(tài)共創(chuàng)計劃”,在聯(lián)合 研發(fā)、資源共享、聯(lián)合授權、培訓賦能等多個維度全面合作。2022 年 11 月,飛槳“硬件生態(tài)共創(chuàng)計劃”成員 已經(jīng)從 13 家增加至 28 家。
飛槳平臺服務規(guī)模快速滲透,技術能力創(chuàng)新卓著。截至 2022 年 11 月,飛槳已凝聚國內(nèi)規(guī)模最大的開發(fā)者 群體(535 萬)、服務 20 萬企事業(yè)單位,基于飛槳平臺創(chuàng)造出 67 萬個 AI 模型,超越 TensorFlow 和 PyTorch 成 為國內(nèi)服務規(guī)模最為廣泛的框架工具,不斷夯實 AI 工業(yè)大生產(chǎn)的基礎,有力推動了我國實體經(jīng)濟的高質(zhì)量發(fā)展。 百度飛槳從 2016 年經(jīng)歷多年積累、沉淀、探索后,創(chuàng)新成果已經(jīng)逐步涌現(xiàn)。飛槳 PaddleClas、PaddleDetection、 PaddleGAN、PaddleOCR、PaddleSpeech 等開發(fā)套件發(fā)布后多次登頂 Papers with Code 和 Github 趨勢榜單,引起 業(yè)界高度關注。此外,針對國內(nèi)市場需求特點,飛槳提供了大量經(jīng)過真實應用場景有效驗證的高精度、便捷部 署的官方模型庫,相關算法及 API 更加強調(diào)對中文情境的支持優(yōu)化,能夠廣泛支持國產(chǎn)硬件平臺,技術能力優(yōu) 勢逐步凸顯,相較于 TensorFlow 和 PyTorch 成為更滿足國內(nèi)技術應用需求的開發(fā)框架。
2.4 應用
百度文心大模型積極拓展內(nèi)外部應用,目前面向公眾和企業(yè)用戶同時進行開放測試。 內(nèi)部應用層面,文心大模型已經(jīng)率先應用于百度搜索、信息流、智能駕駛、百度地圖、小度智能屏等內(nèi)部 重要產(chǎn)品上。百度在 5 月 25 日的移動生態(tài)大會上展示了全新的 AI 搜索體系。1)極致滿足:搜索結果不再是簡 單的文本段落,而是多模態(tài)的,包括相關的圖片和視頻,省去了用戶的瀏覽和總結時間。對于那些相對簡單但 沒有現(xiàn)成答案的問題,AI 可以展示邏輯推理和計算能力,直接給出可用的結果。對于開放的多答案問題,百度 AI 搜索可以整合多個符合要求的答案,并列出引用和選擇依據(jù),滿足用戶需求。此外,搜索引擎還能自動定位 到視頻中相關內(nèi)容的位置,方便用戶查看。根據(jù)介紹,現(xiàn)在百度搜索每天有 70%的問答需求能在首條搜索結果 中得到滿足,這一比例在半年前只有 40%,這種改進進一步提升了需求,現(xiàn)在每天有超過 3000 萬次的新增問答 需求。2)AI 伙伴:除了提供豐富準確的搜索結果,百度還提出了全能的"AI 伙伴",使人們能夠以最直接的方 式獲取人工智能的能力。通過 AI 伙伴,人們可以使用自然語言或語音作為輸入,獲得準確詳細的搜索結果。 AI 伙伴不僅會在生成答案時標出重點并列出引用鏈接,還能調(diào)用其他工具和服務完成任務,并接受進一步追問 或指正。AI 伙伴還可以根據(jù)用戶意圖生成圖片、進行文案寫作,在不同任務中扮演具體的角色,如旅行時可以充當導游,寫作業(yè)時可以充當老師。3)AIBOT:以往人們對搜索引擎結果的準確性有所顧慮,因為無論 AI 算 法有多準確,始終只是概率統(tǒng)計的結果,并不能代表專家意見。為解決這個問題,百度推出了全新的 AIBOT。 類似于 ChatGPT 的插件,AIBOT 通過與第三方技術提供商的合作,使搜索可以自動接入特定能力。目前亮相的 AIBOT 覆蓋了創(chuàng)作、商業(yè)、機構、服務和品牌等多個領域,它們可以利用專業(yè)領域知識直接回答用戶的問題。
百度文心圍繞大模型產(chǎn)業(yè)應用的不同研發(fā)環(huán)節(jié),面向各階段不同技術、業(yè)務背景的開發(fā)者或用戶,打造系 列工具平臺與場景化產(chǎn)品。 大模型套件:百度文心推出新一代預訓練范式的 NLP 算法定制開發(fā)工具集 ERNIEKit,面向 NLP 工程師, 提供全流程大模型開發(fā)與部署工具集,端到端、全方位發(fā)揮大模型效能。包括數(shù)據(jù)標注與處理、大模型精調(diào)、 大模型壓縮、高性能部署、場景化工具五大模塊能力; AI 開發(fā)平臺:百度 AI 開發(fā)以雙平臺模式驅(qū)動,面向應用開發(fā)者或業(yè)務專家提供零門檻 AI 開放平臺 EasyDL, 面向 AI 算法開發(fā)者提供全功能 AI 開發(fā)平臺 BML。EasyDL 使用百度文心 NLP、CV、跨模態(tài)大模型作為訓練基 座,利用少量數(shù)據(jù)即可獲得理想的模型效果,具有零門檻、高精度、低成本數(shù)據(jù)、超靈活部署四大核心優(yōu)勢。 BML 深度融合文心大模型,提供 Notebook 建模、預置模型調(diào)參、可視化建模、模型產(chǎn)線建模、Pipeline 建模、 實驗管理等功能,兼具性能和性價比;
3、騰訊
騰訊構建了“太極機器學習平臺+混元大模型”,同時騰訊啟動了“混元助手”知識增強大語言模型項目。 2016 年,騰訊成立了 AI Lab 實驗室。2022 年 4 月,騰訊對外披露了混元大模型,涉及自然語言處理、計算機 視覺、多模態(tài)等多個領域。騰訊自研的太極機器學習平臺為混元大模型提供算力,可支持 10TB 級模型訓練、 TB 級模型推理計算能力等。 騰訊 AI Lab 是騰訊的企業(yè)級 AI 實驗室,于 2016 年 4 月在深圳成立,目前有 100 多位頂尖研究科學家及 300 多位應用工程師。2017 年公司提出了“Make AI Everywhere” 的戰(zhàn)略愿景,和“基礎研究—場景共建—能力開 放”的三層 AI 戰(zhàn)略架構。作為衡量機構研究實力的重要標準,成立四年多來,騰訊 AI Lab 的基礎研究成果已 覆蓋 CVPR、ACL、ICML、NIPS 及 Nature Communications 等國際頂級 AI 學術會議或期刊,發(fā)表論文超過 460 篇,位居國內(nèi)企業(yè)前列。截止 2020 年 3 月,騰訊擁有 AI 全球?qū)@^ 6500 個,中國專利超過 5000 個。
3.1 模型
2022 年 4 月,騰訊首次披露了混元 AI 大模型研發(fā)進展,先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具權威的跨模態(tài)視頻檢索數(shù)據(jù)集榜單中取得第一名,實現(xiàn)跨模態(tài)檢索領域的大滿貫。當 月,騰訊混元 AI 大模型又在中文語言理解評測基準 CLUE 分類榜中取得第一名,分數(shù)突破了 80.000 分,接 近人類語言理解能力,刷新該榜單歷史記錄。這是混元 AI 大模型在斬獲跨模態(tài)檢索榜單大滿貫后,取得的又 一突破性進展,展現(xiàn)了該模型在自然語言處理上的實力。 2022 年 5 月,騰訊混元 AI 大模型在 CLUE 總排行榜、閱讀理解、大規(guī)模知識圖譜三個榜單同時登頂, 一舉打破三項紀錄。據(jù)了解,CLUE 總榜由分類任務和閱讀理解任務構成。騰訊混元 AI 大模型在一個月內(nèi)先后實現(xiàn)分類任務、閱讀理解雙佳績,最終以 84.730 的成績?nèi)〉每偘竦谝弧V蠡煸?AI 大模型又在多模態(tài)理 解領域國際權威榜單 VCR(Visual Commonsense Reasoning,視覺常識推理)中登頂,兩個單項成績和總成績 均位列第一。這是繼在跨模態(tài)檢索領域?qū)崿F(xiàn)大滿貫、CLUE 自然語言理解分類榜及 CLUE 總榜登頂后,混元 AI 大模型的又一重大突破,展現(xiàn)了其在多模態(tài)理解領域的強大實力。
3.2 算力
騰訊發(fā)布大模型算力集群 HCC 大幅提速模型訓練。大模型進入萬億參數(shù)時代,單體服務器提供的算力有限, 需要將大量服務器相連,協(xié)同優(yōu)化單機算力、網(wǎng)絡架構和存儲性能,打造大規(guī)模、分布式的高性能計算集群。 以新一代集群為標志,基于自研芯片、星星海自研服務器和分布式云操作系統(tǒng)遨馳,騰訊云正通過軟硬一體的 方式,打造面向 AIGC 的高性能智算網(wǎng)絡,持續(xù)加速全社會云上創(chuàng)新。 2023 年 4 月 14 日,騰訊云發(fā)布新一代 HCC 高性能計算集群,其采用最新一代星星海自研服務器,搭載 NVIDIA H800 Tensor Core GPU,并基于自研網(wǎng)絡、存儲架構,帶來 3.2T 超高互聯(lián)帶寬 TB 級吞吐能力和千萬 級 IOPS。實測結果顯示新一代集群算力性能較前代提升 3 倍。2022 年 10 月,騰訊完成首個萬億參數(shù)的 AI 大 模型——混元 NLP 大模型訓練。在同等數(shù)據(jù)集下,將訓練時間由 50 天縮短到 11 天。如果基于新一代集群,訓 練時間將進一步縮短至 4 天。 服務器單機性能是集群算力的基礎,新一代集群的單 GPU 卡在不同精度下,支持輸出最高 1979 TFlops 的 算力。針對大模型場景,星星海自研服務器采用 6U 超高密度設計,相較行業(yè)可支持的上架密度提高 30%;利 用并行計算理念,通過 CPU 和 GPU 節(jié)點的一體化設計,將單點算力性能提升至更高。
此外,新一代集群集成了騰訊云自研的 TACO 訓練加速引擎,對網(wǎng)絡協(xié)議、通信策略、AI 框架、模型編譯 進行大量系統(tǒng)級優(yōu)化,大幅節(jié)約訓練調(diào)優(yōu)和算力成本。騰訊太極機器學習平臺自研的訓練框架 AngelPTM,也 已通過騰訊云 TACO 提供服務,幫助企業(yè)加速大模型落地。依托分布式云原生的治理能力,騰訊云智算平臺提 供 16 EFLOPS 的浮點算力,規(guī)模業(yè)界領先。通過騰訊云的大模型能力和工具箱,企業(yè)可結合產(chǎn)業(yè)場景數(shù)據(jù)進行 精調(diào)訓練,提升生產(chǎn)效率、快速創(chuàng)建和部署 AI 應用。
3.3 平臺
騰訊自研搭建了業(yè)界一流的太極機器學習平臺,致力于讓用戶更加聚焦業(yè)務 AI 問題解決和應用,一站式的 解決算法工程師在 AI 應用過程中特征處理,模型訓練,模型服務等工程問題。結合對用戶的習慣理解和功能沉 淀,太極在產(chǎn)品層提供數(shù)據(jù)/特征工程,模型訓練,模型服務三塊。閉環(huán)了用戶離線訓練到在線服務的應用,包 含了不同場景下的數(shù)據(jù)訪問訴求,不同訓練模型的訴求,在線服務可靠性的訴求。算法框架&組件層提供了機 器學習、深度學習核心組件??芍С?10TB 級模型訓練、TB 級模型推理和分鐘級模型發(fā)布上線,擴展集群規(guī)模 則可支持更大的模型訓練和推理,為實際業(yè)務提供大模型的情況下,同時具有很高的性能,達到行業(yè)領先水平。 太極機器學習平臺采用了分布式參數(shù)服務器架構,其是業(yè)界第一梯隊企業(yè)們公認的最佳選擇。這種架構的 特點是,存儲模型參數(shù)和執(zhí)行模型計算,這兩種任務在分別的服務器上運行,增加更多服務器就可以支持更大、 計算需求更高的模型。太極機器學習平臺中的參數(shù)服務器系統(tǒng) AngelPS 也是騰訊自研的成果,現(xiàn)在不僅可以承 載 10TB 級模型的訓練,對多維特征融合、復雜模型結構等更高級、更前瞻性的功能也有優(yōu)秀支持。同時太極 機器學習平臺還具備超大模型在線推理服務的能力。推理計算方面,不僅支持常規(guī)的 CPU 計算,還支持復雜模 型的 GPU 計算加速;存儲上,根據(jù)在線推理模型大小,自適應選擇小模型本地內(nèi)存加載和大模型 AngelPS 遠程 查詢的部署策略;在線服務運營上,平臺具備多級容災能力,臟模型秒級回滾能力,以及完備的系統(tǒng)和業(yè)務運 行實時指標監(jiān)控和報警系統(tǒng)。
太極 AngelPTM 的設計目標是依托太極機器學習平臺,為 NLP、CV 和多模態(tài)、AICG 等多類預訓練任 務提供一站式服務。其主要由高性能訓練框架、通用加速組件和基礎模型倉庫組成。太極 AngelPTM 主要有三 大部分:1)高性能訓練框架:包含大模型訓練框架 ZeRO-Cache,高性能 MOE 組件,以及 3D 并行和自動 流水并行策略;2)通用加速組件:包含可減少顯存并提高精度的異構 Adafactor 優(yōu)化器,可穩(wěn)定 MOE 半精 度訓練 loss 的 Z_loss 組件,選擇性重計算組件和降低通信代價的 PowerSGD 組件;3)基礎模型倉庫:包含 T5、BERT、GPT 以及 Transformer 等基礎模型。
3.4 應用
騰訊 AI Lab 的 AI 技術也廣泛應用在微信、QQ 和騰訊覓影等上百款產(chǎn)品。行業(yè)應用上,實驗室研發(fā)出的 圍棋 AI「絕藝」屢獲國際賽事冠軍,是科技賦能國粹文化的代表;與王者榮耀研發(fā)的策略協(xié)作型 AI「絕悟」達 到職業(yè)水平,代表國際水準的研究能力。布局前沿多模態(tài)數(shù)字人技術,探索數(shù)字內(nèi)容生成的新可能。實驗室支 持的國家級 AI+醫(yī)療標桿產(chǎn)品「騰訊覓影」與「騰訊醫(yī)典」也不斷取得技術突破,「騰訊覓影」從醫(yī)療影像延伸 到輔助診療等功能,截止 2018 年 10 月,項目已落地 100 多家全國三甲醫(yī)院,服務患者近 40 萬人。2020 年, 實驗室發(fā)布自研智能顯微鏡及 AI 藥物發(fā)現(xiàn)平臺「云深智藥」,并初步探索 AI+農(nóng)業(yè)智慧溫室項目。
AI + 生命健康:在醫(yī)療領域,騰訊 AI Lab 與北京協(xié)和醫(yī)院共同發(fā)布了具有完全自主知識產(chǎn)權的便攜式智 能化手術導航系統(tǒng),實現(xiàn)高精度、便攜式、低成本等特點,就像給臨床醫(yī)生的手術配上了 GPS,輔助醫(yī)生精準 定位隱藏在腦組織中的病變。該系統(tǒng)在協(xié)和神經(jīng)外科已成功開展了 50 余例臨床試驗,涉及腦出血、垂體腺瘤、 膠質(zhì)瘤、腦膜瘤、顱咽管瘤等多種疾病,臨床初步應用取得成功。騰訊 AI Lab 還與邁瑞共同研發(fā)了全自動外 周血細胞形態(tài)學分析儀,并完成了創(chuàng)新醫(yī)療器械特別審查申請公示,正式進入國家藥品監(jiān)督管理局創(chuàng)新通道, 成為國內(nèi)體外診斷行業(yè)首個進入該程序的 AI 類產(chǎn)品。該分析儀通過創(chuàng)新性的形態(tài)學檢測方案,以優(yōu)異的指標 及效率,實現(xiàn)白血病等高發(fā)惡性腫瘤的早期篩查輔助臨床診斷。
AI+內(nèi)容:騰訊 AI Lab 持續(xù)探索 AI 與人協(xié)同合作的內(nèi)容生成技術,此前相繼發(fā)布了文本理解系統(tǒng) TexSmart、交互翻譯系統(tǒng) TranSmart 等,并且創(chuàng)新性地探索了 AI 在游戲電競、直播等領域的應用。 智能寫作方面,22 年 4 月,發(fā)布智能寫作助手「文涌(Effidit)」,用技術助力文思泉涌。初版本融合了知 識抽取、文本理解、文本生成、大規(guī)模預訓練模型、經(jīng)典語言模型、搜索等多項技術積累,提供多維度文本補 全,多樣化文本潤色等核心功能,及例句推薦、文本糾錯、云輸入法、學術專業(yè)版等完整的輔助寫作能力。22 年 12 月,文涌 2.0 版本發(fā)布,新版本增加了風格化文本續(xù)寫等眾多功能,共包含「文本補全」、「智能糾錯」、 「文本潤色」、「超級網(wǎng)典」四個模塊,其中「文本補全」和「超級網(wǎng)典」旨在幫助寫作者在創(chuàng)作時開闊思路、 提供彈藥,而「智能糾錯」和「文本潤色」則是重在提升創(chuàng)作后的文本水平和質(zhì)量。部分功能目前已接入搜狗 輸入法 PC 端(「智能汪仔」)和 QQ 瀏覽器移動端。
4、字節(jié)
相對于阿里、百度、騰訊均已經(jīng)推出大模型及布局,字節(jié)目前仍未公布內(nèi)部架構、產(chǎn)品體系及大模型的最 新進展。字節(jié)的 AI 布局可以追溯到 2016 年成立的字節(jié) AI LAB 的成立,AI Lab 對自身的定位是作為公司內(nèi)部 的研究所和技術服務商,為平臺輸出海量內(nèi)容提供 AI 技術支持。AI Lab 最初成立的時候聚集了馬維英、李航、 李磊等大牛,此后馬維英離開團隊回到學界,目前阿里 M6 大模型的前帶頭人楊紅霞已加入字節(jié) AI Lab(人工 智能實驗室),參與語言生成大模型的研發(fā)。 字節(jié)目前大模型仍處于發(fā)展階段,現(xiàn)以旗下云平臺火山引擎在算力、平臺和生態(tài)端布局為主。大模型團隊 由字節(jié)搜索部門牽頭,搜索業(yè)務部門、AI Lab 和 AML(應用機器學習)團隊均調(diào)任部分人馬支援,目前團隊規(guī) 模在 40 人左右,圖片大模型團隊由產(chǎn)品研發(fā)與工程架構部下屬的智能創(chuàng)作團隊牽頭;團隊負責人間接和直接匯 報對象,則均為 TikTok 產(chǎn)品技術負責人朱文佳。根據(jù)調(diào)研情況,字節(jié)目前在仍在做模型調(diào)優(yōu),計劃 23 年 6-9 月達到 3.5 模型相當?shù)乃剑? 月之后語言模型可以同步做發(fā)布和多模態(tài)模型訓練,語言模型發(fā)布至少要到 9 月 之后。后面會基于當前的語言模型,做多模態(tài)的模型,多模態(tài)相對來說難度會更大,至少要等到 24 年 3-4 月。
4.1 模型
字節(jié)在 AI 方面的積累主要集中在機器翻譯、智能語音、視頻圖像和多模態(tài)四個領領域。字節(jié)跳動的研究成 果包括非自回歸模型 DA-Transformer、端到端語音到文本翻譯模型 ConST、多顆粒度的視覺語言模型 X-VLM、 圖片和文本統(tǒng)一生成模型 DaVinci 等。 在機器翻譯方面,字節(jié)旗下火山翻譯團隊 2022 年在 SC22、ACL2022、ICML2022 等頂會發(fā)表學術成果 10 余篇,受邀參加了英偉達 GTC 2022 全球 AI 開發(fā)者大會等知名技術論壇,申報翻譯技術專利 15 項,榮獲中國 專利優(yōu)秀獎在 WMT2022 的非洲語向任務上奪得桂冠。目前,火山翻譯提供 9 大領域翻譯,其中包括但不限于 人工智能、互聯(lián)網(wǎng)行業(yè)生物醫(yī)療、科學技術、金融財經(jīng),支持共 114 個語向的翻譯,其中包括伊博語、亞美尼 亞語等小語種。其中,字節(jié)和清華聯(lián)合發(fā)布了 DA-Transformer,DA-Transformer 在機器翻譯上首次達到了 Transformer 同樣的精度,而處理的速度提高了 7~14 倍。DA-Transformer 不僅可以用于機器翻譯,而且可以用 于任意的序列到序列任務。
在多模態(tài)方面,2022 年 3 月,字節(jié)發(fā)布的 text2image 模型實現(xiàn)了文生圖能力,實驗數(shù)據(jù)顯示,其效果比 VQGAN-CLIP 要真實,尤其是泛化能力還比不少用大量文本-圖像數(shù)據(jù)對訓練出來的模型要好很多。2022 年 5 月,字節(jié)跳動 AI Lab Research 團隊提出了 X-VLM,首次提出學習多粒度的視覺和語言對齊。實驗證明,這種 預訓練方法十分高效,模型規(guī)模無需很大,預訓練數(shù)據(jù)無需很多,僅 216M 參數(shù)量的 X-VLM 就能在廣泛的多模 態(tài)任務上獲得了十分優(yōu)秀的表現(xiàn),例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。 目前,X-VLM 在字節(jié)跳動的真實應用場景上超過了業(yè)界常用的多個模型,完成了上線,服務于如今日頭條等 業(yè)務。相關論文已被 ICML 2022 接收。
4.2 算力
2023 年 4 月 18 日,火山引擎在春季火山引擎 FORCE 原動力大會上正式發(fā)布自研 DPU 等系列云產(chǎn)品,并 正式推出智能推薦-高速訓練引擎,支持 100GB 至 10TB 以上超大模型的高效訓練,采取軟硬一體優(yōu)化設計等, 讓面向推薦場景的高速訓練更快,成本更低。 火山引擎智能推薦-高速訓練引擎具備軟硬一體、細粒度算子優(yōu)化、分布式訓練和推理三大特點,1)軟硬 一體化:針對關鍵場景的超大模型,火山引擎智能推薦-高速訓練引擎提供了全 GPU 方案,可以支持 100GB-10TB 的超大模型的高速訓練,綜合 ROI 是 CPU 的 5 倍;覆蓋更多場景的模型,提供了 GPU+CPU 混訓方案,綜合 ROI 是 CPU 的 2 倍;2)細粒度算子優(yōu)化:針對搜索、推薦和營銷場景,優(yōu)化細粒度算子,使得在模型推理的 過程中有更好的性能表現(xiàn)。在訓練時,通過算子融合并精細調(diào)優(yōu),性能提升 20%;在推理時,通過算子優(yōu)化, 性能提升 40%;3)分布式訓練和推理:智能推薦-高速訓練引擎為了保障系統(tǒng)的穩(wěn)定性,支持訓練和推理的全 方位容錯,當某一個節(jié)點故障時,可以快速恢復;支持分布式推理,包括多分片、多副本,從而保證線上服務 的高可用。
4.3 平臺
2022 年 7 月,火山引擎正式發(fā)布機器學習平臺,達到 0 碎片的極致性能和優(yōu)秀的開發(fā)體驗,火山引擎機器 學習平臺解決方案已在金融、零售、能源、教育等行業(yè)落地,幫助更多企業(yè)不斷縮短智能業(yè)務研發(fā)周期,提高 模型上線效率和 GPU 使用率,并依靠定制化的智能模型實現(xiàn)業(yè)務增長。 火山引擎在數(shù)據(jù)管理、資源管理、流程和模型三大領域具備核心優(yōu)勢。1)在數(shù)據(jù)管理場景下,火山引擎機 器學習平臺可通過結構化、非結構化數(shù)據(jù)庫、數(shù)據(jù)協(xié)同標注與版本化管理、多租戶安全等,保護企業(yè)數(shù)據(jù)資產(chǎn), 為機器學習、深度學習開發(fā)助力;2)在資源管理場景下,機器學習平臺可通過 GPU、CPU 調(diào)度,模型分布式 訓練,資源動態(tài)分配,彈性線上推理服務等,提供機器學習模型開發(fā)所需要的算力。無論是在字節(jié)跳動內(nèi)部還 是在外部客戶,該平臺都已實現(xiàn)萬級 GPU 算力資源的池化管理、調(diào)度和共享;3)對于流程和模型管理,機器 學習平臺提供 DevOps 能力。不同于一般業(yè)務,機器學習應用的發(fā)布包含了所有規(guī)則和處理邏輯,在應用上線 后,由于需要周期性地進行更新、優(yōu)化迭代,模型本身對外部數(shù)據(jù)有強依賴,這使得整個 DevOps 更復雜?;?山引擎機器學習平臺構建了 DevOps 流水線,實現(xiàn)從數(shù)據(jù)處理、模型訓練、模型評估、模型發(fā)布的持續(xù)集成, 提升端對端業(yè)務上線效率。平臺也支持通過超參數(shù)自動搜索、多模型自動比對與評估、模型版本化管理、線上 模型運維等,降低模型開發(fā)和維護門檻。
4.4 應用
火山引擎的 AI 場景產(chǎn)品主要包括智能創(chuàng)作、智能體驗以及智能營銷,目前已服務數(shù)百家客戶,分別在視頻 創(chuàng)作、互動創(chuàng)作、直播短視頻構建中推動客戶業(yè)務增長。在內(nèi)容視頻化和互動趣味化的大趨勢下,火山引擎創(chuàng) 作與體驗場景提供了從算法到平臺的全域解決方案,在 AI 底層算法的支持下,通過全品類的正版素材和特色化 的創(chuàng)作工具,快速完成視頻、特效、虛擬形象、XR 等創(chuàng)新內(nèi)容。不管是企業(yè)用戶還是個人用戶,人人都可擁有 創(chuàng)作比較專業(yè)的短視頻的能力。 智能創(chuàng)作云是火山引擎發(fā)布的面向企業(yè)的創(chuàng)作 AI 產(chǎn)品,智能創(chuàng)作云包括眾多 AI 創(chuàng)作工具,比如圖文轉(zhuǎn)視 頻能力,用戶只需輸入文字即可生成視頻,AI 通過理解文字內(nèi)容,搭配適合的圖片、音樂和轉(zhuǎn)場等,快速生成 一支專業(yè)的視頻;比如視頻模板,剪同款功能就是把優(yōu)質(zhì)視頻內(nèi)容抽象成腳本,用戶只要會打開攝像頭拍攝, 就有了專業(yè)拍、剪視頻的能力,極大降低了創(chuàng)作門檻,保障了內(nèi)容生產(chǎn)的質(zhì)量。
字節(jié)旗下云服務平臺云服務平臺火山引擎提供有關音視頻的智能美化特效。智能美化特效基于自主研發(fā)的 特效 SDK,提供多項圖像渲染和算法,提供貼紙?zhí)匦?美化濾鏡/人像智能/計算機視覺基礎檢測識別等功能,用 于拍照工具、直播、短視頻、在線教育、體感游戲等場景。目前,智能美化特效擁有超過 200 個自研算法、具 備小于 2ms 的人臉檢測速度,提供超過 90 萬個抖音同款特效貼紙和濾鏡。 此外,字節(jié)在內(nèi)部的相關產(chǎn)品持續(xù)引入 AI。2022 年 5 月,字節(jié)推出海綿樂隊 App,海綿樂隊是一款手機端 的便攜式音頻創(chuàng)作工具,在實現(xiàn)傳統(tǒng)的錄音、效果器同時,引入大量 AI 智能來協(xié)助創(chuàng)作,降低使用難度,提高 創(chuàng)作趣味和效率。2023 年 4 月 12 日,飛書宣布將推出智能 AI 助手“My AI”, My AI 包括自動匯總會議紀要、 創(chuàng)建報告、優(yōu)化和續(xù)寫文字內(nèi)容等。在飛書 App 中,My AI 也可以通過對話形式,幫助用戶自動創(chuàng)建日程、搜 索公司內(nèi)部知識庫等功能。飛書還表示,My AI 能做的遠不止于此。未來,更強大的智能助手,也會讓工作中 的人們更強大。
三、商業(yè)模式
當前全球大模型產(chǎn)業(yè)落地仍處于早期探索階段。一方面,研發(fā)機構在大模型方面的技術研發(fā)已較為成熟, 如算法架構、預訓練和微調(diào)策略、計算并行加速等,但對落地場景不夠熟悉,沒有形成完善的商業(yè)化模式,需 要與下游場景企業(yè)合作建立大模型商業(yè)模式;另一方面,絕大多數(shù)下游場景的企業(yè)對大模型沒有形成基本的概 念和認知,同時也沒有能夠支撐模型微調(diào)的算力,以及定制、二次開發(fā)模型的人力資源和技術實力。 此輪基于 ChatGPT 的大模型浪潮興起伊始,結合我國 AI 產(chǎn)業(yè)鏈與競爭格局現(xiàn)狀,一種判斷是:基于大模 型的通用和泛化性提高,未來手握通用基礎大模型的巨頭企業(yè)會逐漸侵蝕垂直領域廠商業(yè)務。這種壓力長期來 看的確存在,但大模型與產(chǎn)品結合,尤其在非檢索或開放域交互等場景中,需要依賴垂直領域數(shù)據(jù)和行業(yè) know-how、應用場景和用戶數(shù)據(jù)反哺、一站式端到端工程化能力等。在此窗口期,垂直領域與應用層廠商應積 極將大模型能力整合入自己的技術棧,服務于產(chǎn)品功能優(yōu)化,建立“數(shù)據(jù)飛輪”壁壘。在下游豐富的基于大語 言模型、AIGC 應用開發(fā)需求的影響下,還將分化出一類工具型或平臺型廠商,主要提供基于各類大模型的開 發(fā)平臺服務,幫助客戶實現(xiàn)便捷的 AIGC 應用開發(fā)與落地。
1、API 模式
API 模式指的是由大模型的研發(fā)主體(如科研機構)對完成的模型文件進行封裝,將模型在各類任務上的 推理能力封裝成統(tǒng)一的應用程序接口,對外提供服務的模式。下游企業(yè)可以獲得這些接口,并按照自身的業(yè)務 需求,將接口作為可以調(diào)用的代碼庫、程序包等,植入已有的應用和服務中,讓大模型的 API 為整個程序進行 賦能。API 模式的主要優(yōu)勢在于降低了企業(yè)應用大模型的成本。API 將大模型內(nèi)部的所有技術細節(jié)進行封閉, 企業(yè)不需要過多了解模型的技術細節(jié),也不需要投入額外的開發(fā)人力和算力資源進行大模型調(diào)優(yōu)。
2、PaaS 模式
大模型作為一種技術,將其集成在 AI 平臺上,對外提供能力和服務,成為一些技術實力雄厚企業(yè)的選擇。 這種模式中,企業(yè)的主要落地產(chǎn)品的 PaaS 平臺、開發(fā)工具、AI 服務等組合而成的套件,大模型是套件中的一 個重要的組成部分,但不是全部。用戶購買或使用平臺的過程中,可以利用平臺提供的工具,對大模型進行開 發(fā)和應用,集成于自有的體系中,為自身業(yè)務提供服務。需要注意的是,和 API 模式不同,PaaS 服務模式提供 的是包括模型在內(nèi)的一系列工具和平臺,用戶不能單獨獲得模型的能力。同時,用戶雖然可以通過 PaaS 模式, 獲得對模型更高的開發(fā)和控制權,但往往需要為此付費,這為 PaaS 服務的供應商帶來了一定的利潤。
以微調(diào)對話領域模型為例,英偉達提供了具體的部署流程。用戶首先可以從云上下載已預訓練好的模型, 并結合場景數(shù)據(jù)集,利用 TLT 工具,對數(shù)據(jù)進行處理、增強,并對預訓練模型進行微調(diào),微調(diào)后利用平臺進行 測評。待測評結果符合實際應用要求后,可導出模型,進行下一步的使用(如后續(xù)用 RIVA 進行模型的應用).。 目前 TLT 平臺已經(jīng)支持 BERT、Megatron 等預訓練語言模型,以及計算機視覺領域多種任務的模型。英偉達稱, 在 TLT 平臺的支持下,相比非遷移學習,用戶只需要使用十分之一的數(shù)據(jù)進行訓練,模型部署效率提升 10 倍。 TLT 平臺本身是免費的,支持英偉達旗下的 A100、V100GPU 等硬件。 國內(nèi)也有大型科技企業(yè)推動 PaaS 模式的發(fā)展。例如,2020 年 7 月,百度發(fā)布了 NLP 開發(fā)與服務平臺文心, 其依托 ERNIE 預訓練技術,為開發(fā)者提供 NLP 定制與應用能力。文心平臺可通過公有云(如 EasyDL-NLP、 BML 等)和私有化兩種方式為產(chǎn)業(yè)提供服務。用戶不需要關注計算開發(fā)環(huán)境的搭建和算法實現(xiàn)的底層實現(xiàn)細節(jié)。 對于對場景要求更高的用戶,百度提供全流程、可深度定制、可私有化部署的文心開發(fā)套件。用戶可以獲得模 型技術選型、本地化訓練、離線部署等深度解決方案。截至目前,文心平臺已累計支持 4 萬開發(fā)者,及涵蓋各 行各業(yè)的 200 多家企業(yè)客戶。
3、MaaS 模式
MaaS 商業(yè)模式是以算力平臺、模型倉庫及數(shù)據(jù)集倉庫為基礎的,倡導零門檻的模型體驗,提供簡單快速的 模型使用、完整的模型定制鏈路及模型云端部署服務,主要提供給 AI 的愛好者、開發(fā)者、研究員以及部分中小 型轉(zhuǎn)型企業(yè)的商業(yè)化模型使用。 “模型→單點工具→應用場景”是 MaaS 產(chǎn)業(yè)結構的核心。大模型是 MaaS 的最重要基座,例如 OpenAI 提供的訪問執(zhí)行各種自然語言任務的 GPT-3、將自然語言翻譯成代碼的 Codex、創(chuàng)建和編輯原始圖像的 DALL? E;單點工具是大模型應用的補充,例如 ChatGPT 是在 GPT-3.5 模型的基礎上,產(chǎn)生出的能“對話”的 AI 系統(tǒng); 內(nèi)容寫作工具 Jasper 它基于開源的 GPT-3 模型,它使用人工智能為用戶編寫內(nèi)容等;各種應用場景是大模型應 用的變現(xiàn),例如商湯科技的書生(INTERN)大模型可以讓 AI 模型處理多樣化的視覺任務;又如 GPT 模型系列 作為基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓練的文本生成深度學習模型,應用場景持續(xù)擴展。
而除了模型本身進行訂閱收費以外,嵌入其他產(chǎn)品獲得引流式收入也是模式之一,例如,微軟宣布推出高 級付費版 Microsoft Teams Premium,這項高級服務將在 6 月份每月收費 7 美元,然后在 7 月份恢復到正常的 10 美元,訂閱者可享用由 OpenAI GPT-3.5 提供支持的“智能回顧(Intelligent Recap)”這一重要功能,該功能將 提供自動生成的會議記錄、推薦任務和個性化標亮;微軟旗下 Dynamics 365 產(chǎn)品線宣布旗下客戶關系管理軟件 Viva Sales 也將集成 OpenAI 的技術,通過人工智能幫助銷售人員完成許多繁雜且重復的文字工作。雖然,GPT-3.5 并未在 Viva Sales 中作為單獨的收費項目存在,但是 Viva Sales 作為 CRM 產(chǎn)品本身每月就收費 40 美元,假設 有 1000 萬客戶是因為 GPT-3.5 而選購 Viva Sales,則代表 GPT-3.5 每年能夠為微軟帶來 48 億美元的收入。
其它的收費模式還包括不同的 Model 應對不同的客戶需求和客戶定價,如 OpenAI 在推出 ChatGPT 以前, 其主要收入來源于對外部客戶開源自身大模型,通過提供 API 接口調(diào)用來收費。例如用于創(chuàng)建和編輯原始圖像 的 DALL·E 模型,Mixtiles 利用 DALL·E API 來創(chuàng)建和構建能引起情感共鳴的藝術品(圖片);數(shù)字平臺 CALA 同樣調(diào)用了 DALL·E 模型,使得 CALA 的智能工具允許用戶從自然文本描述或上傳的參考圖像中生成新的設計 理念圖。可以看出,相較于 Mixtiles,CALA 對于 DALL·E 模型的應用更偏商業(yè),對于細節(jié)的要求也更高,那在 這種情況下,CALA 和 Mixtiles 兩者調(diào)用 DALL·E 模型的收費肯定是有所不同的。 總結來說,不同的 Model 應對不同的客戶需求和客戶定價肯定也會有所不同,客戶的要求越高,使用的模 型越好,那么大模型的收費也將會更高。
編輯:黃飛
?
評論