chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

2024 年 19 種最佳大型語言模型

穎脈Imgtec ? 2024-08-30 12:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源:優(yōu)維科技UWin


大型語言模型是 2023 年生成式人工智能熱潮背后的推動力。然而,它們已經(jīng)存在了一段時間了。

LLM是黑盒 AI 系統(tǒng),它使用深度學(xué)習(xí)對超大數(shù)據(jù)集進行處理,以理解和生成新文本?,F(xiàn)代 LLM 開始成型于 2014 年,當(dāng)時一篇題為“通過聯(lián)合學(xué)習(xí)對齊和翻譯的神經(jīng)機器翻譯”的研究論文中引入了注意力機制(一種旨在模仿人類認知注意力的機器學(xué)習(xí)技術(shù))。2017 年,另一篇論文“注意力就是你所需要的”中引入了 Transformer 模型,這種注意力機制得到了進一步完善。當(dāng)今一些最著名的語言模型都是基于 transformer 模型的,包括生成式預(yù)訓(xùn)練 transformer 系列LLM 和來自 transformer 的雙向編碼器表示 (BERT)。ChatGPT運行在 OpenAI 的一組語言模型上,在 2022 年發(fā)布后僅兩個月就吸引了超過 1 億用戶。此后,許多競爭模型相繼發(fā)布。其中一些屬于谷歌和微軟等大公司;另一些則是開源的。

以下是當(dāng)今最相關(guān)的一些大型語言模型。它們進行自然語言處理并影響未來模型的架構(gòu)。


BERTBERT是 Google 于 2018 年推出的 LLM 系列。BERT 是一種基于 Transformer 的模型,可以將數(shù)據(jù)序列轉(zhuǎn)換為其他數(shù)據(jù)序列。BERT 的架構(gòu)是 Transformer 編碼器的堆棧,具有 3.42 億個參數(shù)。BERT 在大量數(shù)據(jù)上進行了預(yù)訓(xùn)練,然后進行了微調(diào)以執(zhí)行特定任務(wù)以及自然語言推理和句子文本相似性。它被用于提高 Google 搜索 2019 年迭代中的查詢理解能力。


Claude

Claude 法學(xué)碩士專注于體質(zhì)人工智能,它以一系列原則為指導(dǎo)塑造人工智能輸出,這些原則有助于它所支持的人工智能助手有用、無害且準(zhǔn)確。Claude 由 Anthropic 公司創(chuàng)建。Claude 法學(xué)碩士的最新版本是 Claude 3.0。


CohereCohere 是一個企業(yè) AI 平臺,提供多種 LLM,包括 Command、Rerank 和 Embed。這些LLM 可以根據(jù)特定公司的用例進行定制訓(xùn)練和微調(diào)。創(chuàng)建 Cohere LLM 的公司是由《Attention Is All You Need》的作者之一創(chuàng)立的。Cohere 的優(yōu)勢之一是它不依賴于單一云——不像 OpenAI 那樣依賴于 Microsoft Azure。


Ernie

Ernie 是百度的大型語言模型,為 Ernie 4.0 聊天機器人提供支持。該機器人于 2023 年 8 月發(fā)布,已擁有超過 4500 萬用戶。據(jù)傳 Ernie 擁有 10 萬億個參數(shù)。該機器人最適合普通話,但也能夠處理其他語言。


Falcon 40B

Falcon 40B 是一種基于 Transformer 的因果解碼器專用模型,由技術(shù)創(chuàng)新研究所開發(fā)。它是開源的,并基于英語數(shù)據(jù)進行訓(xùn)練。該模型還有兩個較小的版本:Falcon 1B 和 Falcon 7B(10 億和 70 億個參數(shù))。亞馬遜已在Amazon SageMaker上提供 Falcon 40B 。它也可以在 GitHub 上免費獲取。


Gemini

Gemini是 Google 的 LLM 系列,為該公司的同名聊天機器人提供支持。該模型取代了 Palm 為聊天機器人提供支持,在模型切換后,聊天機器人從 Bard 更名為 Gemini。Gemini 模型是多模式的,這意味著它們可以處理圖像、音頻和視頻以及文本。Gemini 還集成在許多 Google 應(yīng)用程序和產(chǎn)品中。它有三種尺寸——Ultra、Pro 和 Nano。Ultra 是最大、功能最強大的模型,Pro 是中端模型,Nano 是最小的模型,專為提高設(shè)備上任務(wù)的效率而設(shè)計。Gemini 在大多數(shù)評估基準(zhǔn)上都優(yōu)于 GPT-4。


Gemma

Gemma是 Google 的開源語言模型系列,使用與 Gemini 相同的資源進行訓(xùn)練。Gemma 有兩種規(guī)?!?0 億參數(shù)模型和 70 億參數(shù)模型。Gemma 模型可以在個人電腦本地運行,并且在多個評估基準(zhǔn)上超越了類似規(guī)模的 Llama 2 模型。


GPT-3

GPT-3是 OpenAI 于 2020 年發(fā)布的大型語言模型,擁有超過 1750 億個參數(shù)。GPT-3 采用僅解碼器的 Transformer 架構(gòu)。2022 年 9 月,微軟宣布獨家使用 GPT-3 的底層模型。GPT-3 比其前身大 10 倍。GPT-3 的訓(xùn)練數(shù)據(jù)包括 Common Crawl、WebText2、Books1、Books2 和 Wikipedia。GPT-3 是 OpenAI 公開參數(shù)計數(shù)的 GPT 系列模型中的最后一款。GPT 系列于 2018 年首次推出,當(dāng)時 OpenAI 發(fā)表了一篇論文《通過生成式預(yù)訓(xùn)練提高語言理解能力》。


GPT-3.5GPT-3.5 是 GPT-3 的升級版,參數(shù)更少。GPT-3.5 使用來自人類反饋的強化學(xué)習(xí)進行了微調(diào)。GPT-3.5 是支持 ChatGPT 的 GPT 版本。據(jù) OpenAI 稱,有幾種模型,其中 GPT-3.5 turbo 是最強大的。GPT-3.5 的訓(xùn)練數(shù)據(jù)延伸到 2021 年 9 月。它也曾被集成到 Bing 搜索引擎中,但后來被 GPT-4 取代。


GPT-4GPT-4是OpenAI 的 GPT 系列中最大的模型,于 2023 年發(fā)布。與其他模型一樣,它也是基于 Transformer 的模型。與其他模型不同的是,它的參數(shù)數(shù)量尚未向公眾公布,盡管有傳言稱該模型的參數(shù)數(shù)量超過 170 萬億。OpenAI 將 GPT-4 描述為多模態(tài)模型,這意味著它可以處理和生成語言和圖像,而不僅限于語言。GPT-4 還引入了系統(tǒng)消息,讓用戶可以指定語調(diào)和任務(wù)。GPT-4 在多項學(xué)術(shù)考試中表現(xiàn)出了與人類水平相當(dāng)?shù)谋憩F(xiàn)。在該模型發(fā)布時,有人猜測 GPT-4 已經(jīng)接近通用人工智能(AGI),這意味著它與人類一樣聰明甚至比人類更聰明。GPT-4 為 Microsoft Bing 搜索提供支持,可在 ChatGPT Plus 中使用,最終將集成到 Microsoft Office 產(chǎn)品中。


GPT-4oGPT-4 Omni(GPT-4o)是 OpenAI 的 GPT-4 繼任者,與之前的模型相比有多項改進。GPT-4o 為 ChatGPT 創(chuàng)造了更自然的人機交互,是一個大型多模態(tài)模型,接受音頻、圖像和文本等各種輸入。對話讓用戶可以像在正常的人類對話中一樣參與,實時互動還可以捕捉情緒。GPT-4o 可以在交互過程中查看照片或屏幕并提出相關(guān)問題。GPT-4o 的響應(yīng)時間僅為 232 毫秒,與人類的響應(yīng)時間相似,比 GPT-4 Turbo 更快。GPT-4o 模型是免費的,將提供給開發(fā)者和客戶產(chǎn)品。


LamdaLamda(對話應(yīng)用語言模型)是 Google Brain 于 2021 年發(fā)布的 LLM 系列。Lamda 使用了僅解碼器的轉(zhuǎn)換器語言模型,并在大量文本語料庫上進行了預(yù)訓(xùn)練。2022 年,當(dāng)時的谷歌工程師 Blake Lemoine 公開聲稱該程序具有感知能力, LaMDA 引起了廣泛關(guān)注。它建立在 Seq2Seq 架構(gòu)上。


Llama大型語言模型 Meta AI (Llama) 是 Meta 于 2023 年發(fā)布的 LLM。最大版本的大小為 650 億個參數(shù)。Llama 最初發(fā)布給經(jīng)批準(zhǔn)的研究人員和開發(fā)人員,但現(xiàn)在已開源。Llama 的規(guī)模較小,使用、測試和實驗所需的計算能力較少。Llama 使用轉(zhuǎn)換器架構(gòu),并在各種公共數(shù)據(jù)源上進行訓(xùn)練,包括 CommonCrawl、GitHub、Wikipedia 和 Project Gutenberg 的網(wǎng)頁。Llama 被有效泄露并衍生出許多后代,包括 Vicuna 和 Orca。


MistralMistral 是一個 70 億參數(shù)的語言模型,在所有評估基準(zhǔn)上都優(yōu)于 Llama 類似規(guī)模的語言模型。Mistral 還擁有一個經(jīng)過微調(diào)的模型,專門用于遵循指令。其較小的尺寸使其能夠?qū)崿F(xiàn)自托管,并具有出色的業(yè)務(wù)性能。它是根據(jù) Apache 2.0 許可證發(fā)布的。


OrcaOrca 由微軟開發(fā),擁有 130 億個參數(shù),這意味著它足夠小,可以在筆記本電腦上運行。它旨在通過模仿 LLM 實現(xiàn)的推理過程來改進其他開源模型所取得的進步。Orca 以明顯更少的參數(shù)實現(xiàn)了與 GPT-4 相同的性能,并且在許多任務(wù)上與 GPT-3.5 相當(dāng)。Orca 建立在 130 億個參數(shù)版本的 LLaMA 之上。


PathwaysPathways 語言模型是谷歌推出的一款基于 5400 億參數(shù)轉(zhuǎn)換器的模型,為它的 AI 聊天機器人Bard提供支持。該模型在多個TPU 4 Pod(谷歌為機器學(xué)習(xí)定制的硬件)上進行訓(xùn)練。Palm 擅長推理任務(wù),例如編碼、數(shù)學(xué)、分類和問答。Palm 還擅長將復(fù)雜任務(wù)分解為更簡單的子任務(wù)。PaLM 的名稱源自 Google 的一項研究計劃,該計劃旨在構(gòu)建 Pathways,最終創(chuàng)建一個單一模型,作為多種用例的基礎(chǔ)。Palm 有多個經(jīng)過微調(diào)的版本,包括用于生命科學(xué)和醫(yī)療信息的 Med-Palm 2 以及用于網(wǎng)絡(luò)安全部署以加快威脅分析的 Sec-Palm。


Phi-1Phi-1 是微軟推出的一款基于 Transformer 的語言模型。Phi-1 僅包含 13 億個參數(shù),在一系列教科書級數(shù)據(jù)上訓(xùn)練了四天。Phi-1 是使用更高質(zhì)量數(shù)據(jù)和合成數(shù)據(jù)進行訓(xùn)練的小型模型趨勢的一個例子。特斯拉前人工智能總監(jiān)、OpenAI 員工 Andrej Karpathy 在推文中寫道:“我們可能會看到更多富有創(chuàng)意的縮減工作量的做法:優(yōu)先考慮數(shù)據(jù)質(zhì)量和多樣性而不是數(shù)量,生成更多的合成數(shù)據(jù),以及小型但功能強大的專家模型?!盤hi-1 專注于Python編碼,由于規(guī)模較小,通用能力較差。


StableLMStableLM 是 Stability AI 開發(fā)的一系列開源語言模型,該公司是圖像生成器 Stable Diffusion 的幕后推手。截至撰寫本文時,已有 30 億和 70 億參數(shù)模型可用,150 億、300 億、650 億和 1750 億參數(shù)模型正在開發(fā)中。StableLM 的目標(biāo)是透明、可訪問且支持性強。


Vicuna 33B

Vicuna 是另一個有影響力的開源 LLM,源自 Llama。它由 LMSYS 開發(fā),并使用 sharegpt.com 的數(shù)據(jù)進行了微調(diào)。根據(jù)幾個基準(zhǔn)測試,它比 GPT-4 更小、功能更弱,但對于其大小的模型來說,它表現(xiàn)不錯。Vicuna 只有 330 億個參數(shù),而 GPT-4 有數(shù)萬億個參數(shù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39707

    瀏覽量

    301313
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50091

    瀏覽量

    265220
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11310
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    2025最佳的嵌入式編程語言有哪些呢?

    嵌入式系統(tǒng)是現(xiàn)代科技不可或缺的一部分。它們存在于家用電器、汽車、住宅、醫(yī)院、商店等各個領(lǐng)域。它們與我們的社會緊密相連。選擇合適的語言來構(gòu)建嵌入式系統(tǒng)對于成功至關(guān)重要。那么,2025最佳的嵌入式編程
    的頭像 發(fā)表于 11-14 10:27 ?1402次閱讀
    2025<b class='flag-5'>年</b><b class='flag-5'>最佳</b>的嵌入式編程<b class='flag-5'>語言</b>有哪些呢?

    DeepSeek模型如何在云服務(wù)器上部署?

    隨著大型語言模型(LLM)的應(yīng)用日益普及,許多開發(fā)者和企業(yè)希望將像DeepSeek這樣的優(yōu)秀模型部署到自己的云服務(wù)器上,以實現(xiàn)私有化、定制化服務(wù)并保障數(shù)據(jù)安全。本文將詳細闡述部署Dee
    的頭像 發(fā)表于 10-13 16:52 ?935次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    繼續(xù)追本溯源,與騰訊學(xué)堂合作撰寫本文,嘗試讓人人都能懂大語言模型的基礎(chǔ)原理。1、大語言模型簡述截止到2025“大
    的頭像 發(fā)表于 09-02 13:34 ?3442次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    商湯科技位居2024中國大模型平臺市場份額第三

    近日,國際數(shù)據(jù)公司(IDC)發(fā)布《中國大模型平臺市場份額,2024》報告。
    的頭像 發(fā)表于 08-22 14:00 ?1172次閱讀

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻甚微的完整通道(channel)。我們早期的研究提出了一訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?551次閱讀
    利用自壓縮實現(xiàn)<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    洲明科技榮膺“中國上市公司2024度投資者關(guān)系管理最佳實踐”獎項

    20255月,中國上市公司協(xié)會正式公布“中國上市公司2024度投資者關(guān)系管理最佳實踐”評選結(jié)果。洲明科技憑借專業(yè)表現(xiàn)與持續(xù)的溝通成效,從滬、深、北交所超5000家上市公司中脫穎而出
    的頭像 發(fā)表于 05-23 16:37 ?1055次閱讀

    天馬榮獲新財富雜志“2024 ESG最佳實踐獎”

    天馬可持續(xù)發(fā)展?ESG表現(xiàn)再獲認可,上榜2024新財富雜志最佳上市公司評選“ESG最佳實踐榜單”。
    的頭像 發(fā)表于 05-21 14:43 ?934次閱讀

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?1298次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    宏景智駕榮獲投中2024度中國人工智能與大數(shù)據(jù)產(chǎn)業(yè)最佳投資案例TOP10

    近日,備受矚目的2024度投中榜單正式揭曉。宏景智駕憑借突出的市場表現(xiàn)以及顯著的成長潛力,成功入選“投中2024度中國人工智能與大數(shù)據(jù)產(chǎn)業(yè)最佳
    的頭像 發(fā)表于 04-23 17:07 ?1070次閱讀

    訊飛星辰Agent開發(fā)平臺已全面支持MCP

    MCP全稱Model Context Protocol(模型上下文協(xié)議),是由Anthropic公司于202411月推出的開放協(xié)議,旨在規(guī)范大型
    的頭像 發(fā)表于 04-15 13:41 ?1704次閱讀

    太極半導(dǎo)體榮獲加特蘭微電子“2024最佳供應(yīng)商”稱號

    近日,太極半導(dǎo)體(蘇州)有限公司(以下簡稱:太極半導(dǎo)體)再獲加特蘭微電子科技(上海)有限公司(以下簡稱:加特蘭)授予的“2024最佳供應(yīng)商”稱號。這一榮譽不僅是對太極半導(dǎo)體技術(shù)實力的有力肯定,更彰顯了雙方在推動 “智駕平權(quán)”
    的頭像 發(fā)表于 04-07 16:50 ?1569次閱讀

    富昌電子榮獲Diodes授予的“2024度亞洲最佳分銷商獎”

    中國上海–20253月13日–近日,全球知名的電子元器件授權(quán)代理商富昌電子(Future Electronics)榮獲Diodes 公司頒發(fā)的“2024度亞洲最佳分銷商獎(Asia
    發(fā)表于 03-18 09:29 ?491次閱讀
    富昌電子榮獲Diodes授予的“<b class='flag-5'>2024</b><b class='flag-5'>年</b>度亞洲<b class='flag-5'>最佳</b>分銷商獎”

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?8796次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發(fā)表于 03-05 08:07

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): python3
    發(fā)表于 03-05 07:22