chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文說清楚什么是AI大模型

深圳市賽姆烯金科技有限公司 ? 來源:深圳市賽姆烯金科技有限 ? 2025-01-02 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前,大模型(特別是在2023年及之后的語境中)通常特指大語言模型(LLM, Large Language Model),但其范圍也涵蓋其他領(lǐng)域的超大規(guī)模深度學(xué)習(xí)模型,例如圖像生成模型(如 DALL-E)、科學(xué)計算模型(如 AlphaFold)以及多模態(tài)模型。這些模型通過海量數(shù)據(jù)訓(xùn)練,展現(xiàn)出高度的泛用性。

比較有代表性的大語言模型(LLM)如:

模型 開發(fā)方 特點(diǎn)
GPT-4 OpenAI 生成能力強(qiáng),部分版本支持多模態(tài)輸入(如圖像理解)
文心一言 百度 針對中文優(yōu)化,適合國內(nèi)應(yīng)用場景
LLaMA Meta 開源,輕量化

大語言模型(LLM)是近年來人工智能領(lǐng)域的核心熱點(diǎn),其訓(xùn)練目標(biāo)通常是語言生成和理解。這些模型通過在海量文本上進(jìn)行訓(xùn)練,能夠理解、生成和推理復(fù)雜的自然語言,甚至跨領(lǐng)域處理任務(wù)。其特點(diǎn)是擁有超大規(guī)模參數(shù)、具有強(qiáng)大的通用性和生成能力。由具有許多參數(shù)(通常數(shù)十億個權(quán)重或更多)的人工神經(jīng)網(wǎng)絡(luò)組成,使用自監(jiān)督學(xué)習(xí)對大量未標(biāo)記文本進(jìn)行訓(xùn)練

8a34f464-c653-11ef-9310-92fbcf53809c.png

1. 大語言模型(LLM)的核心定義

基礎(chǔ):大語言模型通常是基于深度學(xué)習(xí)架構(gòu)(如Transformer)開發(fā)的,通過捕捉自然語言中的模式和語法規(guī)則,理解上下文和語義。

規(guī)?!按蟆保褐竻?shù)規(guī)模(數(shù)十億到數(shù)萬億個參數(shù))、訓(xùn)練數(shù)據(jù)量(TB 級別以上的文本)、以及計算需求的巨大。

目標(biāo):預(yù)測文本中的下一個詞(語言建模),或在更高層次上,生成合理的文本輸出。

能力:除了文本生成,它還能執(zhí)行諸如翻譯、總結(jié)、分類、問答、推理、代碼生成等復(fù)雜任務(wù)。大語言模型是通用模型,在廣泛的任務(wù)中表現(xiàn)出色,而不是針對一項特定任務(wù)進(jìn)行訓(xùn)練

現(xiàn)在大火的智能體(AI Agent)的大腦就是基于大語言模型,詳見:

一文說清楚什么是AI Agent(智能體)

2. 大語言模型(LLM)的核心技術(shù)和特性

2.1 Transformer 架構(gòu)

Transformer 是一種基于“注意力機(jī)制”的神經(jīng)網(wǎng)絡(luò)架構(gòu),由 Google 于 2017 年提出。它的核心特性是:

自注意力機(jī)制(Self-Attention):能捕獲句子中每個詞與其他詞之間的關(guān)系,量化它們的重要性,提取上下文語義。

并行計算:相比早期的 RNN 和 LSTM,Transformer 能更高效地處理長文本。

LLM(如 GPT 系列)大多基于 Transformer 的變體。

2.1.1 看全局抓重點(diǎn):注意力機(jī)制

想象你是一個班主任,班干部(Transformer)負(fù)責(zé)審閱學(xué)生的作業(yè)。如果有句子寫得特別好(比如“春風(fēng)拂面百花開”),班干部會特別關(guān)注這句話,并給它“打一個高分”。這就是 Transformer 的注意力機(jī)制,它知道哪些部分更重要,應(yīng)該重點(diǎn)關(guān)注。

2.1.2 并行處理:效率高

以前的模型像流水線工人,必須按順序一字一句地看完所有作業(yè)(比如傳統(tǒng)的 RNN)。而班干部(Transformer)更像是一群分工明確的審稿員,可以同時看整篇作業(yè),快速抓住重點(diǎn)。

2.1.3 理解句子結(jié)構(gòu):捕捉長距離依賴

如果有學(xué)生寫了一篇長文章,開頭提到“春天來了”,后面說“鮮花盛開”。班干部(Transformer)不會忘記開頭的信息,會把“春天來了”和“鮮花盛開”關(guān)聯(lián)起來。這種能力叫長距離依賴捕捉,讓模型能理解前后文的語義聯(lián)系。

Transformer 的注意力機(jī)制讓每個詞都可以關(guān)注整個句子中的其他詞,而不是局限于前后相鄰的詞。這解決了傳統(tǒng) RNN 處理長文本時容易“遺忘上下文”的問題。

2.1.4 將文字變成數(shù)字:嵌入表示Embedding

班干部在看作業(yè)時,需要先把作業(yè)內(nèi)容分類,比如:數(shù)學(xué)題歸類到“數(shù)字”里,作文歸類到“語言”里。同樣,Transformer 需要先把文字轉(zhuǎn)換成模型能理解的數(shù)字形式。這種表示叫“詞嵌入(Word Embedding)”。Transformer 中會用“位置編碼(Positional Encoding)”標(biāo)記每個詞的位置,確保模型理解詞語在句子中的順序。

Embedding詳見:一文說清楚人工智能的嵌入(Embedding)是什么

2.2 Transformer 是如何生成答案的?

2.2.1 把重點(diǎn)重新組織:編碼器-解碼器結(jié)構(gòu)

班干部(Transformer)把學(xué)生的作業(yè)總結(jié)后,用自己的話重新寫一遍。這就是編碼器-解碼器結(jié)構(gòu)的工作方式:

編碼器:像一個分析員,把輸入的內(nèi)容(句子)理解后轉(zhuǎn)化為內(nèi)部的知識表示。

解碼器:像一個寫手,根據(jù)內(nèi)部的知識表示生成輸出(翻譯、回答問題等)。

Transformer 的編碼器負(fù)責(zé)對輸入的句子進(jìn)行特征提取,而解碼器基于這些特征生成目標(biāo)輸出。這種結(jié)構(gòu)廣泛用于翻譯和生成任務(wù)(如機(jī)器翻譯、文本生成)。

8a4c2472-c653-11ef-9310-92fbcf53809c.png

2.2.2 輸入和輸出之間的關(guān)系:交叉注意力

班干部在總結(jié)學(xué)生的作業(yè)時,會參考原文里的句子重點(diǎn)(比如從題目到結(jié)尾)。這個過程叫交叉注意力,確保模型輸出的內(nèi)容和輸入有緊密關(guān)聯(lián)。

Transformer 在解碼器中,模型需要關(guān)注輸入的隱藏表示,通過計算解碼器和編碼器之間的注意力分?jǐn)?shù),確保生成的輸出能準(zhǔn)確反映輸入的語義內(nèi)容。

交叉注意力應(yīng)用于編碼器-解碼器模型, GPT 是解碼器-only 模型,其架構(gòu)中不直接使用編碼器-解碼器的交叉注意力機(jī)制

2.3 為什么 Transformer 比傳統(tǒng)方法強(qiáng)?

2.3.1 一眼看全局:自注意力機(jī)制

傳統(tǒng)模型(如 RNN)像流水線工人,必須逐字逐句處理句子,而 Transformer 像一位高效的觀察者,可以一眼看到全文,快速抓住重點(diǎn)。自注意力機(jī)制讓模型對句子中的所有詞進(jìn)行“全局比較”,從而同時捕捉短距離和長距離的關(guān)系。

2.3.2 提高效率:并行處理

如果文章特別長,傳統(tǒng)模型處理起來很慢,而 Transformer 像一群同時工作的專家,可以并行處理,提高效率。通過將輸入句子分成塊,并行計算每個詞的注意力權(quán)重,Transformer 避免了序列模型的時間瓶頸,效率顯著提高。

2.3.3 適應(yīng)性強(qiáng):預(yù)訓(xùn)練模型可遷移

班干部(Transformer)經(jīng)過訓(xùn)練后,不僅能看作文,還能學(xué)會批改數(shù)學(xué)題、物理題等。這是因為它的“學(xué)習(xí)能力”很強(qiáng),能根據(jù)不同的任務(wù)調(diào)整自己。模型可以先在大規(guī)模通用語料上預(yù)訓(xùn)練(如 GPT 或 BERT),學(xué)到語言的通用規(guī)律,再通過微調(diào)(Fine-tuning)適應(yīng)特定任務(wù)。

3. 為什么“大模型”目前特指"語言模型"?

1.技術(shù)推動

大語言模型(如 GPT 系列)的出現(xiàn)展示了“通用人工智能”(AGI)的潛力,使得語言模型成為大模型的核心代表。

語言是人類認(rèn)知和信息處理的基礎(chǔ),訓(xùn)練語言模型可以讓 AI 在廣泛的領(lǐng)域表現(xiàn)出色。

2.應(yīng)用廣泛

從對話生成到代碼編寫、從文檔翻譯到文本分析,大語言模型已經(jīng)在多種場景中展示了高效性和通用性。

3.市場驅(qū)動

商業(yè)化需求(如 ChatGPT、Bard)讓大語言模型成為公眾認(rèn)知中的“大模型”代名詞。

4. 為什么叫“大”模型,還有“小”模型嗎?

8a666030-c653-11ef-9310-92fbcf53809c.png

1.參數(shù)規(guī)模

參數(shù)是模型中的可調(diào)節(jié)權(quán)重,用來捕獲數(shù)據(jù)中的模式。大模型通常有數(shù)十億到數(shù)萬億個參數(shù)。例如,GPT-3 有 1750 億個參數(shù),GPT-4 甚至更多。

參數(shù)數(shù)量越多,理論上模型能夠捕獲的復(fù)雜模式也越多,但這也意味著更高的計算和存儲成本。

2.訓(xùn)練數(shù)據(jù)量

大模型往往需要海量數(shù)據(jù)進(jìn)行訓(xùn)練。數(shù)據(jù)越多,模型越有可能泛化,適應(yīng)更多樣的場景。

例如,大語言模型可能使用來自互聯(lián)網(wǎng)的數(shù)千TB文本數(shù)據(jù)。

3.計算資源

大模型的訓(xùn)練和推理(inference)需要高性能的硬件支持,比如 GPU 或 TPU 集群。

訓(xùn)練一個大模型可能需要數(shù)周或數(shù)月,耗費(fèi)數(shù)百萬美元的計算成本。

3.能力范圍

大模型通常具備較強(qiáng)的通用性,可以跨越多個任務(wù)。例如,GPT-4 不僅可以生成文本,還能進(jìn)行翻譯、代碼生成等多種任務(wù)。

它們還能在新任務(wù)上實現(xiàn)良好的零樣本(Zero-shot)或少樣本(Few-shot)學(xué)習(xí)能力。

不過,大模型的“更大”并不總是等于“更好”。隨著參數(shù)數(shù)量的增長,模型性能的提升并非線性遞增。在超過一定規(guī)模后,訓(xùn)練更大的模型可能僅帶來微弱的精度提升,但計算資源和能耗成本會顯著增加。

5.“小”模型有哪些

相對大模型,小模型是指參數(shù)數(shù)量較少、規(guī)模較小、專注于特定任務(wù)的模型。例如:

MobileNet:專為移動設(shè)備設(shè)計的圖像識別模型,參數(shù)量較小,計算高效。

GPT-2 的小型版本:用于低資源環(huán)境,參數(shù)數(shù)量可能在百萬級別。

LightGBM、XGBoost 等傳統(tǒng)機(jī)器學(xué)習(xí)模型:雖然嚴(yán)格意義上不是深度學(xué)習(xí)模型,但也屬于小模型范疇。

小模型的優(yōu)點(diǎn)

計算效率高:可以部署在資源有限的設(shè)備(如手機(jī)嵌入式系統(tǒng))上。

訓(xùn)練成本低:對硬件需求較低,訓(xùn)練時間更短。

專注性強(qiáng):通常專注于解決單一任務(wù),性能更高效。

在實際應(yīng)用中,小模型常用于邊緣設(shè)備上的實時推理,而大模型則在云端完成高復(fù)雜度的任務(wù)。通過這種協(xié)作,可以在性能和效率之間找到平衡。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280015
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4074
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    844

原文標(biāo)題:一文說清楚什么是AI大模型

文章出處:【微信號:深圳市賽姆烯金科技有限公司,微信公眾號:深圳市賽姆烯金科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    中興努比亞啟動接入百度心4.5系列開源大模型

    近日,中興努比亞啟動接入心4.5系列開源大模型,為星云智能提供新引擎,共同推動人工智能在AI手機(jī)的創(chuàng)新應(yīng)用,加速AI技術(shù)落地,進(jìn)步提升用
    的頭像 發(fā)表于 07-15 09:35 ?366次閱讀

    寧暢與與百度心大模型展開深度技術(shù)合作

    與部署。 憑借覆蓋訓(xùn)練、推理、微調(diào)全流程的AI?服務(wù)器產(chǎn)品矩陣,寧暢幫助企業(yè)在大模型時代鍵打通算力與應(yīng)用“任督二脈”,顯著縮短模型落地周期。 在已啟動的深度技術(shù)合作中,雙方將基于
    的頭像 發(fā)表于 07-07 16:26 ?214次閱讀

    龍芯中科與心系列模型開展深度技術(shù)合作

    ? ? ? ? ? 6月30日,心4.5系列模型正式開源。龍芯中科在心大模型開源首日啟動技術(shù)合作,雙方將共同推進(jìn)國產(chǎn)算力基礎(chǔ)設(shè)施與大模型
    的頭像 發(fā)表于 07-02 16:53 ?690次閱讀

    詳解!獲取135部資質(zhì),沃飛長空如何布局低空場景三階路徑

    運(yùn)行資質(zhì)。為何家eVTOL企業(yè)要用傳統(tǒng)直升機(jī)取證?今天為大家說清楚。要弄清楚這些問題,得先明白幾個概念。中國民航規(guī)章(ChinaCiv
    的頭像 發(fā)表于 06-03 12:04 ?320次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解!獲取135部資質(zhì),沃飛長空如何布局低空場景三階路徑

    如何賦能醫(yī)療AI模型應(yīng)用?

    引言自ChatGPT掀起熱潮以來,眾多AI模型如雨后春筍般涌現(xiàn),其中包括百度科技的言、科大訊飛的訊飛星火、華為的盤古AI
    的頭像 發(fā)表于 05-07 09:36 ?265次閱讀
    如何賦能醫(yī)療<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>應(yīng)用?

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    基石。 Neuron Studio打造全流程站式開發(fā)體驗,為AI應(yīng)用開發(fā)按下加速鍵 AI 應(yīng)用的開發(fā)瓶頸,從來都不是“點(diǎn)的問題”,而是“鏈的問題”:開發(fā)工具碎片化,調(diào)優(yōu)過程靠手動,單模型
    發(fā)表于 04-13 19:52

    AI眼鏡大模型激戰(zhàn):多大模型協(xié)同、交互時延低至1.3S

    電子發(fā)燒友網(wǎng)報道(/莫婷婷)“百鏡大戰(zhàn)”開始時,也是AI模型在智能眼鏡端加速落地的開始,場關(guān)于智能眼鏡的“百模大戰(zhàn)”也同步進(jìn)行。幾乎今年剛推出的
    的頭像 發(fā)表于 03-20 08:59 ?1293次閱讀
    <b class='flag-5'>AI</b>眼鏡大<b class='flag-5'>模型</b>激戰(zhàn):多大<b class='flag-5'>模型</b>協(xié)同、交互時延低至1.3S

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    百度下心大模型正式開源

    隨著心大模型的迭代升級和成本不斷下降,言將于4月1日0時起全面免費(fèi),所有PC端和APP端用戶均可體驗心系列最新
    的頭像 發(fā)表于 02-17 13:44 ?519次閱讀

    詳解視覺語言模型

    視覺語言模型(VLM)是種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1764次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解視覺語言<b class='flag-5'>模型</b>

    怎么才能開啟ADS1115的快速模式?

    ADS1115數(shù)據(jù)手冊上說了這塊芯片可以開啟快速模式,實在start之后發(fā)送個 00001xxx的地址,這個地址不被ADS1115應(yīng)答然后說xxx是HS mode code 但是并沒有說清楚
    發(fā)表于 01-07 08:01

    心大模型生態(tài)大會:啟明智顯AI智能產(chǎn)品展現(xiàn)AI無限“模力”

    12月26日,在人工智能蓬勃發(fā)展的浪潮中,以“模力無限星河共創(chuàng)”為主題的心大模型生態(tài)大會在上?!埥茖W(xué)會堂盛大舉行。啟明智顯AI筆筒、AI潮玩底座、
    的頭像 發(fā)表于 12-26 18:33 ?878次閱讀
    <b class='flag-5'>文</b>心大<b class='flag-5'>模型</b>生態(tài)大會:啟明智顯<b class='flag-5'>AI</b>智能產(chǎn)品展現(xiàn)<b class='flag-5'>AI</b>無限“模力”

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認(rèn)知

    閱讀《大模型啟示錄》這本書,我得說,它徹底顛覆了我對大模型的理解。作為個經(jīng)常用KIMI和豆包這類AI工具來完成作業(yè)、整理資料的大學(xué)生,我原以為大
    發(fā)表于 12-20 15:46

    從箱子里找出來的示例:Air780E軟件指南之TCP應(yīng)用

    今天翻箱倒柜,把塵封已久的關(guān)于Air780E軟件指南之TCP應(yīng)用教程翻出來給大家展示展示:讓我從概述、環(huán)境準(zhǔn)備、問題等方面來給大家說清楚
    的頭像 發(fā)表于 11-02 11:58 ?924次閱讀
    從箱子里找出來的示例:Air780E軟件指南之TCP應(yīng)用

    buffers內(nèi)存與cached內(nèi)存的區(qū)別

    free 命令是Linux系統(tǒng)上查看內(nèi)存使用狀況最常用的工具,然而很少有人能說清楚 “buffers” 與 “cached” 之間的區(qū)別。
    的頭像 發(fā)表于 07-29 14:17 ?799次閱讀
    buffers內(nèi)存與cached內(nèi)存的區(qū)別