chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

字符感知預(yù)訓(xùn)練模型CharBERT

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:哈工大訊飛聯(lián)合實(shí)驗(yàn)室 ? 作者:哈工大訊飛聯(lián)合實(shí) ? 2020-11-27 10:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期推送介紹了哈工大訊飛聯(lián)合實(shí)驗(yàn)室在自然語(yǔ)言處理重要國(guó)際會(huì)議COLING 2020上發(fā)表的工作,提出了一種字符感知預(yù)訓(xùn)練模型CharBERT,在多個(gè)自然語(yǔ)言處理任務(wù)中取得顯著性能提升,并且大幅度提高了模型的魯棒性。本文以高分被COLING 2020錄用,且獲得審稿人的最佳論文獎(jiǎng)推薦(Recommendation for Best Paper Award)。

簡(jiǎn)介

目前預(yù)訓(xùn)練語(yǔ)言模型在NLP領(lǐng)域的大部分任務(wù)上都得到了顯著的效果提升,其中絕大部分模型都是基于subword的子詞粒度構(gòu)建表示,這樣幾乎可以避免OOV(out-of-vocab)的產(chǎn)生。但這種基于子詞粒度的表示也存在兩個(gè)問(wèn)題:1)不完整,只能構(gòu)建子詞粒度的表示,而喪失了全詞及字符的信息;2)不魯棒,字符上一個(gè)小的變化就會(huì)導(dǎo)致整個(gè)切詞組合的變化。我們可以通過(guò)下面一個(gè)示例來(lái)說(shuō)明這兩個(gè)問(wèn)題。

圖1 單詞backhand內(nèi)部結(jié)構(gòu)示例

一個(gè)單詞的內(nèi)部結(jié)構(gòu)可以表示成三層的樹(shù):根節(jié)點(diǎn)-全詞;孩子節(jié)點(diǎn)-子詞;葉子節(jié)點(diǎn)-字符。以BPE(Byte-Pair Encoding)[1]為代表的子詞粒度表示方法只可以表示孩子節(jié)點(diǎn)的信息,而喪失了根和葉子節(jié)點(diǎn)的信息。如果字符序列出現(xiàn)了噪音或者拼寫(xiě)錯(cuò)誤(如去掉了字符k),那么整個(gè)子詞組合就會(huì)完全變化,輸入到模型中的表示也就完全不一樣了,因此魯棒性較差。以CoNLL-2003 NER的開(kāi)發(fā)集為例,我們基于BERT[2]的tokenizer切詞后統(tǒng)計(jì)發(fā)現(xiàn)28%的名詞會(huì)被切分成多個(gè)子詞。如果隨機(jī)刪除所有名詞中的任意一個(gè)字符,78%的詞會(huì)切分成如圖1這樣完全不一樣的組合。由此可以看出,不完整與不魯棒問(wèn)題是具有統(tǒng)計(jì)顯著性的問(wèn)題。

繼續(xù)看圖1中的示例。如果我們仔細(xì)觀察字符信息對(duì)應(yīng)的葉子節(jié)點(diǎn),可以發(fā)現(xiàn)在去掉字符k后,葉子節(jié)點(diǎn)只有一個(gè)節(jié)點(diǎn)發(fā)生了變化,信息的變化量從孩子節(jié)點(diǎn)的100%降低為12.5%。另外,我們也可以通過(guò)字符信息構(gòu)建出全詞級(jí)別的表示,從而將詞的各級(jí)信息完整地表示出來(lái)。因此,我們將在目前預(yù)訓(xùn)練模型的架構(gòu)上,融合字符信息來(lái)解決上述兩個(gè)問(wèn)題。

基于預(yù)訓(xùn)練模型的字符融合具有兩個(gè)挑戰(zhàn):1)如何建模字符序列;2)如何融合字符與原有基于subword的計(jì)算。我們?cè)诜椒ㄉ现饕鉀Q了這兩個(gè)問(wèn)題,其主要貢獻(xiàn)如下:

我們提出了一種字符感知預(yù)訓(xùn)練模型CharBERT,可以在已有預(yù)訓(xùn)練模型的基礎(chǔ)上融合字符層級(jí)的信息;

我們?cè)?a target="_blank">問(wèn)答、文本分類(lèi)和序列標(biāo)注三類(lèi)任務(wù)的8個(gè)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,發(fā)現(xiàn)CharBERT可以在BERT和RoBERTa[3]兩個(gè)基線上有明顯的效果提升;

我們通過(guò)字符攻擊的方式構(gòu)造了這三類(lèi)任務(wù)對(duì)應(yīng)的噪音測(cè)試集合,發(fā)現(xiàn)CharBERT可以大幅度提升模型的魯棒性。

模型與方法

主要架構(gòu)

因?yàn)橐瑫r(shí)融合預(yù)訓(xùn)練模型原有的subword粒度計(jì)算和基于字符的計(jì)算,我們整體上采用的雙通道的架構(gòu),具體如下圖2所示。其中我們?cè)O(shè)計(jì)了兩大模塊:字符編碼器Character Encoder和交互融合模塊Heterogeneous Interaction來(lái)解決上述字符融合的兩個(gè)問(wèn)題。其中Character Encoder基于Bi-GRU構(gòu)造了上下文的字符表示,Heterogeneous Interaction通過(guò)融合和分拆兩步計(jì)算進(jìn)行兩個(gè)信息流的交互式融合。

圖2 CharBERT模型圖

Character Encoder的輸入是字符序列,輸出與BERT Embedding具有相同shape的字符表示。Heterogeneous Interaction在每個(gè)transformer之后進(jìn)行兩個(gè)信息流的融合計(jì)算,因此其輸入和輸出具有相同的shape。

Character Encoder

字符編碼器的結(jié)構(gòu)如圖3所示,主要基于Bi-GRU構(gòu)建上下文的字符表示。

圖3 Character Encoder示意圖

我們將整個(gè)輸入序列看成字符序列,詞之間使用一個(gè)空字符隔開(kāi)。將每個(gè)字符映射成一個(gè)固定大小的embedding后,使用Bi-GRU構(gòu)建每一個(gè)字符的表示,然后將每個(gè)詞的首尾字符的表示拼接作為每個(gè)詞對(duì)應(yīng)的表示,對(duì)應(yīng)公式如下:

其中ni表示第i個(gè)詞的長(zhǎng)度,h表示通過(guò)字符信息構(gòu)建的詞向量。基于Bi-GRU的字符表示,在每個(gè)詞的首尾字符位置是帶上下文信息的,所以將其拼接作為詞的表示。

Heterogeneous Interaction

由于來(lái)自原始預(yù)訓(xùn)練模型的表示和來(lái)源于character encoder基于字符的表示是異構(gòu)的,很難通過(guò)簡(jiǎn)單操作將二者融合起來(lái)。因此我們?cè)O(shè)計(jì)了交互式的融合模塊Heterogeneous Interaction, 在每一個(gè)transformer層計(jì)算后進(jìn)行迭代式融合,其結(jié)構(gòu)如圖4所示。

圖4 異構(gòu)交互模塊示意圖

該模塊主要包含兩步:融合和分拆。在融合過(guò)程中,先對(duì)各自表示進(jìn)行轉(zhuǎn)換后,使用CNN抓取局部特征將兩個(gè)來(lái)源的信息融合到一起:

在分拆過(guò)程中,各自進(jìn)行新的轉(zhuǎn)換然后基于殘差構(gòu)造各自不同的表示:

融合的目的是讓兩個(gè)來(lái)源的信息相互補(bǔ)充,分拆是為了各自保持住自己獨(dú)有的特征,也為后面不同的預(yù)訓(xùn)練任務(wù)做準(zhǔn)備。

無(wú)監(jiān)督字符預(yù)訓(xùn)練

為了讓模型更好地學(xué)習(xí)詞內(nèi)部的字符特征,我們?cè)O(shè)計(jì)了一種無(wú)監(jiān)督的字符預(yù)訓(xùn)練任務(wù)NLM(Noisy LM)。通過(guò)字符的增刪改自動(dòng)構(gòu)造一定比例的字符噪音,再通過(guò)NLM任務(wù)進(jìn)行原始序列還原,具體計(jì)算如圖5所示。

圖5 NLM預(yù)訓(xùn)練任務(wù)示例

需要注意的是,因?yàn)樵谝胱址胍糁?,每個(gè)詞對(duì)應(yīng)的切詞組合會(huì)變化,因此我們?cè)贜LM任務(wù)中預(yù)測(cè)粒度是全詞而不是子詞,在預(yù)訓(xùn)練過(guò)程中我們需要額外構(gòu)造一個(gè)全詞詞表,而該詞表在fine-tuning階段是不需要的。另外,對(duì)于原始預(yù)訓(xùn)練模型計(jì)算的分支,我們?cè)陬A(yù)訓(xùn)練階段仍然保持做MLM(Masked LM)任務(wù),該任務(wù)預(yù)測(cè)的詞與NLM任務(wù)不交叉,在該部分處理和預(yù)測(cè)的詞是不帶噪音的。

下游任務(wù)精調(diào)

NLP中絕大部分分類(lèi)任務(wù)可以分成兩類(lèi):token-level分類(lèi)(如序列標(biāo)注)和sequence-level分類(lèi)(如文本分類(lèi))。對(duì)于token-level的分類(lèi),我們將CharBERT兩個(gè)分支的表示拼接進(jìn)行預(yù)測(cè)。對(duì)于sequence-level的分類(lèi),目前大部分預(yù)訓(xùn)練模型使用‘[CLS]’位做預(yù)測(cè)。因?yàn)樵撐恢貌粠в杏行У淖址蛄?,所以我們將兩個(gè)分支的表示拼接后取平均再做分類(lèi)。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

為了保持對(duì)比的公平性,我們不引入額外數(shù)據(jù),僅使用英文維基百科數(shù)據(jù)(12G,2500M words)進(jìn)行預(yù)訓(xùn)練。由于算力有限,我們只基于BERT和RoBERTa的base模型進(jìn)行實(shí)驗(yàn),額外增加的模塊共占用5M的參數(shù)量。預(yù)訓(xùn)練過(guò)程進(jìn)行了320K步迭代,使用兩張32GB顯存的NVIDIA Tesla V100的GPU訓(xùn)練5天左右。我們將MLM中mask的比例從BERT的15%調(diào)低到10%,而NLM中將序列中15%的詞使用隨機(jī)增刪改的方式引入噪音。

通用評(píng)估

我們?cè)趩?wèn)答、文本分類(lèi)和序列標(biāo)注三類(lèi)任務(wù)中做模型通用效果的評(píng)估。其中問(wèn)答方面我們基于SQuAD 1.1和2.0兩個(gè)版本的閱讀理解數(shù)據(jù)集,文本分類(lèi)基于CoLA、MRPC、QQP和QNLI四個(gè)單句和句對(duì)分類(lèi)數(shù)據(jù)集,序列標(biāo)注方面基于CoNLL-2003 NER和Penn Treebank POS分類(lèi)數(shù)據(jù)集。主要結(jié)果如下表1和表2所示。

表1閱讀理解、文本分類(lèi)結(jié)果

表2命名實(shí)體識(shí)別、詞性標(biāo)注結(jié)果

在通用效果的評(píng)估上,我們基于BERT的提升比較顯著,但是在RoBERTa的基線上由于baseline的增高,提升比較微弱。另外,在各個(gè)任務(wù)的提升幅度上,大致上是序列標(biāo)注>閱讀理解>文本分類(lèi),可能是因?yàn)樽址畔⒃谛蛄袠?biāo)注任務(wù)上更為重要。

魯棒性評(píng)估

我們基于上述三類(lèi)任務(wù)進(jìn)行了魯棒性評(píng)估。在該部分評(píng)估集的構(gòu)建上,我們主要按照之前的工作[4]通過(guò)四種方式進(jìn)行字符層級(jí)的攻擊:dropping, adding, swapping和keyboard。與之前工作不同的是,我們同時(shí)考慮問(wèn)答、文本分類(lèi)和序列標(biāo)注三類(lèi)任務(wù),而不僅僅是某一類(lèi)任務(wù)上的魯棒性,整體魯棒性對(duì)比結(jié)果如下表3所示。

表3魯棒性測(cè)試

其中AdvBERT是我們基于BERT進(jìn)行與CharBERT同樣數(shù)據(jù)和超參的預(yù)訓(xùn)練,BERT+WordRec是之前工作[4]在BERT之前增加了一個(gè)詞糾正器,Original是原始測(cè)試集,Attack是攻擊集合。我們可以看到BERT在攻擊集合上效果下降很大,說(shuō)明BERT的表示在字符攻擊上確實(shí)不魯棒。CharBERT在保持原有集合效果提升的前提下,大幅度提升了BERT的魯棒性。以其中QNLI的數(shù)據(jù)進(jìn)行具體對(duì)比,我們可以發(fā)現(xiàn)各模型效果變化如下。

圖6QNLI上不同模型的魯棒性對(duì)比

我們可以看到BERT效果下降幅度超過(guò)30%,另外兩個(gè)baseline模型效果降幅明顯縮小,而CharBERT下降幅度為12%,顯著超過(guò)了所有模型。

分析

為了進(jìn)一步探究文首所提出的預(yù)訓(xùn)練模型不完整和不魯棒的問(wèn)題,我們基于CoNLL-2003 NER數(shù)據(jù)的測(cè)試集做了進(jìn)一步分析。

Word vs. Subword

針對(duì)不完整性問(wèn)題,我們將測(cè)試集中所有的詞按照是否會(huì)被BERT tokenizer切分成多個(gè)子詞分成‘Word’和‘Subword’兩個(gè)子集合,前者不會(huì)被切分(如‘a(chǎn)pple’)而后者會(huì)被切分成多個(gè)子詞(如‘backhand’)。實(shí)際上,‘Subword’部分只包含了所有詞的17.8%但是包含了所有實(shí)體的45.3%。CharBERT和BERT在整體與兩個(gè)子集合中的效果如下圖7所示。

圖7CoNLL-2003 NER上性能表現(xiàn)對(duì)比

首先,對(duì)比同一個(gè)模型在不同集合上的表現(xiàn),我們發(fā)現(xiàn)‘Word’集合上的效果都要遠(yuǎn)高于‘Subword’集合,這說(shuō)明切分成多個(gè)詞確實(shí)對(duì)模型效果有直接影響,子詞粒度的表示應(yīng)該客觀上存在不充分的問(wèn)題。對(duì)比同一個(gè)集合下不同模型的表現(xiàn),我們發(fā)現(xiàn)CharBERT在‘Word’集合上的提升是0.29%,而在‘Subword’集合上的提升是0.68%,這說(shuō)明主要的提升來(lái)源于‘Subword’集合,也就是說(shuō)我們通過(guò)融入字符信息,可以有效提升切分成多個(gè)子詞部分的效果,緩解了表示上的不完整問(wèn)題。

魯棒性分析

針對(duì)預(yù)訓(xùn)練模型的魯棒性問(wèn)題,我們探究預(yù)訓(xùn)練的表示在字符噪音下的變化。我們定義了一個(gè)敏感性指標(biāo)分析模型輸出的詞向量在噪音下的變化量,從而分析模型對(duì)噪音的敏感程度,其具體計(jì)算如下:

其中m是集合中詞的總數(shù),模型敏感性S本質(zhì)上是模型在整個(gè)集合所有序列輸出的表示在引入噪音后的cosine距離均值,如果一個(gè)模型對(duì)噪音完全不敏感,那么前后表示不變,S=0。對(duì)應(yīng)到具體一個(gè)序列,我們也可以對(duì)每一個(gè)詞計(jì)算引入噪音后的表示變化,如圖8所示。

圖8CoNLL-2003 NER敏感度測(cè)試

我們發(fā)現(xiàn)對(duì)于沒(méi)有引入噪音的詞如‘I’、‘it’三個(gè)模型輸出表示的變化量區(qū)別不大。而對(duì)于引入字符噪音的詞如‘think-thnik’、’fair-far’,CharBERT的變化量要遠(yuǎn)遠(yuǎn)大于BERT,而經(jīng)過(guò)噪音數(shù)據(jù)進(jìn)行訓(xùn)練的AdvBERT則明顯低于BERT。在整個(gè)集合統(tǒng)計(jì)上也具有相同趨勢(shì):S(BERT)=0.0612,S(AdvBERT)=0.0407,S(CharBERT)=0.0986。說(shuō)明CharBERT通過(guò)NLM的預(yù)訓(xùn)練對(duì)噪音部分采用了不同方式的表示,與常規(guī)使用噪音數(shù)據(jù)來(lái)提升模型魯棒性方式有些不同。直觀上,我們一般認(rèn)為越不敏感的模型魯棒性越好,但是CharBERT通過(guò)對(duì)噪音部分不同的建模,在表示變得敏感的同時(shí)也提升了魯棒性,這將啟發(fā)我們后續(xù)提升模型魯棒性的路徑也可以有多種方向。

總結(jié)

本文主要基于目前預(yù)訓(xùn)練模型表示粒度上不完整和不魯棒的兩個(gè)問(wèn)題,提出了字符感知預(yù)訓(xùn)練模型CharBERT,通過(guò)在已有預(yù)訓(xùn)練架構(gòu)上融入字符信息來(lái)解決這些問(wèn)題。CharBERT在技術(shù)上融合了傳統(tǒng)的CNN、RNN與現(xiàn)在流行的transformer結(jié)構(gòu),在模型特征上具有字符敏感、魯棒和可拓展的特點(diǎn),可以自然拓展到現(xiàn)在基于transformer的各種預(yù)訓(xùn)練模型上。另外,由于本工作限于英語(yǔ)單個(gè)語(yǔ)種和有限的算力,在通用的任務(wù)上效果提升有限。未來(lái)可以在更多的語(yǔ)種,尤其是在字符層級(jí)帶有更多形態(tài)學(xué)信息的語(yǔ)言上進(jìn)行適配,同時(shí)也可以在噪音種類(lèi)上拓展到子詞、句子級(jí)別的噪音,更全面地提升預(yù)訓(xùn)練模型的魯棒性。

原文標(biāo)題:COLING 2020 | 字符感知預(yù)訓(xùn)練模型CharBERT

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50442
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134646

原文標(biāo)題:COLING 2020 | 字符感知預(yù)訓(xùn)練模型CharBERT

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言模型
    的頭像 發(fā)表于 03-21 18:24 ?1693次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 03-11 07:18

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對(duì)大模型
    的頭像 發(fā)表于 02-19 16:10 ?1004次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化>這本書(shū)。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型
    發(fā)表于 01-14 16:51

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    模型展示了強(qiáng)大的泛化能力,能夠?qū)⒃谀M環(huán)境學(xué)到的技能遷移到真實(shí)場(chǎng)景。RT-2的改進(jìn)版本更是引入了視覺(jué)-語(yǔ)言預(yù)訓(xùn)練技術(shù),使模型能夠理解更抽象的任務(wù)描述。 第8章通過(guò)具體應(yīng)用案例展現(xiàn)了具身
    發(fā)表于 12-24 15:03

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類(lèi)型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)容庫(kù),如用
    的頭像 發(fā)表于 12-20 10:32 ?501次閱讀

    GPU是如何訓(xùn)練AI大模型

    在AI模型訓(xùn)練過(guò)程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái),AI部落小編帶您了解GPU是如何訓(xùn)練AI大模型的。
    的頭像 發(fā)表于 12-19 17:54 ?753次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    寫(xiě)給小白的大模型入門(mén)科普

    什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的時(shí)候,也叫FoundationModel,基礎(chǔ)模型。大模型是一個(gè)簡(jiǎn)稱。完
    的頭像 發(fā)表于 11-23 01:06 ?708次閱讀
    寫(xiě)給小白的大<b class='flag-5'>模型</b>入門(mén)科普

    如何訓(xùn)練自己的LLM模型

    于什么任務(wù),比如文本生成、翻譯、問(wèn)答等。 明確你的模型需要達(dá)到的性能標(biāo)準(zhǔn)。 數(shù)據(jù)收集與處理 : 收集大量的文本數(shù)據(jù),這些數(shù)據(jù)將用于訓(xùn)練模型。 清洗數(shù)據(jù),去除無(wú)用信息,如HTML標(biāo)簽、特殊字符
    的頭像 發(fā)表于 11-08 09:30 ?1530次閱讀

    AI大模型訓(xùn)練數(shù)據(jù)來(lái)源分析

    AI大模型訓(xùn)練數(shù)據(jù)來(lái)源廣泛且多元化,這些數(shù)據(jù)源對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)AI大模型訓(xùn)練數(shù)據(jù)來(lái)源的分析: 一、公開(kāi)數(shù)據(jù)集 公開(kāi)
    的頭像 發(fā)表于 10-23 15:32 ?3690次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型是一個(gè)復(fù)雜且耗時(shí)的過(guò)程,涉及多個(gè)關(guān)鍵步驟。以下是一個(gè)詳細(xì)的訓(xùn)練流程: 一、明確需求和目標(biāo) 首先,需要明確自己的需求和目標(biāo)。不同的任務(wù)和應(yīng)用領(lǐng)域需要不同類(lèi)型的AI模型
    的頭像 發(fā)表于 10-23 15:07 ?5002次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?599次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    蘋(píng)果揭示AI新動(dòng)向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓(xùn)練

    蘋(píng)果公司在最新的技術(shù)論文中披露了一項(xiàng)重要信息,其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU,而是選擇了在谷歌設(shè)計(jì)的云端芯片上進(jìn)行預(yù)訓(xùn)練。這一決定不僅打破了行
    的頭像 發(fā)表于 07-30 15:00 ?852次閱讀