国产精品黄页免费高清在线观看 ,69电影网

來自：李rumor

大模型是一個實驗工程，涉及數據清洗、底層框架、算法策略等多個工序，每個環(huán)節(jié)都有很多坑，因此知道如何避坑和技術選型非常重要，可以節(jié)省很多算力和時間。

近期百川智能發(fā)布了Baichuan2的7B和13B版本，可能不少卷友被刷屏慣了沒有仔細看，他們在放出模型的同時也給了一份技術報告，里面干貨滿滿，因此我自來水一波，帶大家一起看看百川積累的KnowHow。同時也有一些我沒完全懂的地方，希望拋磚引玉，可以一起在評論區(qū)討論。

Pre-train

數據

數據多樣性

從不同的來源獲取數據，最好建立一個類目體系，可以提升對整體數據分布的把控，方便后續(xù)增減。

進行聚類和去重，可以通過LSH局部敏感或者稠密向量作為聚類特征，LSH更快一些，但向量可以更好地編碼語義。但這里有個問題是需要卡閾值，去重過猛會影響多樣性降低泛化能力。因此百川選擇的做法是去除一部分，并對剩余的樣本打分，作為預訓練時采樣的權重。

整體去重的流程如下（這里我沒太懂的是為何把Document去重放在最后一步，如果放在前面的環(huán)節(jié)應該可以顯著減少句子和段落的數據量）：

數據質量

采用句子級別的分類器進行過濾，這個是業(yè)內常用做法了，但具體用什么數據訓練，用什么標準標注沒有細說。

對于內容安全，用規(guī)則和模型洗掉有害內容，還額外找了一些正向價值觀的數據源，提升采樣概率。

模型結構

Tokenizer

Tokenizer的難點是平衡壓縮比和詞表尺寸，比如頻繁出現的幾個中文是可以用1個token表示的，這樣inference時就會很快，但合并的話這幾個中文字單獨的embedding訓練可能就不充分，跟其他字組合時語義表示會不夠好。

因此百川使用BPE，選擇了比較折中的12萬大小，同時披露了以下細節(jié)：

對原始數據不做任何歸一化

把數字完全拆開，可以更好理解數值數據

為了代碼數據，專門增加空格token

覆蓋率在0.9999，只有少量fall back（一種避免OOV的方法，在碰到unknown中文時會變成utf8的byte token）

位置編碼

由于有外推的需求，最近位置編碼有很多新的工作，比較火的當屬RoPE和ALiBi，這里百川都用了，因為他們實驗發(fā)現位置編碼并沒有顯著影響模型表現，同時進行了速度優(yōu)化：

RoPE + Flash Attention

ALiBi + xFormers

激活函數

采用了表現更好的SwiGLU，由于SwiGLU有三個矩陣，引入了更多參數，因此百川縮小了FFN層的尺寸（4->8/3再處理成128的倍數）。

Normalisations

對Transformer的輸入采用LayerNorm，對warm-up更魯棒

采用了RMSNorm的實現，指計算輸入特征的方差，提升計算效率

混合精度

采用BF16，因為其具有更大的范圍，可以讓訓練更穩(wěn)定，但對于位置編碼、優(yōu)化器等，采用全精度。

提升穩(wěn)定性

NormHead：對輸出的表示進行歸一化。首先低頻token的模會在訓練中變小，進行歸一化后可以提升穩(wěn)定性。另外百川通過對輸出表示聚類，發(fā)現cosine距離可以將相似語義的聚到一起而L2距離不行，歸一化可以消除最終計算logits時點乘中L2的影響。從實驗結果可以明顯發(fā)現loss收斂更好更穩(wěn)定。

Max-z loss：在訓練過程中，百川發(fā)現模型的logits都很大，這樣就會對解碼時的超參數魯棒性較低，因此增加max-z loss拉低logits的值。

注：對于預訓練的優(yōu)化解讀跳過了Infra的部分，不是那么懂。。

Alignment

SFT

數據質量：采用抽檢的方式進行質量把控，抽一批數據檢查，不合格全部退回。

數據數量：100k（目前開源SFT數據還是挺多的，不知道百川出于什么考慮

Reward Model

Prompt多樣性：構造了一個200+細分類目的數據體系，盡可能覆蓋用戶需求，同時提升每類prompt多樣性，從而提升泛化能力

Response多樣性：用不同尺寸和階段的百川模型生成答案，不使用其他開源模型（經驗證無法提升RM準確率）

PPO

預先對critic模型進行了warmup

為提升RL穩(wěn)定性，進行梯度裁剪

安全

由于模型開源，百川在內容安全上非常細致，包括：

聘請10位專業(yè)審核人員構建了100+安全類目

用50人的標注團隊構建了200K攻擊指令

對于攻擊指令，生產多樣性很大的回答

總結

Baichuan2的效果比第一版提升了很多，在推理任務上效果翻倍，是目前開源模型中過了最多中文語料的模型。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4784

瀏覽量
98082
開源

開源

+關注

關注
3

文章
4209

瀏覽量
46163
函數

函數

+關注

關注
3

文章
4417

瀏覽量
67536
大模型

大模型

+關注

關注
2

文章
3651

瀏覽量
5191

原文標題：總結

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

百川的大模型KnowHow介紹

評論