基于掩碼模型的LiDAR感知模型預(yù)訓(xùn)練策略

本文提出了BEV-MAE，一種高效的3D點云感知模型預(yù)訓(xùn)練算法，可直接使用大量的無標(biāo)記點云數(shù)據(jù)對感知模型進(jìn)行預(yù)訓(xùn)練從而降低對點云標(biāo)記的需求。BEV-MAE首先使用鳥瞰圖引導(dǎo)的掩碼策略來對3D點云輸入進(jìn)行掩碼，該部分被掩蓋的點云將被替換為共享的可學(xué)習(xí)令牌。之后被處理過的點云依次輸入到3D編碼器和輕量級的解碼器中，由輕量級的解碼器重建被掩蓋的點云并預(yù)測被掩蓋區(qū)域的點云密度。BEV-MAE在自動駕駛感知數(shù)據(jù)集Waymo上以最低的預(yù)訓(xùn)練代價取得了最高的3D目標(biāo)檢測精度提升。同時，基于Transfusion-L檢測器，BEV-MAE在自動駕駛感知數(shù)據(jù)集nuScenes上取得了領(lǐng)先的3D點云目標(biāo)檢測結(jié)果。? ??

研究背景：

3D目標(biāo)檢測是自動駕駛中最基本的任務(wù)之一。近年來，由于標(biāo)注數(shù)據(jù)集和數(shù)據(jù)量的增加，基于激光雷達(dá)（LiDAR）的3D目標(biāo)檢測算法取得了顯著的成功。然而，現(xiàn)有的基于激光雷達(dá)的3D目標(biāo)檢測算法通常采用從頭開始訓(xùn)練的范式（training from scratch）。這種范式存在兩個顯著的缺陷。首先，從頭開始訓(xùn)練的范式在很大程度上依賴于大量的標(biāo)注數(shù)據(jù)，而對于3D目標(biāo)檢測而言，標(biāo)注準(zhǔn)確的物體包圍框和分類標(biāo)簽是需要大量人工參與的，且非常昂貴和耗時的。例如，在KITTI數(shù)據(jù)集上標(biāo)注一個物體需要大約114秒。其次，在許多實際應(yīng)用場景中，自動駕駛車輛在行駛過程中可以生成大量無標(biāo)注的點云數(shù)據(jù)，而從頭開始訓(xùn)練的范式不能很好地將這部分?jǐn)?shù)據(jù)利用起來。

方法部分：

針對該問題，作者研究了一種針對自動駕駛場景的 3D 點云自監(jiān)督預(yù)訓(xùn)練方法，提出了一種名為 BEV-MAE 的鳥瞰圖掩碼自編碼器框架，專門用于預(yù)訓(xùn)練自動駕駛場景的 3D 目標(biāo)檢測器。具體流程圖如下圖所示：

? ?

BEV-MAE首先使用鳥瞰圖引導(dǎo)的掩碼策略來對3D點云輸入進(jìn)行掩碼。然后，這部分被掩蓋的點云將被替換為共享的可學(xué)習(xí)令牌。之后，將處理后的點云依次輸入到3D編碼器和輕量級的解碼器中。最后，輕量級的解碼器將重建被掩蓋的點云并預(yù)測被掩蓋區(qū)域的點云密度。

a、鳥瞰圖掩碼策略

在基于激光雷達(dá)的3D目標(biāo)檢測中，點云通常被劃分為規(guī)則的體素塊。一種簡單的掩碼策略是像視覺中的補(bǔ)丁掩碼一樣，對體素化后的點云進(jìn)行掩碼。然而，這種簡單的體素掩碼策略沒有顯式地學(xué)習(xí)自動駕駛中主流的3D目標(biāo)檢測方法中使用的鳥瞰圖特征表示。

為此，作者提出了一種鳥瞰圖引導(dǎo)的掩碼策略對鳥瞰圖平面中的點云進(jìn)行掩碼操作。

具體而言，假設(shè)點云被編碼和轉(zhuǎn)換后鳥瞰圖視角中的特征分辨率為，首先預(yù)定義一個大小為的網(wǎng)格狀鳥瞰圖平面。然后，根據(jù)點云的坐標(biāo)將每個點云投影到預(yù)定義平面的相應(yīng)鳥瞰圖網(wǎng)格中。之后，作者將隨機(jī)選擇一部分非空的鳥瞰圖網(wǎng)格作為被掩碼的網(wǎng)格，并將其余的鳥瞰圖網(wǎng)格視為可見網(wǎng)格。最后將所有投影到可見網(wǎng)格中的點云視為掩碼后的點云輸入到網(wǎng)絡(luò)中。

b、共享可學(xué)習(xí)token

常用的基于體素的3D目標(biāo)檢測器的3D編碼器通常由多個稀疏卷積操作組成，而稀疏卷積僅會處理非空體素附近的特征，因此，將掩碼后的點云作為輸入時，3D編碼器的感受野將會變小。為了解決這個問題，作者采用一個共享的可學(xué)習(xí)令牌替換被掩蓋的點云。具體來說，作者使用完整點云的坐標(biāo)作為稀疏卷積的輸入索引，并在第一個稀疏卷積層中用共享的可學(xué)習(xí)令牌替換被掩碼點云的特征，同時保持其他稀疏卷積層不變。所提出的共享可學(xué)習(xí)令牌的唯一目的是將信息從一個點或體素傳遞到另一個點或體素，以維持感受野大小不變，而不引入任何額外的信息，包括被掩碼點的坐標(biāo)，來降低重建任務(wù)的難度。? ??

c、掩碼預(yù)測任務(wù)

所提出的BEV-MAE由兩個任務(wù)作為監(jiān)督，即點云重建和密度預(yù)測。對于每個任務(wù)，都采用獨立的線性層作為預(yù)測頭來預(yù)測結(jié)果。

對于點云重建，與之前的工作類似，BEV-MAE通過預(yù)測被掩碼點云的坐標(biāo)來重建掩碼輸入。采用chamfer-distance作為訓(xùn)練損失函數(shù)。

對于密度預(yù)測，不同于圖像、語言和室內(nèi)點云，自動駕駛場景中室外點云的密度具有隨離激光雷達(dá)傳感器越遠(yuǎn)而越稀疏的特性。因此，密度可以反映每個點或物體的位置信息。而對于目標(biāo)檢測而言，檢測器的定位能力至關(guān)重要。因此，點云密度預(yù)測任務(wù)能夠一定程度上指導(dǎo)3D編碼器獲得更好的定位能力。

具體而言，對于每個被掩碼的網(wǎng)格，計算此網(wǎng)格中的點云數(shù)量，并通過將點云數(shù)量除以其在3D空間中的占用體積來得到對應(yīng)的密度真值。然后，BEV-MAE使用線性層作為預(yù)測頭來預(yù)測密度。密度預(yù)測使用Smooth-L1損失來監(jiān)督此任務(wù)。

實驗部分：? ?

BEV-MAE主要在兩個主流的自動駕駛數(shù)據(jù)集nuScenes和Waymo上進(jìn)行實驗。

在Waymo上，BEV-MAE以較低的預(yù)訓(xùn)練代價，取得了更高的3D目標(biāo)檢測性能提升，如下圖所示：

在nuScenes上，以BEV-MAE作為預(yù)訓(xùn)練算法，能夠進(jìn)一步提升當(dāng)前最強(qiáng)點云3D目標(biāo)檢測器的性能。以TransFusion-L作為基礎(chǔ)3D檢測器，外加BEV-MAE的預(yù)訓(xùn)練算法，在nuScenes數(shù)據(jù)集上取得了先進(jìn)的單模態(tài)點云3D目標(biāo)檢測結(jié)果。

結(jié)論：

本文針對點云預(yù)訓(xùn)練問題，提出了BEV-MAE，一種基于掩碼模型的LiDAR感知模型預(yù)訓(xùn)練策略，在預(yù)訓(xùn)練效率和性能上表現(xiàn)出色，可緩解LiDAR感知模型對標(biāo)記數(shù)據(jù)的需求。

審核編輯：黃飛

閱讀全文

傳感器(788347) 傳感器(788347)
編碼器(141822) 編碼器(141822)
激光雷達(dá)(195804) 激光雷達(dá)(195804)
自動駕駛(177666) 自動駕駛(177666)
LIDAR(31235) LIDAR(31235)

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識，但仍舊存在很多問題，如知識量有限、受訓(xùn)練數(shù)據(jù)長尾分布影響魯棒性不好等

2022-04-02 17:21:43

10696

基于不同量級預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個字符的語料經(jīng)過預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對于一個預(yù)訓(xùn)練模型，對于不同量級下的預(yù)訓(xùn)練數(shù)據(jù)能夠提取到的知識和能力有何不同？

2023-03-03 11:21:51

2684

基于Transformer做大模型預(yù)訓(xùn)練基本的并行范式

在之前的內(nèi)容中，我們已經(jīng)介紹過流水線并行、數(shù)據(jù)并行（DP，DDP和ZeRO）。今天我們將要介紹最重要，也是目前基于Transformer做大模型預(yù)訓(xùn)練最基本的并行范式：來自NVIDIA的張量模型

2023-05-31 14:38:23

4295

用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)

作者：算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力之前我們分享了《從零開始訓(xùn)練一個大語言模型需要投資多少錢》，其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對大模型預(yù)訓(xùn)練技術(shù)感興趣的朋友望而卻步。應(yīng)廣大讀者的需求，本文將

2025-02-19 16:10:10

2241

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理？

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2025-03-11 07:18:18

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么解決？

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

Pytorch模型訓(xùn)練實用PDF教程【中文】

本教程以實際應(yīng)用、工程開發(fā)為目的，著重介紹模型訓(xùn)練過程中遇到的實際問題和方法。在機(jī)器學(xué)習(xí)模型開發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)化器。本文也按順序的依次介紹數(shù)據(jù)、模型和損失函數(shù)

2018-12-21 09:18:02

《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

的應(yīng)用。MAML算法通過二階優(yōu)化找到對任務(wù)變化敏感的模型參數(shù)，實現(xiàn)了快速適應(yīng)。上下文學(xué)習(xí)則引入了注意力機(jī)制，使模型能夠根據(jù)當(dāng)前場景動態(tài)調(diào)整行為策略。在預(yù)訓(xùn)練-微調(diào)范式中，我們要注意任務(wù)表示的重要性：好的表示

2024-12-24 15:03:54

【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項關(guān)鍵技術(shù)，它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型基礎(chǔ)上，使用新的、特定任務(wù)相關(guān)的數(shù)據(jù)

2025-01-14 16:51:12

【「大模型啟示錄」閱讀體驗】如何在客服領(lǐng)域應(yīng)用大模型

地選擇適合的模型。不同的模型具有不同的特點和優(yōu)勢。在客服領(lǐng)域，常用的模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長短時記憶網(wǎng)絡(luò)（LSTM）、門控循環(huán)單元（GRU）、Transformer等，以及基于這些架構(gòu)的預(yù)

2024-12-17 16:53:12

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)

2024-05-07 17:10:27

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

模型架構(gòu)奠定基礎(chǔ)。然后，引介一些經(jīng)典的預(yù)訓(xùn)練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列模型，幫助讀者初步感知大語言模型。文本主要由詞序列構(gòu)成，詞是自然語言處理的基本單元。文本

2024-05-05 12:17:03

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

。關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力，存在廣泛的爭議。然而，隨著模型參數(shù)量的增加和大規(guī)模預(yù)訓(xùn)練的實施，大語言模型展現(xiàn)出了與人類相似的推理能力。與人類不同的是，大語言模型不能自發(fā)地運(yùn)用這種

2024-05-07 17:21:45

【大語言模型：原理與工程實踐】核心技術(shù)綜述

的復(fù)雜模式和長距離依賴關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過程的第一階段，模型在大量的文本數(shù)據(jù)上學(xué)習(xí)語言的通用表示。常用的預(yù)訓(xùn)練任務(wù)包括遮蔽語言建模（Masked Language

2024-05-05 10:56:58

從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型，無法導(dǎo)入名稱是怎么回事？

從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示（IR）： python3

2025-03-05 07:22:03

醫(yī)療模型人訓(xùn)練系統(tǒng)是什么？

醫(yī)療模型人訓(xùn)練系統(tǒng)是為滿足廣大醫(yī)學(xué)生的需要而設(shè)計的。我國現(xiàn)代醫(yī)療模擬技術(shù)的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產(chǎn)品都源于國外，雖然對于模擬人仿真已經(jīng)出現(xiàn)一些產(chǎn)品，但那些產(chǎn)品只是就模擬人的某一部分，某一個功能實現(xiàn)的仿真，沒有一個完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候，沒有問題，過一會再訓(xùn)練出現(xiàn)非?？D，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU的風(fēng)扇和電源報錯：解決方案自動風(fēng)扇控制在nvidia

2022-01-03 08:24:09

大語言模型：原理與工程時間+小白初識大語言模型

種語言模型進(jìn)行預(yù)訓(xùn)練，此處預(yù)訓(xùn)練為自然語言處理領(lǐng)域的里程碑分詞技術(shù)（Tokenization） Word粒度：我/賊/喜歡/看/大語言模型 character粒度：我/賊/喜/歡/看/大/語/言

2024-05-12 23:57:34

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預(yù)訓(xùn)練的 YOLOv5s 模型，model并傳遞圖像進(jìn)行推理。'yolov5s'是最輕最快的 YOLOv5 型號。有關(guān)所有可用模型的詳細(xì)信息，請參閱自述文件。詳細(xì)示例此示例

2022-07-22 16:02:42

無法轉(zhuǎn)換TF OD API掩碼RPGA模型怎么辦？

無法轉(zhuǎn)換重新訓(xùn)練的 TF OD API 掩碼 RPGA 模型，該模型使用以下命令在 GPU 上工作： mo > --saved_model_dir

2025-03-06 06:44:28

瑞芯微模型量化文件構(gòu)建

模型是一張圖片輸入時，量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型，他的輸入是四個輸入。該模型訓(xùn)練時數(shù)據(jù)集只標(biāo)注了人臉框和關(guān)鍵點，該模型的預(yù)處理是放到模型外的，不在模型

2025-06-13 09:07:13

用tflite接口調(diào)用tensorflow模型進(jìn)行推理

tensorflow模型部署系列的一部分，用于tflite實現(xiàn)通用模型的部署。本文主要使用pb格式的模型文件，其它格式的模型文件請先進(jìn)行格式轉(zhuǎn)換，參考tensorflow模型部署系列————預(yù)訓(xùn)練模型導(dǎo)出。從...

2021-12-22 06:51:18

請問LIDAR感知挑戰(zhàn)有哪些？

請問LIDAR感知挑戰(zhàn)有哪些？

2021-06-17 11:49:08

P2DR模型中策略部署模型的研究與設(shè)計

分析動態(tài)自適應(yīng)網(wǎng)絡(luò)安全模型P2DR的缺陷，提出對P2DR模型的幾點改進(jìn)建議。針對模型中策略相關(guān)不足設(shè)計了一個策略部署模型，該部署模型實現(xiàn)了策略統(tǒng)一定制、自動分發(fā)、自適應(yīng)管

2009-04-13 09:40:16

Watson感知模型分析

本文通過對水印系統(tǒng)感知特性和感知現(xiàn)象的討論，分析watson感知模型設(shè)計思想，研究Watson感知模型的應(yīng)用。

2011-09-01 10:14:50

3770

tensorflow 訓(xùn)練模型之目標(biāo)檢測入門知識與案例解析

對自己和一些同學(xué)能有所幫助。 Object Detection API提供了5種網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)訓(xùn)練的權(quán)重，全部是用數(shù)據(jù)集進(jìn)行訓(xùn)練。

2017-12-27 13:43:39

17192

觸覺感知和發(fā)展的模型

由于觸覺是一種主動的感覺，即感覺器官在感覺過程中被移動，所以這些模型經(jīng)常描述優(yōu)化感知結(jié)果的運(yùn)動策略。

2018-05-03 16:18:55

5915

為什么要使用預(yù)訓(xùn)練模型？8種優(yōu)秀預(yù)訓(xùn)練模型大盤點

正如我們在本文中所述，ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，將其在WikiText-103數(shù)據(jù)集（維基百科的長期依賴語言建模數(shù)據(jù)集Wikitext之一）上訓(xùn)練，從而得到新數(shù)據(jù)集，通過這種方式使其不會忘記之前學(xué)過的內(nèi)容。

2019-04-04 11:26:26

24417

為什么要使用預(yù)訓(xùn)練模型？一些頂級的預(yù)訓(xùn)練模型介紹

多用途模型是自然語言處理領(lǐng)域的熱門話題。這些模型為機(jī)器翻譯、問答系統(tǒng)、聊天機(jī)器人、情緒分析等我們感興趣的自然語言處理應(yīng)用提供了動力。這些多用途自然語言處理模型的核心組件是語言建模的概念。

2019-04-08 14:24:17

39003

新的預(yù)訓(xùn)練方法——MASS！MASS預(yù)訓(xùn)練幾大優(yōu)勢！

專門針對序列到序列的自然語言生成任務(wù)，微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法：屏蔽序列到序列預(yù)訓(xùn)練（MASS: Masked Sequence to Sequence Pre-training）。MASS對句子隨機(jī)屏蔽一個長度為k的連續(xù)片段，然后通過編碼器-注意力-解碼器模型預(yù)測生成該片段。

2019-05-11 09:34:02

7953

騰訊開源首個3D醫(yī)療影像大數(shù)據(jù)預(yù)訓(xùn)練模型

自然圖像領(lǐng)域中存在著許多海量數(shù)據(jù)集，如ImageNet，MSCOCO?；谶@些數(shù)據(jù)集產(chǎn)生的預(yù)訓(xùn)練模型推動了分類、檢測、分割等應(yīng)用的進(jìn)步。

2019-08-20 15:03:16

2304

檢索增強(qiáng)型語言表征模型預(yù)訓(xùn)練

如果有一種預(yù)訓(xùn)練方法可以顯式地獲取知識，如引用額外的大型外部文本語料庫，在不增加模型大小或復(fù)雜性的情況下獲得準(zhǔn)確結(jié)果，會怎么樣？

2020-09-27 14:50:05

2512

預(yù)訓(xùn)練語言模型設(shè)計的理論化認(rèn)識

在這篇文章中，我會介紹一篇最新的預(yù)訓(xùn)練語言模型的論文，出自MASS的同一作者。這篇文章的亮點是：將兩種經(jīng)典的預(yù)訓(xùn)練語言模型（MaskedLanguage Model, Permuted

2020-11-02 15:09:36

3702

關(guān)于語言模型和對抗訓(xùn)練的工作

本文把對抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個階段，對抗訓(xùn)練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進(jìn)行對抗，在下游任務(wù)上取得了一致的效果提升。有趣的是，這種對抗

2020-11-02 15:26:49

2696

圖解BERT預(yù)訓(xùn)練模型！

BERT的發(fā)布是這個領(lǐng)域發(fā)展的最新的里程碑之一，這個事件標(biāo)志著NLP 新時代的開始。BERT模型打破了基于語言處理的任務(wù)的幾個記錄。在 BERT 的論文發(fā)布后不久，這個團(tuán)隊還公開了模型的代碼，并提供了模型的下載版本

2020-11-24 10:08:22

4540

字符感知預(yù)訓(xùn)練模型CharBERT

本期推送介紹了哈工大訊飛聯(lián)合實驗室在自然語言處理重要國際會議COLING 2020上發(fā)表的工作，提出了一種字符感知預(yù)訓(xùn)練模型CharBERT，在多個自然語言處理任務(wù)中取得顯著性能提升，并且大幅度

2020-11-27 10:47:09

2481

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

導(dǎo)讀：預(yù)訓(xùn)練模型在NLP大放異彩，并開啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)雜性，以及工業(yè)應(yīng)用對推理性能的要求，大規(guī)模預(yù)訓(xùn)練模型往往不能簡單直接地被應(yīng)用于NLP業(yè)務(wù)中。本文將為

2020-12-31 10:17:11

3696

一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測網(wǎng)絡(luò)模型

為提高卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測模型精度并增強(qiáng)檢測器對小目標(biāo)的檢測能力，提出一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測網(wǎng)絡(luò)模型。采用脫離預(yù)訓(xùn)練檢測網(wǎng)絡(luò)使其達(dá)到甚至超過預(yù)訓(xùn)練模型的精度，針對小目標(biāo)特點

2021-04-02 11:35:50

基于預(yù)訓(xùn)練模型和長短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

作為模型的初始化詞向量。但是，隨機(jī)詞向量存在不具備語乂和語法信息的缺點;預(yù)訓(xùn)練詞向量存在¨一詞-乂”的缺點，無法為模型提供具備上下文依賴的詞向量。針對該問題，提岀了一種基于預(yù)訓(xùn)練模型BERT和長短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)

2021-04-20 14:29:06

基于BERT的中文科技NLP預(yù)訓(xùn)練模型

深度學(xué)習(xí)模型應(yīng)用于自然語言處理任務(wù)時依賴大型、高質(zhì)量的人工標(biāo)注數(shù)據(jù)集。為降低深度學(xué)習(xí)模型對大型數(shù)據(jù)集的依賴，提出一種基于BERT的中文科技自然語言處理預(yù)訓(xùn)練模型 ALICE。通過對遮罩語言模型進(jìn)行

2021-05-07 10:08:16

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型（如RoBERTa、BERT等）中融入知識。

2021-06-23 15:07:31

5933

應(yīng)用于任意預(yù)訓(xùn)練模型的prompt learning模型—LM-BFF

/2107.13586.pdf 相關(guān)資源：http://pretrain.nlpedia.ai Part1什么是Prompt Learning 從BERT誕生開始，使用下游任務(wù)數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語言模型（LM）已成為

2021-08-16 11:21:22

5231

多模態(tài)圖像-文本預(yù)訓(xùn)練模型

某一方面的智能程度。具體來說是，領(lǐng)域?qū)＜胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集，然后在其上訓(xùn)練及評價相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制，要想獲得效果更好、能力更強(qiáng)的模型，往往需要在大量的有標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。近期預(yù)訓(xùn)練模型的

2021-09-06 10:06:53

4733

基于預(yù)訓(xùn)練視覺-語言模型的跨模態(tài)Prompt-Tuning

、新加坡國立大學(xué) 鏈接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要 預(yù)訓(xùn)練的視覺語言模型（VL-PTMs）在將自然語言融入圖像數(shù)據(jù)中顯示出有前景的能力，促進(jìn)

2021-10-09 15:10:42

3888

超大Transformer語言模型的分布式訓(xùn)練框架

大模型的預(yù)訓(xùn)練計算。大模型是大勢所趨近年來，NLP 模型的發(fā)展十分迅速，模型的大小每年以1-2個數(shù)量級的速度在提升，背后的推動力當(dāng)然是大模型可以帶來更強(qiáng)大更精準(zhǔn)的語言語義理解和推理能力。截止到去年，OpenAI發(fā)布的GPT-3模型達(dá)到了175B的大小，相比2018年94M的ELMo模型，三年的時間整整增大了

2021-10-11 16:46:05

4364

探究超大Transformer語言模型的分布式訓(xùn)練框架

大模型的預(yù)訓(xùn)練計算。上篇主要介紹了大模型訓(xùn)練的發(fā)展趨勢、NVIDIA Megatron的模型并行設(shè)計，本篇將承接上篇的內(nèi)容，解析Megatron 在NVIDIA DGX SuperPOD 上的實踐

2021-10-20 09:25:43

3514

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型 2021 OPPO開發(fā)者大會上介紹了融合知識的NLP預(yù)訓(xùn)練大模型。責(zé)任編輯：haq

2021-10-27 14:18:41

2089

2021年OPPO開發(fā)者大會融合知識的NLP預(yù)訓(xùn)練大模型

2021年OPPO開發(fā)者大會劉海鋒：融合知識的NLP預(yù)訓(xùn)練大模型，知識融合學(xué)習(xí)運(yùn)用在小布助手里面。

2021-10-27 14:48:16

2750

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進(jìn)行finetune，得到下游任務(wù)的模型。然而，這種方式

2022-03-21 15:33:30

2813

視覺語言預(yù)訓(xùn)練(VLP)模型的最新進(jìn)展

讓機(jī)器做出與人類相似的反應(yīng)一直是 AI 研究不懈追求的目標(biāo)。為了讓機(jī)器具有感知和思考的能力，研究人員進(jìn)行了一系列相關(guān)研究，如人臉識別、閱讀理解和人機(jī)對話，通過這些任務(wù)訓(xùn)練和評估機(jī)器在特定方面的智能

2022-04-02 17:26:17

4001

Multilingual多語言預(yù)訓(xùn)練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預(yù)訓(xùn)練多語言模型，整體思路基于BERT，并提出了針對多語言預(yù)訓(xùn)練的3個優(yōu)化任務(wù)。后續(xù)很多多語言預(yù)訓(xùn)練工作都建立在XLM的基礎(chǔ)上，我們來詳細(xì)看看XLM的整體訓(xùn)練過程。

2022-05-05 15:23:49

3890

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

2169

微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

為了減輕上述問題，提出了NoisyTune方法，即，在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音，給原始模型增加一些擾動，從而提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果，如下圖所示，

2022-06-07 09:57:32

3471

如何更高效地使用預(yù)訓(xùn)練語言模型

本文對任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實在是太多了，很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出了一個

2022-07-08 11:28:24

1837

基于對抗自注意力機(jī)制的預(yù)訓(xùn)練語言模型

表示輸入的特征，在傳統(tǒng)的對抗訓(xùn)練中，通常是 token 序列或者是 token 的 embedding，表示 ground truth. 對于由參數(shù)化的模型，模型的預(yù)測結(jié)果可以表示為。

2022-07-08 16:57:09

1894

利用視覺語言模型對檢測器進(jìn)行預(yù)訓(xùn)練

預(yù)訓(xùn)練通常被用于自然語言處理以及計算機(jī)視覺領(lǐng)域，以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力，達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場景文本檢測當(dāng)中，如最早的使用ImageNet預(yù)訓(xùn)練模型初始化參數(shù)

2022-08-08 15:33:35

2094

預(yù)訓(xùn)練語言模型的字典描述

今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯(lián)合出品的采用對比學(xué)習(xí)的字典描述知識增強(qiáng)的預(yù)訓(xùn)練語言模型-DictBERT，全名為《Dictionary Description Knowledge

2022-08-11 10:37:55

1661

CogBERT：腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語言模型

另一方面，從語言處理的角度來看，認(rèn)知神經(jīng)科學(xué)研究人類大腦中語言處理的生物和認(rèn)知過程。研究人員專門設(shè)計了預(yù)訓(xùn)練的模型來捕捉大腦如何表示語言的意義。之前的工作主要是通過明確微調(diào)預(yù)訓(xùn)練的模型來預(yù)測語言誘導(dǎo)的大腦記錄，從而納入認(rèn)知信號。

2022-11-03 15:07:08

1695

介紹大模型高效訓(xùn)練所需要的主要技術(shù)

隨著BERT、GPT等預(yù)訓(xùn)練模型取得成功，預(yù)訓(xùn)-微調(diào)范式已經(jīng)被運(yùn)用在自然語言處理、計算機(jī)視覺、多模態(tài)語言模型等多種場景，越來越多的預(yù)訓(xùn)練模型取得了優(yōu)異的效果。

2022-11-08 09:57:19

6121

從預(yù)訓(xùn)練語言模型看MLM預(yù)測任務(wù)

為了解決這一問題，本文主要從預(yù)訓(xùn)練語言模型看MLM預(yù)測任務(wù)、引入prompt_template的MLM預(yù)測任務(wù)、引入verblize類別映射的Prompt-MLM預(yù)測、基于zero-shot

2022-11-14 14:56:34

3786

使用 NVIDIA TAO 工具套件和預(yù)訓(xùn)練模型加快 AI 開發(fā)

NVIDIA 發(fā)布了 TAO 工具套件 4.0 。該工具套件通過全新的 AutoML 功能、與第三方 MLOPs 服務(wù)的集成以及新的預(yù)訓(xùn)練視覺 AI 模型提高開發(fā)者的生產(chǎn)力。該工具套件的企業(yè)版現(xiàn)在

2022-12-15 19:40:06

1775

淺析預(yù)訓(xùn)練模型的起源與發(fā)展

2022年下半年開始，涌現(xiàn)出一大批“大模型”的優(yōu)秀應(yīng)用，其中比較出圈的當(dāng)屬AI作畫與ChatGPT，刷爆了各類社交平臺，其讓人驚艷的效果，讓AI以一個鮮明的姿態(tài)，站到了廣大民眾面前，讓不懂AI的人也能直觀地體會到AI的強(qiáng)大。大模型即大規(guī)模預(yù)訓(xùn)練模型。

2023-02-20 14:09:11

2780

預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個預(yù)訓(xùn)練模型的究竟學(xué)習(xí)到了什么樣的語言學(xué)文本知識呢？

2023-03-03 11:20:00

2345

ELMER: 高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型

每個單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關(guān)系，依次生成的結(jié)構(gòu)也使得自回歸模型難以并行化。目前大部分預(yù)訓(xùn)練生成模型均采用自回歸方式，包括GPT-2，BART，T5等模型。

2023-03-13 10:39:59

2211

什么是預(yù)訓(xùn)練 AI 模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。如果要教一個剛學(xué)會走路的孩子什么是獨角獸，那么我們首先應(yīng)

2023-04-04 01:45:02

2352

利用OpenVINO?部署HuggingFace預(yù)訓(xùn)練模型的方法與技巧

作為深度學(xué)習(xí)領(lǐng)域的 “github”，HuggingFace 已經(jīng)共享了超過 100,000 個預(yù)訓(xùn)練模型

2023-05-19 15:57:43

1717

什么是預(yù)訓(xùn)練AI模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。

2023-05-25 17:10:09

1815

NVIDIA AI 技術(shù)助力 vivo 文本預(yù)訓(xùn)練大模型性能提升

vivo AI 團(tuán)隊與 NVIDIA 團(tuán)隊合作，通過算子優(yōu)化，提升 vivo 文本預(yù)訓(xùn)練大模型的訓(xùn)練速度。在實際應(yīng)用中， 訓(xùn)練提速 60% ，滿足了下游業(yè)務(wù)應(yīng)用對模型訓(xùn)練速度的要求。通過

2023-05-26 07:15:03

1302

PyTorch教程-15.9。預(yù)訓(xùn)練 BERT 的數(shù)據(jù)集

實驗室在 SageMaker Studio Lab 中打開筆記本為了預(yù)訓(xùn)練第 15.8 節(jié)中實現(xiàn)的 BERT 模型，我們需要以理想的格式生成數(shù)據(jù)集，以促進(jìn)兩項預(yù)訓(xùn)練任務(wù)：掩碼語言建模和下一句預(yù)測

2023-06-05 15:44:40

1461

圖解大模型訓(xùn)練之：Megatron源碼解讀2，模型并行

前文說過，用Megatron做分布式訓(xùn)練的開源大模型有很多，我們選用的是THUDM開源的CodeGeeX（代碼生成式大模型，類比于openAI Codex）。選用它的原因是“完全開源”與“清晰的模型架構(gòu)和預(yù)訓(xùn)練配置圖”，能幫助我們高效閱讀源碼。我們再來回顧下這兩張圖。

2023-06-07 15:08:24

7292

NLP中的遷移學(xué)習(xí)：利用預(yù)訓(xùn)練模型進(jìn)行文本分類

遷移學(xué)習(xí)徹底改變了自然語言處理（NLP）領(lǐng)域，允許從業(yè)者利用預(yù)先訓(xùn)練的模型來完成自己的任務(wù)，從而大大減少了訓(xùn)練時間和計算資源。在本文中，我們將討論遷移學(xué)習(xí)的概念，探索一些流行的預(yù)訓(xùn)練模型，并通過實際示例演示如何使用這些模型進(jìn)行文本分類。我們將使用擁抱面轉(zhuǎn)換器庫來實現(xiàn)。

2023-06-14 09:30:14

682

基于預(yù)訓(xùn)練模型和語言增強(qiáng)的零樣本視覺學(xué)習(xí)

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進(jìn)一步提升怎么讓能力更好？可以引入其他知識，即其他的預(yù)訓(xùn)練模型，包括大語言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

1093

基于多任務(wù)預(yù)訓(xùn)練模塊化提示

Prompt Tuning 可以讓預(yù)訓(xùn)練的語言模型快速適應(yīng)下游任務(wù)。雖然有研究證明：當(dāng)訓(xùn)練數(shù)據(jù)足夠多的時候，Prompt Tuning 的微調(diào)結(jié)果可以媲美整個模型的訓(xùn)練調(diào)優(yōu)，但當(dāng)面

2023-06-20 11:04:23

1368

基于醫(yī)學(xué)知識增強(qiáng)的基礎(chǔ)模型預(yù)訓(xùn)練方法

? ? ? 近年來，基于大數(shù)據(jù)預(yù)訓(xùn)練的多模態(tài)基礎(chǔ)模型 (Foundation Model) 在自然語言理解和視覺感知方面展現(xiàn)出了前所未有的進(jìn)展，在各領(lǐng)域中受到了廣泛關(guān)注。在醫(yī)療領(lǐng)域中，由于其任務(wù)

2023-07-07 11:10:10

1894

基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎：大量數(shù)據(jù)究竟是福還是禍？

大型語言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語言模式和知識方面的巨大潛力，這也推動了基于大量數(shù)據(jù)的視覺模型研究。在計算視覺領(lǐng)域，標(biāo)注數(shù)據(jù)通常難以獲取，自監(jiān)督學(xué)習(xí)成為預(yù)訓(xùn)練的主流方法

2023-07-24 16:55:03

1232

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟? 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）是一種常用的深度學(xué)習(xí)算法，廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等諸多領(lǐng)域。CNN

2023-08-21 16:42:00

2660

華為盤古大模型與ChatGPT的技術(shù)優(yōu)勢

大規(guī)模預(yù)訓(xùn)練：華為盤古大模型采用了大規(guī)模預(yù)訓(xùn)練的方法，通過對大量的中文語料進(jìn)行預(yù)訓(xùn)練，使模型具有更強(qiáng)的泛化能力和適應(yīng)能力。

2023-09-05 09:58:32

4743

大語言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

finetune）、rlhf(optional). ?State of GPT：大神 Andrej 揭秘 OpenAI 大模型原理和訓(xùn)練過程。 supervised finetune 一般在 base

2023-09-19 10:00:06

2184

如何優(yōu)化深度學(xué)習(xí)模型?

因為大部分人使用的模型都是預(yù)訓(xùn)練模型，使用的權(quán)重都是在大型數(shù)據(jù)集上訓(xùn)練好的模型，當(dāng)然不需要自己去初始化權(quán)重了。只有沒有預(yù)訓(xùn)練模型的領(lǐng)域會自己初始化權(quán)重，或者在模型中去初始化神經(jīng)網(wǎng)絡(luò)最后那幾個全連接層的權(quán)重。

2024-01-29 14:25:06

3530

谷歌模型訓(xùn)練軟件有哪些功能和作用

谷歌模型訓(xùn)練軟件主要是指ELECTRA，這是一種新的預(yù)訓(xùn)練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢，而且在效率上更勝一籌。

2024-02-29 17:37:39

1308

谷歌模型訓(xùn)練軟件有哪些？谷歌模型訓(xùn)練軟件哪個好？

谷歌在模型訓(xùn)練方面提供了一些強(qiáng)大的軟件工具和平臺。以下是幾個常用的谷歌模型訓(xùn)練軟件及其特點。

2024-03-01 16:24:01

1694

李彥宏：開源模型將逐漸滯后，文心大模型提升訓(xùn)練與推理效率

李彥宏解釋道，百度自研的基礎(chǔ)模型——文心 4.0，能夠根據(jù)需求塑造出適應(yīng)各類場景的微型版模型，并支持精細(xì)調(diào)整以及后預(yù)訓(xùn)練。相較于直接使用開源模型，這種經(jīng)過降維處理的模型在同等尺寸下表現(xiàn)更為出色

2024-04-16 14:37:21

910

LeddarTech和Immervision達(dá)成合作，加速ADAS和AD感知模型訓(xùn)練

近日，汽車技術(shù)領(lǐng)域的兩家領(lǐng)軍企業(yè)LeddarTech和Immervision宣布達(dá)成合作，共同推動高級駕駛輔助系統(tǒng)（ADAS）和自動駕駛（AD）感知模型訓(xùn)練的發(fā)展。

2024-05-11 10:44:07

794

摩爾線程和滴普科技完成大模型訓(xùn)練與推理適配

近日，摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥（KUAE）千卡智算集群與滴普科技的企業(yè)大模型Deepexi已完成訓(xùn)練及推理適配，共同實現(xiàn)了700億參數(shù)LLaMA2大語言模型的預(yù)訓(xùn)練測試。

2024-05-30 10:14:06

1101

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型，本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù)，使模型能夠更好地擬合數(shù)據(jù)，提高預(yù)測或分類的準(zhǔn)確性。本文將

2024-07-01 16:13:10

4023

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機(jī)視覺（CV）等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)訓(xùn)練模型指的是在大型數(shù)據(jù)集上預(yù)先

2024-07-03 18:20:15

5521

人臉識別模型訓(xùn)練是什么意思

人臉識別模型訓(xùn)練是指通過大量的人臉數(shù)據(jù)，使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法，訓(xùn)練出一個能夠識別和分類人臉的模型。這個模型可以應(yīng)用于各種場景，如安防監(jiān)控、身份認(rèn)證、社交媒體等。下面將介紹人臉識別模型訓(xùn)練

2024-07-04 09:16:00

1917

人臉識別模型訓(xùn)練流程

人臉識別模型訓(xùn)練流程是計算機(jī)視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細(xì)介紹人臉識別模型的訓(xùn)練流程，包括數(shù)據(jù)準(zhǔn)備、模型選擇、模型訓(xùn)練、模型評估和應(yīng)用部署等環(huán)節(jié)。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)是訓(xùn)練人臉識別模型的基礎(chǔ)。在數(shù)

2024-07-04 09:19:05

2620

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使模型學(xué)習(xí)到語言的通用知識，為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大語言模型預(yù)訓(xùn)練的基本原理、步驟以及面臨的挑戰(zhàn)。

2024-07-11 10:11:52

1580

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日（周三）20：00精彩開播期待與您云相聚，共襄學(xué)術(shù)盛宴！|直播信息報告題目預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)報告簡介雖然近年來

2024-10-18 08:09:47

953

如何訓(xùn)練自己的LLM模型

訓(xùn)練自己的大型語言模型（LLM）是一個復(fù)雜且資源密集的過程，涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓(xùn)練LLM模型的一般步驟，以及一些關(guān)鍵考慮因素：定義目標(biāo)和需求：確定你的LLM將用

2024-11-08 09:30:00

2053

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

，基礎(chǔ)模型。 ? 大模型是一個簡稱，完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。預(yù)訓(xùn)練，是一項技術(shù)，我們后面再解釋。 ? 我們現(xiàn)在口頭上常說的大模型，實際上特指大模型的其中一類，也是用得最多的一類——語言大模型（Large Language Model，也叫大語言模型，簡稱LLM）。 ? 除了

2024-11-25 09:29:44

15735

寫給小白的大模型入門科普

什么是大模型？大模型，英文名叫LargeModel，大型模型。早期的時候，也叫FoundationModel，基礎(chǔ)模型。大模型是一個簡稱。完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。預(yù)訓(xùn)練，是一項

2024-11-23 01:06:41

1113

KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展，在處理各種類型的任務(wù)中，預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名，始終處于這一動向的前沿。Keras 擁有專用的內(nèi)容庫，如用

2024-12-20 10:32:00

868

用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

作者：算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力《用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響，很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對大語言模型的預(yù)訓(xùn)練流程

2025-03-21 18:24:37

4011

已全部加載完成

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

基于掩碼模型的LiDAR感知模型預(yù)訓(xùn)練策略

評論