資料介紹
在“人工標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”框架下,具體而言,InstructGPT的訓(xùn)練過(guò)程分為以下三個(gè)階段:
第一階段:冷啟動(dòng)階段的監(jiān)督策略模型
靠GPT 3本身,盡管它很強(qiáng),但是它很難理解人類不同類型指令中蘊(yùn)含的不同意圖,也很難判斷生成內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3初步具備理解指令中蘊(yùn)含的意圖,首先會(huì)從測(cè)試用戶提交的prompt(就是指令或問(wèn)題)中隨機(jī)抽取一批,靠專業(yè)的標(biāo)注人員,給出指定prompt的高質(zhì)量答案,然后用這些人工標(biāo)注好的數(shù)據(jù)來(lái)Fine-tune GPT 3模型。經(jīng)過(guò)這個(gè)過(guò)程,我們可以認(rèn)為 GPT 3初步具備了理解人類prompt中所包含意圖,并根據(jù)這個(gè)意圖給出相對(duì)高質(zhì)量回答的能力,但是很明顯,僅僅這樣做是不夠的。
第二階段:訓(xùn)練回報(bào)模型(RewardModel,RM)
這個(gè)階段的主要目的是通過(guò)人工標(biāo)注訓(xùn)練數(shù)據(jù),來(lái)訓(xùn)練回報(bào)模型。具體而言,隨機(jī)抽樣一批用戶提交的prompt(大部分和第一階段的相同),使用第一階段Fine-tune好的冷啟動(dòng)模型,對(duì)于每個(gè)prompt,由冷啟動(dòng)模型生成K個(gè)不同的回答,于是模型產(chǎn)生出了,…。數(shù)據(jù)。之后,標(biāo)注人員對(duì)K個(gè)結(jié)果按照很多標(biāo)準(zhǔn)(上面提到的相關(guān)性、富含信息性、有害信息等諸多標(biāo)準(zhǔn))綜合考慮進(jìn)行排序,給出K個(gè)結(jié)果的排名順序,這就是此階段人工標(biāo)注的數(shù)據(jù)。接下來(lái),我們準(zhǔn)備利用這個(gè)排序結(jié)果數(shù)據(jù)來(lái)訓(xùn)練回報(bào)模型,采取的訓(xùn)練模式其實(shí)就是平常經(jīng)常用到的pair-wiselearning to rank。對(duì)于K個(gè)排序結(jié)果,兩兩組合,形成 ( k 2 ) \binom{k}{2} (2k) 個(gè)訓(xùn)練數(shù)據(jù)對(duì),ChatGPT采取pair-wiseloss來(lái)訓(xùn)練Reward Model。RM模型接受一個(gè)輸入,給出評(píng)價(jià)回答質(zhì)量高低的回報(bào)分?jǐn)?shù)Score。對(duì)于一對(duì)訓(xùn)練數(shù)據(jù),我們假設(shè)人工排序中answer1排在answer2前面,那么Loss函數(shù)則鼓勵(lì)RM模型對(duì)的打分要比 的打分要高。歸納下:在這個(gè)階段里,首先由冷啟動(dòng)后的監(jiān)督策略模型為每個(gè)prompt產(chǎn)生K個(gè)結(jié)果,人工根據(jù)結(jié)果質(zhì)量由高到低排序,以此作為訓(xùn)練數(shù)據(jù),通過(guò)pair-wiselearning to rank模式來(lái)訓(xùn)練回報(bào)模型。對(duì)于學(xué)好的RM模型來(lái)說(shuō),輸入,輸出結(jié)果的質(zhì)量得分,得分越高說(shuō)明產(chǎn)生的回答質(zhì)量越高。
掃碼添加小助手
加入工程師交流群
- FPGA加速視覺搜索引擎解決方案
- 超強(qiáng)的ChatGPT會(huì)成為下一代搜索引擎嗎
- 基于蛻變測(cè)試的用戶搜索引擎性能分析 9次下載
- 分布式搜索引擎elasticsearch使用手冊(cè) 0次下載
- 一個(gè)大規(guī)模超文本網(wǎng)絡(luò)搜索引擎剖析(英文版) 0次下載
- 基于JAVA技術(shù)的搜索引擎的研究與實(shí)現(xiàn)
- 主題搜索引擎的研究
- 教育網(wǎng)BBS搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
- 分布式多搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)
- 基于壓縮后綴數(shù)組技術(shù)的搜索引擎
- 原創(chuàng)優(yōu)先的搜索引擎排序算法
- 基于偽爬行器的主題式元搜索引擎研究與設(shè)計(jì)
- 搜索引擎查詢?nèi)罩镜木垲?/a>
- 基于網(wǎng)格技術(shù)的并行搜索引擎
- 基于網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)話題分析框架
- 谷歌搜索引擎優(yōu)化的各個(gè)方面和步驟 2k次閱讀
- 下一代硅光子技術(shù)會(huì)是什么樣子? 1.2k次閱讀
- 使用Rust語(yǔ)言重寫的代碼搜索引擎黑鳥系統(tǒng)Blackbird正式啟用 1.7k次閱讀
- 一個(gè)基于GPT-4的代碼搜索引擎,開源了! 2.2k次閱讀
- 下一代航空航天和國(guó)防系統(tǒng)的多功能設(shè)計(jì) 1.5k次閱讀
- 下一代軍事通信挑戰(zhàn) 1.7k次閱讀
- Elasticsearch 8作為開源軟件正式發(fā)布 3.3k次閱讀
- 實(shí)測(cè)沒有廣告的百度開發(fā)者搜索 3.3k次閱讀
- 大數(shù)據(jù)是如何優(yōu)化企業(yè)搜索引擎 2.6k次閱讀
- 基于Bystack主側(cè)鏈架構(gòu)的下一代去中心跨鏈MOV協(xié)議介紹 1.7k次閱讀
- Elasticsearch概述 怎么安裝ES 4.8k次閱讀
- 如何用Python實(shí)現(xiàn)一個(gè)大數(shù)據(jù)搜索引擎 3.5k次閱讀
- 基于深度學(xué)習(xí)技術(shù),從頭開始搭建圖像語(yǔ)義搜索引擎 5.4k次閱讀
- 垂直搜索引擎是什么_垂直搜索引擎有哪些 8.7k次閱讀
- 下一代平板顯示:OLED、MICRO LED、QLED誰(shuí)將勝出? 2.8k次閱讀
下載排行
本周
- 1新一代網(wǎng)絡(luò)可視化(NPB 2.0)
- 3.40 MB | 1次下載 | 免費(fèi)
- 2冷柜-電氣控制系統(tǒng)講解
- 13.68 MB | 1次下載 | 10 積分
- 3MDD品牌三極管MMBT3906數(shù)據(jù)手冊(cè)
- 2.33 MB | 次下載 | 免費(fèi)
- 4MDD品牌三極管S9012數(shù)據(jù)手冊(cè)
- 2.62 MB | 次下載 | 免費(fèi)
- 5LAT1218 如何選擇和設(shè)置外部晶體適配 BlueNRG-X
- 0.60 MB | 次下載 | 3 積分
- 6LAT1216 Blue NRG-1/2 系列芯片 Flash 操作與 BLE 事件的互斥處理
- 0.89 MB | 次下載 | 3 積分
- 7收音環(huán)繞擴(kuò)音機(jī) AVR-1507手冊(cè)
- 2.50 MB | 次下載 | 免費(fèi)
- 8MS1000TA 超聲波測(cè)量模擬前端芯片技術(shù)手冊(cè)
- 0.60 MB | 次下載 | 免費(fèi)
本月
- 1愛華AIWA HS-J202維修手冊(cè)
- 3.34 MB | 37次下載 | 免費(fèi)
- 2PC5502負(fù)載均流控制電路數(shù)據(jù)手冊(cè)
- 1.63 MB | 23次下載 | 免費(fèi)
- 3NB-IoT芯片廠商的資料說(shuō)明
- 0.31 MB | 22次下載 | 1 積分
- 4UWB653Pro USB口測(cè)距通信定位模塊規(guī)格書
- 838.47 KB | 5次下載 | 免費(fèi)
- 5蘇泊爾DCL6907(即CHK-S007)單芯片電磁爐原理圖資料
- 0.04 MB | 4次下載 | 1 積分
- 6蘇泊爾DCL6909(即CHK-S009)單芯片電磁爐原理圖資料
- 0.08 MB | 2次下載 | 1 積分
- 7100W準(zhǔn)諧振反激式恒流電源電路圖資料
- 0.09 MB | 2次下載 | 1 積分
- 8FS8025B USB的PD和OC快充協(xié)議電壓誘騙控制器IC技術(shù)手冊(cè)
- 1.81 MB | 1次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935137次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191439次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183353次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81602次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73822次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65991次下載 | 10 積分
電子發(fā)燒友App





創(chuàng)作
發(fā)文章
發(fā)帖
提問(wèn)
發(fā)資料
發(fā)視頻
上傳資料賺積分
評(píng)論