亚洲精品国产日韩已满十八小,一区二区在线免播放器观看

大型語言模型，如 Megatron 和 GPT-3 正在改變人工智能。我們對(duì)能夠利用這些模型來創(chuàng)建更好的對(duì)話式人工智能的應(yīng)用程序感到興奮。生成語言模型在會(huì)話式人工智能應(yīng)用中存在的一個(gè)主要問題是缺乏可控制性和與真實(shí)世界事實(shí)的一致性。在這項(xiàng)工作中，我們?cè)噲D通過使我們的大型語言模型既可控又與外部知識(shí)庫(kù)保持一致來解決這個(gè)問題?？s放語言模型提供了更高的流暢性、可控性和一致性。

圖 1 。故事是由外部知識(shí)庫(kù)中的模型進(jìn)行調(diào)節(jié)而產(chǎn)生的，并由不同的關(guān)鍵詞如“駕駛”和“吸引”控制。

為了緩解一致性和可控性問題，已經(jīng)做了幾次嘗試。 Guan et al.（ 2020 年）通過微調(diào)引入常識(shí)知識(shí)來解決一致性問題。然而，這種天真的方法缺乏可解釋性和靈活性，無法決定何時(shí)以及從外部知識(shí)庫(kù)中合并什么。

控制文本生成的許多功能都是可取的。最近，人們開發(fā)了不同的方法來控制生成，例如使用預(yù)先添加到模型輸入的控制代碼和以目標(biāo)演員之前的談話為條件。然而，這些控制條件是預(yù)先定義好的，并且其能力有限。它們?nèi)狈刂屏６龋热缭诰渥踊蜃游臋n級(jí)別。

我們通過允許在預(yù)先訓(xùn)練的語言模型中動(dòng)態(tài)地結(jié)合外部知識(shí)以及控制文本生成來解決這些缺點(diǎn)。我們利用了我們的 Megatron 項(xiàng)目，它的目標(biāo)是在 GPU 集群上以光效的速度訓(xùn)練最大的 transformer 語言模型。我們提出了一個(gè)新的生成框架，威震天 CNTRL ，它使得我們的大型威震天語言模型既可以控制，又可以使用外部知識(shí)庫(kù)保持一致。

通過土耳其機(jī)器人使用人類求值器，我們展示了縮放語言模型提供了更高的流暢性、可控性和一致性，從而產(chǎn)生更真實(shí)的生成。結(jié)果，高達(dá) 91 . 5% 的生成故事被新關(guān)鍵字成功控制，并且高達(dá) 93 . 0% 的故事在 ROC 故事數(shù)據(jù)集上被評(píng)估為一致。我們預(yù)計(jì)這一趨勢(shì)將繼續(xù)下去，從而激勵(lì)人們繼續(xù)投資于為對(duì)話型人工智能培訓(xùn)更大的模型。圖 1 顯示了生成過程的一個(gè)示例。

Megatron 控制框架

在問題設(shè)置中，我們用第一句話作為輸入來完成一個(gè)故事。我們使用外部知識(shí)庫(kù)來擴(kuò)充生成過程，并開發(fā)出一種能夠指導(dǎo)和控制故事生成的方法。圖 2 顯示了框架由以下連接步驟組成：

在給定故事背景的情況下，關(guān)鍵詞預(yù)測(cè)模型首先預(yù)測(cè)下一個(gè)句子的關(guān)鍵詞集合。

然后，知識(shí)檢索器獲取生成的關(guān)鍵字并查詢外部知識(shí)庫(kù)，其中每個(gè)知識(shí)三元組使用模板轉(zhuǎn)換為自然語言“知識(shí)句子”。

一個(gè)語境知識(shí) ranker 然后根據(jù)外部知識(shí)句與故事上下文的關(guān)聯(lián)程度對(duì)它們進(jìn)行排序。

最后，一個(gè)生成器將故事語境以及排名第一的知識(shí)句作為輸入，生成故事中的下一句。輸出句子附加到故事上下文中，重復(fù)步驟 1-4 。

這個(gè)公式自然地允許通過用手動(dòng)外部關(guān)鍵字代替關(guān)鍵字生成過程來控制。

圖 2 。威震天控制：生成框架概述。

我們將關(guān)鍵詞生成建模為一個(gè)序列到序列的問題，它以故事上下文為輸入，輸出一系列關(guān)鍵字。我們使用 Megatron 模型（基于 GPT-2 ）來生成關(guān)鍵字。知識(shí)檢索器是一個(gè)簡(jiǎn)單的模型，它將關(guān)鍵字與知識(shí)庫(kù)相匹配。對(duì)于上下文知識(shí) ranker ，我們首先構(gòu)建偽標(biāo)簽，通過嵌入一個(gè)名為使用的句子來找到與故事上下文最相關(guān)的知識(shí)。然后我們訓(xùn)練一個(gè)來自 Megatron 模型的 ranker （基于 BERT ），對(duì)由知識(shí)檢索器過濾的知識(shí)進(jìn)行排序。然后，排名靠前的知識(shí)被附加到故事上下文的末尾，作為來自 Megatron 模型的另一個(gè)條件生成器的輸入，以生成下一個(gè)故事句子。

實(shí)驗(yàn)裝置

我們使用 ROC 故事數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。它由 98161 個(gè)故事組成，每個(gè)故事都包含五句話。按照 Guan et al.（ 2020 年），對(duì)于每個(gè)句子，通過用特殊占位符替換故事中的所有名稱和實(shí)體來執(zhí)行去毒性。在每個(gè)故事的第一句話中，我們的模型的任務(wù)是生成故事的其余部分，對(duì)于外部知識(shí)庫(kù)，我們使用了由 600k 知識(shí)三倍組成的概念網(wǎng) 。我們分別用 Megatron 對(duì)預(yù)雨前的 BERT 和 GPT-2 模型進(jìn)行上下文知識(shí) ranker 和生成模型的初始化。關(guān)鍵字預(yù)測(cè)器和條件句生成器都遵循相同的設(shè)置。

質(zhì)量評(píng)價(jià)

我們用自動(dòng)的困惑、故事重復(fù)和 4 克的標(biāo)準(zhǔn)來評(píng)價(jià)生成的故事的質(zhì)量，以及人類對(duì)連貫性、連貫性和流利性的評(píng)價(jià)。將 Megatron-CNTRL-124M 模型與表 1 和圖 3 中的 Yao et al.（ 2018 年）進(jìn)行比較，我們獲得了更高的 4 克、一致性、流利性和一致性分?jǐn)?shù)，這表明了大型預(yù)處理變壓器模型的好處。將 Megatron-CNTRL-124M 與 Guan et al.（ 2020 年）（不可控）進(jìn)行比較，該模型還使用了表 1 所示的基于 GPT-2 的模型，我們注意到，我們的模型具有明顯的更好的一致性（+ 7 . 0% ）和一致性（+ 7 . 5% ）。我們將這歸因于檢索到的知識(shí)的使用。通過明確提供與下一句相關(guān)的事實(shí)，條件生成模型可以集中于生成文本。

表 1 。評(píng)估了以前最先進(jìn)的模型以及我們的算法在不同的大小。困惑，故事重復(fù)，和不同的 4-gram 被自動(dòng)評(píng)估。

圖 3 。我們的模型和基線之間成對(duì)比較的人類評(píng)估。

當(dāng)模型尺寸從 124M 增加到 355M 、 774M 、 2B 和 8B 時(shí)，我們觀察到在困惑、清晰、一致性、連貫性和流暢性方面的一致性改善，這表明進(jìn)一步縮小模型尺寸幾乎總能提高生成質(zhì)量。為了保持一致性，我們?cè)?8B 參數(shù)下的最佳模型達(dá)到了 93% 的分?jǐn)?shù)，這意味著 93% 的生成故事被注釋為邏輯一致。

可控性評(píng)價(jià)

我們首先將關(guān)鍵字改為反義詞，然后詢問注釋者生成的故事是否根據(jù)新的關(guān)鍵字而變化，以此來評(píng)估模型的可控性。表 2 中的結(jié)果表明，從Megatron-CNTRL-124M-ANT （它是通過將關(guān)鍵字改為反義詞的受控版本）生成的 77 . 5% 是由新關(guān)鍵字控制的。將發(fā)電模型從 124M 擴(kuò)展到 8B ，我們觀察到可控性得分提高到 91 . 5% ，這表明大型模型對(duì)可控性有顯著的幫助。

表 2 。通過將關(guān)鍵字改為反義詞，人類對(duì)可控性的評(píng)價(jià)。

可控世代樣本

在下面的例子中，我們展示了Megatron-CNTRL 的能力。我們展示了在不同的發(fā)電粒度水平下的可控性。給出一個(gè)句子，Megatron-CNTRL 提出控制關(guān)鍵字。用戶可以使用它們，也可以提供他們選擇的外部控件關(guān)鍵字。這個(gè)過程一直持續(xù)到整個(gè)故事生成的結(jié)尾。

例 1：我們提供句子“[FEMALE]在一次公路旅行中”和一開始的控制關(guān)鍵字“ driving ”。根據(jù)這個(gè)輸入 Megatron 控制產(chǎn)生“她在路上開車”的條件是“開車”。然后，該模型預(yù)測(cè)下兩步的新關(guān)鍵詞“突然”和“拉動(dòng)，檢查”，并生成相應(yīng)的故事句。在生成最后一個(gè)句子之前，我們?cè)俅翁峁┩獠靠刂脐P(guān)鍵字“ help ”。我們觀察到，生成的句子“它吸煙嚴(yán)重，需要幫助”跟在控制關(guān)鍵字后面。

視頻 1 。使用“ driving ”關(guān)鍵字生成的故事。

例 2：我們給出與示例 1 相同的輸入語句：“[FEMALE]在一次公路旅行中”，但是在開始時(shí)使用了不同的控制關(guān)鍵字“ excited ”。因此，Megatron-CNTRL 基于“激動(dòng)”產(chǎn)生了一個(gè)新的故事句子：“她興奮是因?yàn)樗K于見到了（女性）”。在生成完整的故事之后，我們看到這個(gè)新的例子展示了一個(gè)關(guān)于一只巨大黑熊的可怕故事。由于外部情緒控制關(guān)鍵字引入的情感體驗(yàn)，它比示例 1 中的更具吸引力。

視頻 2 。用“激動(dòng)”關(guān)鍵字生成的故事。

結(jié)論

我們的工作證明了將大型的、經(jīng)過訓(xùn)練的模型與外部知識(shí)庫(kù)相結(jié)合的好處以及生成過程的可控性。我們未來的工作將是使知識(shí)檢索器可學(xué)習(xí)，并為更長(zhǎng)的世代引入結(jié)構(gòu)級(jí)控制。

例 2 ：我們給出與示例 1 相同的輸入語句：“［FEMALE］在一次公路旅行中”，但是在開始時(shí)使用了不同的控制關(guān)鍵字“ excited ”。因此，Megatron-CNTRL 基于“激動(dòng)”產(chǎn)生了一個(gè)新的故事句子：“她興奮是因?yàn)樗K于見到了（女性）”。在生成完整的故事之后，我們看到這個(gè)新的例子展示了一個(gè)關(guān)于一只巨大黑熊的可怕故事。由于外部情緒控制關(guān)鍵字引入的情感體驗(yàn)，它比示例 1 中的更具吸引力。

結(jié)論

關(guān)于作者

Peng Xu是香港科技大學(xué)的候選人。他的研究重點(diǎn)是情感計(jì)算和自然語言生成。通過構(gòu)建能夠理解人類情感的系統(tǒng)，他旨在實(shí)現(xiàn)更好的人機(jī)交互，并將更多自然世代的界限從機(jī)器上推出來。他在中國(guó)科學(xué)技術(shù)大學(xué)獲得電子工程和信息科學(xué)學(xué)士學(xué)位。

Mostofa Patwary 是 NVIDIA 應(yīng)用深度學(xué)習(xí)研究團(tuán)隊(duì)的高級(jí)深度學(xué)習(xí)研究科學(xué)家。 Mostofa 的研究興趣遍及自然語言處理、可擴(kuò)展深度學(xué)習(xí)、高性能計(jì)算和算法工程等領(lǐng)域。在加入 NVIDIA 之前， Mostofa 在百度硅谷人工智能實(shí)驗(yàn)室（ Silicon Valley AI Lab ）致力于擴(kuò)展大型語言模型和擴(kuò)展深度學(xué)習(xí)應(yīng)用程序的可預(yù)測(cè)性。 Mostofa 還為能夠在超級(jí)計(jì)算機(jī)上運(yùn)行的機(jī)器學(xué)習(xí)中的幾個(gè)核心內(nèi)核開發(fā)大規(guī)模代碼做出了重大貢獻(xiàn)。

Mohammad Shoeybi 是一位高級(jí)研究科學(xué)家，在 NVIDIA 管理應(yīng)用深度學(xué)習(xí)研究小組的 NLP 團(tuán)隊(duì)。他的團(tuán)隊(duì)專注于語言建模， NLP 應(yīng)用，如問答和對(duì)話系統(tǒng)，以及大規(guī)模培訓(xùn)。他獲得了博士學(xué)位。 2010 年從斯坦福大學(xué)畢業(yè)。在 NVIDIA 之前，他曾在 DeepMind 和美國(guó)百度工作，致力于將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)應(yīng)用到應(yīng)用程序中。

Raul Puri 是 OpenAI 的研究科學(xué)家。勞爾在加州大學(xué)伯克利分校獲得電子工程和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位，重點(diǎn)研究生物醫(yī)學(xué)工程。

Pascale Fung 是香港香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系的 ELE 〔 ZDK0 〕電子與計(jì)算機(jī)工程系教授。馮教授獲哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位。她曾在 at & T 貝爾實(shí)驗(yàn)室、 BBN 系統(tǒng)與技術(shù)公司、 LIMSI 、 CNRS 、日本京都大學(xué)信息科學(xué)系和法國(guó)巴黎中央經(jīng)濟(jì)學(xué)院工作和學(xué)習(xí)。馮教授能流利地講七種歐洲和亞洲語言，他對(duì)多語種演講和自然語言問題特別感興趣。

Anima Anandkumar 在學(xué)術(shù)界和工業(yè)界擁有雙重地位。她是加州理工學(xué)院 CMS 系的布倫教授和 NVIDIA 的機(jī)器學(xué)習(xí)研究主任。在 NVIDIA ，她領(lǐng)導(dǎo)著開發(fā)下一代人工智能算法的研究小組。在加州理工學(xué)院，她是 Dolcit 的聯(lián)合主任，與 Yisong Yue 共同領(lǐng)導(dǎo) AI4science initiative 。

Bryan Catanzaro 是 NVIDIA 應(yīng)用深度學(xué)習(xí)研究的副總裁，他領(lǐng)導(dǎo)一個(gè)團(tuán)隊(duì)尋找使用人工智能的新方法來改善項(xiàng)目，從語言理解到計(jì)算機(jī)圖形和芯片設(shè)計(jì)。布萊恩在 NVIDIA 的研究導(dǎo)致了 cuDNN 的誕生，最近，他幫助領(lǐng)導(dǎo)了發(fā)明 dlss2 。 0 的團(tuán)隊(duì)。在 NVIDIA 之前，他曾在百度創(chuàng)建下一代系統(tǒng)，用于培訓(xùn)和部署端到端、基于深度學(xué)習(xí)的語音識(shí)別。布萊恩在加州大學(xué)伯克利分校獲得了電子工程和計(jì)算機(jī)科學(xué)博士學(xué)位

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5496

瀏覽量
109119
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5591

瀏覽量
123923

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

用Megatron-CNTRL為語言模型添加外部知識(shí)和可控性

評(píng)論