達(dá)特茅斯學(xué)院的研究人員為了提高計算機(jī)模型對文本風(fēng)格的轉(zhuǎn)換能力,竟然將目光投向了《圣經(jīng)》!研究表明,不同版本的《圣經(jīng)》行文風(fēng)格迥異,使用不同版本的《圣經(jīng)》作為訓(xùn)練數(shù)據(jù)集,訓(xùn)練出的算法可以將書面文本轉(zhuǎn)換成內(nèi)容相同,但行文風(fēng)格迥異的新文本。
為了尋找改進(jìn)計算機(jī)文本翻譯質(zhì)量的靈感,達(dá)特茅斯學(xué)院的研究人員向《圣經(jīng)》尋求幫助和指導(dǎo)。結(jié)果發(fā)現(xiàn),使用各種版本的《圣經(jīng)》訓(xùn)練的算法可以將書面作品轉(zhuǎn)換成針對不同受眾的不同風(fēng)格的譯文。
目前市面上可用的多語種互譯的網(wǎng)絡(luò)工具有很多。但行文風(fēng)格和樣式轉(zhuǎn)換工具,即文本的語種相同,但轉(zhuǎn)換行文風(fēng)格的工具出現(xiàn)的速度則要慢得多。在某種程度上講,由于難以獲得所需的大量訓(xùn)練數(shù)據(jù),開發(fā)這類轉(zhuǎn)換工具的研究遭遇了困難。因此,研究團(tuán)隊(duì)想到在《圣經(jīng)》中汲取靈感。
來自達(dá)特茅斯學(xué)院的研究團(tuán)隊(duì)發(fā)現(xiàn),《圣經(jīng)》除了為遍布全球的許多人提供精神上的指引之外,還能提供一個“大型的、以前尚未開發(fā)的對齊平行文本數(shù)據(jù)集”?!妒ソ?jīng)》每個版本都包含超過31000節(jié)經(jīng)文,研究人員用這些經(jīng)文為機(jī)器學(xué)習(xí)訓(xùn)練集生成了超過150萬個源經(jīng)文和目標(biāo)經(jīng)文的專門配對。
該研究論文已發(fā)表在Royal Society Open Science期刊上。文中表示,這不是首個為文字風(fēng)格轉(zhuǎn)換而創(chuàng)建的并行數(shù)據(jù)集。但卻是第一個使用《圣經(jīng)》的數(shù)據(jù)集。過去這類數(shù)據(jù)集使用的其他文本,比如莎士比亞作品、維基百科條目之類,所能提供的數(shù)據(jù)集要么比現(xiàn)在小得多,要么不適合學(xué)習(xí)風(fēng)格轉(zhuǎn)換的任務(wù)。
“英文版《圣經(jīng)》有許多不同的行文風(fēng)格,使其成為風(fēng)格轉(zhuǎn)換的完美源文本?!边_(dá)特茅斯大學(xué)學(xué)生、本論文的第一作者Keith Carlson說。
由于《圣經(jīng)》的文本已經(jīng)全面索引化,對不同版本的《圣經(jīng)》文本的組織是可預(yù)測的,消除了用自動化方式匹配相同文本可能引起的對齊錯誤的風(fēng)險。
“圣經(jīng)是一個'神圣的'數(shù)據(jù)集,可以用來研究這項(xiàng)任務(wù),”達(dá)特茅斯計算機(jī)科學(xué)教授丹尼爾·洛克莫爾說。 “幾個世紀(jì)以來,人類一直在執(zhí)行組織圣經(jīng)文本的任務(wù),我們的信仰不可能基于不太可靠的對齊算法?!?/p>
為了定義研究的“風(fēng)格”,研究人員參考了句子長度、被動或主動語音的使用,以及可能導(dǎo)致文本具有不同程度的簡潔或形式的用詞選擇。
根據(jù)這項(xiàng)研究的結(jié)果:“不同的措辭可能會傳達(dá)不同程度的禮貌度或?qū)ψx者的熟悉程度,顯示關(guān)于作者的不同文化信息,使文本對某些人群更容易理解。”
該團(tuán)隊(duì)使用了34種風(fēng)格獨(dú)特的圣經(jīng)版本,其語言復(fù)雜程度從“詹姆斯國王版”到“基礎(chǔ)英語圣經(jīng)”。研究人員使用這些文本作為兩種算法的輸入,一種是名為“摩西”的統(tǒng)計機(jī)器翻譯系統(tǒng),另一種是常用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)框架“Seq2Seq”。
雖然研究團(tuán)隊(duì)使用了不同版本的《圣經(jīng)》來訓(xùn)練計算機(jī)代碼,但最終可以開發(fā)出能夠?yàn)椴煌鼙娹D(zhuǎn)換任何書面文本風(fēng)格的系統(tǒng)。例如可以從“Moby Dick”中選擇英語,并將其風(fēng)格轉(zhuǎn)換成適合年輕讀者、非英語母語人士或其他多種受眾團(tuán)體中的不同版本。
“文本簡化只是一種特定類型的風(fēng)格轉(zhuǎn)換。更廣泛地說,我們開發(fā)的系統(tǒng)旨在生成與原文具有相同含義的文本,但會用不同的文字進(jìn)行表述。”卡爾森說。
達(dá)特茅斯學(xué)院在計算機(jī)科學(xué)領(lǐng)域有著悠久的創(chuàng)新歷史?!?a target="_blank">人工智能”(AI)一詞最初就是在1956年達(dá)特茅斯學(xué)院召開AI研究學(xué)科的會議期間誕生的。該校其他相關(guān)研究還包括BASIC語言的設(shè)計,這是第一個通用和可訪問的編程語言,以及為現(xiàn)代操作系統(tǒng)做出貢獻(xiàn)的“達(dá)特茅斯時間共享”系統(tǒng)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8541瀏覽量
136236 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1231瀏覽量
26050
原文標(biāo)題:用《圣經(jīng)》做訓(xùn)練數(shù)據(jù)集,達(dá)特茅斯學(xué)院完美打造語言風(fēng)格轉(zhuǎn)換工具
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
1 GHz Arm? Cortex?-M85 MCU上部署AI模型
請問AICube所需的目標(biāo)檢測數(shù)據(jù)集標(biāo)注可以使用什么工具?
云訓(xùn)練平臺數(shù)據(jù)集過大無法下載數(shù)據(jù)集至本地怎么解決?
harmony-utils之TempUtil,溫度轉(zhuǎn)換工具類
使用AICube導(dǎo)入數(shù)據(jù)集點(diǎn)創(chuàng)建后提示數(shù)據(jù)集不合法怎么處理?
數(shù)據(jù)集下載失敗的原因?
PanDao應(yīng)用:確定和轉(zhuǎn)換透鏡公差
NXP eIQ Time Series Studio 工具使用攻略(九)-數(shù)據(jù)標(biāo)簽
請問如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練的模型?
用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集
是否可以輸入隨機(jī)數(shù)據(jù)集來生成INT8訓(xùn)練后量化模型?
騰訊公布大語言模型訓(xùn)練新專利
請問有沒有不在linux上對.pt模型向.kmodel轉(zhuǎn)換的教程呢?
AI Cube進(jìn)行yolov8n模型訓(xùn)練,創(chuàng)建項(xiàng)目目標(biāo)檢測時顯示數(shù)據(jù)集目錄下存在除標(biāo)注和圖片外的其他目錄如何處理?
ODX診斷數(shù)據(jù)庫轉(zhuǎn)換工具 - DDC

用《圣經(jīng)》做訓(xùn)練數(shù)據(jù)集,打造語言風(fēng)格轉(zhuǎn)換工具
評論