男性晨起四个行为,国产漂亮白嫩KTV在线

達(dá)特茅斯學(xué)院的研究人員為了提高計算機模型對文本風(fēng)格的轉(zhuǎn)換能力，竟然將目光投向了《圣經(jīng)》！研究表明，不同版本的《圣經(jīng)》行文風(fēng)格迥異，使用不同版本的《圣經(jīng)》作為訓(xùn)練數(shù)據(jù)集，訓(xùn)練出的算法可以將書面文本轉(zhuǎn)換成內(nèi)容相同，但行文風(fēng)格迥異的新文本。

為了尋找改進(jìn)計算機文本翻譯質(zhì)量的靈感，達(dá)特茅斯學(xué)院的研究人員向《圣經(jīng)》尋求幫助和指導(dǎo)。結(jié)果發(fā)現(xiàn)，使用各種版本的《圣經(jīng)》訓(xùn)練的算法可以將書面作品轉(zhuǎn)換成針對不同受眾的不同風(fēng)格的譯文。

目前市面上可用的多語種互譯的網(wǎng)絡(luò)工具有很多。但行文風(fēng)格和樣式轉(zhuǎn)換工具，即文本的語種相同，但轉(zhuǎn)換行文風(fēng)格的工具出現(xiàn)的速度則要慢得多。在某種程度上講，由于難以獲得所需的大量訓(xùn)練數(shù)據(jù)，開發(fā)這類轉(zhuǎn)換工具的研究遭遇了困難。因此，研究團(tuán)隊想到在《圣經(jīng)》中汲取靈感。

來自達(dá)特茅斯學(xué)院的研究團(tuán)隊發(fā)現(xiàn)，《圣經(jīng)》除了為遍布全球的許多人提供精神上的指引之外，還能提供一個“大型的、以前尚未開發(fā)的對齊平行文本數(shù)據(jù)集”。《圣經(jīng)》每個版本都包含超過31000節(jié)經(jīng)文，研究人員用這些經(jīng)文為機器學(xué)習(xí)訓(xùn)練集生成了超過150萬個源經(jīng)文和目標(biāo)經(jīng)文的專門配對。

該研究論文已發(fā)表在Royal Society Open Science期刊上。文中表示，這不是首個為文字風(fēng)格轉(zhuǎn)換而創(chuàng)建的并行數(shù)據(jù)集。但卻是第一個使用《圣經(jīng)》的數(shù)據(jù)集。過去這類數(shù)據(jù)集使用的其他文本，比如莎士比亞作品、維基百科條目之類，所能提供的數(shù)據(jù)集要么比現(xiàn)在小得多，要么不適合學(xué)習(xí)風(fēng)格轉(zhuǎn)換的任務(wù)。

“英文版《圣經(jīng)》有許多不同的行文風(fēng)格，使其成為風(fēng)格轉(zhuǎn)換的完美源文本。”達(dá)特茅斯大學(xué)學(xué)生、本論文的第一作者Keith Carlson說。

由于《圣經(jīng)》的文本已經(jīng)全面索引化，對不同版本的《圣經(jīng)》文本的組織是可預(yù)測的，消除了用自動化方式匹配相同文本可能引起的對齊錯誤的風(fēng)險。

“圣經(jīng)是一個'神圣的'數(shù)據(jù)集，可以用來研究這項任務(wù)，”達(dá)特茅斯計算機科學(xué)教授丹尼爾·洛克莫爾說。 “幾個世紀(jì)以來，人類一直在執(zhí)行組織圣經(jīng)文本的任務(wù)，我們的信仰不可能基于不太可靠的對齊算法。”

為了定義研究的“風(fēng)格”，研究人員參考了句子長度、被動或主動語音的使用，以及可能導(dǎo)致文本具有不同程度的簡潔或形式的用詞選擇。

根據(jù)這項研究的結(jié)果：“不同的措辭可能會傳達(dá)不同程度的禮貌度或?qū)ψx者的熟悉程度，顯示關(guān)于作者的不同文化信息，使文本對某些人群更容易理解。”

該團(tuán)隊使用了34種風(fēng)格獨特的圣經(jīng)版本，其語言復(fù)雜程度從“詹姆斯國王版”到“基礎(chǔ)英語圣經(jīng)”。研究人員使用這些文本作為兩種算法的輸入，一種是名為“摩西”的統(tǒng)計機器翻譯系統(tǒng)，另一種是常用于機器翻譯的神經(jīng)網(wǎng)絡(luò)框架“Seq2Seq”。

雖然研究團(tuán)隊使用了不同版本的《圣經(jīng)》來訓(xùn)練計算機代碼，但最終可以開發(fā)出能夠為不同受眾轉(zhuǎn)換任何書面文本風(fēng)格的系統(tǒng)。例如可以從“Moby Dick”中選擇英語，并將其風(fēng)格轉(zhuǎn)換成適合年輕讀者、非英語母語人士或其他多種受眾團(tuán)體中的不同版本。

“文本簡化只是一種特定類型的風(fēng)格轉(zhuǎn)換。更廣泛地說，我們開發(fā)的系統(tǒng)旨在生成與原文具有相同含義的文本，但會用不同的文字進(jìn)行表述?！笨柹f。

達(dá)特茅斯學(xué)院在計算機科學(xué)領(lǐng)域有著悠久的創(chuàng)新歷史?！?a target="_blank">人工智能”（AI）一詞最初就是在1956年達(dá)特茅斯學(xué)院召開AI研究學(xué)科的會議期間誕生的。該校其他相關(guān)研究還包括BASIC語言的設(shè)計，這是第一個通用和可訪問的編程語言，以及為現(xiàn)代操作系統(tǒng)做出貢獻(xiàn)的“達(dá)特茅斯時間共享”系統(tǒng)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8553

瀏覽量
136920
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26187

原文標(biāo)題：用《圣經(jīng)》做訓(xùn)練數(shù)據(jù)集，達(dá)特茅斯學(xué)院完美打造語言風(fēng)格轉(zhuǎn)換工具

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

用《圣經(jīng)》做訓(xùn)練數(shù)據(jù)集，打造語言風(fēng)格轉(zhuǎn)換工具

評論