chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用《圣經(jīng)》做訓(xùn)練數(shù)據(jù)集,打造語言風(fēng)格轉(zhuǎn)換工具

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-01 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

達(dá)特茅斯學(xué)院的研究人員為了提高計(jì)算機(jī)模型對(duì)文本風(fēng)格的轉(zhuǎn)換能力,竟然將目光投向了《圣經(jīng)》!研究表明,不同版本的《圣經(jīng)》行文風(fēng)格迥異,使用不同版本的《圣經(jīng)》作為訓(xùn)練數(shù)據(jù)集,訓(xùn)練出的算法可以將書面文本轉(zhuǎn)換成內(nèi)容相同,但行文風(fēng)格迥異的新文本。

為了尋找改進(jìn)計(jì)算機(jī)文本翻譯質(zhì)量的靈感,達(dá)特茅斯學(xué)院的研究人員向《圣經(jīng)》尋求幫助和指導(dǎo)。結(jié)果發(fā)現(xiàn),使用各種版本的《圣經(jīng)》訓(xùn)練的算法可以將書面作品轉(zhuǎn)換成針對(duì)不同受眾的不同風(fēng)格的譯文。

目前市面上可用的多語種互譯的網(wǎng)絡(luò)工具有很多。但行文風(fēng)格和樣式轉(zhuǎn)換工具,即文本的語種相同,但轉(zhuǎn)換行文風(fēng)格的工具出現(xiàn)的速度則要慢得多。在某種程度上講,由于難以獲得所需的大量訓(xùn)練數(shù)據(jù),開發(fā)這類轉(zhuǎn)換工具的研究遭遇了困難。因此,研究團(tuán)隊(duì)想到在《圣經(jīng)》中汲取靈感。

來自達(dá)特茅斯學(xué)院的研究團(tuán)隊(duì)發(fā)現(xiàn),《圣經(jīng)》除了為遍布全球的許多人提供精神上的指引之外,還能提供一個(gè)“大型的、以前尚未開發(fā)的對(duì)齊平行文本數(shù)據(jù)集”?!妒ソ?jīng)》每個(gè)版本都包含超過31000節(jié)經(jīng)文,研究人員用這些經(jīng)文為機(jī)器學(xué)習(xí)訓(xùn)練集生成了超過150萬個(gè)源經(jīng)文和目標(biāo)經(jīng)文的專門配對(duì)。

該研究論文已發(fā)表在Royal Society Open Science期刊上。文中表示,這不是首個(gè)為文字風(fēng)格轉(zhuǎn)換而創(chuàng)建的并行數(shù)據(jù)集。但卻是第一個(gè)使用《圣經(jīng)》的數(shù)據(jù)集。過去這類數(shù)據(jù)集使用的其他文本,比如莎士比亞作品、維基百科條目之類,所能提供的數(shù)據(jù)集要么比現(xiàn)在小得多,要么不適合學(xué)習(xí)風(fēng)格轉(zhuǎn)換的任務(wù)。

“英文版《圣經(jīng)》有許多不同的行文風(fēng)格,使其成為風(fēng)格轉(zhuǎn)換的完美源文本?!边_(dá)特茅斯大學(xué)學(xué)生、本論文的第一作者Keith Carlson說。

由于《圣經(jīng)》的文本已經(jīng)全面索引化,對(duì)不同版本的《圣經(jīng)》文本的組織是可預(yù)測的,消除了用自動(dòng)化方式匹配相同文本可能引起的對(duì)齊錯(cuò)誤的風(fēng)險(xiǎn)。

“圣經(jīng)是一個(gè)'神圣的'數(shù)據(jù)集,可以用來研究這項(xiàng)任務(wù),”達(dá)特茅斯計(jì)算機(jī)科學(xué)教授丹尼爾·洛克莫爾說。 “幾個(gè)世紀(jì)以來,人類一直在執(zhí)行組織圣經(jīng)文本的任務(wù),我們的信仰不可能基于不太可靠的對(duì)齊算法?!?/p>

為了定義研究的“風(fēng)格”,研究人員參考了句子長度、被動(dòng)或主動(dòng)語音的使用,以及可能導(dǎo)致文本具有不同程度的簡潔或形式的用詞選擇。

根據(jù)這項(xiàng)研究的結(jié)果:“不同的措辭可能會(huì)傳達(dá)不同程度的禮貌度或?qū)ψx者的熟悉程度,顯示關(guān)于作者的不同文化信息,使文本對(duì)某些人群更容易理解。”

該團(tuán)隊(duì)使用了34種風(fēng)格獨(dú)特的圣經(jīng)版本,其語言復(fù)雜程度從“詹姆斯國王版”到“基礎(chǔ)英語圣經(jīng)”。研究人員使用這些文本作為兩種算法的輸入,一種是名為“摩西”的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),另一種是常用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)框架“Seq2Seq”。

雖然研究團(tuán)隊(duì)使用了不同版本的《圣經(jīng)》來訓(xùn)練計(jì)算機(jī)代碼,但最終可以開發(fā)出能夠?yàn)椴煌鼙娹D(zhuǎn)換任何書面文本風(fēng)格的系統(tǒng)。例如可以從“Moby Dick”中選擇英語,并將其風(fēng)格轉(zhuǎn)換成適合年輕讀者、非英語母語人士或其他多種受眾團(tuán)體中的不同版本。

“文本簡化只是一種特定類型的風(fēng)格轉(zhuǎn)換。更廣泛地說,我們開發(fā)的系統(tǒng)旨在生成與原文具有相同含義的文本,但會(huì)用不同的文字進(jìn)行表述?!笨柹f。

達(dá)特茅斯學(xué)院在計(jì)算機(jī)科學(xué)領(lǐng)域有著悠久的創(chuàng)新歷史?!?a target="_blank">人工智能”(AI)一詞最初就是在1956年達(dá)特茅斯學(xué)院召開AI研究學(xué)科的會(huì)議期間誕生的。該校其他相關(guān)研究還包括BASIC語言的設(shè)計(jì),這是第一個(gè)通用和可訪問的編程語言,以及為現(xiàn)代操作系統(tǒng)做出貢獻(xiàn)的“達(dá)特茅斯時(shí)間共享”系統(tǒng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:用《圣經(jīng)》做訓(xùn)練數(shù)據(jù)集,達(dá)特茅斯學(xué)院完美打造語言風(fēng)格轉(zhuǎn)換工具

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    harmony-utils之TempUtil,溫度轉(zhuǎn)換工具

    harmony-utils之TempUtil,溫度轉(zhuǎn)換工具類 harmony-utils 簡介與說明 [harmony-utils] 一款功能豐富且極易上手的HarmonyOS工具庫,借助眾多
    的頭像 發(fā)表于 06-26 00:50 ?58次閱讀

    使用AICube導(dǎo)入數(shù)據(jù)點(diǎn)創(chuàng)建后提示數(shù)據(jù)不合法怎么處理?

    重現(xiàn)步驟 data目錄下 labels.txt只有英文 **錯(cuò)誤日志** 但是使用示例的數(shù)據(jù)可以完成訓(xùn)練并部署
    發(fā)表于 06-24 06:07

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓(xùn)練報(bào)錯(cuò)網(wǎng)絡(luò)錯(cuò)誤 大的數(shù)據(jù)多大?數(shù)據(jù)
    發(fā)表于 06-18 07:04

    PanDao應(yīng)用:確定和轉(zhuǎn)換透鏡公差

    不同的標(biāo)準(zhǔn)(如采用MIL標(biāo)準(zhǔn)而不是ISO10110標(biāo)準(zhǔn))。此外,圖紙中的關(guān)鍵參數(shù)可能偶爾存在缺失。 針對(duì)此類復(fù)雜場景,PanDao提供免費(fèi)的專業(yè)光學(xué)轉(zhuǎn)換工具,當(dāng)前涵蓋以下核心功能模塊: 可以在下方找到專業(yè)光學(xué)轉(zhuǎn)換工具入口:
    發(fā)表于 06-04 08:47

    NXP eIQ Time Series Studio 工具使用攻略(九)-數(shù)據(jù)標(biāo)簽

    其中"Data Labeling",數(shù)據(jù)標(biāo)簽工具使用戶能夠通過可視化界面將相應(yīng)的數(shù)據(jù)標(biāo)簽(如電弧或無電?。?yīng)用于當(dāng)前數(shù)據(jù)圖形的不同部分,從而對(duì)導(dǎo)入的原始
    的頭像 發(fā)表于 05-22 09:51 ?825次閱讀
    NXP eIQ Time Series Studio <b class='flag-5'>工具</b>使用攻略(九)-<b class='flag-5'>數(shù)據(jù)</b>標(biāo)簽

    請問如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練的模型?

    。我在 yo tflite 中轉(zhuǎn)換模型并嘗試在 tensorflow 腳本上運(yùn)行模型,但它不起作用。 如何在 imx8mplus 上運(yùn)行 YOLOv5 模型? 在 imx8mplus 上運(yùn)行任何其他對(duì)象檢測模型的方法是否支持更快的幀速率和易于接口?此外,我還需要在我的自定義數(shù)據(jù)
    發(fā)表于 03-25 07:23

    PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語言模型能直接使用的二進(jìn)制數(shù)據(jù),以便
    的頭像 發(fā)表于 03-21 18:24 ?1684次閱讀
    <b class='flag-5'>用</b>PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    是否可以輸入隨機(jī)數(shù)據(jù)來生成INT8訓(xùn)練后量化模型?

    無法確定是否可以輸入隨機(jī)數(shù)據(jù)來生成 INT8 訓(xùn)練后量化模型。
    發(fā)表于 03-06 06:45

    騰訊公布大語言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項(xiàng)名為“大語言模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語言模型訓(xùn)練領(lǐng)域取得了新的突破。 據(jù)專利摘要顯示,
    的頭像 發(fā)表于 02-10 09:37 ?413次閱讀

    請問有沒有不在linux上對(duì).pt模型向.kmodel轉(zhuǎn)換的教程呢?

    的文章 但是里面很多參數(shù)以及.npy的數(shù)據(jù)我不知道怎么填寫及處理。 2、還有一個(gè)問題,現(xiàn)在yolo有一個(gè)obb模塊可以檢測物體的傾斜角度,請問這個(gè)模塊訓(xùn)練出來的模型可以部署在k2
    發(fā)表于 02-08 08:56

    ODX診斷數(shù)據(jù)轉(zhuǎn)換工具 - DDC

    INTEWORK-DDC (Diagnostic Database Convertor) 是將診斷調(diào)查問卷轉(zhuǎn)換為標(biāo)準(zhǔn)ODX(2.2.0)數(shù)據(jù)庫的工具。DDC工具可以將易于溝通交流的Ex
    的頭像 發(fā)表于 12-31 11:22 ?554次閱讀
    ODX診斷<b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>轉(zhuǎn)換工具</b> - DDC

    云端AI開發(fā)者工具怎么

    云端AI開發(fā)者工具通常包括代碼編輯器、模型訓(xùn)練平臺(tái)、自動(dòng)化測試工具、代碼管理工具等。這些工具不僅降低了AI開發(fā)的門檻,還極大地提高了開發(fā)效率
    的頭像 發(fā)表于 12-05 13:31 ?563次閱讀

    ChatGPT:怎樣打造智能客服體驗(yàn)的重要工具

    ChatGPT作為智能對(duì)話生成模型,可以幫助打造智能客服體驗(yàn)的重要工具。以下是一些方法和步驟:1.數(shù)據(jù)收集和準(zhǔn)備:收集和整理與客服相關(guān)的數(shù)據(jù),包括常見問題、回答示例、客戶對(duì)話記錄等。這
    的頭像 發(fā)表于 11-01 11:12 ?443次閱讀
    ChatGPT:怎樣<b class='flag-5'>打造</b>智能客服體驗(yàn)的重要<b class='flag-5'>工具</b>?

    AI大模型的訓(xùn)練數(shù)據(jù)來源分析

    學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開發(fā)布,涵蓋了各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet :一個(gè)廣泛用于圖像識(shí)別任務(wù)的大規(guī)模圖像數(shù)據(jù)。 Common Crawl :提供了大量的網(wǎng)頁抓取
    的頭像 發(fā)表于 10-23 15:32 ?3679次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練AI大模型之前,需要明確自己的具體需求,比如是進(jìn)行自然語言處理、圖像識(shí)別、推薦系統(tǒng)還是其他任務(wù)。 二、數(shù)據(jù)收集與預(yù)處理 數(shù)據(jù)收集 根據(jù)任務(wù)需求,收集并準(zhǔn)備好足夠的
    的頭像 發(fā)表于 10-23 15:07 ?4990次閱讀