資料介紹
在基于實例的機器翻譯中,句子相似度計算是實例匹配的有效機制。該文對基于相同詞的句子相似模型作進一步的改進,包括關鍵詞抽取,以及在句子相似度的定義中引入同義詞的情形。實驗結果表明,改進方法比原方法具有較高的準確率。
關 鍵 詞 自然語言處理; 基于實例的機器翻譯; 句子相似度; 基于詞
基于實例的機器翻譯(Example Based Machine Translation,EBMT)是以雙語對齊的實例庫為主要知識源,輸入一個待翻譯的源語言句子,從實例庫中查找與輸入句最相似的例句,再模仿例句的譯文來實現(xiàn)輸入句的翻譯。在EBMT中,實例匹配是關鍵,直接關系到系統(tǒng)本身的翻譯質量。實現(xiàn)實例匹配的有效機制是進行句子相似度計算[1-2],目前主要有基于詞[3-5]和基于句法語義分析[6-7]的兩類方法。兩類方法各有優(yōu)缺點,基于詞的方法簡單、流行,但由于僅利用句子的表層信息,即組成句子的有關詞匯的詞法和語義信息,因此,在判斷句子整體結構相似方面有欠缺;基于句法語義分析的方法折衷考慮句子的組成詞匯語義信息與整體框架結構信息,但在折衷考慮的層次上較難把握。本文研究基于詞的句子相似度計算問題,并在文獻[5]的基礎上提出了一種改進的方法。
1 基于詞的句子相似度計算
基于詞的方法是目前最簡單、最流行的方法,依據(jù)詞的形態(tài)變化、同義詞、反義詞以及更進一步的語義距離來判斷孤立詞之間的相似度,再通過這種詞間相似度的不同組合來確定句子間的相似度。文獻[3]利用同義詞表計算兩句詞之間的語義距離,進而計算兩句之間的相似度。文獻[4]通過正反雙向比較兩句相同詞的個數(shù)及其位置關系,得到一個轉換表達式和子塊庫,再通過系統(tǒng)預定義的翻譯模式和限制條件實現(xiàn)兩句相似度的計算。文獻[5]通過比較兩句相同詞的個數(shù)及其位置關系,得到兩句的詞形相似度和詞序相似度,再通過詞形相似度和詞序相似度計算兩句的相似度。
文獻[4-5]采用的方法實質上是相同的,均通過比較相同詞的個數(shù)及其位置關系來計算兩句的相似度。但在相似度的定義中,僅考慮了形態(tài)上相同的詞,而沒有考慮同義詞的情形。例如,對兩個簡單的句子“我/ 是/ 老師/ 。/”與“他/ 為/ 學生/。/”,按照文獻[5]中的方法計算則相似度很低(只有0.1),實際上這兩句是比較相似的。究其原因,主要是沒有考慮兩句中的同義詞“是”和“為”。另外,也沒有考慮任何句法結構信息。因此,在算法實現(xiàn)上雖然較為簡單,但準確率卻不高。基于詞的方法依據(jù)句子的表層信息,通過對這些表層信息的加工也可以獲得一些有用的句法結構信息,如抽取一些能夠近似表達部分句法結構信息的關鍵性的詞(以下簡稱關鍵詞)。在此基礎上進行句子相似度計算,就會具有較高的準確率。本文針對以上兩點作了進一步的改進。
2 一種改進的方法
本文對文獻[5]中的句子相似模型作了進一步改進,包括關鍵詞抽取,以及在句子相似度的定義中考慮同義詞的情形。令inp為待翻譯的輸入句,exa為對應的m個例句中的一個,先分別抽取inp和exa中所有的名詞、代詞、動詞或形容詞,并組成相應的關鍵詞序列,再求出inp和exa中關鍵詞序列的相似度,最后選取大于規(guī)定閾值的最大相似度例句作為輸入句的最相似例句。
2.1 關鍵詞抽取
由語言學知識可知,任何句子都是由關鍵成分(主、謂、賓等)和修飾成分(定、狀、補等)構成的。關鍵成分對句子起主要作用,修飾成分對句子起次要作用。進行句子相似度計算時,只要考慮句中的關鍵成分?;谠~的方法不考慮句法結構分析,因此,不能確定句子的內(nèi)部成分,包括關鍵成分和修飾成分。在通常情況下,一個句子中作主語和賓語的多為名詞或代詞,作謂語的多為動詞或形容詞。因此,可以將一個句子中的所有名詞、代詞、動詞和形容詞作為關鍵詞,并在計算句子相似度時只考慮這些關鍵詞。例如,句子“我/ 當然/ 愿意/ 了解/ 她們/ 的/ 要求/ 。/”的關鍵詞序列為 “我/ 愿意/ 了解/ 她們/ 要求/ 。/”。對于特定句中的某個名詞、代詞、動詞或形容詞,不一定就是該句中的主語、賓語或謂語成分,但相對于句中所有的詞構成的詞序列而言,關鍵詞序列卻具有一定的句法結構信息表達能力,至少可以了解句子中的哪些詞在組成句子框架結構方面是比較重要的。在此基礎上進行相似度計算,比一般基于詞的方法準確一些。
- 基于概率分布函數(shù)的流程工廠模型拓撲相似度計算 5次下載
- 基于卷積神經(jīng)網(wǎng)絡的相似度計算模型 19次下載
- 基于時空分析的交通路口相似度計算方法 5次下載
- 一種結合相對信息熵的改進LEACH協(xié)議 13次下載
- 一種車輛霧計算停車輔助系統(tǒng)模型 10次下載
- 針對協(xié)同過濾推薦算法的相似度計算方法 6次下載
- 一種用于釋義識別的句子相似度算法 8次下載
- 基于圖集成模型的自動摘要生產(chǎn)方法 10次下載
- 一種改進的聚類聯(lián)合相似度推薦算法 10次下載
- 如何使用區(qū)域相似度實現(xiàn)局部擬合活動輪廓模型 2次下載
- 一種改進的時序效應的推薦模型 0次下載
- 基于分層組合模式的句子組合模型 0次下載
- 一中余弦相似度的改進方法 0次下載
- 一種基于本體的概念相似度計算及其應用_冉婕 0次下載
- 協(xié)同推薦系統(tǒng)檢測模型的一種優(yōu)化方法
- 一種新的通用視覺主干模型Vision Mamba 118次閱讀
- 一種新型的雙流注意力增強型BERT來提高捕捉句子對中細微差異的能力 1572次閱讀
- FLAT的一種改進方案 1779次閱讀
- 一種采用微控制器的自動模型鐵路布局項目 1586次閱讀
- 如何實現(xiàn)三維模型對比?比較3d模型相似度軟件浩辰3D軟件入門教程 1w次閱讀
- 腦機接口最新研究能將神經(jīng)信號直接映射為句子 3077次閱讀
- 人工智能是一種改進數(shù)據(jù)控制和處理的方法 3165次閱讀
- 復合模型擴展:一種更好的擴展CNN的方法 3874次閱讀
- 【新專利介紹】一種改進電表 1314次閱讀
- 一種可以超越傳統(tǒng)方法捕捉微小的面部表情,并更好的測量人類情緒的機器學習模型 3853次閱讀
- 計算文本相似度幾種最常用的方法,并比較它們之間的性能 5.3w次閱讀
- 一種分數(shù)階Bingham磁流變阻尼器力學模型 4658次閱讀
- 深度學習模型介紹,Attention機制和其它改進 1.8w次閱讀
- 一種基于Diakoptics的計算微波電路的設計和實現(xiàn) 1243次閱讀
- 云計算的三種服務模式和四種部署模型 3115次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費
- 2AN158 GD32VW553 Wi-Fi開發(fā)指南
- 1.51MB | 2次下載 | 免費
- 3AN148 GD32VW553射頻硬件開發(fā)指南
- 2.07MB | 1次下載 | 免費
- 4AN111-LTC3219用戶指南
- 84.32KB | 次下載 | 免費
- 5AN153-用于電源系統(tǒng)管理的Linduino
- 1.38MB | 次下載 | 免費
- 6AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費
- 7SM2018E 支持可控硅調(diào)光線性恒流控制芯片
- 402.24 KB | 次下載 | 免費
- 8AN-1308: 電流檢測放大器共模階躍響應
- 545.42KB | 次下載 | 免費
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費
- 2免費開源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機智能手環(huán)心率計步器體溫顯示設計
- 0.10 MB | 130次下載 | 免費
- 4使用單片機實現(xiàn)七人表決器的程序和仿真資料免費下載
- 2.96 MB | 44次下載 | 免費
- 53314A函數(shù)發(fā)生器維修手冊
- 16.30 MB | 31次下載 | 免費
- 6美的電磁爐維修手冊大全
- 1.56 MB | 24次下載 | 5 積分
- 7如何正確測試電源的紋波
- 0.36 MB | 17次下載 | 免費
- 8感應筆電路圖
- 0.06 MB | 10次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費下載
- 340992 | 191367次下載 | 10 積分
- 5十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具MDK-Arm免費下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評論