chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子論文>數(shù)字信號處理論文>一種改進的句子相似度計算模型

一種改進的句子相似度計算模型

2008-11-20 | rar | 333 | 次下載 | 2積分

資料介紹

在基于實例的機器翻譯中,句子相似度計算是實例匹配的有效機制。該文對基于相同詞的句子相似模型作進一步的改進,包括關鍵詞抽取,以及在句子相似度的定義中引入同義詞的情形。實驗結果表明,改進方法比原方法具有較高的準確率。
關 鍵 詞 自然語言處理; 基于實例的機器翻譯; 句子相似度; 基于詞

基于實例的機器翻譯(Example Based Machine Translation,EBMT)是以雙語對齊的實例庫為主要知識源,輸入一個待翻譯的源語言句子,從實例庫中查找與輸入句最相似的例句,再模仿例句的譯文來實現(xiàn)輸入句的翻譯。在EBMT中,實例匹配是關鍵,直接關系到系統(tǒng)本身的翻譯質量。實現(xiàn)實例匹配的有效機制是進行句子相似度計算[1-2],目前主要有基于詞[3-5]和基于句法語義分析[6-7]的兩類方法。兩類方法各有優(yōu)缺點,基于詞的方法簡單、流行,但由于僅利用句子的表層信息,即組成句子的有關詞匯的詞法和語義信息,因此,在判斷句子整體結構相似方面有欠缺;基于句法語義分析的方法折衷考慮句子的組成詞匯語義信息與整體框架結構信息,但在折衷考慮的層次上較難把握。本文研究基于詞的句子相似度計算問題,并在文獻[5]的基礎上提出了一種改進的方法。
1 基于詞的句子相似度計算
基于詞的方法是目前最簡單、最流行的方法,依據(jù)詞的形態(tài)變化、同義詞、反義詞以及更進一步的語義距離來判斷孤立詞之間的相似度,再通過這種詞間相似度的不同組合來確定句子間的相似度。文獻[3]利用同義詞表計算兩句詞之間的語義距離,進而計算兩句之間的相似度。文獻[4]通過正反雙向比較兩句相同詞的個數(shù)及其位置關系,得到一個轉換表達式和子塊庫,再通過系統(tǒng)預定義的翻譯模式和限制條件實現(xiàn)兩句相似度的計算。文獻[5]通過比較兩句相同詞的個數(shù)及其位置關系,得到兩句的詞形相似度和詞序相似度,再通過詞形相似度和詞序相似度計算兩句的相似度。
文獻[4-5]采用的方法實質上是相同的,均通過比較相同詞的個數(shù)及其位置關系來計算兩句的相似度。但在相似度的定義中,僅考慮了形態(tài)上相同的詞,而沒有考慮同義詞的情形。例如,對兩個簡單的句子“我/ 是/ 老師/ 。/”與“他/ 為/ 學生/。/”,按照文獻[5]中的方法計算則相似度很低(只有0.1),實際上這兩句是比較相似的。究其原因,主要是沒有考慮兩句中的同義詞“是”和“為”。另外,也沒有考慮任何句法結構信息。因此,在算法實現(xiàn)上雖然較為簡單,但準確率卻不高。基于詞的方法依據(jù)句子的表層信息,通過對這些表層信息的加工也可以獲得一些有用的句法結構信息,如抽取一些能夠近似表達部分句法結構信息的關鍵性的詞(以下簡稱關鍵詞)。在此基礎上進行句子相似度計算,就會具有較高的準確率。本文針對以上兩點作了進一步的改進。
2 一種改進的方法
本文對文獻[5]中的句子相似模型作了進一步改進,包括關鍵詞抽取,以及在句子相似度的定義中考慮同義詞的情形。令inp為待翻譯的輸入句,exa為對應的m個例句中的一個,先分別抽取inp和exa中所有的名詞、代詞、動詞或形容詞,并組成相應的關鍵詞序列,再求出inp和exa中關鍵詞序列的相似度,最后選取大于規(guī)定閾值的最大相似度例句作為輸入句的最相似例句。
2.1 關鍵詞抽取
由語言學知識可知,任何句子都是由關鍵成分(主、謂、賓等)和修飾成分(定、狀、補等)構成的。關鍵成分對句子起主要作用,修飾成分對句子起次要作用。進行句子相似度計算時,只要考慮句中的關鍵成分?;谠~的方法不考慮句法結構分析,因此,不能確定句子的內(nèi)部成分,包括關鍵成分和修飾成分。在通常情況下,一個句子中作主語和賓語的多為名詞或代詞,作謂語的多為動詞或形容詞。因此,可以將一個句子中的所有名詞、代詞、動詞和形容詞作為關鍵詞,并在計算句子相似度時只考慮這些關鍵詞。例如,句子“我/ 當然/ 愿意/ 了解/ 她們/ 的/ 要求/ 。/”的關鍵詞序列為 “我/ 愿意/ 了解/ 她們/ 要求/ 。/”。對于特定句中的某個名詞、代詞、動詞或形容詞,不一定就是該句中的主語、賓語或謂語成分,但相對于句中所有的詞構成的詞序列而言,關鍵詞序列卻具有一定的句法結構信息表達能力,至少可以了解句子中的哪些詞在組成句子框架結構方面是比較重要的。在此基礎上進行相似度計算,比一般基于詞的方法準確一些。

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1DC電源插座圖紙
  2. 0.67 MB   |  2次下載  |  免費
  3. 2AN158 GD32VW553 Wi-Fi開發(fā)指南
  4. 1.51MB   |  2次下載  |  免費
  5. 3AN148 GD32VW553射頻硬件開發(fā)指南
  6. 2.07MB   |  1次下載  |  免費
  7. 4AN111-LTC3219用戶指南
  8. 84.32KB   |  次下載  |  免費
  9. 5AN153-用于電源系統(tǒng)管理的Linduino
  10. 1.38MB   |  次下載  |  免費
  11. 6AN-283: Σ-Δ型ADC和DAC[中文版]
  12. 677.86KB   |  次下載  |  免費
  13. 7SM2018E 支持可控硅調(diào)光線性恒流控制芯片
  14. 402.24 KB  |  次下載  |  免費
  15. 8AN-1308: 電流檢測放大器共模階躍響應
  16. 545.42KB   |  次下載  |  免費

本月

  1. 1ADI高性能電源管理解決方案
  2. 2.43 MB   |  450次下載  |  免費
  3. 2免費開源CC3D飛控資料(電路圖&PCB源文件、BOM、
  4. 5.67 MB   |  138次下載  |  1 積分
  5. 3基于STM32單片機智能手環(huán)心率計步器體溫顯示設計
  6. 0.10 MB   |  130次下載  |  免費
  7. 4使用單片機實現(xiàn)七人表決器的程序和仿真資料免費下載
  8. 2.96 MB   |  44次下載  |  免費
  9. 53314A函數(shù)發(fā)生器維修手冊
  10. 16.30 MB   |  31次下載  |  免費
  11. 6美的電磁爐維修手冊大全
  12. 1.56 MB   |  24次下載  |  5 積分
  13. 7如何正確測試電源的紋波
  14. 0.36 MB   |  17次下載  |  免費
  15. 8感應筆電路圖
  16. 0.06 MB   |  10次下載  |  免費

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935121次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420062次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233088次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191367次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183335次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81581次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73810次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65988次下載  |  10 積分