chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

一種新聞關(guān)鍵信息的提取算法

大小:0.87 MB 人氣: 2017-12-13 需要積分:0

  針對網(wǎng)頁正文提取算法缺乏通用性,以及對新聞網(wǎng)頁的提取缺乏標題、時間、來源信息的問題,提出一種新聞關(guān)鍵信息的提取算法newsExtractor。該算法首先通過預(yù)處理將網(wǎng)頁轉(zhuǎn)換成行號和文本的集合,然后根據(jù)字數(shù)最長的一句話出現(xiàn)在新聞?wù)牡母怕蕵O高的特點,從正文中間開始向兩端尋找正文的起點和終點提取新聞?wù)模鶕?jù)最長公共子串算法提取標題,構(gòu)造正則表達式并以行號輔助判斷提取時間,根據(jù)來源的格式特點并輔以行號提取來源;最后構(gòu)造了數(shù)據(jù)集與國外開源軟件newsPaper進行提取準確率的對比實驗。實驗結(jié)果表明,newsExtractor在正文、標題、時間、來源的平均提取準確率上均優(yōu)于newsPaper,具有通用性和魯棒性。

一種新聞關(guān)鍵信息的提取算法

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?