基于面向文本標(biāo)題的任務(wù)關(guān)系抽取
為了克服文本標(biāo)題的人物關(guān)系抽取中非人物實體的干擾、關(guān)系特征詞的選取以及標(biāo)題中多人物實體對目標(biāo)實體的關(guān)系判定的影響,提出基于決策樹的人物實體判別、基于最小集合覆蓋的關(guān)系特征詞生成以及基于三層句式規(guī)則統(tǒng)計方法。首先,針對中國機器學(xué)習(xí)會議( CCML)競賽中人物關(guān)系屬性文件中對人物的描述,提取18種特征,采用C4.5分類器,獲得了98. 2%的查全率和92. 6%的查準(zhǔn)率,其結(jié)果作為下一步人物關(guān)系判定的條件;其次,為了保證特征詞集合的規(guī)模維持在合適的水平,采用了基于最小集合覆蓋的特征詞覆蓋的算法,結(jié)果表明,隨著特征詞集合達到一定的規(guī)模,特征詞集合完成對所有類別關(guān)系的集合覆蓋,用以判定文本標(biāo)題中人物關(guān)系類型;最后,采用三層句式規(guī)則統(tǒng)計方法,用以生成過濾掉比重較小的句子規(guī)則和根據(jù)關(guān)系正負比例判定的進一步細分句式規(guī)則,以判定文本標(biāo)題關(guān)系與否。實驗結(jié)果表明,在19種人物關(guān)系判定上取得82. 9%的查全率、74. 4%的查準(zhǔn)率以及78. 4%的F1測度。所提方法可以有效用于新聞標(biāo)題人物關(guān)系提取,用以構(gòu)建人物關(guān)系知識圖譜。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%