基于詞向量和CRF的領(lǐng)域術(shù)語識別方法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評論(0)
針對基于統(tǒng)計(jì)特征的領(lǐng)域術(shù)語識別方法忽略了術(shù)語的語義和領(lǐng)域特性,從而影響識別結(jié)果這一問題,提出一種基于詞向量和條件隨機(jī)場(CRF)的領(lǐng)域術(shù)語識別方法。該方法利用詞向量具有較強(qiáng)的語義表達(dá)能力、詞語與領(lǐng)域術(shù)語之間的相似度具有較強(qiáng)的領(lǐng)域表達(dá)能力這一特點(diǎn),在統(tǒng)計(jì)特征的基礎(chǔ)上,增加了詞語的詞向量與領(lǐng)域術(shù)語的詞向量之間的相似度特征,構(gòu)成基于詞向量的特征向量,并采用CRF方法綜合這些特征實(shí)現(xiàn)了領(lǐng)域術(shù)語識別。最后在領(lǐng)域語料庫和SogouCA語料庫上進(jìn)行實(shí)驗(yàn),識別結(jié)果的準(zhǔn)確率、召回率和F測度分別達(dá)到了0.985 5、0.9439和0. 9643,表明所提的領(lǐng)域術(shù)語識別方法取得了較好的效果。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%