一種融合采樣技術和RE算法的微博轉發(fā)行為預測方法
大小:0.96 MB 人氣: 2018-01-07 需要積分:2
標簽:采樣技術(6329)
針對微博轉發(fā)預測方法研究中的數(shù)據(jù)集不平衡問題,提出了一種融合過采樣技術和隨機森林(RF)算法的微博轉發(fā)行為預測方法。首先,定義了個體信息、社交關系和微博主題3類與微博轉發(fā)行為相關的特征,并基于信息增益算法實現(xiàn)了關鍵特征選??;其次,綜合微博特征數(shù)據(jù)的特點來改進少數(shù)類樣本合成過采樣技術( SMOTE),對原始數(shù)據(jù)集進行非參數(shù)概率分布估計,并根據(jù)近似概率分布對數(shù)據(jù)集進行過采樣處理,從而使正反例數(shù)據(jù)量達到平衡;最后,利用隨機森林算法,依據(jù)微博轉發(fā)關鍵特征進行分類器訓練,并利用袋外(OOB)數(shù)據(jù)誤差估計來分析和設置隨機森林算法的相關參數(shù)。通過與基于決策樹(DT)、支持向量機(SVM)、樸素貝葉斯(NB)和隨機森林等算法的微博轉發(fā)預測方法進行對比,所提方法整體性能優(yōu)于基準方法中性能最優(yōu)的SVM方法,召回率提高了8%,F(xiàn)值提高了5%。實驗結果表明,所提方法在實際應用中能夠有效提高微博轉發(fā)行為預測的準確率。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%