引言
謠言始終與人類社會的發(fā)展形影相隨,隨著互聯(lián)網(wǎng)的發(fā)展和網(wǎng)上言論的開放,虛假的、未經(jīng)證實的信息極易在社交網(wǎng)絡(luò)平臺上廣泛傳播,帶來不良社會影響。目前,網(wǎng)絡(luò)謠言常被定義為“廣泛流傳的、真實性受到質(zhì)疑的、表面上可信但極具迷惑性難以辨別真?zhèn)蔚男畔ⅰ保╖ubiaga, 2018)。
對網(wǎng)絡(luò)謠言真實性進(jìn)行判別是較為復(fù)雜的系統(tǒng)性任務(wù),可粗粒度分為謠言檢測(rumor detection)、立場分類(stance classification)、謠言判別(rumor verification)流程式子任務(wù)。同時社交網(wǎng)絡(luò)中可追蹤的文本內(nèi)容、用戶特征、信息傳播軌跡,為謠言檢測及真?zhèn)涡耘袆e提供了豐富的信息來源和建模思路,這也使得端到端的謠言判別更具挑戰(zhàn)。
網(wǎng)絡(luò)謠言形成的信息傳播樹及特征來源
早期,學(xué)者們多采用從文本、用戶、傳播等方面提取特征的思路,盡可能的刻畫謠言傳播形態(tài)。隨著深度學(xué)習(xí)的發(fā)展,更具泛化性的文本表示方法(如詞向量、預(yù)訓(xùn)練模型),更適配于消息傳播的信息整合模型(如基于消息發(fā)布時間的序列化模型、基于信息傳播軌跡的樹結(jié)構(gòu)/圖結(jié)構(gòu)模型),更簡便的子任務(wù)協(xié)同訓(xùn)練框架(如多任務(wù)學(xué)習(xí)),使得神經(jīng)網(wǎng)絡(luò)模型在謠言判別上的性能不斷提升。
然而,隨著深度模型復(fù)雜度增加,模型內(nèi)部的決策過程卻愈加難以解釋和驗證,也對謠言判別的實際應(yīng)用推廣帶來了限制。本次DISC小編分享的三篇ACL2020論文即圍繞謠言判別中的可解釋性,介紹網(wǎng)絡(luò)謠言傳播中易感用戶及話題挖掘、判別線索取證、數(shù)據(jù)及模型不確定性衡量的相關(guān)工作。
文章概覽
基于圖網(wǎng)絡(luò)和協(xié)同注意力機(jī)制的用于可解釋社交媒體虛假新聞檢測的模型(Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media)
論文地址:https://www.aclweb.org/anthology/2020.acl-main.48.pdf
該篇文章延續(xù)了謠言判別中的傳統(tǒng)思路,盡可能準(zhǔn)確的刻畫謠言的傳播模式。主要圍繞信源文本和參與傳播用戶的特征進(jìn)行建模,并借助協(xié)同注意力機(jī)制捕捉信源文本中的敏感話題以及傳播過程中可疑度的用戶。
基于決策樹和協(xié)同注意力機(jī)制的可解釋的謠言判別的模型(Decision Tree-based Co-Attention Networks for Explainable Claim Verification)
論文地址:https://www.aclweb.org/anthology/2020.acl-main.97.pdf
該篇文章秉持謠言傳播中具有“自證性”,即假消息的相關(guān)評論或轉(zhuǎn)發(fā)中會出現(xiàn)對其真實性進(jìn)行佐證的內(nèi)容。通過決策樹篩選出可作為判別線索的消息,接著借助協(xié)同注意力機(jī)制探索信源文本與相關(guān)線索的交互關(guān)系,由此可呈現(xiàn)出模型在篩選佐證時的決策過程和更細(xì)粒度的關(guān)鍵文本和話題。
評估謠言判別模型中的預(yù)測不確定性(Estimating Predictive Uncertainty for Rumour Verification Models)
論文地址:https://www.aclweb.org/anthology/2020.acl-main.623.pdf
該篇文章立足于謠言判別的實際應(yīng)用場景,認(rèn)為訓(xùn)練完好的模型在面對突發(fā)謠言事件依然面對跨領(lǐng)域遷移的挑戰(zhàn),大部分現(xiàn)有模型泛化能力都較差,因此借助不確定性衡量及主動學(xué)習(xí)的思路,提出了謠言判別中可衡量數(shù)據(jù)和模型不確定性的指標(biāo),并以此指標(biāo)拒絕對模型泛化不友好的訓(xùn)練樣本,探索對模型性能的影響。
數(shù)據(jù)概覽
早期與謠言檢測有關(guān)的工作多集中于通過事件關(guān)鍵詞檢索的方式,獲取討論激烈、事實性難辨的社交網(wǎng)絡(luò)短文本,文本之間相對較為孤立。后有學(xué)者提出根據(jù)消息的轉(zhuǎn)發(fā)關(guān)系形成完善的信息傳播樹,從更為全局和全面的角度評估消息及相關(guān)討論的真?zhèn)涡裕∕ou, 2015)。目前,謠言判別常采用的數(shù)據(jù)集也均以信息傳播樹的方式進(jìn)行組織,每一個待判斷的傳播樹的完整的信息傳播結(jié)構(gòu)以及樹層面的類別標(biāo)簽,以上三篇文章涉及的數(shù)據(jù)集羅列如下。
Twitter15(Liu, 2016):從國外謠言公布網(wǎng)站(如snopes.com, emergent.info)獲取已進(jìn)行判別的社交網(wǎng)絡(luò)信息,再由其發(fā)布的Twitter消息源爬取相關(guān)的轉(zhuǎn)發(fā)信息形成信息傳播樹,共包含1374個信息傳播樹;傳播樹標(biāo)簽包含非謠言/真實信息/虛假信息/未被證實信息,各個類別比例較為均衡,訓(xùn)練、驗證及測試集為隨機(jī)劃分。
Twitter16(Ma, 2016):構(gòu)造思路與Twitter 15一致,根據(jù)當(dāng)年熱門事件進(jìn)行了擴(kuò)充,包含735個信息傳播樹,每棵樹包含消息數(shù)目更少。
PHEME(Zubiaga, 2016; Zubiaga, 2017):從9個和政治、民生密切相關(guān)的主題出發(fā),搜集了與這些主題相關(guān)的Twitter內(nèi)容及其引發(fā)的討論信息,篩選社交討論性質(zhì)更明顯的形成信息傳播樹,根據(jù)謠言檢測、立場分類、謠言判別的任務(wù)流程由新聞從業(yè)者進(jìn)行標(biāo)注,通過謠言檢測將6425個信息傳播樹分類為謠言/非謠言,對于2402個謠言信息傳播樹再判別為真實信息/虛假信息/未被證實信息;采用LOEO(leave one event out)的驗證方式,使其更貼近實際應(yīng)用場景,但不同事件文本和類別差異都很大,極具挑戰(zhàn)性。
RumourEval(Derczynski, 2017):是PHEME數(shù)據(jù)集的子集,篩選了立場標(biāo)簽較為完善的325個傳播樹,作為Semeval-2017 task 8的評測數(shù)據(jù)集,訓(xùn)練、驗證及測試集為隨機(jī)劃分。
論文細(xì)節(jié)
1
基于圖網(wǎng)絡(luò)和協(xié)同注意力機(jī)制的用于可解釋社交媒體虛假新聞檢測的模型
論文動機(jī)
此前相關(guān)研究主要受到三方面的局限:
短文本社交網(wǎng)絡(luò)文本建模能力不足。大部分用戶在轉(zhuǎn)發(fā)信源時發(fā)表的言論都較為簡短,且許多僅為轉(zhuǎn)發(fā)行為缺少實質(zhì)性新增話語,基于信息傳播樹僅對消息文本進(jìn)行建模表示能力有限。
構(gòu)建準(zhǔn)確的信息傳播樹代價昂貴。部分社交網(wǎng)絡(luò)平臺對爬取轉(zhuǎn)發(fā)鏈數(shù)目進(jìn)行了限制,并且部分用戶設(shè)置了閱讀權(quán)限,獲取的傳播樹常存在缺失或截斷的現(xiàn)象。
復(fù)雜模型的可解釋性不足。即使模型最終輸出真?zhèn)涡詷?biāo)簽,但內(nèi)部決策過程很難驗證,并且對于進(jìn)一步實際應(yīng)用,如挖掘潛在惡意用戶、造謠慣用話術(shù)等沒有幫助。
因此文章在對信源建模后,僅使用涉及的傳播用戶對信息傳播樹進(jìn)行建模,并且融入?yún)f(xié)同注意力機(jī)制,對判決過程中的關(guān)鍵用戶和關(guān)鍵信息進(jìn)行呈現(xiàn)。
模型
整體模型大致可拆解為4部分:
1. 信源文本表示
對原始消息文本中的詞語進(jìn)行one-hot編碼,再使用GRU序列模型進(jìn)行表示:
2. 用戶傳播特征表示
根據(jù)用戶的個人資料(個人簡介字?jǐn)?shù)、昵稱字?jǐn)?shù)、關(guān)注數(shù)、被關(guān)注數(shù)、是否認(rèn)證、是否開啟地理定位、距離傳播樹中上一條消息的時間間隔、轉(zhuǎn)發(fā)所在樹的深度)提取用戶特征,根據(jù)用戶的發(fā)文時間形成序列,分別使用CNN和GRU得到傳播序列的表示。
分別使用兩個模型進(jìn)行建模,經(jīng)過CNN得到的序列表示在進(jìn)行協(xié)同注意力融合時更為友好,而GRU能體現(xiàn)傳播過程中參與用戶類型的變化。
3. 用戶潛在交互網(wǎng)絡(luò)表示
除了在時間軸上用戶參與較為宏觀的表示,用戶之間點對點的交互關(guān)系也能刻畫信息的傳播模式。為了簡化傳播樹構(gòu)造過程,文章直接將傳播樹內(nèi)涉及的用戶組成全連接圖,以用戶之間的余弦相似度初始化邊權(quán)重以及圖的鄰接矩陣
,接著使用GCN得到具有交互特征的用戶表示。
4. 協(xié)同注意力網(wǎng)絡(luò)及預(yù)測
使用協(xié)同注意力機(jī)制得到融合表示,其中對信源和用戶傳播表示的融合表示計算如下:
對信源和用戶交互表示的融合計算方式類似。
再將信源和用戶交互表示的融合表示、信源和用戶傳播表示的融合表示、用戶傳播的序列化表示拼接,通過全連接層得到最終預(yù)測結(jié)果,以交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo)來訓(xùn)練。
結(jié)果
模型在Twitter15、Twitter16兩個數(shù)據(jù)集上都取得了更優(yōu)的性能。
消融實驗也驗證了各個部件的有效性。
在可解釋性的論證方面,分別提取關(guān)于信源中基于詞的注意力權(quán)重、在用戶傳播表示中基于用戶的注意力權(quán)重,分析真實信息/虛假信息案例中的關(guān)鍵詞、傳播判別模式和更易參與虛假信息傳播的用戶特征。
2
基于決策樹和協(xié)同注意力機(jī)制的可解釋的謠言判別模型
論文動機(jī)
雖然此前研究大多表明信息傳播樹中的后續(xù)討論內(nèi)容(如話題爭議點、對原始信息真實的質(zhì)疑等)對于整體判斷有幫助,但缺少定位到具體有所呼應(yīng)、有所論證單條消息的過程。此外,后續(xù)討論內(nèi)容與原始消息之間具體的詞級別的交互未進(jìn)行深入探索。
因此文章使用決策樹具有解釋性的呈現(xiàn)出篩選佐證的過程,并基于協(xié)同注意力機(jī)制探索信源與相關(guān)佐證之間詞級別的關(guān)聯(lián),形成對信息傳播樹真?zhèn)涡耘袆e可解釋性的邏輯鏈條。
模型
模型可分為2個部件:
1. 基于決策樹模型篩選佐證信息
根據(jù)以往研究構(gòu)造與后續(xù)討論相關(guān)性、可信度相關(guān)的3個數(shù)值型特征:消息與信源之間的語義相似度,發(fā)表消息用戶的可信度,該條的可信度。
多次試驗,分別設(shè)置3個數(shù)值特征的臨界值條件,只要3個特征之一小于其閾值則將該條消息納入佐證集合。
2. 基于協(xié)同注意力機(jī)制進(jìn)行預(yù)測
對信息源文本使用雙向LSTM更新詞語表示;接著將第1步中提取出的佐證拼接起來,同樣使用雙向LSTM更新詞表示。
基于協(xié)同注意力機(jī)制或者兩者互相融合的表示。即在注意力權(quán)重計算公式中,保持關(guān)鍵字矩陣K、值矩陣V本身表示,將查詢矩陣Q更換為需要進(jìn)行交互的表示。
以計算O的方式獲得兩者交互融合的表示E和C后,進(jìn)行求差、求內(nèi)積并拼接的操作,得到信息傳播樹的表示,最后使用全連接層輸出類別標(biāo)簽,并使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。
結(jié)果
文章在RumourEval和PHEME數(shù)據(jù)集上進(jìn)行測試(隨機(jī)劃分訓(xùn)練、驗證、測試集),在大多數(shù)分類評價指標(biāo)上都優(yōu)于已有模型。
在可解釋性的論證方面,文章抽取出1個信息傳播樹的案例,可視化了提出模型的決策過程。圖中藍(lán)色文本代表決策樹模型中3個特征的具體數(shù)值,根據(jù)這些特征篩選出的佐證由紅色箭頭標(biāo)記出來。同時,不同深色的紅色陰影代表了計算的協(xié)同注意力權(quán)重,可以看到一些與謠言判別更相關(guān)的事件描述詞。
3
評估謠言判別模型中的預(yù)測不確定性
論文動機(jī)
在實際應(yīng)用場景下,謠言判別是極為復(fù)雜的系統(tǒng)性任務(wù),智能化的謠言判別方法還不能完全取代人的細(xì)致全面的判斷,但能縮小人工核查的范圍。如果能更準(zhǔn)確的找出對于模型難以判別的樣例,再交由人工判斷,將更加優(yōu)化實際生活中對謠言的發(fā)現(xiàn)和判別。
另外,由于大多數(shù)模型是基于歷史數(shù)據(jù)進(jìn)行訓(xùn)練的,面對新產(chǎn)生的突發(fā)事件,模型的泛化能力往往不佳。若能剔除對整體泛化性能影響較大的訓(xùn)練樣例,則有望進(jìn)一步提升模型對新事件的泛化能力。
因此,文章借鑒在不確定性衡量方面相關(guān)工作以及主動學(xué)習(xí)的實驗設(shè)置,提出了一系列用于衡量數(shù)據(jù)和模型不確定性的指標(biāo),并探索這些指標(biāo)與模型預(yù)測能力、訓(xùn)練數(shù)據(jù)篩選之間的關(guān)聯(lián)。
方法
文章先基于謠言判別的基線模型獲取可比較的基礎(chǔ)性能,接著計算不同類型的不確定性指標(biāo),并以此剔除訓(xùn)練樣本再次訓(xùn)練,分析基線模型性能變化。
1. 基線模型
基線模型采用在RumourEval 2019任務(wù)上具有不錯性能的枝化LSTM模型(branchLSTM),即根據(jù)信息傳播的方向,將每條傳播序列抽取出來,對每個序列使用LSTM進(jìn)行表示得到預(yù)測標(biāo)簽后,再對所涉及的所有序列結(jié)果進(jìn)行大多數(shù)投票得到傳播樹的預(yù)測標(biāo)簽。
2. 不確定性衡量
不確定性可從數(shù)據(jù)和模型兩個層面進(jìn)行考慮。數(shù)據(jù)的不確定性主要與所訓(xùn)模型的分類邊界有關(guān),距離分類邊界越近,數(shù)據(jù)層面的不確定性就越高,加入輕微擾動則容易使得分類結(jié)果轉(zhuǎn)變。模型的不確定性主要與各維表示對模型分類結(jié)果的代表性能相關(guān),若僅保留部分維度的表示,預(yù)測結(jié)果依然穩(wěn)定,則表明模型的不確定性較低。
在衡量模型不確定性(epistemic uncertainty)時,重復(fù)輸出預(yù)測結(jié)果前的dropout層N次,由于dropout具有隨機(jī)性,則每次預(yù)測結(jié)果將有所差異,用以下三個指標(biāo)進(jìn)行衡量:
變異比(variation ratio),即和主要預(yù)測類別不同的類別所占的比例,
熵(entropy),由于預(yù)測類別時得到的one-hot向量,對每一維度的概率求熵:
方差(variance),對于N次dropout的結(jié)果,計算代表類別概率的每一維度的方差,取最大值作為模型不確定衡量指標(biāo)。
3. 數(shù)據(jù)篩選
在獲得每個樣例的數(shù)據(jù)和模型方面的不確定性數(shù)值指標(biāo)后,通過非監(jiān)督和監(jiān)督方式舍棄樣本。
非監(jiān)督的舍棄即根據(jù)樣本某一類型的不確定性進(jìn)行排序,按一定比例舍棄掉不確定性高的樣本。
監(jiān)督的舍棄即從訓(xùn)練數(shù)據(jù)中再劃分一小部分?jǐn)?shù)據(jù)訓(xùn)練一個較為簡單的預(yù)分類器(SVM或隨機(jī)森林),輸入特征為各種類型的不確定性指標(biāo),原有的one-hot預(yù)測結(jié)果和真實標(biāo)簽,分類錯誤的數(shù)據(jù)則打上被拒絕的標(biāo)簽。由此對剩下的訓(xùn)練數(shù)據(jù)通過預(yù)分類器判斷是否需要舍棄。監(jiān)督的舍棄方法能盡可能的利用到不同類型的不確定性衡量指標(biāo),且舍棄數(shù)目由預(yù)分類器給出而不需要人為試驗多次。
結(jié)果
文章在PHEME、Twitter15、Twitter16數(shù)據(jù)集上進(jìn)行了實驗,結(jié)果表明在進(jìn)行了數(shù)據(jù)舍棄后,模型的性能均有提升,尤其采用有監(jiān)督方式的舍棄,提升更為顯著。
在不同數(shù)據(jù)上,根據(jù)不同類型不確定性指標(biāo)進(jìn)行非監(jiān)督的數(shù)據(jù)舍棄有明顯差別。由于PHEME數(shù)據(jù)集驗證方式為LOEO,測試集與驗證集語義差距、類別比例都較大,因此根據(jù)數(shù)據(jù)不確定性效果提升更為明顯。而Twitter15、Twitter16數(shù)據(jù)集較為均衡,針對模型不確定性的數(shù)據(jù)舍棄更為有效。
同時文章借助PHEME數(shù)據(jù)中傳播樹中部分消息的立場標(biāo)簽,探究了隨時間變化,不斷增多傳播樹相關(guān)的討論,模型預(yù)測結(jié)果和不確定性的變化。圖中展示了3個真實標(biāo)簽分別為真實/虛假/未經(jīng)證實而預(yù)測標(biāo)簽均為虛假的樣例,橫軸代表該傳播樹不同時刻的消息,橫軸下方的大寫字母代表僅將該時刻前數(shù)據(jù)輸入模型得到的預(yù)測標(biāo)簽;縱軸表示僅將該時刻前數(shù)據(jù)輸入模型得到的不確定性的具體數(shù)值,圖中上半部分代表模型不確定性,下半部分代表數(shù)據(jù)不確定性,并且圖中每個圓點顏色代表不同立場(綠色-支持/紅色-反對/藍(lán)色-質(zhì)疑/黑色-評論)。
可以看到,隨著傳播樹信息的不斷豐富,不確定性指標(biāo)呈現(xiàn)出下降趨勢;觀察每一時刻的預(yù)測標(biāo)簽,預(yù)測結(jié)果和僅利用原始消息差別不多,說明在此模型下信源信息對謠言判別尤為重要。
總結(jié)
以上三篇文章均為社交網(wǎng)絡(luò)謠言判別中可解釋性探索提供了不同的解決思路。其中,協(xié)同注意力機(jī)制的廣泛應(yīng)用能有效的融合不同來源的信息(如信源和用戶之間,信源和佐證之間),并定位對于謠言判別更為關(guān)鍵的部分。另外,對數(shù)據(jù)和模型不確定性的細(xì)化衡量能使人更加認(rèn)識數(shù)據(jù)集的內(nèi)置偏差或是模型的自身缺陷。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
25916 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5586瀏覽量
123645 -
cnn
+關(guān)注
關(guān)注
3文章
355瀏覽量
23112
原文標(biāo)題:【論文分享】ACL 2020 社交網(wǎng)絡(luò)謠言判別中可解釋性相關(guān)研究
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
機(jī)器學(xué)習(xí)模型可解釋性的結(jié)果分析

什么是“可解釋的”? 可解釋性AI不能解釋什么
斯坦福探索深度神經(jīng)網(wǎng)絡(luò)可解釋性 決策樹是關(guān)鍵

機(jī)器學(xué)習(xí)模型的“可解釋性”的概念及其重要意義
神經(jīng)網(wǎng)絡(luò)可解釋性研究的重要性日益凸顯
深度理解神經(jīng)網(wǎng)絡(luò)黑盒子:可驗證性和可解釋性
機(jī)器學(xué)習(xí)模型可解釋性的介紹
圖神經(jīng)網(wǎng)絡(luò)的解釋性綜述

《計算機(jī)研究與發(fā)展》—機(jī)器學(xué)習(xí)的可解釋性

可以提高機(jī)器學(xué)習(xí)模型的可解釋性技術(shù)
文獻(xiàn)綜述:確保人工智能可解釋性和可信度的來源記錄

云知聲四篇論文入選自然語言處理頂會ACL 2025

評論