chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用LLM生成反駁:首先洞察審稿人的心理,再巧妙回應(yīng)!

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-11-16 11:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在科研領(lǐng)域,同行評審(review-rebuttal)是保證學術(shù)質(zhì)量的關(guān)鍵環(huán)節(jié)。這一過程中的辯論和反駁非常具有挑戰(zhàn)性。傳統(tǒng)的同行評審生成任務(wù)通常集中在表面層面的推理。研究人員發(fā)現(xiàn),考慮論點背后的態(tài)度根源和主題可以提高反駁的有效性。

今天介紹的這篇研究將心理學理論與辯論技術(shù)相結(jié)合,為計算辯論領(lǐng)域帶來了新的視角。具體來說,文章主要做了以下工作:

  • 提出了一種全新的同行評審反駁生成任務(wù)——柔道辯論(Jiu-Jitsu Argumentation),結(jié)合態(tài)度根源和主題進行辯論。
  • 開發(fā)了JITSUPEER數(shù)據(jù)集,包含豐富的態(tài)度根源、主題和典型反駁案例。
  • 為同行評審反駁生成提供了強大的基準線。

5496c2ac-82f6-11ee-939d-92fbcf53809c.png

Paper: Exploring Jiu-Jitsu Argumentation for Writing Peer Review Rebuttals
Link: https://arxiv.org/pdf/2311.03998.pdf

做一個專門面向年輕NLPer的每周在線論文分享平臺

Jiu-Jitsu Argumentation

同行評審對于確??茖W的高質(zhì)量至關(guān)重要:作者提交研究成果,而審稿人則辯論應(yīng)不應(yīng)該接受其發(fā)表。通常評審后還會有一個反駁階段。在這里,作者有機會通過反駁論點來說服審稿人提高他們的評估分數(shù)。

這篇文章探索了同行評審領(lǐng)域中態(tài)度根源的概念,即在審查科學論文的標準時,識別審稿人的潛在信仰和觀點。

作者首先定義典型的rebuttal為:一種與潛在態(tài)度根源相一致并解決它們的反駁論點。它足夠通用,可以作為模板用于許多相同(態(tài)度根源-主題)審稿元組的實例,同時表達特定的反駁行動。

根據(jù)這個定義,作者提出了態(tài)度根源和主題引導的反駁生成任務(wù):給定一個同行評審論點rev和一個反駁行動a,任務(wù)是根據(jù)rev的態(tài)度根源和主題生成典型反駁c。

下圖展示了如何通過一系列中間步驟,將審稿內(nèi)容映射到標準的反駁上。這個審稿的主要觀點是關(guān)于清晰度和整體性。

54bc7af6-82f6-11ee-939d-92fbcf53809c.png

JITSUPEER 數(shù)據(jù)集

為了評估反駁生成任務(wù),作者構(gòu)建了JITSUPEER數(shù)據(jù)集。該數(shù)據(jù)集專注于同行評審過程中的態(tài)度根源和主題,通過連接這些元素與基于特定反駁行動的典型反駁,實現(xiàn)了一種態(tài)度和主題引導的反駁生成方法。

  • 態(tài)度根源與主題分布: 大多數(shù)審稿句子的態(tài)度根源是“實質(zhì)性”(Substance),這也是擁有最多主題(29個)的根源。最常見的主題是方法論(Methodology)、實驗(Experiments)和相關(guān)工作(Related Work)。這一發(fā)現(xiàn)符合直覺,因為機器學習領(lǐng)域的審稿者通常非常關(guān)注方法論的穩(wěn)健性和實用性。
  • 典型反駁識別: 研究團隊為不同的態(tài)度根源和反駁行動識別了302個典型反駁。這些典型反駁可以映射到2,219個審稿句子(總共2,332個)。與“完成任務(wù)”(Task Done)這一反駁行動和“實質(zhì)性”態(tài)度根源相關(guān)的典型反駁句子數(shù)量最多。
  • 典型反駁示例: 在報告的表格中,研究團隊展示了一些典型反駁的例子。顯然,不同的態(tài)度根源-主題描述與不同的典型反駁相關(guān)聯(lián)。

54d4045a-82f6-11ee-939d-92fbcf53809c.png

起始數(shù)據(jù)集

作為JITSUPEER的基礎(chǔ),研究團隊采用了名為DISAPERE的數(shù)據(jù)集,該數(shù)據(jù)集包含了2019年和2020年ICLR會議的審稿和相應(yīng)反駁。這些審稿和反駁被細致地分解成單個句子,并被三層注釋標記,包括審稿方面和極性、審稿與反駁之間的鏈接,以及反駁行動的直接注釋。特別地,研究團隊關(guān)注于需要反駁的負面審稿句子,探索了審稿方面的使用,以此來體現(xiàn)社區(qū)共享的科學價值觀。

此外,研究者還使用了另一數(shù)據(jù)集PEER-REVIEW-ANALYZE,該數(shù)據(jù)集是一個基準資源,包含2018年ICLR的審稿,同樣配備了多層注釋。這些注釋包括了審稿句子所指目標論文的特定部分,如方法、問題陳述等,這些信息被視為態(tài)度主題的關(guān)鍵元素。這一研究提供了一個獨特的視角,通過關(guān)注論文的特定部分,進一步豐富了對工作的潛在信仰和主題信息的理解。

數(shù)據(jù)集豐富化

在這項研究中,研究團隊的目標是創(chuàng)建一個詳盡的語料庫,其中審稿句子不僅被標注為態(tài)度根源和主題,而且還與特定反駁行動的典型反駁句子相連接。為了實現(xiàn)這一目標,研究團隊采用了一系列方法來豐富DISAPERE數(shù)據(jù)集。

主題預(yù)測

首先,他們使用了PEER-REVIEW-ANALYZE數(shù)據(jù)集來預(yù)測態(tài)度主題,即審稿句子中所涉及的論文部分。研究團隊測試了不同的模型,包括通用模型和針對同行評審領(lǐng)域的專門模型,如BERT、RoBERTa和SciBERT。他們通過中間層的遮蔽語言模型(MLM)對這些模型進行了領(lǐng)域?qū)iT化處理,并在多個配置下進行了訓練和優(yōu)化。研究團隊在變壓器的頂部添加了sigmoid分類頭,以進行微調(diào),并對不同的學習率進行了網(wǎng)格搜索。他們基于驗證性能采用早期停止策略,并在PEER-REVIEW-ANALYZE數(shù)據(jù)集上評估了模型的性能。結(jié)果顯示,所有變壓器模型的性能都顯著優(yōu)于基線模型,其中經(jīng)過領(lǐng)域?qū)iT化處理的SciBERTds_neg模型表現(xiàn)最佳。

根源–主題集群描述

接下來,研究團隊對每個態(tài)度根源–主題集群添加額外的自然語言描述,旨在提供比單純標簽元組更豐富的人類可解釋性。他們通過比較自動和手動生成的摘要來完成這一步驟。

摘要生成:在自動摘要方面,研究團隊采用了領(lǐng)域特定的SciBERTds_neg模型對句子進行嵌入,并根據(jù)余弦相似度選擇最具代表性的審稿句子。

評估: 研究團隊通過展示摘要和相應(yīng)的集群句子給注釋者,讓他們選擇更好地描述集群的摘要。他們使用INCEpTION開發(fā)了注釋界面,并雇用了額外的計算機科學博士生進行標注。通過測量注釋者間的一致性,研究團隊確保了摘要的質(zhì)量和準確性。

確定典型反駁

研究團隊為每個態(tài)度根源-主題集群確定典型的反駁,這是通過考慮特定的反駁行動來完成的。這一過程分為三個步驟:首先,減少候選典型反駁的數(shù)量;其次,手動比較縮減后候選集中的反駁句子對;最后,基于成對比較的分數(shù)計算排名,并選擇排名最高的候選作為典型反駁。

候選集減少:為了縮減典型反駁的候選集,研究團隊采用了兩種適用性分類器得出的分數(shù)。首先是一個二元分類器,基于自行訓練,用于預(yù)測一個反駁句子作為典型反駁的整體適用性。其次,考慮到典型反駁的原型性質(zhì),他們還使用了SPECIFICITELLER模型來獲得特定性分數(shù)。該模型是一個預(yù)訓練的基于特征的模型,用來評估句子是通用的還是具體的。通過這兩個步驟,研究團隊最終將候選集縮減至1,845個候選。

手動標注:在手動決定典型反駁方面,研究團隊設(shè)計了一套方法:展示來自特定態(tài)度根源和主題集群的≤5個審稿句子,并將這些信息與特定的反駁行動配對。然后,他們隨機選擇兩個反駁句子,這些句子與集群中的任一審稿句子相關(guān),并對應(yīng)于所選的反駁行動。標注者需要從這對反駁句子中選擇更好的一個。對于每個(態(tài)度根源、態(tài)度主題、反駁行動)三元組的n個反駁句子,成對標注設(shè)置需要對n(n ? 1)/2對句子進行評判。研究團隊雇傭了兩名計算機科學博士生進行這項任務(wù)。

典型反駁選擇:研究團隊基于收集的偏好通過注釋圖排名得出最佳反駁。具體來說,他們?yōu)槊總€根源-主題-行動集群創(chuàng)建了一個有向圖,圖中的節(jié)點是反駁句子。邊的方向基于偏好:如果A優(yōu)于B,則創(chuàng)建A → B的邊。然后,他們使用PageRank算法對節(jié)點進行排名,每條邊的權(quán)重為0.5。排名最低的節(jié)點,即很少或沒有入邊的節(jié)點,被選為典型反駁。這種方法不僅提高了數(shù)據(jù)集的質(zhì)量和實用性,也為未來在類似領(lǐng)域的研究提供了一個有力的方法論參考。

54ec20e4-82f6-11ee-939d-92fbcf53809c.png

實驗分析

研究團隊提出了三項新穎的任務(wù),以在其數(shù)據(jù)集上進行測試。分別是典型反駁評分,審稿意見生成,典型反駁生成。

典型反駁評分

這個任務(wù)的目標是給定一個自然語言描述d和一個反駁行動a,對所有反駁r(與特定態(tài)度根源-主題集群相關(guān))進行評分,以表明r作為該集群的典型反駁的適用性。

這個任務(wù)被視為一個回歸問題。只考慮有典型反駁的反駁行動和態(tài)度根源-主題集群的組合(50個態(tài)度根源-主題集群描述,3,986個反駁句子,其中302個是典型反駁)。使用之前的PageRank分數(shù)作為模型訓練的預(yù)測目標。

結(jié)果

  • 從下表可以看出,大多數(shù)領(lǐng)域?qū)iT化模型的表現(xiàn)優(yōu)于它們的非專門化對應(yīng)模型。

5514c3aa-82f6-11ee-939d-92fbcf53809c.png

  • SciBERTds_all 在所有方面都有最高的皮爾遜相關(guān)系數(shù),然而,BERTds_neg 在排名分數(shù)方面表現(xiàn)最佳。

  • 使用其他與集群相關(guān)的信息,如代表性審稿句子,以及對描述進行釋義,可能會帶來進一步的收益,這將留待未來研究探究。

審稿描述生成

給定一條同行評審句子rev,任務(wù)是生成該句子所屬集群的抽象描述d 。

實驗設(shè)置

  • 數(shù)據(jù)集由2,332個審稿句子組成,每個句子都屬于144個集群之一,并且每個集群都有相關(guān)的描述。
  • 采用70/10/20的訓練-驗證-測試分割。
  • 使用以下序列到序列(seq2seq)模型:BART (bart-large)、Pegasus (pegasus-large) 和 T5 (t5-large)。
  • 對訓練周期數(shù)e∈{1, 2, 3, 4, 5}和學習率λ∈{1 * 10^-4, 5 * 10^-4, 1 * 10^-5}進行網(wǎng)格搜索,批量大小b = 32。
  • 使用帶有5個束的束搜索作為解碼策略。
  • 在完全微調(diào)設(shè)置以及零次和少次(few-shot)場景中進行實驗(隨機選擇次數(shù))。
  • 根據(jù)詞匯重疊和語義相似性(ROUGE-1 (R-1), ROUGE-2 (R-2), ROUGE-L (R-L) 和 BERTscore)報告性能。

結(jié)果

  • R-1分數(shù)展示在下圖中,完整結(jié)果在表中。

553c8ff2-82f6-11ee-939d-92fbcf53809c.png

554f4782-82f6-11ee-939d-92fbcf53809c.png

  • 有趣的是,所有模型都表現(xiàn)出非常陡峭的學習曲線,在僅看到一個例子時,根據(jù)大多數(shù)指標,性能大致翻了一番。
  • 在zero shot和one shot設(shè)置中,BART在所有方面表現(xiàn)出色。
  • 但在完全微調(diào)模型時,T5的表現(xiàn)最佳。研究團隊推測這可能與T5更大的容量有關(guān)(BART有406M參數(shù),而T5有770M參數(shù))。

典型反駁生成

給定一條審稿句子rev 和一個反駁a,任務(wù)是生成典型反駁c。

實驗設(shè)置

  • 從2,219個有至少一個行動的典型反駁的審稿句子開始。
  • 輸入為將rev和a與分隔符連接在一起,產(chǎn)生17,873個獨特的審稿-反駁行動實例。
  • 使用與前面實驗相同的超參數(shù)、模型和度量標準,并進行完全微調(diào)以及零次和少次預(yù)測實驗。
  • 對這些實驗,應(yīng)用70/10/20的訓練-驗證-測試分割,以獲取訓練-驗證-測試部分,以典型反駁(302個反駁與17,873個獨特實例相連)為層次。

結(jié)果

  • 模型間的差異與之前的發(fā)現(xiàn)一致:BART在零次和少次設(shè)置中表現(xiàn)出色,T5雖然起點最低,但很快趕上其他模型。

557b6628-82f6-11ee-939d-92fbcf53809c.png

5598d672-82f6-11ee-939d-92fbcf53809c.png

  • 模型的表現(xiàn)比以前更加陡峭,并在兩次嘗試后就似乎達到了一個平臺。研究團隊認為這與典型反駁的有限多樣性有關(guān),以及他們決定在典型反駁層次上進行的訓練-測試分割——任務(wù)是生成模板,并對這些模板進行概括。看到其中只有幾個模板后,模型很快就能抓住一般的要點,但無法超越它們所展示的內(nèi)容。

結(jié)語

在這項工作中,研究團隊探索了基于審稿者潛在態(tài)度驅(qū)動的同行評審中的柔術(shù)式論證,為此他們創(chuàng)建了JITSUPEER數(shù)據(jù)集。這個新穎的數(shù)據(jù)集包含與典型反駁相連的審稿句子,這些典型反駁可以作為撰寫有效同行評審反駁的模板。團隊在這個數(shù)據(jù)集上提出了不同的自然語言處理任務(wù),并對多種基線策略進行了基準測試。JITSUPEER的注釋將公開提供,研究團隊相信這個數(shù)據(jù)集將成為促進計算論證領(lǐng)域中有效同行評審反駁寫作研究的寶貴資源。



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14665
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1327

原文標題:用LLM生成反駁:首先洞察審稿人的心理,再巧妙回應(yīng)!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RAG(檢索增強生成)原理與實踐

    開卷考試而不是閉卷考試——它可以查閱資料后作答。 1.2 為什么需要RAG? 傳統(tǒng)LLM面臨幾個關(guān)鍵問題: 知識時效性 :模型的知識截止于訓練時間,無法獲取最新信息 幻覺問題 :模型可能生成看似合理但
    發(fā)表于 02-11 12:46

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構(gòu)建了多維度的核心實現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1163次閱讀

    探索無限可能:生成式推薦的演進、前沿與挑戰(zhàn)

    TL;DR 過去一年間,生成式推薦取得了長足的實質(zhì)性進展,特別是在憑借大型語言模型強大的序列建模與推理能力提升整體推薦性能方面。基于LLM(Large Language Models, LLMs
    的頭像 發(fā)表于 10-20 16:42 ?6362次閱讀
    探索無限可能:<b class='flag-5'>生成</b>式推薦的演進、前沿與挑戰(zhàn)

    米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    話(Multi-Turn Dialogue)是指用戶與智能系統(tǒng)通過多輪交互逐步明確需求、解決問題的對話形式。這種交互依賴對話歷史的上下文連貫性,要求系統(tǒng)能夠動態(tài)理解用戶意圖、維護對話狀態(tài)并生成符合語境的回應(yīng)。本質(zhì)是動態(tài)
    發(fā)表于 09-05 17:25

    NVIDIA RTX AI PC為AnythingLLM加速本地AI工作流

    大語言模型(LLM)基于包含數(shù)十億個 Token 的數(shù)據(jù)集訓練而來,能夠生成高質(zhì)量的內(nèi)容。它們是眾多最熱門 AI 應(yīng)用的核心支撐技術(shù),包括聊天機器、智能助手、代碼生成工具等。
    的頭像 發(fā)表于 07-04 15:05 ?949次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2175次閱讀

    Qualys TotalAI 降低 Gen AI 和 LLM 工作負載的風險

    “在AI時代,最大的風險不是不去創(chuàng)新,而是在沒有穩(wěn)固基礎(chǔ)的情況下創(chuàng)新。” 生成式人工智能 (Gen AI) 和大語言模型 (LLM) 正在革新各行各業(yè),但是,它們的快速應(yīng)用帶來了嚴峻的網(wǎng)絡(luò)安全挑戰(zhàn)
    的頭像 發(fā)表于 06-25 14:18 ?485次閱讀
    Qualys TotalAI 降低 Gen AI 和 <b class='flag-5'>LLM</b> 工作負載的風險

    使用 llm-agent-rag-llamaindex 筆記本時收到的 NPU 錯誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創(chuàng)建運行 llm-agent-rag-llamaindex notebook 的環(huán)境。 執(zhí)行“創(chuàng)建
    發(fā)表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1868次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實踐

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場景不斷擴展(從文檔摘要到定制化軟件代理),開發(fā)者和技術(shù)愛好者正在尋求以更 快、更靈活的方式來運行大語言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?1170次閱讀
    LM Studio使用NVIDIA技術(shù)加速<b class='flag-5'>LLM</b>性能

    小白學大模型:從零實現(xiàn) LLM語言模型

    在當今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學習大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1298次閱讀
    小白學大模型:從零實現(xiàn) <b class='flag-5'>LLM</b>語言模型

    IBM如何基于SAP平臺和數(shù)據(jù)推動生成式AI的成功應(yīng)用

    “近日,IBM 商業(yè)價值研究院(IBV)與 SAP 研究洞察中心聯(lián)合開展了一項大規(guī)模調(diào)研,覆蓋全球 1200余位全球企業(yè)高管,其中 200位來自大中華區(qū),以深入洞察組織如何基于 SAP 平臺和數(shù)據(jù)推動生成式 AI 的成功應(yīng)用。
    的頭像 發(fā)表于 04-17 10:20 ?988次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進展,特別是自DeepSeekR1發(fā)布后興起的推理時間計算擴展相關(guān)內(nèi)容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1610次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀

    TouchGFX生成的工程,使用STM32CubeMX生成MDK工程,下載時報錯是怎么回事?

    我在用TouchGFX生成的工程,使用STM32CubeMX生成MDK工程,編譯后沒有出錯,是在下載時報錯: 如果不加載這個算法文件,那么按鍵圖標就是亂碼。
    發(fā)表于 03-11 06:50

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發(fā)表于 03-05 08:07