背景介紹
隨著智慧司法的興起,智能化方法驅(qū)動的智能法律系統(tǒng)可以惠及不同的群體。例如,為法律專業(yè)人員減輕文書工作,為普通民眾提供法律咨詢服務(wù),為法學(xué)學(xué)生提供學(xué)習(xí)和考試輔導(dǎo)。
由于法律知識的獨(dú)特性和司法任務(wù)的多樣性,之前智慧司法研究方面,主要著眼于為特定任務(wù)設(shè)計(jì)自動化算法,難以滿足對司法領(lǐng)域提供支撐性服務(wù)的需求,離應(yīng)用落地有不小的距離。最近,大型語言模型(LLMs)展示出強(qiáng)大的能力在不同的傳統(tǒng)任務(wù)上,為智能法律系統(tǒng)的進(jìn)一步發(fā)展帶來希望。
復(fù)旦大學(xué)數(shù)據(jù)智能與社會計(jì)算實(shí)驗(yàn)室(FudanDISC)發(fā)布大語言模型驅(qū)動的中文智慧法律系統(tǒng)——DISC-LawLLM。該系統(tǒng)可以面向不同用戶群體,提供多樣的法律服務(wù)。此外,構(gòu)建了評測基準(zhǔn)DISC-Law-Eval,從客觀和主觀兩個(gè)方面來評測法律大語言模型,模型在評測中的表現(xiàn)相較現(xiàn)有的法律大模型有明顯優(yōu)勢。
課題組同時(shí)公開包含30萬高質(zhì)量的監(jiān)督微調(diào)(SFT)數(shù)據(jù)集——DISC-Law-SFT,模型參數(shù)和技術(shù)報(bào)告也一并開源。
DISC
01
樣例展示
用戶有法律方面的疑問時(shí),可以向模型咨詢,描述疑問,模型會給出相關(guān)的法律規(guī)定和解釋、推薦的解決方案等。
圖1 法律咨詢示例 專業(yè)法律者和司法機(jī)關(guān),可以利用模型完成法律文本摘要、司法事件檢測、實(shí)體和關(guān)系抽取等,減輕文書工作,提高工作效率。
圖2 司法文書分析 法律專業(yè)的學(xué)生在準(zhǔn)備司法考試過程中,可以向模型提出問題,幫助鞏固法律知識,解答法律考試題。
圖3 考試助手示例 在需要外部法條做支撐時(shí),模型會根據(jù)問題在知識庫中檢索相關(guān)內(nèi)容,給出回復(fù)。
圖4 檢索增強(qiáng)場景下的對話
02
DISC-LawLLM介紹
DISC-LawLLM是基于我們構(gòu)建的高質(zhì)量數(shù)據(jù)集DISC-Law-SFT在通用領(lǐng)域中文大模型Baichuan-13B上進(jìn)行全參指令微調(diào)得到的法律大模型。值得注意的是,我們的訓(xùn)練數(shù)據(jù)和訓(xùn)練方法可以被適配到任何基座大模型之上。 DISC-LawLLM具有三個(gè)核心能力: 1. 基礎(chǔ)的法律文本處理能力。針對法律文本理解與生成的不同基礎(chǔ)能力,包括信息抽取、文本摘要等,我們基于現(xiàn)有的NLP司法任務(wù)公開數(shù)據(jù)和真實(shí)世界的法律相關(guān)文本進(jìn)行了微調(diào)數(shù)據(jù)的構(gòu)建。 2. 法律推理思維能力。針對智慧司法領(lǐng)域任務(wù)的需求,我們使用法律三段論這一法官的基本法律推理過程重構(gòu)了指令數(shù)據(jù),有效地提高了模型的法律推理能力。 3. 司法領(lǐng)域知識檢索遵循能力。智慧司法領(lǐng)域的問題解決,往往需要依循與問題相關(guān)的背景法條或者案例,我們?yōu)橹悄芊商幚硐到y(tǒng)配備了檢索增強(qiáng)的模塊,加強(qiáng)了系統(tǒng)對于背景知識的檢索和遵循能力。 模型的整體框架如圖5 所示。
圖5 模型在不同的法律場景下服務(wù)于不同的用戶
03
方法:
數(shù)據(jù)集DISC-Law-SFT的構(gòu)造
圖6 DISC-Law-SFT的構(gòu)造
DISC-Law-SFT分為兩個(gè)子數(shù)據(jù)集,分別是DISC-Law-SFT-Pair和DISC-Law-SFT-Triplet,前者向LLM中引入了法律推理能力,而后者則有助于提高模型利用外部知識的能力。
表1:DISC-Law-SFT數(shù)據(jù)集內(nèi)容介紹
數(shù)據(jù)來源
DISC-Law-SFT數(shù)據(jù)集的數(shù)據(jù)來源于三部分,一是與中國法律相關(guān)的NLP司法任務(wù)公開數(shù)據(jù)集,包括法律信息抽取、實(shí)體與關(guān)系抽取、司法文本摘要、司法考試問答、司法閱讀理解、罪名/刑期預(yù)測等;二是收集了來自真實(shí)世界的法律相關(guān)的原始文本,如法律法規(guī)、司法案件、裁判文書、司法相關(guān)的考試等;三是通用的開源數(shù)據(jù)集,我們使用了alpaca_gpt4_data_zh和Firefly,這樣可以豐富訓(xùn)練集的多樣性,減輕模型在SFT訓(xùn)練階段出現(xiàn)基礎(chǔ)能力降級的風(fēng)險(xiǎn)。
指令對構(gòu)造
對上述一、二來源的數(shù)據(jù)轉(zhuǎn)換為“輸入-輸出”指令對后,我們采用以下三種方式對指令數(shù)據(jù)重構(gòu),以提高數(shù)據(jù)質(zhì)量。行為塑造在法律三段論中,大前提為適用的法律規(guī)則,小前提為案件事實(shí),結(jié)論為法律判斷。這構(gòu)成了法官的一個(gè)基本的法律推理過程。每一個(gè)案例都可以通過三段論得出一個(gè)明確的結(jié)論,如下所述: 大前提:法律規(guī)則 小前提:案件事實(shí) 結(jié)論:法律判斷 我們利用GPT-3.5-turbo來完成行為塑造的重構(gòu),細(xì)化輸出,確保每個(gè)結(jié)論都從一個(gè)法律條款和一個(gè)案例事實(shí)中得出。知識擴(kuò)充對于行為塑造不適用的多項(xiàng)選擇題,我們直接使用法律知識擴(kuò)展輸出,以提供更多的推理細(xì)節(jié)。許多與法律相關(guān)的考試和知識競賽只提供答案選項(xiàng),我們使用LLM來擴(kuò)展所涉及的法律知識,給出正確的答案,并重建指令對。思維培養(yǎng)思維鏈(CoT)已被證明能有效地提高模型的推理能力。為了進(jìn)一步賦予模型法律推理能力,我們設(shè)計(jì)了具有特定法律意義的思維鏈,稱為LCoT,要求模型用法律三段論來推導(dǎo)答案。LCoT將輸入X轉(zhuǎn)換為如下的提示: 在法律三段論中,大前提是適用的法律規(guī)則,小前提是案件事實(shí),結(jié)論是對案件的法律判斷。 案件:X 讓我們用法律三段論來思考和輸出判斷:
指令三元組構(gòu)造
為了訓(xùn)練檢索增強(qiáng)后的模型,我們構(gòu)造了DISC-Law-SFT-Triplet子數(shù)據(jù)集,數(shù)據(jù)為<輸入、輸出、參考>形式的三元組,我們使用指令對構(gòu)造中列出的三種策略對原始數(shù)據(jù)進(jìn)行處理,獲得輸入和輸出,并設(shè)計(jì)啟發(fā)式規(guī)則來從原始數(shù)據(jù)中提取參考信息。
04
實(shí)驗(yàn)
訓(xùn)練
DISC-LawLLM的訓(xùn)練過程分為SFT和檢索增強(qiáng)兩個(gè)階段。檢索增強(qiáng)雖然我們使用了高質(zhì)量的指令數(shù)據(jù)對LLM進(jìn)行微調(diào),但它可能會由于幻覺或過時(shí)的知識而產(chǎn)生不準(zhǔn)確的反應(yīng)。為了解決這個(gè)問題,我們設(shè)計(jì)了一個(gè)檢索模塊來增強(qiáng)DISC-LawLLM。 給定一個(gè)用戶輸入,檢索器通過計(jì)算它們與輸入的相似性,從知識庫返回最相關(guān)的Top-K文檔。這些候選文檔,連同用戶輸入,用我們設(shè)計(jì)的模板構(gòu)造后輸入到DISC-LawLLM中。通過查詢知識庫,模型可以更好地理解主要前提,從而得到更準(zhǔn)確可靠的答案
圖7:檢索增強(qiáng)的DISC-LawLLM
評測
評測基準(zhǔn) DISC-Law-Eval我們構(gòu)建了一個(gè)公平的智能法律系統(tǒng)評估基準(zhǔn)DISC-Law-Eval,從客觀和主觀的角度來評估,填補(bǔ)了目前還沒有基準(zhǔn)來對智能法律體系全面評估這一空白。
圖8:DISC-Law-Eval評測基準(zhǔn)客觀評測為了客觀、定量地評估智能法律系統(tǒng)的法律知識和推理能力,我們設(shè)計(jì)了一個(gè)客觀的評價(jià)數(shù)據(jù)集,由一系列中國法律標(biāo)準(zhǔn)化考試和知識競賽的單項(xiàng)和多項(xiàng)選擇題組成,并根據(jù)內(nèi)容復(fù)雜性和演繹難度,將問題分為困難、正常和容易三個(gè)層次。它可以提供一個(gè)更具挑戰(zhàn)性和可靠的方法來衡量模型是否可以利用其知識來推理正確的答案。我們通過計(jì)算精度來表明性能。主觀評測主觀評測部分,我們采用問答的范式進(jìn)行評估,模擬主觀考試問題的過程。我們從法律咨詢、在線論壇、與司法相關(guān)的出版物和法律文件中手工構(gòu)建了一個(gè)高質(zhì)量的測試集。我們用GPT- 3.5-turbo作為裁判模型來評估模型的輸出,并用準(zhǔn)確性、完整性和清晰度這三個(gè)標(biāo)準(zhǔn)提供1到5的評分。
評測結(jié)果
比較模型將我們的模型DISC-LawLLM(不外接知識庫)與4個(gè)通用LLM和4個(gè)中文法律LLM進(jìn)行比較,包括GPT-3.5-turbo、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ;LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。客觀評測結(jié)果DISC-LawLLM在所有不同難度水平的測試中超過所有比較的同等參數(shù)量的大模型。即使與具有175B參數(shù)的GPT- 3.5-turbo相比,DISC-LawLLM在部分測試上也表現(xiàn)出了更優(yōu)越的性能。表2是客觀評測結(jié)果,其中加粗表示最佳結(jié)果,下劃線表示次佳結(jié)果。
表2:客觀評測結(jié)果主觀評測結(jié)果在客觀評測中,DISC-LawLLM獲得了最高的綜合得分,并在準(zhǔn)確性和清晰度這兩項(xiàng)標(biāo)準(zhǔn)中得分最高。表3是主觀評測結(jié)果,其中加粗表示最佳結(jié)果。
表3:主觀評測結(jié)果
05
總結(jié)
我們發(fā)布了DISC-LawLLM,一個(gè)提供多應(yīng)用場景下法律服務(wù)的智能法律系統(tǒng)。基于公開的法律領(lǐng)域NLP任務(wù)數(shù)據(jù)集、法律原始文本和開源通用指令數(shù)據(jù)集,按照法律三段論重構(gòu)了法律指令進(jìn)行監(jiān)督微調(diào)。為了提高輸出的可靠性,我們加入了一個(gè)外部檢索模塊。通過提高法律推理和知識檢索能力,DISC-LawLLM在我們構(gòu)建的法律基準(zhǔn)評測集上優(yōu)于現(xiàn)有的法律LLM。該領(lǐng)域的研究將為實(shí)現(xiàn)法律資源平衡等帶來更多前景和可能性,我們發(fā)布了所構(gòu)建的數(shù)據(jù)集和模型權(quán)重,以促進(jìn)進(jìn)一步的研究。
-
算法
+關(guān)注
關(guān)注
23文章
4710瀏覽量
95405 -
智能化
+關(guān)注
關(guān)注
15文章
5128瀏覽量
57292 -
語言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10797
原文標(biāo)題:DISC-LawLLM:復(fù)旦大學(xué)團(tuán)隊(duì)發(fā)布中文智慧法律系統(tǒng),構(gòu)建司法評測基準(zhǔn),開源30萬微調(diào)數(shù)據(jù)
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
華為與復(fù)旦大學(xué)合作開發(fā)全國首個(gè)醫(yī)學(xué)人工智能課程
模擬電路二級運(yùn)放實(shí)例【復(fù)旦大學(xué)教材】
研究生畢業(yè)繼續(xù)送資料——超經(jīng)典復(fù)旦大學(xué)微電子工藝教案
復(fù)旦大學(xué)微電子專業(yè)專用集成電路內(nèi)部電子版教程
祝賀 | 鵬城實(shí)驗(yàn)室開源 EDA 團(tuán)隊(duì)勇奪 ICCAD 競賽第一名
模擬CMOS集成電路設(shè)計(jì)(拉扎維)——復(fù)旦大學(xué)課件
Google 在上海與復(fù)旦大學(xué)簽署兩年期合作協(xié)議 Google將重點(diǎn)支持復(fù)旦大學(xué)在人工智能
應(yīng)用材料公司攜手復(fù)旦大學(xué)舉辦半導(dǎo)體技術(shù)系列講座
華為與復(fù)旦大學(xué)合作開發(fā)醫(yī)學(xué)AI與機(jī)器學(xué)習(xí)課程
科沃斯機(jī)器人擔(dān)任復(fù)旦大學(xué)的助理輔導(dǎo)員
強(qiáng)強(qiáng)聯(lián)手 | 晶華微-復(fù)旦大學(xué)聯(lián)合實(shí)驗(yàn)室正式揭牌

校源行 | 開放原子校源行活動走進(jìn)復(fù)旦大學(xué)

評論