chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP技術在司法領域的應用

深度學習自然語言處理 ? 來源:量子位、CCF ? 作者:深度學習自然語言 ? 2022-08-22 11:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自然語言處理(簡稱NLP)被譽為“人工智能皇冠上的明珠”、“實現通用人工智能(AGI)的鑰匙”。

當自然語言處理技術遇到司法系統(tǒng),會擦出怎樣的火花?

在這里先跟大家分享一個“常識”:

據我國的法律,給出的量刑大都是一個區(qū)間,而不是具體值,比如判刑3年到5年。

那么究竟是3年、4年還是5年,需要法官對具體問題進行具體分析。

其出發(fā)點是好的,但實際卻讓一些經驗欠缺的法官左右為難:判久了對被告不利,判的時間不足對受害者又不夠公平。

不過現在嘛,法官的這個煩惱可以先放放了,因為有一項AI前來“搭把手”。

這個AI背后的主要技術,其實就是自然語言處理,它可以提取出當前案件中的諸多要素,將其和其他類似案件的要素作對比,最終分析得出具體建議值。

NLP技術在司法領域的應用

事實上,除了能夠輔助法官量刑外,現在“NLP+司法”的應用已不勝枚舉。

因為司法系統(tǒng)的構造可不簡單:它包括公安、檢察院、法院、司法局、律師,當然還有民眾。

對于不同的群體和場景,需要采用不同的方案和技術。

例如,在庭審場景下,有AI幫忙做筆錄那就省事兒多了,還可以大幅提升庭審效率。

于是“語音識別自動生成庭審筆錄”不就來了嗎?

目前,科大訊飛的語音識別自動生成庭審筆錄已經覆蓋了29個省份的法庭,平均使庭審時長縮短了30%,為復雜庭審縮短時長還達到了50%。

此外,對公安、檢察院、法院比較熟悉的朋友可能知道,很多案件都有厚厚一疊卷宗,手動編目、分類費時費力,現在這種活兒也可以交給AI來處理了,文字OCR技術在這里大顯身手。

編目完成后,還有重頭戲:閱卷。當然,AI又被派上了用場,它可以輔助辦案人員閱讀卷宗,例如:要素索取、結果呈現。

然后到了案件中至關重要的一部分:證據。

事實上,證詞和線索往往都來自不同的個體,很多時候都會不出現證據不一致等情況,為此讓人工分析推理,是件非常淘神費力的事情。

而AI現在可以輔助辦案人員校驗證據了,具體來說,就是AI單個人提供的筆錄等進行校驗,并且對不同人給出的信息進行對比、矛盾審查。

這背后涉及到實體識別、指代消解、語義角色和依存關系分析等NLP技術延伸出來的方法。

對于上述提到的卷宗、筆錄等法律文本,AI還能自動發(fā)現文本中的錯別字詞和語法錯誤。

為實現這樣的效果,訊飛采用了BERT中文全詞Mask(BERT-Chinese-wwm)模型,這是一個哈工大和訊飛聯合發(fā)布的全詞覆蓋中文BERT預訓練模型。

除此之外,面向普通大眾,訊飛還發(fā)布了法律自動問答AI助手“法小飛”;還有基于案情的律師推薦AI等。

以上,都是科大訊飛副總裁、AI研究院副院長,北京研究院院長王士進分享的訊飛“NLP+司法”案例。

NLP的進展與挑戰(zhàn)

前文展示了“NLP+司法”的應用,下面就NLP這項技術展開談談。

在本部分正式開始前,先來看一段有趣的對話吧(據說這是道外國人中文語言水平考試題):

B:沒什么意思,意思意思。 A:你這樣就沒意思了。 B:哎呀,小意思,小意思。 A:你這人可真有意思。 B:哎呀,其實也沒有別的意思。 A:那我就不好意思了。 B:是我不好意思。

請問這里的“意思”都是什么意思?(Doge)

其實,這里的“意思”二字可以看作一個符號,這個符號背后承載的信息非常豐富。

一詞多義、多詞一義等問題,本質上是形式和背后含義之間存在多對多的映射關系的問題,或者可以理解成在一個廣闊空間內進行搜索的問題。

我們認為,怎么處理好這些關系,是自然語言處理的最核心的困難。

哈爾濱工業(yè)大學教授、人工智能研究院副院長車萬翔如是說道。

但如果沒有任何限制,在一個非常大的空間內進行搜索,其復雜性相當高。這個該怎么解決?

車教授介紹稱,一般是用“知識”進行約束,這里打雙引號的原因是:提到知識,一般會認為是某些規(guī)則、邏輯、符號知識;而這里指的是更廣義的知識。

廣義的知識有多種分類法,這里主要將其分為3種來源。

其一,就是狹義的知識,包括語言、常識(很難從文本中挖到)和世界知識(可以從文本中挖到),世界知識可以拿知識圖譜等來表示。

其二,是算法,包括淺層學習、深度學習和NLP算法。

其三,是數據,包括有標注的、無標注的數據和偽數據。當下爆火的預訓練模型就使用了大量的未標注數據。

首先可通過未標注數據預訓練一個模型;接著用語料庫去精調這個模型,從而使目標模型變得更強大。

1e5b4e5a-21c8-11ed-ba43-dac502259ad0.png

當下普遍認為,對于幾乎所有AI系統(tǒng),如果沒有新的知識、算法或數據輸入,這個系統(tǒng)本身很難提高。

當然也有人提出,怎么感覺有例外——比如DeepMind的AI棋手AlphaZero,就是通過自我博弈來學習精進的。

對此,車教授解釋道,這種游戲場景比較特殊,因為它本身是一個封閉的系統(tǒng),能夠下棋的位置畢竟有限,且還有人為制定的勝負標準,所以在條條框框之下,機器自由發(fā)揮的空間并不算特別大。

但像NLP就不一樣了,哪句話說得好,哪句話說得不好,其實沒有一個明確的判定標準,這種情況下,左右博弈就沒有奇效了。

說到這里,現在 NLP用到了知識、算法和數據,那NLP之后還會朝哪個方向發(fā)展?或者說,NLP下一步還會用到什么?

要回答這個問題,不妨先縱觀一下人工智能自1956年誕生以來的發(fā)展簡史。(你就會發(fā)現一些有意思的規(guī)律)

上世紀50年代至上世紀90年代期間,主要關注的是小規(guī)模專家知識;從上世紀90年代到2011年前后,更關注的是算法設計;從2010年到2017年,迎來了深度學習的熱潮,數據的重要性愈發(fā)凸顯。

而自2018年谷歌推出BERT至今,大規(guī)模預訓練模型成了當下熱詞。

1e7ff750-21c8-11ed-ba43-dac502259ad0.png

不難發(fā)現,此前,后一個階段的時間幾乎是前一階段的一半,所以……(手動狗頭)

說回大規(guī)模預訓練模型,車教授指出,當前大模型的“同質化”趨勢越來越明顯,當然這可不是什么不好的事,我們可以用“通用性”來理解。

無論是 NLP 任務還是CV任務等,現在都有一套“萬金油”模型:Transformer,基本可以統(tǒng)一解決很多問題。此外,現在模型的規(guī)模越來越大,而且模型的表現和其規(guī)模確實呈正相關。所有有觀點認為,隨著模型規(guī)模的增大,還可能會涌現出令人驚訝的AI。正如俗話所說:量變引起質變。

車教授表示,模型的“同質化”和“規(guī)?;壁厔菔遣豢赡孓D的,未來還會繼續(xù)這樣走下去。

至于NLP目前遇到的問題,其實也算是人工智能發(fā)展過程中的問題,比如說易用性、高效性、魯棒性、可解釋性、推理能力等。(篇幅有限,這里就先不展開了)

車教授提出,未來可能除了數據外,還會使用更廣泛的“知識”,而這種“知識”的來源可以被概括成“體驗”,體驗來自于人機交互等場景。

NLP相關問題更多探討

圍繞自然語言處理的機遇和挑戰(zhàn),幾位學界和企業(yè)界的大佬展開了一場主題Panel。

大模型的工業(yè)實用前景

首先,縱觀前沿科技和當今的工業(yè)界不難發(fā)現,雖然自2020年GPT-3誕生以來,大模型的參數已達千億級別;但在工業(yè)實操中,尚未看到超大模型的廣范應用。

其中一個重要的原因是,大模型的訓練數據和一些工業(yè)領域的真實數據差別明顯。

大模型的實用前景到底如何目前十分具有爭議——有樂觀者認為:未來大模型也能成為NLP 的基礎模型;也有消極的觀點表示:這更像各巨頭集合算法算力、大數據等優(yōu)勢搞的一個軍備競賽而已。

現場的幾位專家對大模型的實用前景都未持消極態(tài)度,不過他們的具體想法也不盡相同。

學術界這邊,中國科學院自動化研究所的劉康研究員發(fā)言稱:

大模型確實是個好東西,但與其把大模型看成一種資源,不如把它看成一種技術規(guī)范、一種工具。

比如,在一些小數據場景下,能夠快速把已有的一些知識經驗遷移到新的任務。就像人拿到一個不會用新產品時,通過閱讀產品說明書,然后就很快學會使用該產品了。

清華大學副教授劉知遠的研究方向之一就是大模型。他指出,一方面,在實踐中發(fā)現,中文的數據質量比英文的差太多。

這不僅是規(guī)模問題,數據質量也不太行。最終效果就是,在實際訓練過程中,對中文素材去完重、去完垃圾后,所剩的數據非常有限。

所以,如何為模型訓練收集更多高質量的中文數據,是個重要議題,也是一件任重道遠的事兒。

另一方面,劉知遠教授認為,要提升大模型的實用性,下一代大模型必須具備這樣的特性:

隨著模型的規(guī)模的增長,其計算量要呈現一個亞線性的增長趨勢,否則系統(tǒng)很難承受。就像我們的人腦也學習了很多東西,但在回憶具體某概念時,腦子一般不用把很多知識點都過一遍。

企業(yè)界這邊,京東科技語音語義創(chuàng)新算法負責人、高級總監(jiān)吳友政提到,當下大伙兒熱議的大模型并不一定要參數量達到千億級才算。

除了“大”之外,Transformer和自監(jiān)督也是大模型的兩個核心概念。更重要的是,Transformer和自監(jiān)督在工業(yè)界已有廣泛應用,很多企業(yè)的線上系統(tǒng)雖然沒有千億參數,但參數量也能達到億級了。

當然,百億、千億級模型的工業(yè)應用場景,還需要漫長的探索。

舉個例子,在實際應用中,可控性往往也是一個重要指標。雖然像GPT-3這樣的模型在生成開放故事方面表現很好,但怎么基于現有的知識生成更加可控的文本依然值得研究。

對千億大模型的工業(yè)應用,科大訊飛研究院執(zhí)行院長劉聰干脆直言道:

對企業(yè)來說,投產比太高。(即性價比太低)

他認同“超大模型可以提高相關技術領域天花板”的觀點,就像前面提到的,把它作為一種范式是OK的。

劉聰還補充道,在教育、醫(yī)療、司法等場景下(這很訊飛),模型的可解釋性是至關重要的。

用大白話講,就是要說清楚模型內部到底發(fā)生了什么,才產生出這樣的結果,否則計算機通過模型給出的判定很難讓人信服。

然而,現在很多千億模型內部還處于“黑盒”狀態(tài),有些原理不僅是現在看不透,而且由于其龐大的體量和錯綜復雜的結構,以后也很難解釋清楚。

大模型處理多模態(tài)數據的前景

除了大模型的工業(yè)應用外,大模型處理多模態(tài)數據的前景也是個有意思的議題。

大家應該知道(至少能意會到),人腦可以輕松處理多模態(tài)的數據,從中學習和解耦各種復雜信息,并且讓各種模態(tài)的數據高度協(xié)同作用。

說人話,比如當倆人交談時,除了說出來的言語,還有語氣、語速、神態(tài)、肢體語言等也在傳遞著不同維度信息,就像有人說“好好好”可能是在真心夸贊,也可能是——

讀取并處理各種信息,對咱們聰明的大腦來說一般沒啥問題,但是對于計算機,是否也能輕松解決?

哈工大車萬翔教授表示,這應該沒有些人想象的那么困難。

前面他用“同質化”一詞形容了當今各個大模型的發(fā)展趨勢,再說一次,這里的“同質化”不是貶義詞——

現在,文本、語音、圖像都可以用Transformer這套東西來表示;反之,用Transformer能更容易地整合不同模態(tài)信息。所以,像“語音+文本+圖像”這樣的多模態(tài)預訓練模型其實已經數不勝數了。

此外,例如DeepMind的Gato,足足在604個不同的任務上進行了訓練,訓練數據還包括游戲里的建模動畫、模擬機器人運用場景等。最終,這個“全才”AI不僅可以看圖寫話、和人類聊天,還可以把雅達利游戲玩得飛起,并且能操控機械臂。

清華劉知遠教授補充道,他認為多模態(tài)模型的“模態(tài)”可以更加多樣化,例如用戶行為就是一種值得大模型學習的數據。

他提到OpenAI今年發(fā)布的網頁版GPT(WebGPT),可以把用戶通過搜索引擎來回答問題的行為序列作為Transformer的輸入,并對其訓練,然后模型就學到了一個新技能——根據問題去網上搜索答案。

企業(yè)界這邊,科大訊飛的劉聰指出,在應用場景中有剛需的多模態(tài)模型,公司會優(yōu)先投入研發(fā)。

劉聰以語音交互問題舉例:雖然在常規(guī)場景下,語音交互的技術已經相當成熟了;但是在車載、雞尾酒會等嘈雜環(huán)境中,怎么判斷某人正在對A還是B,在對人還是對機器說話?

在這種復雜的交互場景下,語音和視覺信息等結合,可以顯著提升模型的準確性。

在大伙兒對多模態(tài)大模型積極表態(tài)之時,劉康研究員則提出了在科研過程中遇到的一個問題:

用Transformer這個萬金油來建立各個模態(tài)之間的關聯,看似是個近乎完美的方案,但實際極大的依賴于背后數據之間的關系。

舉個簡單的例子,數據之間是對應關系還是互補關系?比如,給出一段新聞數據,里面的圖片可能是上下文講述的內容,也可能是對文字的補充(就像上面那個表情包)。

所以,劉康研究員認為,除了模態(tài)種類還需多樣化外,不同模態(tài)之間的邏輯關系也是未來值得研究的方向之一。他建議,把采集的數據映射到背后的知識庫上,通過知識來處理各種模態(tài)的關系。

大模型的可解釋性

前文提到,模型的可解釋性在一些特定場景下非常重要,而且打破砂鍋問到底是一眾科研人的求知態(tài)度。

所以盡管前路渺茫,許多人仍在虔誠地探索著,希望有朝一日能解釋清楚超大模型運行過程中的各種原理。

不過,“深度學習大模型天然就不具有可解釋性。”哈工大車萬翔教授分享了他之前看到的這種觀點。他提到,機器并不像人的思維那樣運行。

想追求可解釋性,在淺層模型上更容易找到。當然,淺層模型的精度一般比深度學習模型差遠了。

車教授認為,高精度和可解釋性本身就是矛盾的。所以根據具體場景和需要選擇不同模型就好了。

比如,讓機器給學生作文打分,總得說清楚為什么得出這個分數吧。也就是要講明白為模型設置了多少feature,如:典故、排比、修辭方式、邏輯性等。這里淺層模型就更適用。

劉康研究員也認為,要去搞清楚深度學習模型黑盒部分的原理,宛如走進一條死胡同。

現在的研究者主要采用兩種手段試圖解釋深度學習模型黑盒內發(fā)生了什么:

一種是觀察分析輸入哪些內容或獲得更多權重;另一種是用可解釋的淺層模型無限逼近黑盒模型,然后用淺層模型的結果來近似解釋黑盒模型。

然而這兩種方法本本質上也只是模擬,還是沒解釋黑盒模型的機制到底是怎么樣的。此外還有個重大問題:即使做了解釋,也幾乎是不可驗證的,這樣就沒法判斷解釋是否真的靠譜。

也有人對此觀點持不同態(tài)度——清華劉知遠教授就認為,深度學習模型還是具有可解釋性的,只不過別之前的淺層模型復雜多了,需要用到更復雜的模型和機制。這些東西還需探索,但非完全不可逾越的。

從產業(yè)角看來看大模型的可解釋性問題,京東吳友政和科大訊飛劉聰都表示:

要結合各行業(yè)場景的需求來分層看待可解釋性,部分簡單場景其實不太需要深度可解釋性,而教育、醫(yī)療等用戶關切過程的重大社會場景則會對可解釋性提出更高的要求 。

對于那些對可解釋性有特別需求之處,先弄清楚到底需要對哪些點進行“解釋”,除了用大模型之外,還可以結合其他知識運用類的技術。

劉聰還補充道,人機協(xié)同也是很重要的一種方式。當機器不能獨立Perfect時,那就先與人合作唄,用戶的行為或許也能為模型可解釋性提供一定幫助。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5589

    瀏覽量

    123883
  • 自然語言處理

    關注

    1

    文章

    629

    瀏覽量

    14558
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23182

原文標題:NLP,能輔助法官判案嗎?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Lora技術應用領域

    :Lora技術工業(yè)控制領域也有著廣泛的應用。通過Lora技術,可以實現設備之間的遠程監(jiān)控和控制,提高工業(yè)生產的效率和安全性。 3. 環(huán)境監(jiān)測:Lora
    發(fā)表于 11-26 08:10

    奧松電子暢談智能傳感器領域技術秘密運用實踐

    2025年10月29日,第六十四期“廣東知識產權主題沙龍”廣州科創(chuàng)金融服務基地成功舉辦。本次活動由廣東知識產權保護協(xié)會與廣州市黃埔區(qū)知識產權保護企業(yè)協(xié)會聯合主辦,聚焦“商業(yè)秘密的民事刑事保護及司法實踐”,匯聚了司法、企業(yè)、服務
    的頭像 發(fā)表于 11-11 13:46 ?293次閱讀

    電子發(fā)燒友工程師看!電子領域評職稱,技術之路更扎實

    電子發(fā)燒友的各位工程師、硬件開發(fā)者們,咱們每天平臺查芯片手冊、討論電路設計難題、分享嵌入式項目經驗,從調試 PCB 板到開發(fā) AIoT 系統(tǒng),靠的都是過硬的技術實力 —— 而電子領域的職稱評審
    發(fā)表于 08-20 13:53

    匯川技術綠色智慧水務領域的創(chuàng)新技術

    近日,中國城鎮(zhèn)供水排水協(xié)會2025年會暨城鎮(zhèn)水務技術與產品展示(以下簡稱“中國水協(xié)2025年會”)杭州國際博覽中心成功舉辦。匯川技術受邀參加以“數智水務 國產優(yōu)選”為主題盛裝亮相,展示了其
    的頭像 發(fā)表于 04-30 13:57 ?792次閱讀

    焊接技術汽車電子制造領域的應用

    汽車電子麥克風模組激光焊接是一種汽車電子制造領域用于連接麥克風模組部件的先進焊接技術,松盛光電將帶來它的詳細介紹。
    的頭像 發(fā)表于 03-13 11:30 ?1259次閱讀
    焊接<b class='flag-5'>技術</b><b class='flag-5'>在</b>汽車電子制造<b class='flag-5'>領域</b>的應用

    紅外熱成像技術個人視覺領域的創(chuàng)新應用

    紅外熱成像技術,一項原本應用于航空、醫(yī)療等高端領域技術,正逐步進入個人消費市場,帶來了全新的視覺體驗。由于其能夠感知物體發(fā)出的紅外輻射并將其轉化為圖像的特點,紅外熱成像突破了傳統(tǒng)視覺的局限,開辟了
    的頭像 發(fā)表于 02-19 15:25 ?938次閱讀
    紅外熱成像<b class='flag-5'>技術</b><b class='flag-5'>在</b>個人視覺<b class='flag-5'>領域</b>的創(chuàng)新應用

    焊接技術應用領域 焊接技術常見問題解決

    一、焊接技術應用領域 焊接技術是一種將金屬或非金屬材料通過加熱或壓力等方式連接在一起的技術,因其高效、可靠、靈活的特點,多個
    的頭像 發(fā)表于 01-31 15:32 ?2096次閱讀

    電子技術汽車領域的應用與發(fā)展

    本文分析了電子技術汽車領域的應用現狀,并對其未來發(fā)展前景進行了探討,以期為汽車行業(yè)的技術創(chuàng)新和產業(yè)升級提供借鑒。 關鍵詞:電子技術;汽車;
    的頭像 發(fā)表于 01-17 10:19 ?1556次閱讀

    電子技術汽車領域的應用

    隨著科技的不斷發(fā)展,電子技術汽車領域的應用越來越廣泛,極大地提升了汽車的性能、安全性和舒適性。 一、汽車電子技術的主要應用 自動駕駛技術
    的頭像 發(fā)表于 01-14 10:13 ?1459次閱讀

    多線示波器的原理和應用領域

    。為了達到這個目的,多線示波器通過特定的電路設計和技術手段,實現了多個波形的同時顯示。二、應用領域多線示波器多個領域都有廣泛的應用,主要包括: 電子工程:
    發(fā)表于 01-07 15:34

    risc-v芯片在電機領域的應用展望

    RISC-V作為一種開源的指令集架構,近年來芯片設計領域嶄露頭角,并逐漸電機控制領域展現出其獨特優(yōu)勢。隨著電機技術的不斷進步和應用需求的
    發(fā)表于 12-28 17:20

    谷歌回應美司法部要求:出售Chrome計劃極端且違法

    近日,Alphabet公司旗下的谷歌公司針對美國司法部要求其出售Chrome瀏覽器的計劃,發(fā)表了正式回應。谷歌表示,該計劃“極端”且與法律相悖,并呼吁聯邦法院法官裁決時保持謹慎,以免對創(chuàng)新和未來
    的頭像 發(fā)表于 12-23 11:44 ?1358次閱讀

    虛擬制作技術廣告領域中的應用與挑戰(zhàn)

    技術的每一次革新都為創(chuàng)意的實現提供了更多可能。隨著虛擬制作技術日趨成熟及其廣告領域全流程的應用,廣告內容制作進入到了更高效的數字化時代。
    的頭像 發(fā)表于 12-06 09:39 ?1328次閱讀

    直播報名丨AIGC技術工業(yè)視覺領域的應用

    隨著AIGC技術的不斷發(fā)展,越來越多生成式AI正在逐漸改變我們的生活和工作,從創(chuàng)意設計到內容創(chuàng)作,從醫(yī)療到金融,應用場景不斷拓展。同樣,工業(yè)視覺領域也不乏AIGC技術的身影,為了讓大
    的頭像 發(fā)表于 12-03 01:04 ?728次閱讀
    直播報名丨AIGC<b class='flag-5'>技術</b><b class='flag-5'>在</b>工業(yè)視覺<b class='flag-5'>領域</b>的應用

    高頻逆變技術點焊電源領域的創(chuàng)新應用探析

    高頻逆變技術作為一種先進的電能變換技術,現代工業(yè)生產中發(fā)揮著越來越重要的作用,特別是點焊電源領域,其創(chuàng)新應用更是推動了焊接工藝的革新與進
    的頭像 發(fā)表于 12-02 15:55 ?856次閱讀