chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:序列標注

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:CS的陋室 ? 2021-01-13 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0 小系列初衷

自己接觸的項目大都是初創(chuàng),沒開始多久的項目,從0到1的不少,2020年快結(jié)束,感覺這個具有一定個人特色的技術(shù)經(jīng)驗可以在和大家分享一下。

計劃篇章:

(已完成)文本分類篇。針對NLP文本分類任務(wù)。

序列標注(NER)篇。針對命名實體識別、序列標注任務(wù)。

文本匹配篇。針對語義相似度計算、向量匹配等問題。

人工特征學習篇。針對多特征的機器、深度學習方案。

1 序列標注的場景

文本分類是對整個句子的把握,而NER就是深入到句子內(nèi)部,對句子的局部進行深入分析,這個粒度的分析往往更為精準詳盡,當然難度也會更高,下面列舉幾個比較常見的場景:

搜索、對話的實體、關(guān)系抽取。

搜索的關(guān)鍵詞抽取,詞權(quán)重問題。

糾錯的錯誤檢測。

總而言之,只要是抽取局部信息,那其實就可以抽象為序列標注了。

嚴謹起見,來個專業(yè)點的定義吧:

給定一個序列(含特征),預測一組和序列一一對應(yīng)的結(jié)果,這種預測就是序列標注。

2 方案選型——通用方法

之所以把序列標注放一起,是因為問題類似,既然問題類似,那其實就可以找到通式通法來解決,所以先給大家說一些比較通用的方法。大家也把序列標注問題帶入來分析計算,其實很多的解法很類似。

2.1 非模型操作

常見的兩個非模型操作,直接通過規(guī)則或者詞典的模式:

通過配置句式,用正則表達式的方式來抽取。

運用詞典,用最大逆向匹配來完成。之前寫過文章:NLP.TM[29] | ner自動化打標方法

當然了這種非模型操作的優(yōu)缺點點也是很明顯,之前也聊過不少了:

優(yōu)點:

高準確。

方便快捷。

缺點:

召回低,泛化能力弱。

2.2 模型操作

模型往往是泛化能力較強的,規(guī)則和模板無法滿足召回的情況下,我們就需要模型來處理了。序列標注需要對序列依賴要求很高,所以比較推薦大家用抽取序列特征的模型來處理。

HMM、CRF。序列標注的經(jīng)典操作,有關(guān)CRF,我之前還寫過長文討論過:NLP.TM[19] | 條件隨機場知識整理(超長文?。?/p>

BiLSTM-CRF,之前也提到過,能上深度的情況下,這個的基線效果還是比較強的。NLP.TM | 命名實體識別基線 BiLSTM+CRF(上),NLP.TM | 命名實體識別基線 BiLSTM+CRF(下)

Bert-CRF。超級大的模型,整體效果是還不錯的。

和上次一樣,也是介紹3個,只要數(shù)據(jù)質(zhì)量足夠好,準招七八十是沒什么大問題的,如果效果不好,往往是因為數(shù)據(jù)之類的原因?qū)е碌?,此時我們該做的就是精煉數(shù)據(jù)集,只有足夠數(shù)量和質(zhì)量的數(shù)據(jù),模型的效果才會好。

而相比文本分類任務(wù),NER的樣本往往更加難得,但是小樣本還是可以通過人工標注、挖掘等方式獲取,然后通過數(shù)據(jù)增強的方式來拓展出更多有代表性的query。

當然了,序列標注是一個很廣義的問題,有一些特異的任務(wù)需要有特異的方法。

2.3 關(guān)鍵詞抽取

有關(guān)關(guān)鍵詞抽取,其實我在原來的文章就講過,文章在這里:NLP.TM[20] | 詞權(quán)重問題,這里可以考慮這幾個方案:

預訓練的IDF詞典,例如jieba的。

很多關(guān)鍵詞抽取的任務(wù)都有場景特色,jieba那種通用的不適合,根據(jù)自己的數(shù)據(jù)自己訓一個,可能是最簡單的,自己手寫也不太累的模型訓練了。

如果數(shù)據(jù)和特征夠多,學美團的方案(前沿重器[2] | 美團搜索理解和召回)自己訓一個機器學習模型或者用深度學習整一個關(guān)鍵詞抽取的序列標注模型。

2.4 糾錯的錯誤檢測

在現(xiàn)在比較前沿的技術(shù)里,糾錯其實已經(jīng)是一整個完整的模塊,被拆分為錯誤檢測、候選召回、召回排序三步,其中的錯誤檢測就是為了找到句子中可能出錯的部分,這里其實就可以抽象為序列標注問題,當然用模型的方式來處理肯定是可以的,不過這同樣需要大量的標注數(shù)據(jù)才能解決,相比之下,獲取一批正常的語料還是很簡單的,這些預料可以訓練語言模型,通過語言模型來判斷句子中是否存在通順程度異常的位點,這塊詳情大家可以看看我之前的文章,尤其是第一篇。

NLP.TM[33] | 糾錯:pycorrector的錯誤檢測

NLP.TM[34] | 糾錯:pycorrector的候選召回

NLP.TM[35] | 糾錯:pycorrector的候選排序

NLP.TM[37] | 深入討論糾錯系統(tǒng)

3 效果調(diào)優(yōu)

有關(guān)效果調(diào)優(yōu),上面其實多多少少聊了很多,這里簡單總結(jié)一下吧。

無監(jiān)督方案還是要多用,畢竟有監(jiān)督方法需要足量,無論是數(shù)量還是質(zhì)量,的數(shù)據(jù)。

如果實在需要有監(jiān)督模型,但受限于數(shù)據(jù),可以通過數(shù)據(jù)增強的方式挖掘到一批質(zhì)量還行的數(shù)據(jù)。NLP.TM[32] | 淺談文本增強技術(shù)

從關(guān)鍵詞抽取和糾錯的錯誤檢測中其實可以看到,解決序列標注的思路還是很豐富的,大家要注意多積累。

4 其他想說的

在這次總結(jié)里,一方面是仍然強烈感受到對方案和數(shù)據(jù)把控的重要性,尤其在序列標注這個問題下,足量的標注數(shù)據(jù)是模型使用的先決條件,因此對數(shù)據(jù)的管理和優(yōu)化非常重要。另外,序列標注需要對句子中的每個字/詞都要標注,這個標注數(shù)據(jù)是真的不好拿,因此需要我們對無監(jiān)督、非模型的方法也有足夠的了解,如果排期足夠,這種無監(jiān)督非模型的方案是可以作為有監(jiān)督模型數(shù)據(jù)的標注的,沒有時間,無監(jiān)督非模型的方法也可以作為基線直接上線,這個也很好。最后一點事,我感覺我對前沿方案的把控還需要提升,這一輪輸出完成后,我可能要開始對前沿方案重新調(diào)研升級,從而升級自己的武器庫。

責任編輯:xj

原文標題:任務(wù)方案思考:序列標注(NER)篇

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 序列
    +關(guān)注

    關(guān)注

    0

    文章

    70

    瀏覽量

    20166
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14624
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23239

原文標題:任務(wù)方案思考:序列標注(NER)篇

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛數(shù)據(jù)標注是所有信息都要標注嗎?

    [首發(fā)于智駕最前沿微信公眾號]數(shù)據(jù)標注對于自動駕駛來說,就像是老師教小朋友知識,數(shù)據(jù)標注可以讓車輛學習辨別道路交通信息的能力。攝像頭、雷達、激光雷達(LiDAR)拍下來的只是一堆原始信號,這些信號
    的頭像 發(fā)表于 12-04 09:05 ?706次閱讀
    自動駕駛數(shù)據(jù)<b class='flag-5'>標注</b>是所有信息都要<b class='flag-5'>標注</b>嗎?

    算法工程師不愿做標注工作,怎么辦?

    對于算法而言,圖像標注是一項關(guān)鍵性工作,越是大量的新數(shù)據(jù)集標注,對于算法的性能提升越有幫助。但是圖像標注是一項極其費時費力的工作,特別是遇到稍微復雜的場景時,長時間的重復工作,會讓標注
    的頭像 發(fā)表于 12-02 17:56 ?474次閱讀
    算法工程師不愿做<b class='flag-5'>標注</b>工作,怎么辦?

    淺析多模態(tài)標注對大模型應(yīng)用落地的重要性與標注實例

    ”的關(guān)鍵工序——多模態(tài)標注重要性日益凸顯。 一、什么是多模態(tài)標注? 多模態(tài)標注是指對文本、圖像、語音、視頻、點云等異構(gòu)數(shù)據(jù)進行跨模態(tài)語義關(guān)聯(lián)的標注過程,通過建立數(shù)據(jù)間的時空一致性和語義
    的頭像 發(fā)表于 09-05 13:49 ?1558次閱讀

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰(zhàn)解析

    摘要 :小語種OCR研發(fā)的核心瓶頸在于高質(zhì)量標注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動化標注方案,利用 PaddleOCR 進行文本檢測與裁剪,并調(diào)用 ERNIE 4.5 大模型進行雙重預測
    的頭像 發(fā)表于 08-29 11:26 ?3432次閱讀
    小語種OCR<b class='flag-5'>標注</b>效率提升10+倍:PaddleOCR+ERNIE 4.5自動<b class='flag-5'>標注</b>實戰(zhàn)解析

    自動駕駛數(shù)據(jù)標注主要是標注什么?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛系統(tǒng)的研發(fā)過程中,數(shù)據(jù)標注是實現(xiàn)高性能感知模型的基礎(chǔ)環(huán)節(jié),其核心目標是將車輛從環(huán)境中采集到的原始感知數(shù)據(jù)(主要包括圖像、點云、視頻序列等)轉(zhuǎn)化為具有語義信息
    的頭像 發(fā)表于 07-30 11:54 ?1168次閱讀
    自動駕駛數(shù)據(jù)<b class='flag-5'>標注</b>主要是<b class='flag-5'>標注</b>什么?

    什么是自動駕駛數(shù)據(jù)標注?如何好做數(shù)據(jù)標注?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛系統(tǒng)的開發(fā)過程中,數(shù)據(jù)標注是一項至關(guān)重要的工作。它不僅決定了模型訓練的質(zhì)量,也直接影響了車輛感知、決策與控制的性能表現(xiàn)。隨著傳感器種類和數(shù)據(jù)量的劇增,有效
    的頭像 發(fā)表于 07-09 09:19 ?1136次閱讀
    什么是自動駕駛數(shù)據(jù)<b class='flag-5'>標注</b>?如何好做數(shù)據(jù)<b class='flag-5'>標注</b>?

    數(shù)據(jù)標注與大模型的雙向賦能:效率與性能的躍升

    ??在人工智能蓬勃發(fā)展的時代,大模型憑借其強大的學習與泛化能力,已成為眾多領(lǐng)域創(chuàng)新變革的核心驅(qū)動力。而數(shù)據(jù)標注作為大模型訓練的基石,為大模型性能提升注入關(guān)鍵動力,是模型不可或缺的“養(yǎng)料。大模型則憑借
    的頭像 發(fā)表于 06-04 17:15 ?1810次閱讀
    數(shù)據(jù)<b class='flag-5'>標注</b>與大模型的雙向賦能:效率與性能的躍升

    AI時代 圖像標注不要沒苦硬吃

    識別算法的性能提升依靠大量的圖像標注,傳統(tǒng)模式下,需要人工對同類型數(shù)據(jù)集進行一步步手動拉框,這個過程的痛苦只有做過的人才知道。越多素材的數(shù)據(jù)集對于算法的提升越有幫助,常規(guī)情況下,一個20秒時長30幀
    的頭像 發(fā)表于 05-20 17:54 ?486次閱讀
    AI時代   圖像<b class='flag-5'>標注</b>不要沒苦硬吃

    東軟集團入選國家數(shù)據(jù)局數(shù)據(jù)標注優(yōu)秀案例

    近日,東軟飛標醫(yī)學影像標注平臺在國家數(shù)據(jù)局發(fā)布數(shù)據(jù)標注優(yōu)秀案例集名單中排名第一(案例名稱“多模態(tài)醫(yī)學影像智能數(shù)據(jù)標注平臺”)。評選專家認為東軟案例取得了顯著成效,一方面,搶占了自主可控的數(shù)據(jù)
    的頭像 發(fā)表于 05-09 14:37 ?1107次閱讀

    標貝科技“4D-BEV上億點云標注系統(tǒng)”入選國家數(shù)據(jù)局首批數(shù)據(jù)標注優(yōu)秀案例

    4月29日,作為第八屆數(shù)字中國建設(shè)峰會的重要組成部分,由國家數(shù)據(jù)局主辦的高質(zhì)量數(shù)據(jù)集和數(shù)據(jù)標注主題交流活動在福州市數(shù)字中國會展中心舉行。會議交流活動聚焦“推動高質(zhì)量數(shù)據(jù)集建設(shè),加快賦能人工智能發(fā)展
    的頭像 發(fā)表于 04-30 14:38 ?643次閱讀
    標貝科技“4D-BEV上億點云<b class='flag-5'>標注</b>系統(tǒng)”入選國家數(shù)據(jù)局首批數(shù)據(jù)<b class='flag-5'>標注</b>優(yōu)秀案例

    大模型預標注和自動化標注在OCR標注場景的應(yīng)用

    OCR,即光學字符識別,簡單來說就是利用光學設(shè)備去捕獲圖像并識別文字,最終將圖片中的文字轉(zhuǎn)換為可編輯和可搜索的文本。在數(shù)字化時代,OCR(光學字符識別)技術(shù)作為處理圖像中文字信息的關(guān)鍵手段,其標注
    的頭像 發(fā)表于 04-15 15:18 ?830次閱讀

    數(shù)據(jù)標注服務(wù)—奠定大模型訓練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉(zhuǎn)化為機器可理解、可學習的信息的關(guān)鍵任務(wù)。這一過程不僅決定了模型學習的起點,也
    的頭像 發(fā)表于 03-21 10:30 ?2685次閱讀

    標貝數(shù)據(jù)標注服務(wù):奠定大模型訓練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉(zhuǎn)化為機器可理解、可學習的信息的關(guān)鍵任務(wù)。這一過程不僅決定了模型學習的起點,也
    的頭像 發(fā)表于 03-21 10:27 ?1003次閱讀
    標貝數(shù)據(jù)<b class='flag-5'>標注</b>服務(wù):奠定大模型訓練的數(shù)據(jù)基石

    自動化標注技術(shù)推動AI數(shù)據(jù)訓練革新

    標貝自動化數(shù)據(jù)標注平臺在全棧數(shù)據(jù)標注場景式中搭載了大模型預標注和自動化標注能力,并應(yīng)用于3D點云、2D圖像、音頻、文本等數(shù)據(jù)場景的大規(guī)模、復雜任務(wù)和常規(guī)任務(wù)的
    的頭像 發(fā)表于 03-14 16:46 ?1243次閱讀

    標貝自動化數(shù)據(jù)標注平臺推動AI數(shù)據(jù)訓練革新

    標貝自動化數(shù)據(jù)標注平臺在全棧數(shù)據(jù)標注場景式中搭載了大模型預標注和自動化標注能力,并應(yīng)用于3D點云、2D圖像、音頻、文本等數(shù)據(jù)場景的大規(guī)模、復雜任務(wù)和常規(guī)任務(wù)的
    的頭像 發(fā)表于 03-14 16:42 ?1522次閱讀
    標貝自動化數(shù)據(jù)<b class='flag-5'>標注</b>平臺推動AI數(shù)據(jù)訓練革新