chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

入門自然語言處理的基本任務——文本匹配

深度學習自然語言處理 ? 來源:NLP情報局 ? 作者:Giant ? 2021-05-31 11:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年初,新冠疫情席卷全球。除了“待在家,不亂跑”,我想還能從哪為抗擊疫情出點微薄之力呢?

碰巧室友推送了一個天池公益賽“新冠疫情相似句對判定大賽”,秉持“重在參與”的心態(tài)參加了比賽。經(jīng)過半個月的努力,最終結果勉強不錯(第6),收割了一臺Kindle。

2021年1月,疫情形勢依然嚴峻,幸運的是國家不僅及時穩(wěn)住了疫情,還研發(fā)出了有效的疫苗。借助疫情主題的比賽,我希望幫助更多讀者,入門自然語言處理的基本任務——文本匹配。

開源代碼:

https://github.com/yechens/COVID-19-sentence-pair

01 數(shù)據(jù)分析任務背景非常直觀,主辦方給定了“肺炎”、“支氣管炎”、“上呼吸道感染”等醫(yī)療背景下的用戶真實提問,要求選手通過算法識別任意2個問題,是否表達同一個意思。舉例:

問題1:“輕微感冒需不需要吃藥?”

問題2:“輕微感冒需要吃什么藥?”

問題1關心“是否得吃藥”,問題2關心“該吃什么藥”,側重點不同所以意思不同。

數(shù)據(jù)集樣本都是三元組(query1, query2, label)。為了降低難度,每一個問題的長度被控制在20字以內(nèi)。

比賽的訓練集、驗證集分別包含8746、2001條三元組。我們從dev中隨機保留了800條樣本作為最終dev,其余均加入訓練。

數(shù)據(jù)增強拿到數(shù)據(jù)簡單分析后,我發(fā)現(xiàn)數(shù)據(jù)集已經(jīng)過清洗,竟然異常的干凈整齊(沒有雜亂的符號、不通順的句子),label分布幾乎也接近1:1。

再觀察數(shù)據(jù),相同的query1總是按順序排列在一起,隨后跟著不同的query2。這種分布很容易想到一種數(shù)據(jù)增強策略:相似傳遞性。

A 《-》 B 相似 and A 《-》 C 相似 =》 B 《-》 C 相似

最終我額外獲得了5000條高質量的數(shù)據(jù),比賽準確率因此提升了0.5%。

實體替換此外,我們也嘗試了訓練一個NER模型挖掘文本中的醫(yī)療實體,如“胸膜炎”、“肺氣腫”,再通過word2vec查找最接近的實體進行替換。

但這種方式并沒有提升最終結果。我覺得原因有2個:

1W條樣本規(guī)模偏小,NER模型識別誤差較大

詞向量沒有針對醫(yī)療場景訓練,包含的醫(yī)療實體很少

02 匹配方法實現(xiàn)文本匹配有非常多簡單又實用的方法,例如:

基于字符統(tǒng)計:字符串匹配、編輯距離、Jaccards距離

基于語言模型:word2vec/glove詞向量、BERT

基于神經(jīng)網(wǎng)絡:孿生網(wǎng)絡、TextCNN、DSSM、FastText等

由于比賽需要盡可能獲得高分,這里主要介紹基于神經(jīng)網(wǎng)絡和BERT的文本匹配算法。

BERT[1]是一種預訓練語言模型,通過海量文本、Transformer架構和MLM訓練任務在眾多NLP任務上取得了優(yōu)異成果。對BERT不了解的讀者,可以參考我之前的文章“從BERT、XLNet到MPNet,細看NLP預訓練模型發(fā)展變遷史”[2]。

比賽中我們測試了5-6種不同的神經(jīng)網(wǎng)絡方法,并最終選擇了3種在dev上表現(xiàn)最好的模型加權融合。具體可以參考 文件。

文本CNN(TextCNN)TextCNN是Yoon Kim[3]在2014年提出的用于句子分類的卷積神經(jīng)網(wǎng)絡。文本匹配任務本質上可以理解成二分類任務(0:不相似,1:相似),所以一般的分類模型也能滿足匹配需求。

與圖像中的二維卷積不同,TextCNN采用的是一維卷積,每個卷積核的大小為 (h為卷積核窗口,k為詞向量維度)。文中采用了不同尺寸的卷積核,來提取不同文本長度的特征。

然后,作者對于卷積核的輸出進行最大池化操作,只保留最重要的特征。各個卷積核輸出經(jīng)MaxPooling后拼接形成一個新向量,最后輸出到全連接層分類器(Dropout + Linear + Softmax)實現(xiàn)分類。

我們知道,文本中的關鍵詞對于判斷2個句子是否相似有很大影響,而CNN局部卷積的特效能很好的捕捉這種關鍵特征。同時TextCNN還具有參數(shù)量小,訓練穩(wěn)定等優(yōu)點。

文本RNN(TextRCNN)相比TextCNN,TextRCNN的模型結構看起來復雜一些。

簡單瀏覽論文后,會發(fā)現(xiàn)它的思路其實簡單,粗暴。

首先通過詞向量獲得字符編碼 ,隨后將其通過雙向RNN學習上下文特征,編碼得到兩個方向的特征。

再將詞向量 和 、 拼接得到新向量,輸入經(jīng)tanh函數(shù)激活的全連接網(wǎng)絡。最后,將網(wǎng)絡的輸出最大池化,并輸入另一個全連接分類器完成分類。

RNN模型對于長文本有較好的上下文“記憶”能力,更適合處理文本這種包含時間序列的信息。

BERT+MLP(fine-tune)最后一種方法,直接用語言模型BERT最后一層Transformer的輸出,接一層Dense實現(xiàn)文本匹配。

實驗中我們發(fā)現(xiàn),對最終輸出的每個token特征取平均(MeanPooling)效果好于直接使用首字符“[CLS]”的特征。

模型權重上,崔一鳴等人[5]發(fā)布的中文roberta_wwm_ext_large模型效果要好于BERT_large。

最后,我們根據(jù)這三種模型在dev上的準確率設置了不同比重,通過自動搜索找到最優(yōu)權重組合,在線上測試集取得了96.26%的準確率。

讀者可以在“NLP情報局”后臺回復“文本匹配”直接下載模型論文。

03 漲分trick做一個深度學習主導的算法比賽,除了分析數(shù)據(jù)與模型,一些trick也是獲得高分的重要因素。這里羅列了一些常用策略。

數(shù)據(jù)增強[6]

標簽平滑

自蒸餾

文本對抗訓練[7]

模型融合

特征篩選

使用多個學習率[8]

針對這次文本匹配任務,數(shù)據(jù)增強、標簽平滑、模型融合、多學習率都被證明是有效的。

04 總結過去將近1年的天池“新冠疫情相似句對判定大賽”,任務并不復雜,是入門NLP項目實戰(zhàn),提升編程能力的很好鍛煉機會。

比賽雖然結束了,疫情猶在。大家一定要保護好自己哦!

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:天池NLP賽道top指南

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理(NLP)領域國際權威會議 ——2025 年計算語言學與自然語言處理國際會議(EMNLP 2025)公布論文錄用結果,云知
    的頭像 發(fā)表于 11-10 17:30 ?471次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    格靈深瞳突破文本人物檢索技術難題

    格靈深瞳參與研究的GA-DMS框架,為攻破上述技術難題提供了全新解決方案。研究團隊通過數(shù)據(jù)構建和模型架構的協(xié)同改進,推動CLIP在人物表征學習中的應用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言
    的頭像 發(fā)表于 09-28 09:42 ?386次閱讀
    格靈深瞳突破<b class='flag-5'>文本</b>人物檢索技術難題

    【HZ-T536開發(fā)板免費體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發(fā)板上搭建 MCP 服務器,自然語言輕松控板

    GPIO 等),并返回結果。 Cangjie Magic 角色 :構建MCP服務器,同時提供自然語言理解能力,將用戶輸入的文本(如 “查看開發(fā)板 IP 地址”“點亮 LED1”)轉換為機器可識別的指令(如
    發(fā)表于 08-23 13:10

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    近日,第63屆國際計算語言學年會ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)論文接收
    的頭像 發(fā)表于 05-26 14:15 ?1019次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會ACL 2025

    小白學大模型:從零實現(xiàn) LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學習大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復雜的任務
    的頭像 發(fā)表于 04-30 18:34 ?1038次閱讀
    小白學大模型:從零實現(xiàn) LLM<b class='flag-5'>語言</b>模型

    使用VirtualLab Fusion中分布式計算的AR波導測試圖像模擬

    總計算時間超過31小時。通過使用一個由8個多核PC組成的網(wǎng)絡,提供35個客戶端分布式計算,將模擬時間減少到1小時5分鐘?;灸M任務基本任務集合:FOV使用分布式計算的集合模擬概述模擬時間節(jié)省96%的計算時間!?。?
    發(fā)表于 04-10 08:48

    自然語言提示原型在英特爾Vision大會上首次亮相

    在英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅動的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?770次閱讀

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言文本處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關的
    的頭像 發(fā)表于 03-17 15:32 ?7498次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b>模型)?詳細解析

    VirtualLab Fusion應用:白光干涉相干性測量

    到的2,904個基本模擬的模擬時間可以從一個多小時顯著減少到不到3分鐘。 模擬任務 基本模擬任務 基本任務集合#1:波長 基本任務集合#2:反射鏡位置 使用分布式計算進行模擬
    發(fā)表于 02-14 09:46

    #新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術自動生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心技術包括自然語言處理(NLP)、計算機視覺、生成對抗網(wǎng)絡(GAN)等
    發(fā)表于 01-13 10:46

    AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術自動生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心技術包括自然語言處理(NLP)、計算機視覺、生成對抗網(wǎng)絡(GAN)等
    發(fā)表于 01-13 10:32

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數(shù)據(jù)預處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個環(huán)節(jié)。以下是一些具體的優(yōu)化策略: 一、數(shù)據(jù)預
    的頭像 發(fā)表于 12-05 15:30 ?2370次閱讀

    如何使用自然語言處理分析文本數(shù)據(jù)

    使用自然語言處理(NLP)分析文本數(shù)據(jù)是一個復雜但系統(tǒng)的過程,涉及多個步驟和技術。以下是一個基本的流程,幫助你理解如何使用NLP來分析文本數(shù)據(jù): 1. 數(shù)據(jù)收集 收集
    的頭像 發(fā)表于 12-05 15:27 ?2370次閱讀

    自然語言處理在聊天機器人中的應用

    上歸功于自然語言處理技術的進步。 聊天機器人的工作原理 聊天機器人的核心是一個對話系統(tǒng),它能夠處理用戶的輸入(通常是文本形式),并生成相應的回復。這個系統(tǒng)通常包括以下幾個關鍵組件:
    的頭像 發(fā)表于 12-05 15:24 ?1707次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數(shù)據(jù)中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了一種強大的工具,用于從大量文本數(shù)據(jù)中提取模式和知識,從而提高NLP系
    的頭像 發(fā)表于 12-05 15:21 ?2524次閱讀