chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

只需一個API,包含了27個預(yù)訓(xùn)練模型

DPVg_AI_era ? 來源:lq ? 2019-07-27 07:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

只需一個API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個預(yù)訓(xùn)練模型。簡單易用,功能強大。

One API to rule them all。

前幾日,著名最先進(jìn)的自然語言處理預(yù)訓(xùn)練模型庫項目pytorch-pretrained-bert改名Pytorch-Transformers重裝襲來,1.0.0版橫空出世。

只需一個API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個預(yù)訓(xùn)練模型。

簡單易用,功能強大。目前已經(jīng)包含了PyTorch實現(xiàn)、預(yù)訓(xùn)練模型權(quán)重、運行腳本和以下模型的轉(zhuǎn)換工具:

BERT,論文:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,論文作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee,Kristina Toutanova

OpenAI 的GPT,論文:“Improving Language Understanding by Generative Pre-Training”,論文作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

OpenAI的GPT-2,論文:“Language Models are Unsupervised Multitask Learners”,論文作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei,Ilya Sutskever

谷歌和CMU的Transformer-XL,論文:“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”,論文作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.

谷歌和CMU的XLNet,論文:“XLNet: Generalized Autoregressive Pretraining for Language Understanding”,論文作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Facebook的XLM,論文:“Cross-lingual Language Model Pretraining”,論文作者:Guillaume Lample,Alexis Conneau

這些實現(xiàn)都在幾個數(shù)據(jù)集(參見示例腳本)上進(jìn)行了測試,性能與原始實現(xiàn)相當(dāng),例如BERT中文全詞覆蓋在SQuAD數(shù)據(jù)集上的F1分?jǐn)?shù)為93;OpenAI GPT 在RocStories上的F1分?jǐn)?shù)為88;Transformer-XL在WikiText 103上的困惑度為18.3;XLNet在STS-B的皮爾遜相關(guān)系數(shù)為0.916。

項目中提供27個預(yù)訓(xùn)練模型,下面是這些模型的完整列表,以及每個模型的簡短介紹。

BERT-base和BERT-large分別是110M和340M參數(shù)模型,并且很難在單個GPU上使用推薦的批量大小對其進(jìn)行微調(diào),來獲得良好的性能(在大多數(shù)情況下批量大小為32)。

為了幫助微調(diào)這些模型,作者提供了幾種可以在微調(diào)腳本中激活的技術(shù) run_bert_classifier.py和run_bert_squad.py:梯度累積(gradient-accumulation),多GPU訓(xùn)練(multi-gpu training),分布式訓(xùn)練(distributed training )和16- bits 訓(xùn)練( 16-bits training)。

注意,這里要使用分布式訓(xùn)練和16- bits 訓(xùn)練,你需要安裝NVIDIA的apex擴(kuò)展。

作者在doc中展示了幾個基于BERT原始實現(xiàn)和擴(kuò)展的微調(diào)示例,分別為:

九個不同GLUE任務(wù)的序列級分類器;

問答集數(shù)據(jù)集SQUAD上的令牌級分類器;

SWAG分類語料庫中的序列級多選分類器;

另一個目標(biāo)語料庫上的BERT語言模型。

這里僅展示GLUE的結(jié)果:

該項目是在Python 2.7和3.5+上測試(例子只在python 3.5+上測試)和PyTorch 0.4.1到1.1.0測試。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14479
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    812

    瀏覽量

    14426

原文標(biāo)題:GitHub超9千星:一個API調(diào)用27個NLP預(yù)訓(xùn)練模型

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?562次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)步講解更多的技術(shù)細(xì)節(jié)。本文主要針對大語言
    的頭像 發(fā)表于 03-21 18:24 ?3368次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    無法轉(zhuǎn)換TF OD API掩碼RPGA模型怎么辦?

    無法轉(zhuǎn)換重新訓(xùn)練的 TF OD API 掩碼 RPGA 模型,該模型使用以下命令在 GPU 上工作: mo > --saved_model_dir
    發(fā)表于 03-06 06:44

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練大語言模型需要投資多少錢》,其中高昂的預(yù)
    的頭像 發(fā)表于 02-19 16:10 ?1743次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語言模型訓(xùn)練新專利

    大語言模型訓(xùn)練過程中引入第摘要文本和第二摘要文本,為模型提供了更為豐富的學(xué)習(xí)信息。這兩摘要文本在信息量上存在差異,且第
    的頭像 發(fā)表于 02-10 09:37 ?597次閱讀

    模型訓(xùn)練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是用于簡化和加速深度學(xué)習(xí)模型訓(xùn)練的庫,它支持在多種硬件配置上進(jìn)行分布式訓(xùn)練,包括 C
    的頭像 發(fā)表于 01-14 14:24 ?1532次閱讀

    KerasHub統(tǒng)、全面的預(yù)訓(xùn)練模型

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這
    的頭像 發(fā)表于 12-20 10:32 ?685次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型簡稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練
    的頭像 發(fā)表于 11-25 09:29 ?1.5w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

    寫給小白的大模型入門科普

    什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的時候,也叫FoundationModel,基礎(chǔ)模型。大模型
    的頭像 發(fā)表于 11-23 01:06 ?915次閱讀
    寫給小白的大<b class='flag-5'>模型</b>入門科普

    從零開始訓(xùn)練大語言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練大型語言模型(LLM)是
    的頭像 發(fā)表于 11-08 14:15 ?1166次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b><b class='flag-5'>個</b>大語言<b class='flag-5'>模型</b>需要投資多少錢?

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語言模型(LLM)是復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓(xùn)練LLM
    的頭像 發(fā)表于 11-08 09:30 ?1866次閱讀

    Llama 3 模型訓(xùn)練技巧

    Llama 3 模型,假設(shè)是指先進(jìn)的人工智能模型,可能是虛構(gòu)的或者是
    的頭像 發(fā)表于 10-27 14:24 ?1048次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型復(fù)雜且耗時的過程,涉及多個關(guān)鍵步驟。以下是詳細(xì)的
    的頭像 發(fā)表于 10-23 15:07 ?6033次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?815次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)