chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

迄今最大模型?OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語(yǔ)言模型GPT-2

電子工程師 ? 來源:工程師李察 ? 2019-02-16 08:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

幾個(gè)月前谷歌推出的語(yǔ)言模型BERT引發(fā)了業(yè)內(nèi)的廣泛關(guān)注,其 3 億參數(shù)量刷新 11 項(xiàng)紀(jì)錄的成績(jī)讓人不禁贊嘆。昨天,OpenAI 推出了一種更為強(qiáng)大的算法,這一次模型達(dá)到了 15 億參數(shù)。

代碼地址:https://github.com/openai/gpt-2

這種機(jī)器學(xué)習(xí)算法不僅在很多任務(wù)上達(dá)到了業(yè)內(nèi)最佳水平,還可以根據(jù)一小段話自動(dòng)「腦補(bǔ)」出大段連貫的文本,如有需要,人們可以通過一些調(diào)整讓計(jì)算機(jī)模擬不同的寫作風(fēng)格??雌饋砜梢杂脕碜詣?dòng)生成「假新聞」。對(duì)此,OpenAI 甚至表示:「出于對(duì)模型可能遭惡意應(yīng)用的擔(dān)憂,我們本次并沒有發(fā)布所有預(yù)訓(xùn)練權(quán)重?!?/p>

如此強(qiáng)大的模型卻不公開所有代碼?Kyunghyun Cho 并不滿意:「要是這樣,為了人類我不得不刪除迄今為止自己公開的所有模型權(quán)重了?!筜ann LeCun 表示贊同。

OpenAI 訓(xùn)練了一個(gè)大型無監(jiān)督語(yǔ)言模型,能夠生產(chǎn)連貫的文本段落,在許多語(yǔ)言建?;鶞?zhǔn)上取得了 SOTA 表現(xiàn)。而且該模型在沒有任務(wù)特定訓(xùn)練的情況下,能夠做到初步的閱讀理解、機(jī)器翻譯、問答和自動(dòng)摘要。

該模型名為 GPT-2(GPT二代)。訓(xùn)練 GPT-2 是為了預(yù)測(cè) 40GB 互聯(lián)網(wǎng)文本中的下一個(gè)單詞??紤]到可能存在的對(duì)該技術(shù)的惡意使用,OpenAI 沒有發(fā)布訓(xùn)練模型,而是發(fā)布了一個(gè)較小模型供研究、實(shí)驗(yàn)使用,同時(shí) OpenAI 也公布了相關(guān)技術(shù)論文(見文后)。

GPT-2 是基于 transformer 的大型語(yǔ)言模型,包含 15 億參數(shù)、在一個(gè) 800 萬(wàn)網(wǎng)頁(yè)數(shù)據(jù)集上訓(xùn)練而成。訓(xùn)練 GPT-2 有一個(gè)簡(jiǎn)單的目標(biāo):給定一個(gè)文本中前面的所有單詞,預(yù)測(cè)下一個(gè)單詞。數(shù)據(jù)集的多樣性使得這一簡(jiǎn)單目標(biāo)包含不同領(lǐng)域不同任務(wù)的自然事件演示。GPT-2 是對(duì) GPT 模型的直接擴(kuò)展,在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練,參數(shù)量也多出了 10 倍。

15 億的參數(shù)量已經(jīng)是非常非常多了,例如我們認(rèn)為龐大的 BERT 也就 3.3 億的參數(shù)量,我們認(rèn)為視覺中參數(shù)量巨大的 VGG-19 也不過 1.44 億參數(shù)量(VGG-16 為 1.38 億),而 1001 層的 ResNet 不過 0.102 億的參數(shù)量。所以根據(jù)小編的有偏估計(jì),除了 bug 級(jí)的大規(guī)模集成模型以外,說不定 GPT-2 就是當(dāng)前最大的模型~

GPT-2 展示了一系列普適而強(qiáng)大的能力,包括生成當(dāng)前最佳質(zhì)量的條件合成文本,其中我們可以將輸入饋送到模型并生成非常長(zhǎng)的連貫文本。此外,GPT-2 優(yōu)于在特定領(lǐng)域(如維基百科、新聞或書籍)上訓(xùn)練的其它語(yǔ)言模型,而且還不需要使用這些特定領(lǐng)域的訓(xùn)練數(shù)據(jù)。在知識(shí)問答、閱讀理解、自動(dòng)摘要和翻譯等任務(wù)上,GPT-2 可以從原始文本開始學(xué)習(xí),無需特定任務(wù)的訓(xùn)練數(shù)據(jù)。雖然目前這些下游任務(wù)還遠(yuǎn)不能達(dá)到當(dāng)前最優(yōu)水平,但 GPT-2 表明如果有足夠的(未標(biāo)注)數(shù)據(jù)和計(jì)算力,各種下游任務(wù)都可以從無監(jiān)督技術(shù)中獲益。

Zero-shot

GPT-2 在多個(gè)領(lǐng)域特定的語(yǔ)言建模任務(wù)上實(shí)現(xiàn)了當(dāng)前最佳性能。該模型沒有在這些任務(wù)的特定數(shù)據(jù)上進(jìn)行訓(xùn)練,只是最終測(cè)試時(shí)在這些數(shù)據(jù)上進(jìn)行了評(píng)估。這被稱為「zero-shot」設(shè)置。在這些數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),GPT-2 的表現(xiàn)要優(yōu)于那些在領(lǐng)域特定數(shù)據(jù)集(如維基百科、新聞、書籍)上訓(xùn)練的模型。下圖展示了在 zero-shot 設(shè)定下 GPT-2 的所有當(dāng)前最佳結(jié)果。

(+)表示該領(lǐng)域得分越高越好,(-)表示得分越低越好。

迄今最大模型?OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語(yǔ)言模型GPT-2

迄今最大模型?OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語(yǔ)言模型GPT-2

GPT-2 在 Winograd Schema、LAMBADA 和其他語(yǔ)言建模任務(wù)中達(dá)到了當(dāng)前最佳性能。

在問答、閱讀理解、自動(dòng)摘要、翻譯等其他語(yǔ)言任務(wù)中,無需對(duì) GPT-2 模型做任何微調(diào),只需以正確的方式增強(qiáng)模型,就能取得令人驚艷的結(jié)果,雖然其結(jié)果仍遜于專門系統(tǒng)。

OpenAI 假設(shè),既然這些任務(wù)是通用語(yǔ)言建模的子集,那么增加計(jì)算量和數(shù)據(jù)就能獲得進(jìn)一步的性能提升。《Learning and Evaluating General Linguistic Intelligence》等其他研究也有類似假設(shè)。OpenAI 還預(yù)期微調(diào)能夠?qū)ο掠稳蝿?wù)的性能提升有所幫助,盡管還沒有全面的實(shí)驗(yàn)?zāi)茏C明這一點(diǎn)。

策略建議

大型通用語(yǔ)言模型可能產(chǎn)生巨大的社會(huì)影響以及一些近期應(yīng)用。OpenAI 預(yù)期 GPT-2 這樣的系統(tǒng)可用于創(chuàng)建:

AI 寫作助手

更強(qiáng)大的對(duì)話機(jī)器人

無監(jiān)督語(yǔ)言翻譯

更好的語(yǔ)音識(shí)別系統(tǒng)

此外,OpenAI 還設(shè)想了此類模型有可能用于惡意目的,比如:

生成誤導(dǎo)性新聞

網(wǎng)上假扮他人

自動(dòng)生產(chǎn)惡意或偽造內(nèi)容,并發(fā)表在社交媒體上

自動(dòng)生產(chǎn)垃圾/釣魚郵件

這些研究成果與合成圖像和音視頻方面的早期研究結(jié)果表明,技術(shù)正在降低生產(chǎn)偽造內(nèi)容、進(jìn)行虛假信息活動(dòng)的成本。公眾將需要對(duì)在線文本內(nèi)容具備更強(qiáng)的批判性,就像「deep fakes」導(dǎo)致人們對(duì)圖像持懷疑態(tài)度一樣。

今天,惡意活動(dòng)參與者(其中一些是政治性的)已經(jīng)開始瞄準(zhǔn)共享網(wǎng)絡(luò)社區(qū),他們使用「機(jī)器人工具、偽造賬號(hào)和專門團(tuán)隊(duì)等,對(duì)個(gè)人施加惡意評(píng)論或誹謗,致使大眾不敢發(fā)言,或很難被別人傾聽或信任」。OpenAI 認(rèn)為,我們應(yīng)該意識(shí)到,合成圖像、視頻、音頻和文本生成等方面研究的結(jié)合有可能進(jìn)一步解鎖這些惡意參與者的能力,使之達(dá)到前所未有的高度,因此研究者應(yīng)當(dāng)尋求創(chuàng)建更好的技術(shù)和非技術(shù)應(yīng)對(duì)措施。此外,這些系統(tǒng)的底層技術(shù)創(chuàng)新是基礎(chǔ)人工智能研究的核心,因此控制這些領(lǐng)域的研究必將拖慢 AI 領(lǐng)域的整體發(fā)展。

因此,OpenAI 對(duì)這一新研究成果的發(fā)布策略是:「僅發(fā)布 GPT-2 的較小版本和示例代碼,不發(fā)布數(shù)據(jù)集、訓(xùn)練代碼和 GPT-2 模型權(quán)重」。

論文:Large Language Models are Unsupervised Multitask Learners

論文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

摘要:?jiǎn)柎?、機(jī)器翻譯、閱讀理解、自動(dòng)摘要這樣的自然語(yǔ)言處理任務(wù)的典型方法是在任務(wù)特定數(shù)據(jù)集上進(jìn)行監(jiān)督式學(xué)習(xí)。我們證明,在包含數(shù)百萬(wàn)網(wǎng)頁(yè)的全新數(shù)據(jù)集 WebText 上訓(xùn)練時(shí),語(yǔ)言模型開始在沒有任何明確監(jiān)督的情況下學(xué)習(xí)這些任務(wù)。計(jì)算條件概率并生成條件樣本是語(yǔ)言模型在大量任務(wù)上取得良好結(jié)果(且無需精調(diào))所必需的能力。當(dāng)以文檔+問題為條件時(shí),在沒有使用 127000 多個(gè)訓(xùn)練樣本中任何一個(gè)樣本的情況下,語(yǔ)言模型生成的答案在 CoQA 數(shù)據(jù)集上達(dá)到 55F1,媲美于或者超越了 4 個(gè)基線系統(tǒng)中的 3 個(gè)。語(yǔ)言模型的容量對(duì) zero-shot 任務(wù)的成功遷移非常重要,且增加模型的容量能夠以對(duì)數(shù)線性的方式在多任務(wù)中改進(jìn)模型性能。我們最大的模型 GPT-2 是一個(gè)包含 15 億參數(shù)的 Transformer,在 zero-shot 設(shè)定下,該模型在 8 個(gè)測(cè)試語(yǔ)言建模數(shù)據(jù)集中的 7 個(gè)數(shù)據(jù)集上取得了 SOTA 結(jié)果,但仍舊欠擬合 WebText 數(shù)據(jù)集。來自該模型的樣本反映了這些改進(jìn)且包含連貫的文本段落。這些發(fā)現(xiàn)展示了一種構(gòu)建語(yǔ)言處理系統(tǒng)的潛在方式,即根據(jù)自然發(fā)生的演示學(xué)習(xí)執(zhí)行任務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29730

    瀏覽量

    212834
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279600
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15191

原文標(biāo)題:迄今最大模型?OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語(yǔ)言模型GPT-2

文章出處:【微信號(hào):aicapital,微信公眾號(hào):全球人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenAI發(fā)布o1大模型,數(shù)理化水平比肩人類博士,國(guó)產(chǎn)云端推理芯片的新藍(lán)海?

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)9月12日晚,OpenAI正式對(duì)外發(fā)布一款名為o1的新模型。OpenAI o1的內(nèi)部代號(hào)為“草莓”,具備超強(qiáng)的邏輯推理能力。和傳統(tǒng)大
    發(fā)表于 09-14 00:04 ?1819次閱讀
    <b class='flag-5'>OpenAI</b><b class='flag-5'>發(fā)布</b>o1大<b class='flag-5'>模型</b>,數(shù)理化水平比肩人類博士,國(guó)產(chǎn)云端推理芯片的新藍(lán)海?

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù),以便提升訓(xùn)練效果。 ChatGPT發(fā)布后,當(dāng)代大語(yǔ)言
    的頭像 發(fā)表于 03-21 18:24 ?1661次閱讀
    用PaddleNLP為<b class='flag-5'>GPT-2</b><b class='flag-5'>模型</b>制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費(fèi)級(jí)顯卡上,利用PaddleNLP實(shí)踐OpenAIGPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-
    的頭像 發(fā)表于 02-19 16:10 ?995次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b>預(yù)訓(xùn)練技術(shù)

    OpenAI簡(jiǎn)化大模型選擇:薩姆·奧特曼制定路線圖

    OpenAI的首席執(zhí)行官薩姆·奧特曼(Sam Altman)近期為公司的GPT-4.5和GPT-5大模型開發(fā)制定了一項(xiàng)重要的路線圖,旨在極大地簡(jiǎn)化和優(yōu)化用戶及開發(fā)人員在選擇AI
    的頭像 發(fā)表于 02-18 09:12 ?497次閱讀

    OpenAI即將發(fā)布GPT-4.5與GPT-5

    ,GPT-4.5將在未來幾周內(nèi)率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術(shù)上進(jìn)行了諸多優(yōu)化和升級(jí),旨在為用戶提
    的頭像 發(fā)表于 02-13 13:43 ?641次閱讀

    今日看點(diǎn)丨OpenAI發(fā)布新的GPT-4.5模型;三星西安工廠將升級(jí)286層NAND閃存工藝

    1. OpenAI發(fā)布新的GPT-4.5 模型 ? OpenAI首席執(zhí)行官阿爾特曼周三表示,該公司內(nèi)部稱為Orion的
    發(fā)表于 02-13 11:22 ?544次閱讀

    OpenAI即將推出GPT-5模型

    OpenAI首席執(zhí)行官奧爾特曼近日宣布了一項(xiàng)重要消息:OpenAI將在今年未來幾個(gè)月內(nèi)推出全新的GPT-5模型。這一消息引起了業(yè)界的廣泛關(guān)注和期待。 據(jù)了解,
    的頭像 發(fā)表于 02-13 11:21 ?584次閱讀

    OpenAI發(fā)布更智能GPT模型及AI智能體工具

    OpenAI近日透露了其未來發(fā)展的重要?jiǎng)酉颉?jù)OpenAI首席產(chǎn)品官凱文·維爾(Kevin Weil)介紹,公司計(jì)劃推出更智能的GPT o3模型,并首次亮相AI智能體工具,這將使Cha
    的頭像 發(fā)表于 01-24 13:54 ?535次閱讀

    OpenAI報(bào)告GPT-4o及4o-mini模型性能下降,正緊急調(diào)查

    近日,全球領(lǐng)先的AI研究機(jī)構(gòu)OpenAI發(fā)布了一份事故報(bào)告,引起了業(yè)界的廣泛關(guān)注。報(bào)告中指出,OpenAI目前正面臨GPT-4o和4o-mini這兩款重要
    的頭像 發(fā)表于 01-23 10:22 ?837次閱讀

    OpenAIGPT-4o及4o-mini模型性能下降,正展開調(diào)查

    ,并承諾將盡快發(fā)布最新的調(diào)查結(jié)果和解決方案。這一事件不僅對(duì)OpenAI自身的技術(shù)聲譽(yù)產(chǎn)生了影響,也引發(fā)了業(yè)界對(duì)于大型語(yǔ)言模型穩(wěn)定性和可靠性的擔(dān)憂。
    的頭像 發(fā)表于 01-21 10:34 ?649次閱讀

    騰訊發(fā)布開源MoE大語(yǔ)言模型Hunyuan-Large

    的性能,標(biāo)志著騰訊在自然語(yǔ)言處理領(lǐng)域邁出了重要的一步。 據(jù)了解,Hunyuan-Large的總參數(shù)量高達(dá)389B(即3890),這一數(shù)字遠(yuǎn)超當(dāng)前許多主流的大
    的頭像 發(fā)表于 11-06 10:57 ?719次閱讀

    Orion模型即將面世,OpenAI采用新發(fā)布模式

    據(jù)最新報(bào)道,OpenAI計(jì)劃在今年12月推出其新款前沿模型,代號(hào)為“Orion”。這款模型將采用與以往不同的發(fā)布模式,引發(fā)廣泛關(guān)注。 與GPT
    的頭像 發(fā)表于 10-25 10:11 ?693次閱讀

    OpenAI即將發(fā)布“草莓”推理大模型

    科技界迎來新動(dòng)態(tài),據(jù)可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項(xiàng)重大發(fā)布——預(yù)計(jì)在兩周內(nèi),將正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務(wù)中。這款以卓越推理能力為核心的大
    的頭像 發(fā)表于 09-11 16:53 ?817次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    GPT-4. GPT-4o mini的定價(jià)為每百萬(wàn)輸入標(biāo)記15美分和每百萬(wàn)輸出標(biāo)記60美分,比之前的前沿模型便宜了一個(gè)數(shù)量級(jí),比
    的頭像 發(fā)表于 07-21 10:20 ?1676次閱讀
    <b class='flag-5'>OpenAI</b> 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜

    OpenAI發(fā)布最新人工智能模型——GPT-4o mini

    據(jù)國(guó)際媒體報(bào)道,OpenAI 在周四震撼發(fā)布了其最新的人工智能模型——GPT-4o mini,此舉標(biāo)志著這家領(lǐng)先的AI初創(chuàng)公司在拓寬其廣受歡迎的聊天機(jī)器人應(yīng)用領(lǐng)域方面邁出了重要一步。
    的頭像 發(fā)表于 07-19 15:24 ?1545次閱讀