国产大全直接观看黄网站,2019狠狠爱天天做,天天躁日日躁狠狠躁视频2021

雖然GPT-3沒有開源，卻已經(jīng)有人在復(fù)刻GPT系列的模型了。

例如，慕尼黑工業(yè)大學(xué)的Connor Leahy，此前用200個(gè)小時(shí)、6000RMB，復(fù)現(xiàn)了GPT-2。

又例如，基于150億參數(shù)版GPT-3的DALL·E模型剛出，來自康奈爾大學(xué)的 Philip Wang就開始復(fù)現(xiàn) 了。

但此前，還沒人能復(fù)現(xiàn)出GPT-3大小的大語言模型來。

不過，已經(jīng)有人開始嘗試了。這是一個(gè)名為 GPT-Neo的項(xiàng)目，用于復(fù)現(xiàn)GPT系列的各種語言模型，當(dāng)然也包括GPT-3。

作者表示，目前他們已經(jīng)成功制造出GPT-2大小的模型。

從項(xiàng)目代碼的可擴(kuò)展性來看，他們預(yù)計(jì)可以復(fù)刻出GPT-3大小的語言模型，甚至比GPT-3更大。

不僅如此，由于這是個(gè)開源的項(xiàng)目，大家還可以自主訓(xùn)練這些模型（將來也會(huì)包括GPT-3）。

目前，作者已經(jīng)給出了詳細(xì)的訓(xùn)練步驟。

消息一出，網(wǎng)友沸騰了：

要是真能復(fù)現(xiàn)，說不定會(huì)比現(xiàn)在的GPT-3還要更好用！

GPT系列的“高仿”項(xiàng)目

本質(zhì)上，GPT-Neo有點(diǎn)像是GPT系列的“高仿”項(xiàng)目：

GPT-Neo中的各種模型，設(shè)計(jì)原理接近GPT系列，但代碼并不一樣。

作者們打算嘗試各種結(jié)構(gòu)和注意力類型，最終擴(kuò)展出GPT-3大小的大語言模型。

為了實(shí)現(xiàn)這一目標(biāo)，他們從復(fù)現(xiàn)GPT系列的模型開始，不斷嘗試各種模型架構(gòu)、和各種注意力機(jī)制的實(shí)現(xiàn)方式。

也就是說，GPT-Neo更像是一個(gè)實(shí)驗(yàn)性質(zhì)的項(xiàng)目，通過各種嘗試，擴(kuò)展出更大的模型。

這里面，融合了各種讓模型變得“更大”的研究：

例如，多任務(wù)學(xué)習(xí)方法MoE （Mixture of Experts），采用多個(gè)專家的結(jié)構(gòu)，將問題空間劃分為同質(zhì)區(qū)域，然后采用分發(fā)器，決定問題應(yīng)該問哪些專家。

又比如，具有線性復(fù)雜性的自注意力機(jī)制。

……

這個(gè)項(xiàng)目還在施工中，不過，連模型的訓(xùn)練方式都準(zhǔn)備好了。

項(xiàng)目計(jì)劃通過TPU或GPU，對(duì)大語言模型進(jìn)行訓(xùn)練。

為此，作者們已經(jīng)基于Tensorflow-mesh （用于在GPU上訓(xùn)練模型）、Deepspeed （用于在TPU上訓(xùn)練模型）兩個(gè)項(xiàng)目，編寫了GPT-Neo的訓(xùn)練代碼。

這兩個(gè)項(xiàng)目都可以擴(kuò)展到大于GPT-3的大小，甚至還能更大。

因此，訓(xùn)練GPT-3大小的模型，軟件理論上是可行的。

但硬件上的問題，目前作者們還在思考明確的解決方案。如果將來真的做出了GPT-3大小的模型，他們打算先從谷歌那多要點(diǎn)免費(fèi)資源，如果不行的話，就再說……

如何訓(xùn)練GPT-Neo

當(dāng)然，在TPU和GPU上訓(xùn)練的方式有所不同。

如果使用TPU訓(xùn)練的話，需要注冊(cè)一個(gè)谷歌云平臺(tái)，創(chuàng)建存儲(chǔ)空間，然后再搞個(gè)虛擬機(jī)，將模型放到TPU上訓(xùn)練。

不過，如果你的GPU硬件足夠OK，也可以選擇直接訓(xùn)練GPT-Neo，就不用設(shè)置一系列谷歌云了。

此外，也可以用谷歌Colab來訓(xùn)練項(xiàng)目，它免費(fèi)提供TPU-V8S處理器，訓(xùn)練GPT的3XL （1.5B參數(shù)）版本綽綽有余。

訓(xùn)練過程也不復(fù)雜，主要包括創(chuàng)建分詞器、數(shù)據(jù)集預(yù)處理、指定訓(xùn)練數(shù)據(jù)集、選擇訓(xùn)練配置、訓(xùn)練模型幾個(gè)步驟。

在創(chuàng)建分詞器上，GPT-Neo目前提供一個(gè)Huggingface的預(yù)訓(xùn)練GPT-2分詞器。不過，也可以訓(xùn)練自己專屬的分詞器。

然后，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，可以直接下載項(xiàng)目提供的數(shù)據(jù)，也可以使用自己的數(shù)據(jù)集。

在那之后，指定模型訓(xùn)練所用的數(shù)據(jù)集，然后對(duì)訓(xùn)練方式進(jìn)行設(shè)置，例如優(yōu)化算法、訓(xùn)練步數(shù)等。

然后，指定硬件名稱、數(shù)量，就可以開始訓(xùn)練模型了。

“只會(huì)用谷歌搜索的自動(dòng)化團(tuán)隊(duì)”

不過，對(duì)于GPT系列的項(xiàng)目復(fù)現(xiàn)，有網(wǎng)友并不看好。

網(wǎng)友認(rèn)為，GPT-X系列項(xiàng)目，就像是一個(gè)由幾百人組成的自動(dòng)化團(tuán)隊(duì)，這幾百人只會(huì)用谷歌搜索來干活，而且還沒辦法寫出最新的新聞事件報(bào)道。（因?yàn)橛?xùn)練數(shù)據(jù)無法一直更新）

它雖然是個(gè)非常有趣的研究，但目前卻還沒有一個(gè)“殺手級(jí)”應(yīng)用，來讓GPT-3項(xiàng)目的存在變得更有意義。

當(dāng)然，也有人認(rèn)為，復(fù)現(xiàn)這一項(xiàng)目還是有意義的。

即使只是“幾百個(gè)只會(huì)用搜索引擎干活的團(tuán)隊(duì)”，他們也需要快速給出某個(gè)問題的答案。

如何在大量零碎信息中，高效地選出最優(yōu)解，本身就是GPT-X項(xiàng)目的價(jià)值之一。畢竟如果只是幾百個(gè)“會(huì)用谷歌搜索”的人組成的團(tuán)隊(duì)，是無法像GPT-3一樣，快速得出最佳答案的。

當(dāng)然，也有一些程序員調(diào)侃，要是這個(gè)GPT-3項(xiàng)目真的被復(fù)現(xiàn)了，豈不是他們馬上就要失業(yè)了。

“我們總是在用谷歌搜索、和stackoverflow來解決問題。這不就是像GPT-3一樣，只會(huì)整合搜索引擎上的信息，來解決問題嗎？”

“該死，原來GPT-3竟然可以取代這么多程序員?！?/p>

目前，GPT-Neo的所有項(xiàng)目和代碼已開源。

想要上手一試、或是對(duì)項(xiàng)目感興趣的小伙伴，可以行動(dòng)起來了~

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

開源

開源

+關(guān)注

關(guān)注
3

文章
4348

瀏覽量
46445
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
575

瀏覽量
11343
GPT

GPT

+關(guān)注

關(guān)注
0

文章
373

瀏覽量
16970

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

GPT系列的“高仿” 最大可達(dá)GPT-3大小自主訓(xùn)練

評(píng)論

搜索歷史

GPT系列的“高仿” 最大可達(dá)GPT-3大小 自主訓(xùn)練

評(píng)論

GPT系列的“高仿” 最大可達(dá)GPT-3大小自主訓(xùn)練