chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook AI又出新作:性能翻倍,計算成本不增加

gckX_aicapital ? 來源:YXQ ? 2019-07-16 10:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Facebook AI又出新作,LeCun力薦!在BERT等先進(jìn)架構(gòu)中插入一個“存儲器”層,能極大提升網(wǎng)絡(luò)容量和性能,同時保持計算成本基本不變。實(shí)驗(yàn)表明,采用新模型的12層網(wǎng)絡(luò)性能即與24層BERT-large模型的性能相當(dāng),運(yùn)行時間減少一半。

圖靈獎得主,AI大神Yann LeCun發(fā)Twitter推薦。LeCun認(rèn)為,本文用product key memory層替代了BERT模型中的結(jié)構(gòu)層,實(shí)現(xiàn)了與后者相當(dāng)?shù)男阅?,計算量降低了一半?/p>

本文介紹了一種可以輕松集成到神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)化存儲器。該存儲器在設(shè)計上非常大,架構(gòu)的容量顯著增加,參數(shù)數(shù)量可達(dá)十億個,而增加的計算成本基本上可忽略不計。存儲器的設(shè)計和訪問模式基于產(chǎn)品密鑰,可實(shí)現(xiàn)快速準(zhǔn)確的最近鄰搜索。

這一新方法在保持計算成本不增加的同時,大幅增加了參數(shù)數(shù)量,使得整個系統(tǒng)在訓(xùn)練和測試時,能夠在預(yù)測準(zhǔn)確度和計算效率之間進(jìn)行更優(yōu)化的權(quán)衡。這個存儲器層能夠處理超大規(guī)模的語言建模任務(wù)。

在實(shí)驗(yàn)中,我們使用一個包含高達(dá)300億字的數(shù)據(jù)集,并將存儲器層插入最先進(jìn)的transformer的架構(gòu)網(wǎng)絡(luò)中。結(jié)果表明,只有12層的存儲器增強(qiáng)模型的性能,優(yōu)于24層的基線transformer模型,而在推理時間方面,前者比后者快兩倍。相關(guān)代碼已經(jīng)發(fā)布,以用于重現(xiàn)實(shí)驗(yàn)。

圖1:鍵值存儲器層概述:輸入x通過查詢網(wǎng)絡(luò)處理,該查詢網(wǎng)絡(luò)生成查詢向量q,將查詢向量q與所有鍵進(jìn)行比較。輸出是與所選鍵相關(guān)的存儲器的稀疏加權(quán)和。對于大量密鑰| K |,密鑰選擇過程在實(shí)踐中成本過高。我們的product key方法是精確的,整個搜索過程非常快。

神奇的“存儲器層”:性能翻倍,計算成本不增加

本文提出了一個鍵值存儲器(key memory)層,可以擴(kuò)展到非常大的規(guī)模,同時保持對關(guān)鍵空間的搜索精度。該層顯著增加了整個系統(tǒng)的容量,而增加的計算成本可以忽略不計。與基于鍵值存儲器的現(xiàn)有模型(圖1)不同,本文將“鍵”定義為兩個子鍵的串聯(lián)。更多細(xì)節(jié)如圖2所示,該結(jié)構(gòu)隱含地定義了一組非常大的鍵,每個鍵與值存儲器槽相關(guān)。值向量集中引入了大量參數(shù),因?yàn)閰?shù)數(shù)量與子鍵的數(shù)量成平方關(guān)系。

圖2:product key示意圖。我們定義了兩個離散的密鑰子集(子密鑰集1和子密鑰集2)。它們會產(chǎn)生更大的密鑰集,這些密鑰永遠(yuǎn)不會明文表示。對于給定的查詢,我們將其分為兩個子查詢(q1和q2)。在每個子集中選擇k個最接近的密鑰(圖中的k = 2),從而隱含地選擇k×k個密鑰。保證使用查詢最大化內(nèi)積的k個key屬于該子集,在該子集上可以更高效地進(jìn)行搜索。

盡管存儲器slot數(shù)量很大,但找到輸入的最精確鍵是非常有效的,通常需要O(p | K |)次向量比較,其中|K |是內(nèi)存插槽的總數(shù)。所有存儲器參數(shù)都是可訓(xùn)練的,但在訓(xùn)練時每個輸入只更新少量內(nèi)存slot。密鑰選擇和參數(shù)更新的稀疏性使訓(xùn)練和推理非常有效。

本文中加入的存儲器層,可以解決現(xiàn)有架構(gòu)在給定大量可用數(shù)據(jù)的情況下遇到的問題,也可以提升運(yùn)行速度。我們以語言建模任務(wù)為例,將存儲器層整合到流行的transformer架構(gòu)中。這樣做的原因是,BERT 和GPT-2 取得了巨大成功,證明了增加大型模型的容量,能夠直接轉(zhuǎn)化為對語言建模性能的大幅改進(jìn),反過來又能促進(jìn)雙語言理解任務(wù)和文本生成任務(wù)的性能提升。

總的來說,本文的主要貢獻(xiàn)如下:

引入了一個新的網(wǎng)絡(luò)層,大幅擴(kuò)充了神經(jīng)網(wǎng)絡(luò)的容量,在訓(xùn)練和測試時只需要很小的計算成本,幾乎可以忽略不計。

提出了新的快速索引策略,通過構(gòu)造提供精確的最近鄰域搜索,并避免了依賴在訓(xùn)練期間重新學(xué)習(xí)的索引結(jié)構(gòu)產(chǎn)生的缺陷。

在一個大型transformer最先進(jìn)網(wǎng)絡(luò)架構(gòu)中演示了本文中的方法,該網(wǎng)絡(luò)由24層組成。我們的方法有1個存儲器和12層結(jié)構(gòu),結(jié)果性能與24層transformer架構(gòu)相當(dāng),推理時間則是后者的兩倍。實(shí)驗(yàn)表明,為各種復(fù)雜性的transformer網(wǎng)絡(luò)架構(gòu)添加更多存儲器層,可以為目標(biāo)任務(wù)提供系統(tǒng)而顯著的性能提升。

圖3:左:典型的transformer模塊由自注意力層和FFN層(雙層網(wǎng)絡(luò))組成。右圖:在我們的系統(tǒng)用product存儲器層替換了FFN層,這類似于具有非常大的隱藏狀態(tài)的稀疏FFN層。在實(shí)踐中,我們僅替換N層FFN層,其中N∈{0,1,2}

實(shí)驗(yàn)過程

數(shù)據(jù)集

最大的公開語言建模數(shù)據(jù)集是One Billion Word語料庫。在該數(shù)據(jù)集上獲得良好的性能需要繁瑣的正則化,因?yàn)樗F(xiàn)在對于標(biāo)準(zhǔn)體系結(jié)構(gòu)來說太小了,本實(shí)驗(yàn)亦然,且觀察到即使是小模型也足以過度擬合。

在此數(shù)據(jù)集上,對于維度為1024的16層模型,當(dāng)驗(yàn)證困惑(perplexity)開始增加時,獲得25.3的測試?yán)Щ蠖取?/p>

研究人員從公共通用爬網(wǎng)中提取了30倍大的語料庫,訓(xùn)練集由280億字組成(140 GB的數(shù)據(jù))。

與One Billion Word語料庫不同,研究人員的語料庫沒有改變句子,允許模型學(xué)習(xí)遠(yuǎn)程依賴。在這個數(shù)據(jù)集上,沒有觀察到任何過度擬合,并且系統(tǒng)地增加模型容量導(dǎo)致驗(yàn)證集上的更好性能。

操作細(xì)節(jié)

研究人員使用具有16個attention heads和位置嵌入的transformer架構(gòu)。

研究人員考慮具有12、16或24層的模型,具有1024或1600維度,并使用Adam優(yōu)化器訓(xùn)練模型,學(xué)習(xí)率為2.5×10^(-4),其中β1=0.9,β2=0.98,遵循Vaswani等人的學(xué)習(xí)率計劃。

由于使用稀疏更新來學(xué)習(xí)內(nèi)存值,研究人員發(fā)現(xiàn)以更高的Adam學(xué)習(xí)率10^(-3)來學(xué)習(xí)它們是極好的。于是用PyTorch實(shí)現(xiàn)模型、在32個Volta GPU上訓(xùn)練,并使用float16操作來加速訓(xùn)練、減少模型的GPU內(nèi)存使用。

下圖是對比有內(nèi)和沒有內(nèi)存時,模型的測試?yán)Щ螅灰约霸跍y試集上的速度和困惑之間進(jìn)行權(quán)衡。

結(jié)果

上圖顯示了CC-News語料庫測試集上,不同模型的困惑度。研究人員觀察到,增加維度或?qū)訑?shù)會導(dǎo)致在所有模型中顯著改善困惑。

但是,為模型添加內(nèi)存比增加層數(shù)更有利;例如,當(dāng)隱藏單元的數(shù)量為1024和1600時,具有單個存儲器和12層的模型優(yōu)于具有相同隱藏尺寸和24層的無記憶模型。

添加2或3個存儲層進(jìn)一步提高了性能。特別是,當(dāng)內(nèi)部隱藏狀態(tài)具有1600維時,具有12層和存儲器的模型比具有24層(與BERT large的配置相同)的模型獲得更好的困惑,速度幾乎快了兩倍。將內(nèi)存添加到內(nèi)部維度等于1600的large型模型時,推理時間幾乎不會增加。

消融研究(Ablation study)

在為了研究不同組件對內(nèi)存層的影響,并測量它們?nèi)绾斡绊懩P托阅芎蛢?nèi)存使用情況。除非特別注明,這里考慮存儲器為5122=262k插槽,4個存儲器磁頭,k=32個選定鍵,研究人員將其嵌入到第5層。

上圖顯示增加head數(shù)或k-NN數(shù)??梢愿纳颇P偷膹?fù)雜性和內(nèi)存使用。

研究人員還注意到。具有相同h×k(h是head數(shù),k是最近鄰數(shù))的模型具有相似的內(nèi)存使用。比如,(h, k) ∈ {(1, 64),(2, 32),(4, 16),(8, 8)}所有內(nèi)存使用率約為70%,困惑度約為20.5。

總體上看,添加更多head可以提高性能,但也會增加計算時間。實(shí)驗(yàn)結(jié)果表明,head=4,k=32時可以在速度和性能之間取得良好的平衡。

總結(jié)

論文介紹了一個內(nèi)存層,它允許以幾乎可以忽略不計的計算開銷大幅提高神經(jīng)網(wǎng)絡(luò)的容量。

該層的效率依賴于兩個關(guān)鍵因素:將key分解為產(chǎn)品集,以及對內(nèi)存值的稀疏讀/寫訪問。圖層被集成到現(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu)中。

研究人員通過實(shí)驗(yàn)證明它在大規(guī)模語言建模方面取得了重要進(jìn)展,12層的性能達(dá)到了24層BERT-large模型的性能,運(yùn)行時間縮短了一半。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    37057

    瀏覽量

    290244
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1432

    瀏覽量

    57953

原文標(biāo)題:LeCun力薦:Facebook推出十億參數(shù)超大容量存儲器

文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    計算成本。 核心: MoE模型利用稀疏性驅(qū)動結(jié)構(gòu),通過包含多個專家網(wǎng)絡(luò)的稀疏MoE層替換密集層,其中每個專家致力于特定的訓(xùn)練數(shù)據(jù)或任務(wù)的子集,并且一個可訓(xùn)練的門控機(jī)制動態(tài)地將輸入標(biāo)記分配給這些專家,從而
    發(fā)表于 09-18 15:31

    電動機(jī)噪聲、振動和聲振粗糙度開發(fā):使用低計算成本的系統(tǒng)級模型預(yù)測早期噪聲、振動和聲振粗糙度

    優(yōu)勢使用計算成本低的系統(tǒng)級模型在動態(tài)運(yùn)行條件下對電驅(qū)動裝置執(zhí)行早期噪聲、振動和聲振粗糙度評估優(yōu)化電機(jī)控制策略并做出更好的設(shè)計選擇,以提高電動汽車的噪聲、振動和聲振粗糙度使用Simcenter節(jié)省時間
    的頭像 發(fā)表于 08-13 11:46 ?429次閱讀
    電動機(jī)噪聲、振動和聲振粗糙度開發(fā):使用低<b class='flag-5'>計算成本</b>的系統(tǒng)級模型預(yù)測早期噪聲、振動和聲振粗糙度

    工地要增加AI識別功能?高性能邊緣計算設(shè)備解決方案來助力

    今年4月,廣州市住建局就發(fā)布了《廣州市住房和城鄉(xiāng)建設(shè)局關(guān)于房屋建筑工程領(lǐng)域考勤設(shè)備優(yōu)化升級的通知》,最新提出了要“增加AI識別功能模塊。為實(shí)現(xiàn)人員實(shí)名登記、實(shí)時考勤和自動監(jiān)測數(shù)據(jù)互相比對驗(yàn)證”,自
    的頭像 發(fā)表于 08-05 10:18 ?649次閱讀
    工地要<b class='flag-5'>增加</b><b class='flag-5'>AI</b>識別功能?高<b class='flag-5'>性能</b>邊緣<b class='flag-5'>計算</b>設(shè)備解決方案來助力

    重新思考 AI 時代的分布式計算

    層次的關(guān)注點(diǎn)在于這一效率突破揭示了傳統(tǒng)分布式計算范式與AI工作負(fù)載獨(dú)特需求之間的根本不匹配。AI技術(shù)浪潮對基礎(chǔ)設(shè)施選型帶來了深層挑戰(zhàn):當(dāng)前廣泛部署的分布式
    的頭像 發(fā)表于 07-31 14:25 ?783次閱讀
    重新思考 <b class='flag-5'>AI</b> 時代的分布式<b class='flag-5'>計算</b>

    性能計算集群在AI領(lǐng)域的應(yīng)用前景

    隨著人工智能技術(shù)的飛速發(fā)展,高性能計算集群(HPC)在AI領(lǐng)域的應(yīng)用前景日益受到關(guān)注。HPC提供的計算能力與AI的智能分析能力相結(jié)合,為解決
    的頭像 發(fā)表于 06-23 13:07 ?761次閱讀
    高<b class='flag-5'>性能</b><b class='flag-5'>計算</b>集群在<b class='flag-5'>AI</b>領(lǐng)域的應(yīng)用前景

    提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個實(shí)戰(zhàn)技巧

    在人工智能與機(jī)器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計算資源的高效利用已成為關(guān)鍵技術(shù)指標(biāo)。優(yōu)化的GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實(shí)現(xiàn)計算成本的有效控制。根據(jù)AI基礎(chǔ)設(shè)施聯(lián)盟2024年發(fā)布
    的頭像 發(fā)表于 05-06 11:17 ?955次閱讀
    提升<b class='flag-5'>AI</b>訓(xùn)練<b class='flag-5'>性能</b>:GPU資源優(yōu)化的12個實(shí)戰(zhàn)技巧

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計算AI框架,提供了一套開放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對差異化
    發(fā)表于 04-28 11:05

    RK3588核心板在邊緣AI計算中的顛覆性優(yōu)勢與場景落地

    與低功耗。相比傳統(tǒng)四核A72方案(如RK3399),單線程性能提升80%,多線程任務(wù)處理能力翻倍。 6TOPS獨(dú)立NPU: 支持INT8/INT16混合精度計算,可直接部署YOLOv5
    發(fā)表于 04-15 10:48

    AI演進(jìn)的核心哲學(xué):使用通用方法,然后Scale Up!

    ,得到一個AI發(fā)展的重要?dú)v史教訓(xùn):利用計算能力的通用方法最終是最有效的,而且優(yōu)勢明顯”。核心原因是摩爾定律,即單位計算成本持續(xù)指數(shù)級下降。大多數(shù) AI 研究假設(shè)可用
    的頭像 發(fā)表于 04-09 14:31 ?527次閱讀
    <b class='flag-5'>AI</b>演進(jìn)的核心哲學(xué):使用通用方法,然后Scale Up!

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    RZ/V2N——近期在嵌入式世界2025上新發(fā)布,為 AI 計算、嵌入式系統(tǒng)及工自動化提供強(qiáng)大支持。這款全新的計算平臺旨在滿足開發(fā)者和企業(yè)用戶對高性能、低功耗和靈活擴(kuò)展的需求。 [](
    發(fā)表于 03-19 17:54

    AI云端計算資源的多維度優(yōu)勢

    AI云端計算資源,作為AI技術(shù)與云計算深度融合的產(chǎn)物,在成本效益、性能優(yōu)化、數(shù)據(jù)安全、靈活擴(kuò)展以
    的頭像 發(fā)表于 01-07 11:11 ?718次閱讀

    電源濾波器的成本性能之間存在怎樣的關(guān)系

    電源濾波器濾除干擾信號,保障電源純凈。無源與有源濾波器性能各異,成本不同。選擇需權(quán)衡性能、成本與需求,優(yōu)化設(shè)計與元件選用可達(dá)最佳性價比。
    的頭像 發(fā)表于 12-30 08:48 ?678次閱讀
    電源濾波器的<b class='flag-5'>成本</b>與<b class='flag-5'>性能</b>之間存在怎樣的關(guān)系

    AI性能計算平臺是什么

    AI性能計算平臺不僅是AI技術(shù)發(fā)展的基石,更是推動AI應(yīng)用落地、加速產(chǎn)業(yè)升級的重要工具。以下,是對AI
    的頭像 發(fā)表于 11-11 09:56 ?1099次閱讀

    PCB層數(shù)增加對成本有哪些影響

    PCB層數(shù)增加成本影響 層數(shù)與成本的關(guān)系 :通常情況下,PCB的層數(shù)越多,其價格也越貴。這是因?yàn)閷訑?shù)的增加會導(dǎo)致生產(chǎn)步驟(如層壓過程)的數(shù)量增加
    的頭像 發(fā)表于 11-07 09:12 ?998次閱讀

    AI大模型的性能優(yōu)化方法

    (學(xué)生模型)來模仿大型模型(教師模型)的輸出。學(xué)生模型通過學(xué)習(xí)教師模型的“軟標(biāo)簽”(即概率分布信息),從而獲得與教師模型類似的表現(xiàn)。 優(yōu)勢:能夠極大地減少模型參數(shù)量,同時保留大部分性能,降低計算成本,便于在資源受限的環(huán)境下部署。 剪枝(Pruni
    的頭像 發(fā)表于 10-23 15:01 ?2978次閱讀