chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)中矩陣乘法計(jì)算速度再次突破

算法與數(shù)據(jù)結(jié)構(gòu) ? 來源:量子位 ? 作者:量子位 ? 2021-06-24 17:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

n階矩陣乘法最優(yōu)解的時(shí)間復(fù)雜度再次被突破,達(dá)到了

f6d190d4-d48d-11eb-9e57-12bb97331649.jpg

。

按定義直接算的話,時(shí)間復(fù)雜度是O(n3)。

光這么說可能不太直觀,從圖上可以看出,n足夠大時(shí)優(yōu)化后的算法就開始表現(xiàn)出明顯優(yōu)勢(shì)。

矩陣乘法在深度學(xué)習(xí)中有著廣泛的應(yīng)用,像卷積神經(jīng)網(wǎng)絡(luò)(CNN)中最耗時(shí)間的卷積計(jì)算,就經(jīng)常被映射成矩陣乘法。

雖然在具體實(shí)現(xiàn)上還有很多障礙,但矩陣相乘底層算法的優(yōu)化,至少在理論上為深度學(xué)習(xí)節(jié)省時(shí)間提供了可能性。

而科學(xué)家們努力的目標(biāo),是使n階矩陣乘法的時(shí)間復(fù)雜度盡可能接近理論上的最快速度O(n2)。

本次研究共同作者是一對(duì)師徒。

Josh Alman目前是哈佛大學(xué)的博士后研究員,主要研究方向是算法設(shè)計(jì)和復(fù)雜度理論。

Virginia Vassilevska Williams是他在MIT讀博士期間的導(dǎo)師,研究方向是組合數(shù)學(xué)和圖論在計(jì)算領(lǐng)域的應(yīng)用。

Strassen:用加法替代乘法

矩陣乘法的時(shí)間復(fù)雜度直到1969年才第一次被Volker Strassen降至O(n3)以下。

看過《算法導(dǎo)論》的同學(xué)應(yīng)該很熟悉Strassen算法。

以2階矩陣相乘為例,總共需要進(jìn)行23=8次乘法,而2?的高階矩陣相乘可以用分塊法不斷迭代細(xì)分解成若干個(gè)2階子矩陣相乘。

Strassen巧妙的通過構(gòu)造7個(gè)中間變量,用增加14次加法為代價(jià)省去了一次乘法。

對(duì)于

f75b808c-d48d-11eb-9e57-12bb97331649.png

定義

f7d831a4-d48d-11eb-9e57-12bb97331649.png

則有

f7e2a40e-d48d-11eb-9e57-12bb97331649.png

像這樣,在M?-M?的計(jì)算中只有7次乘法操作。
由于矩陣乘法計(jì)算中乘法的復(fù)雜度是O(n3),而加法的復(fù)雜度只有O(n2),n越大時(shí)此方法的收益就越大。

且分塊后每個(gè)子矩陣相乘都可以省去一次乘法操作,最終把時(shí)間復(fù)雜度降低到

f7edd1d0-d48d-11eb-9e57-12bb97331649.jpg

。

這么繞的算法到底怎么想出來的?可惜Strassen在論文中并沒有說明這一點(diǎn)。

Strassen算法在實(shí)際應(yīng)用時(shí)受到很大限制,如運(yùn)行時(shí)會(huì)創(chuàng)建大量的臨時(shí)變量,在n不夠大時(shí)反倒更耗費(fèi)時(shí)間。

還有只適用于稠密矩陣,針對(duì)稀疏矩陣有更快的專門算法。

但最重要的是,Strassen的辦法讓學(xué)界意識(shí)到,原來矩陣乘法問題還有優(yōu)化空間啊!

激光法:用張量替代矩陣

20世紀(jì)70年代末期,科學(xué)家們找到了解決問題的新思路,將矩陣計(jì)算轉(zhuǎn)換為張量計(jì)算。

1981年,Schonhage將此方法優(yōu)化到

f88eb62c-d48d-11eb-9e57-12bb97331649.jpg

后,Strassen把這個(gè)方法命名為“激光法(Laser Method)”,因?yàn)楹驼黄窦す庥邢嗨浦帯?/p>

在后來的幾十年中,矩陣乘法的每次優(yōu)化都來自激光法的優(yōu)化,即如何更有效的把矩陣問題轉(zhuǎn)換成張量問題。

Alman和Williams的優(yōu)化算法只比14年LeGall的

f8aa33a2-d48d-11eb-9e57-12bb97331649.jpg

減少了

f8baf98a-d48d-11eb-9e57-12bb97331649.jpg

。

從歷次優(yōu)化的幅度來看,似乎已逼近激光法的極限。

能算得更快了嗎?

激光法很少在實(shí)際中應(yīng)用,因?yàn)樗辉趎足夠大,大到現(xiàn)代計(jì)算機(jī)硬件幾乎無法處理的時(shí)候才能提供優(yōu)勢(shì)。

這樣的算法被稱作“銀河算法(Galatic Algorithm)”。

在業(yè)界使用最多的還是通過分塊法和并行處理控制矩陣的規(guī)模。當(dāng)n不大時(shí),再通過循環(huán)展開,內(nèi)存布局優(yōu)化等辦法針對(duì)直覺算法的優(yōu)化。

還有一點(diǎn),現(xiàn)實(shí)中由于浮點(diǎn)數(shù)精度的限制,Strassen法和激光法在計(jì)算大規(guī)模矩陣時(shí)都會(huì)產(chǎn)生不小的誤差。

矩陣乘法的加速,看來還沒那么容易。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:矩陣乘法計(jì)算速度再次突破極限,我煉丹能更快了嗎?| 哈佛、MIT

文章出處:【微信號(hào):TheAlgorithm,微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    蜂鳥乘法器設(shè)計(jì)分享

    ,蜂鳥E203乘法實(shí)現(xiàn)使用基4(Radix-4)的Booth編碼,共產(chǎn)生16個(gè)部分積,最終采用循環(huán)移位方式計(jì)算最終結(jié)果,以犧牲性能的方式換取了面積損耗。
    發(fā)表于 10-22 08:21

    NTT設(shè)計(jì)介紹

    運(yùn)算,可有效提高乘法算法的計(jì)算速度和精度。 NTT可使用Gentleman-Sande蝶形變換實(shí)現(xiàn),以正常順序輸入,以位反轉(zhuǎn)順序輸出。N點(diǎn)的NTT運(yùn)算由 級(jí)組成,每一級(jí)執(zhí)行 次蝶形變換。因此,一個(gè)N點(diǎn)
    發(fā)表于 10-22 06:05

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    矩陣乘法的算法 ①矩陣乘法的各種算法 ②優(yōu)化矩陣乘法過程的新方法 ③加速
    發(fā)表于 09-12 17:30

    深度學(xué)習(xí)對(duì)工業(yè)物聯(lián)網(wǎng)有哪些幫助

    、實(shí)施路徑三個(gè)維度展開分析: 一、深度學(xué)習(xí)如何突破工業(yè)物聯(lián)網(wǎng)的技術(shù)瓶頸? 1. 非結(jié)構(gòu)化數(shù)據(jù)處理:解鎖“沉睡數(shù)據(jù)”價(jià)值 傳統(tǒng)困境 :工業(yè)物聯(lián)網(wǎng)70%以上的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)(如設(shè)備振
    的頭像 發(fā)表于 08-20 14:56 ?739次閱讀

    自動(dòng)駕駛Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來,隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3895次閱讀
    自動(dòng)駕駛<b class='flag-5'>中</b>Transformer大模型會(huì)取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    求助,關(guān)于STM32H743使用DSP進(jìn)行矩陣求逆計(jì)算出現(xiàn)的問題求解

    我正在STM32H743上實(shí)現(xiàn)一個(gè)算法,需要進(jìn)行一個(gè)20*20的矩陣求逆,但是計(jì)算結(jié)果與matlab對(duì)比差距非常大,完全不正確,原矩陣A的部分?jǐn)?shù)值類似如下: 在matlab求逆的部
    發(fā)表于 08-08 07:24

    AI芯片:加速人工智能計(jì)算的專用硬件引擎

    人工智能(AI)的快速發(fā)展離不開高性能計(jì)算硬件的支持,而傳統(tǒng)CPU由于架構(gòu)限制,難以高效處理AI任務(wù)的大規(guī)模并行計(jì)算需求。因此,專為AI優(yōu)化的芯片應(yīng)運(yùn)而生,成為推動(dòng)深度
    的頭像 發(fā)表于 07-09 15:59 ?844次閱讀

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)或分類的過程。然而,大模型的推理過程對(duì)顯存和計(jì)算資源的需求較高,這給實(shí)際應(yīng)用帶來了以下挑戰(zhàn): 顯存不足:大模型在推理過程
    發(fā)表于 07-03 19:43

    ai服務(wù)器是什么?與普通服務(wù)器有什么區(qū)別

    AI服務(wù)器并非簡(jiǎn)單的硬件堆砌,而是專門為人工智能任務(wù)設(shè)計(jì)的高性能計(jì)算系統(tǒng)。其核心目標(biāo)是高效處理海量數(shù)據(jù)并行計(jì)算(如矩陣乘法、模型推理),并針對(duì)AI工作負(fù)載(如
    的頭像 發(fā)表于 06-24 16:39 ?2904次閱讀

    邊緣計(jì)算如何顛覆人工智能變革

    2025年以來,DeepSeek發(fā)布的大模型熱度居高不下,再次點(diǎn)燃了全球?qū)θ斯ぶ悄艿臒o限熱情。深度學(xué)習(xí)模型以指數(shù)級(jí)速度膨脹,性能不斷突破極限
    的頭像 發(fā)表于 05-30 09:29 ?816次閱讀

    在CM32M433R MCU上調(diào)用riscv_sqrt_f32()函數(shù)的計(jì)算速度比直接調(diào)用sqrtf()要慢,為什么?

    在CM32M433R MCU上調(diào)用riscv_sqrt_f32()函數(shù)的計(jì)算速度比直接調(diào)用sqrtf()要慢, 計(jì)算一次riscv_sqrt_f32大概54 cycles;sqrtf()大概29 cycles,FPU宏已打開,求助是什么問題。
    發(fā)表于 03-07 14:18

    云 GPU 加速計(jì)算突破傳統(tǒng)算力瓶頸的利刃

    在數(shù)字化時(shí)代,數(shù)據(jù)呈爆炸式增長(zhǎng),傳統(tǒng)的算力已難以滿足復(fù)雜計(jì)算任務(wù)的需求。無論是人工智能的深度學(xué)習(xí)、大數(shù)據(jù)的分析處理,還是科學(xué)研究的模擬計(jì)算
    的頭像 發(fā)表于 02-17 10:36 ?500次閱讀

    軍事應(yīng)用深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇

    人工智能尤其是深度學(xué)習(xí)技術(shù)的最新進(jìn)展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學(xué)習(xí)技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢(shì),導(dǎo)致戰(zhàn)爭(zhēng)形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?810次閱讀

    AI自動(dòng)化生產(chǎn):深度學(xué)習(xí)在質(zhì)量控制的應(yīng)用

    生產(chǎn)效率、保證產(chǎn)品質(zhì)量方面展現(xiàn)出非凡的能力。阿丘科技「AI干貨補(bǔ)給站」推出《AI自動(dòng)化生產(chǎn):深度學(xué)習(xí)在質(zhì)量控制的應(yīng)用》文章,探討深度學(xué)習(xí)
    的頭像 發(fā)表于 01-17 16:35 ?1198次閱讀
    AI自動(dòng)化生產(chǎn):<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>在質(zhì)量控制<b class='flag-5'>中</b>的應(yīng)用

    谷歌量子芯片實(shí)現(xiàn)計(jì)算領(lǐng)域重大突破

    Alphabet旗下的一員,谷歌在量子計(jì)算領(lǐng)域的探索與微軟、IBM等科技巨頭并駕齊驅(qū)。量子計(jì)算技術(shù)以其承諾的遠(yuǎn)超當(dāng)前最先進(jìn)系統(tǒng)的計(jì)算速度,吸引了全球科技界的廣泛關(guān)注。谷歌位于美國(guó)加州圣巴巴拉的量子實(shí)驗(yàn)室,正是這一前沿技術(shù)探索的
    的頭像 發(fā)表于 12-13 11:10 ?1126次閱讀