chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SRAM,存儲器的新未來

旺材芯片 ? 來源:芯榜 ? 2023-11-12 10:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為什么 SRAM 被視為新型和傳統(tǒng)計算架構(gòu)中的關(guān)鍵元素。

近日,半導體工程與Alphawave Semi首席技術(shù)官 Tony Chan Carusone 和Steve Roddy, Quadric首席營銷官;Jongsin Yun,西門子 EDA的內(nèi)存技術(shù)專家,坐下來談論了人工智能和 SRAM 的最新問題。

SE:SRAM 有哪些關(guān)鍵特性使其適合 AI 工作負載?

Yun:SRAM與CMOS邏輯工藝兼容,這使得SRAM在將一種技術(shù)遷移到另一種技術(shù)時都會跟蹤邏輯性能的改進。SRAM 是芯片內(nèi)本地可用的存儲器。因此,它提供即時訪問的數(shù)據(jù),這就是它在人工智能應用程序中受到青睞的原因。憑借數(shù)十年的制造經(jīng)驗,我們了解其大部分潛在問題以及如何最大化其效益。在性能方面,SRAM 是迄今為止我們所知道的性能最高的內(nèi)存解決方案,使其成為人工智能的首選。

Roddy:SRAM 的數(shù)量是任何人工智能處理解決方案的關(guān)鍵要素,它的數(shù)量在很大程度上取決于您是在談論數(shù)據(jù)中心還是設(shè)備,或者是訓練還是推理。但我想不出有哪些應用程序在處理元件旁邊沒有至少大量的 SRAM,用于運行人工智能訓練或推理。任何類型的處理器都需要某種形式的 SRAM 作為暫存器、本地存儲器、存儲中間結(jié)果。無論您談論的 SoC 是否在計算引擎旁邊的芯片上具有合理數(shù)量的 SRAM,并且您在片外使用 DDR 或HBM之類的東西來保存模型的大部分內(nèi)容,或者是否你說的是一個巨大的訓練芯片,里面有數(shù)百兆字節(jié)的 SRAM。無論哪種情況,您都需要在執(zhí)行實際計算的乘法累加單元大陣列旁邊擁有良好、快速的 SRAM。這只是生活中的一個事實,剩下的問題就是一個平衡的問題。將運行什么樣的模型?模型是大還是???這是高性能機器學習還是低性能、始終在線的機器學習?那么這就變成了一個問題:模型中的大部分激活位于推理期間還是訓練期間?某處總有 SRAM。它只是一個基于細節(jié)的架構(gòu)權(quán)衡問題。

Chan Carusone:SRAM 對于 AI 至關(guān)重要,尤其是嵌入式 SRAM。它具有最高的性能,您可以將其直接與高密度邏輯集成。僅出于這些原因,它就很重要。邏輯的擴展性比 SRAM 更好。因此,SRAM 變得更加重要,并且占用了更大的芯片面積。一些處理器上有大量的 SRAM,這種趨勢可能會持續(xù)下去,這開始成為整個處理器的重要成本驅(qū)動因素。我們希望將盡可能多的計算集成到這些高性能訓練引擎上。隨著我們的進展,看看如何處理這個問題將會很有趣。您看到的一件事是,這些達到標線極限的大型芯片被分解為多個小芯片,并通過適當?shù)幕ミB使它們能夠充當一個大型芯片,從而集成更多的計算和更多的 SRAM。反過來,大量的 SRAM 進一步推動了向基于小芯片的實現(xiàn)的轉(zhuǎn)變。

Roddy:無論是數(shù)據(jù)中心還是兩美元的邊緣設(shè)備,機器學習都是一個內(nèi)存管理問題。這不是一個計算問題。歸根結(jié)底,你要么擁有大量的訓練集,并且整天試圖在片外和片內(nèi)來回洗牌,要么你正在迭代推理,你已經(jīng)得到了一堆權(quán)重,你就會得到激活。不同風格的計算實現(xiàn)之間的所有架構(gòu)差異都可以歸結(jié)為管理內(nèi)存以及管理權(quán)重和激活流的不同策略,這在很大程度上取決于可用和選擇的內(nèi)存類型。任何芯片架構(gòu)師都在有效地規(guī)劃出適合其部署場景的內(nèi)存層次結(jié)構(gòu),但在任何場景中,您都必須擁有 SRAM。

SE:內(nèi)存架構(gòu)會隨著 CXL 采用的擴大而發(fā)展嗎?

Chan Carusone:一系列新技術(shù)可能為計算機架構(gòu)師提供新的優(yōu)化機會。CXL 可能就是其中之一。另一個是 HBM,它可以實現(xiàn)密集的集成 DRAM 堆棧。隨著 EDA 工具和 IP 變得更容易實現(xiàn)這些類型的解決方案,可能會有一些實現(xiàn),包括基于小芯片的架構(gòu)。架構(gòu)師必須使用各種新的旋鈕,這些旋鈕可能允許針對不同級別的緩存混合使用不同的內(nèi)存技術(shù)。這為針對特定工作負載定制硬件解決方案創(chuàng)造了良好的機會,而無需從頭開始進行完整的新設(shè)計。

Yun:CXL就像是PCI Express的進化版。它提供 CPU、GPU 和其他存儲器等設(shè)備之間的高速通信。它們提供一些緩存共享,因此允許設(shè)備之間進行一些通信和共享內(nèi)存。使用這種解決方案,三星最近建議在 DRAM 內(nèi)進行近內(nèi)存計算,這可能會填充 L3 級別之后和主內(nèi)存級別之后的一些內(nèi)存層次結(jié)構(gòu)。

Roddy:與四年前相比,我們現(xiàn)在獲得了更廣泛的模型尺寸動態(tài)范圍。大型語言模型 (LLM) 已經(jīng)在數(shù)據(jù)中心存在了幾年,現(xiàn)在開始遷移到邊緣。您會看到人們談論在筆記本電腦上運行 70 億個參數(shù)的模型。在這種情況下,您希望將生成能力融入到您的 Microsoft 產(chǎn)品中。例如,當你被困在飛機上時,你無法訪問云端,但你希望能夠運行一個大模型。兩四年前還不是這樣,甚至人們在云端運行的模型也沒有這些700億到1000億參數(shù)的模型那么大。

SE:這有什么影響?

Roddy:它對系統(tǒng)中的內(nèi)存總量以及在處理元素的“前門”暫存權(quán)重和激活的策略都有著巨大的影響。例如,在我們工作的設(shè)備領(lǐng)域,設(shè)備上或片上更大的 SRAM 的集成度要高得多。

然后是接口,無論是 DDR、HBM 還是 CXL 之類的東西,人們試圖弄清楚,“好吧,我有冷存儲,因為我已經(jīng)將 100 億個參數(shù)模型存儲在某個地方了” ,以及我的高端手機中的所有其他元素?!蔽冶仨殞⑵鋸睦浯鎯χ腥〕?,放入片外“溫存儲”、DDR、HBM,然后我必須快速將片上和片外的數(shù)據(jù)移至 SRAM(靠近我的計算元件) ,無論是我們的芯片,還是 NVIDIA 的芯片,等等。同樣的層次結(jié)構(gòu)也必須存在。因此,這些接口的速度和功率對于系統(tǒng)的整體功率性能至關(guān)重要,而信號策略現(xiàn)在也將成為整體系統(tǒng)性能的關(guān)鍵因素。幾年前,人們將機器學習的效率視為硬件問題。如今,它更多地是一個離線提前編譯軟件的問題。我如何看待這個龐大的模型,我將對其進行多次排序(無論是訓練還是推理),以及如何以最智能的方式對數(shù)據(jù)中的張量進行排序以最小化接口?它已成為編譯器挑戰(zhàn)、MAC 效率挑戰(zhàn)。所有利用模擬計算或內(nèi)存計算構(gòu)建系統(tǒng)的早期嘗試,以及所有其他深奧的執(zhí)行,都半途而廢了。人們現(xiàn)在意識到,如果我一遍又一遍地來回移動 1000 億字節(jié)的數(shù)據(jù),那就是我需要解決的問題。不是,“我是否使用某種不消耗電力的奇怪預期邏輯來進行 8 x 8 乘法運算?”歸根結(jié)底,這只是整個問題的一小部分。

Chan Carusone:如果 SRAM 密度成為一個問題并限制芯片尺寸,那么可能會在內(nèi)存應駐留的位置方面做出不同的權(quán)衡。CXL 等新技術(shù)工具的可用性可能會滲透并影響軟件的架構(gòu)和構(gòu)思方式,以及對于特定應用程序可能最有效的算法。這種相互作用將變得更加有趣,因為這些模型是如此巨大,以至于像這樣的正確決策可以對總功耗或模型實施成本產(chǎn)生巨大影響。

SE:SRAM 如何幫助平衡AI和其他系統(tǒng)的低功耗和高性能?

Chan Carusone:簡單的答案是,嵌入 SRAM 可以實現(xiàn)快速數(shù)據(jù)檢索并減少計算所需的延遲。它減少了芯片外的需要,芯片通常更耗電。每一筆片外交易的成本都更高。這是在用 SRAM 填充芯片和沒有任何剩余空間來執(zhí)行邏輯之間的權(quán)衡。

Roddy:當你沿著邏輯和 SRAM 之間的技術(shù)曲線向下移動時,擴展差異與有關(guān)管理、功耗和可制造性的其他問題相互作用。例如,有很多人工智能推理或訓練架構(gòu)都依賴于處理元素陣列。你會看到很多數(shù)據(jù)流類型的架構(gòu),很多矩陣計算引擎的數(shù)組。

我們在 Quadric 的架構(gòu)有一個處理元素的二維矩陣,我們將 8 個 MAC、一些 ALU 和內(nèi)存分塊,然后將其平鋪和擴展——與人們在具有大量著色器引擎或各種其他引擎的 GPU 中所做的事情沒有太大不同。數(shù)據(jù)流架構(gòu)。當我們第一次實現(xiàn)我們的架構(gòu)時,我們做了一個 16 納米的概念驗證芯片。我們選擇在每個計算元素旁邊放置多少內(nèi)存是相當簡單的。我們在每一個 MAC 和 ALU 的小引擎旁邊都有一個 4k 字節(jié)的 SRAM,具有相同的邏輯塊,組織為 512 x 32 位。當你縮小規(guī)模時,突然你會看到 4nm,你會想,讓我們用觸發(fā)器來構(gòu)建它,因為擁有所有 SRAM 結(jié)構(gòu)的開銷并沒有像邏輯那樣擴展。在 4 納米,處理器設(shè)計人員是否需要思考:“我是否需要在本地計算引擎級別更改整個系統(tǒng)中的資源量?我是否應該增加內(nèi)存大小以使其成為 SRAM 的有用大???或者我是否需要從 SRAM 轉(zhuǎn)換為傳統(tǒng)的基于觸發(fā)器的設(shè)計?”但是,如果您談論的是汽車解決方案,那么這會改變可測試性和適合率方面的方程式。所以這里有很多事情在起作用,這些都是這個能力層次結(jié)構(gòu)的一部分。

解決方案架構(gòu)師需要了解的整個情況需要大量技能,例如流程技術(shù)、效率、內(nèi)存和編譯器。這是一個不平凡的世界,這就是為什么有如此多的投資涌入這一領(lǐng)域。我們都希望這些聊天機器人能夠做出奇妙的事情,但目前還不清楚什么是正確的方法。這不是一個成熟的行業(yè),你需要年復一年地進行增量設(shè)計。這些系統(tǒng)會在兩三年內(nèi)發(fā)生根本性的變化。這就是它令人興奮的原因——但也很危險。

Chan Carusone:臺積電廣為人知的 FinFlex 技術(shù)可以提供另一種在功率與性能泄漏與面積之間進行權(quán)衡的途徑。另一個跡象是人們現(xiàn)在談論的是 8T 細胞而不是 6T 細胞。每個人都在推動這些設(shè)計,為不同的應用探索設(shè)計空間的不同部分。所有研發(fā)投資都說明了這一點的重要性。

Yun:使用觸發(fā)器作為存儲器是個好主意。我們可以更快地讀/寫,因為寄存器文件的翻轉(zhuǎn)速度比 L1 高速緩存快得多。如果我們使用它,這將是提高性能的最終解決方案。根據(jù)我的經(jīng)驗,寄存器文件在處理瞬態(tài)缺陷方面比 SRAM 更穩(wěn)健,因為它具有更強的下拉和上拉性能。如果我們有大量帶有微小存儲器的內(nèi)核,并且內(nèi)核中的這些存儲器由寄存器文件組成,那么這是一個非常好的解決方案。我唯一擔心的是寄存器文件使用比SRAM更大的晶體管,因此待機泄漏和動態(tài)功耗比SRAM高得多。當我們使用寄存器文件時,是否有解決方案來解決額外的功耗?

Roddy:然后你就會遇到寄存器文件分區(qū)、時鐘門控和斷電的問題。這是編譯器的挑戰(zhàn),離線提前編譯,因此您將知道在任何給定時間點正在使用多少 reg 文件或內(nèi)存。如果您在銀行中構(gòu)建它,并且可以將其關(guān)閉,則可以減輕此類問題,因為對于在機器學習中運行的圖表的某些部分,您不需要所有內(nèi)存。對于其他部分,您確實需要所有內(nèi)存來啟動和關(guān)閉電源。我們正在對張量的形狀和大小以及張量的局部性進行大量復雜的分析。張量的移動成為一個大型的提前圖編譯問題,而不是 8 x 8 乘法或浮點乘法的優(yōu)化。仍然重要的是,上面還有一個更高的杠桿點。通過優(yōu)化操作順序,您可以盡早獲得更多的優(yōu)勢,而不是在已經(jīng)安排好之后再優(yōu)化能效延遲。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲器
    +關(guān)注

    關(guān)注

    39

    文章

    7715

    瀏覽量

    170867
  • sram
    +關(guān)注

    關(guān)注

    6

    文章

    809

    瀏覽量

    117226
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8541

    瀏覽量

    136236

原文標題:SRAM,存儲器的新未來

文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    低功耗并行SRAM存儲芯片新方案

    SRAM(靜態(tài)隨機存儲器)是一種在通電狀態(tài)下可保持數(shù)據(jù)不丟失的存儲器件,無需刷新即可持續(xù)工作,因此具有高速讀寫、響應及時的特點,廣泛應用于對實時性要求高的場景。
    的頭像 發(fā)表于 12-08 16:51 ?318次閱讀
    低功耗并行<b class='flag-5'>SRAM</b><b class='flag-5'>存儲</b>芯片新方案

    雙口SRAM靜態(tài)隨機存儲器存儲原理

    在各類存儲設(shè)備中,SRAM(靜態(tài)隨機存儲器)因其高速、低功耗和高可靠性,被廣泛應用于高性能計算、通信和嵌入式系統(tǒng)中。其中,雙口SRAM靜態(tài)隨機存儲器
    的頭像 發(fā)表于 11-25 14:28 ?128次閱讀

    PSRAM融合SRAM與DRAM優(yōu)勢的存儲解決方案

    PSRAM(偽靜態(tài)隨機存儲器)是一種兼具SRAM接口協(xié)議與DRAM內(nèi)核架構(gòu)的特殊存儲器。它既保留了SRAM無需復雜刷新控制的易用特性,又繼承了DRAM的高密度低成本優(yōu)勢。這種獨特的設(shè)計
    的頭像 發(fā)表于 11-11 11:39 ?378次閱讀

    高速存儲器sram,帶ECC的異步SRAM系列存儲方案

    在要求高性能與高可靠性的電子系統(tǒng)中,存儲器的選擇往往成為設(shè)計成敗的關(guān)鍵。Netsol推出的高速異步SRAM系列,憑借其出色的性能表現(xiàn)與獨有的錯誤校正(ECC)能力,為工業(yè)控制、通信設(shè)備及高精度計算等應用提供了值得信賴的存儲解決方
    的頭像 發(fā)表于 11-05 16:21 ?212次閱讀

    Everspin存儲器8位并行總線MRAM概述

    在需要高速數(shù)據(jù)寫入與極致可靠性的工業(yè)與數(shù)據(jù)中心應用中,Everspin推出的8位位并行接口MRAM樹立了性能與耐用性的新標桿。這款Everspin存儲器MRAM與SRAM引腳兼容的存儲器,以高達35
    的頭像 發(fā)表于 10-24 16:36 ?448次閱讀

    spi psram偽靜態(tài)存儲器的特點是什么

    PSRAM之所以被稱為"偽靜態(tài)"存儲器,主要是因為其采用類SRAM的接口協(xié)議:只需要提供地址和讀寫命令就可以實現(xiàn)數(shù)據(jù)存取,無需像傳統(tǒng)DRAM一樣需要內(nèi)存控制定期刷新數(shù)據(jù)單元。
    的頭像 發(fā)表于 10-23 14:29 ?236次閱讀

    存儲器IC的應用技巧 【日 桑野雅彥】

    UV-EPROM的結(jié)構(gòu)與使用方法,閃速存儲器的結(jié)構(gòu)與使用方法,EEPROM的結(jié)構(gòu)與使用方法, SRAM的結(jié)構(gòu)與使用方法, 特殊的SRAM的結(jié)構(gòu)與使用方法 ,DRAM的結(jié)構(gòu)與使用方法,
    發(fā)表于 04-16 16:04

    存儲器IC的應用技巧 [日 桑野雅彥]

    本書主要介紹了UV-EPROM的結(jié)構(gòu)和使用方法,閃速存儲器的結(jié)構(gòu)和使用方法,EEPROM的結(jié)構(gòu)和使用方法, SRAM的結(jié)構(gòu)與使用方法,特殊的SRAM的結(jié)構(gòu)與使用方法,DRAM的結(jié)構(gòu)與使用方法,
    發(fā)表于 03-07 10:52

    揭秘非易失性存儲器:從原理到應用的深入探索

    ? 非易失性存儲器是一種應用于計算機及智能手機等設(shè)備中的存儲裝置(存儲器),其特點是在沒有外部電源的情況下仍能保存數(shù)據(jù)信息。本文將介紹非易失性存儲器的類型、特點及用途。 什么是非易失性
    的頭像 發(fā)表于 02-13 12:42 ?2222次閱讀
    揭秘非易失性<b class='flag-5'>存儲器</b>:從原理到應用的深入探索

    存儲器的分類及其區(qū)別

    初學者要了解SDRAM需要先了解存儲器分類。按照存儲器存儲功能劃分,可將其分為RAM 和 ROM 兩大類。
    的頭像 發(fā)表于 02-08 11:24 ?3775次閱讀
    <b class='flag-5'>存儲器</b>的分類及其區(qū)別

    閃速存儲器屬于RAM還是ROM,閃速存儲器一般用來做什么的

    在數(shù)字存儲技術(shù)的快速發(fā)展中,閃速存儲器(Flash Memory)以其獨特的性能和廣泛的應用領(lǐng)域,成為了連接隨機存取存儲器(RAM)與只讀存儲器(ROM)之間的重要橋梁。本文將深入探討
    的頭像 發(fā)表于 01-29 16:53 ?1559次閱讀

    閃速存儲器的閃速是指什么,閃速存儲器的速度比內(nèi)存快嗎

    閃速存儲器之所以得名“閃速”,主要源于其擦除操作的高效性。傳統(tǒng)的EPROM(可擦除可編程只讀存儲器)和EEPROM(電可擦除可編程只讀存儲器)在擦除數(shù)據(jù)時,往往需要較長的時間,且操作相對繁瑣。而閃速
    的頭像 發(fā)表于 01-29 15:14 ?1287次閱讀

    高速緩沖存儲器是內(nèi)存還是外存,高速緩沖存儲器是為了解決什么

    高速緩沖存儲器(Cache)是內(nèi)存的一種特殊形式,但它與通常所說的主存儲器(RAM)有所不同。在計算機存儲體系中,Cache位于CPU和主存儲器之間,用于
    的頭像 發(fā)表于 01-29 11:48 ?3117次閱讀

    EMMC存儲器故障檢測及解決方案

    隨著技術(shù)的發(fā)展,EMMC存儲器因其高速、大容量和低功耗的特性,已經(jīng)成為移動設(shè)備和嵌入式系統(tǒng)的首選存儲解決方案。然而,任何技術(shù)都有可能出現(xiàn)故障,EMMC存儲器也不例外。 一、EMMC存儲器
    的頭像 發(fā)表于 12-25 09:39 ?7243次閱讀

    EMMC存儲器應用場景分析

    EMMC存儲器概述 EMMC存儲器是一種基于NAND閃存技術(shù)的存儲卡,它集成了閃存芯片和控制,提供了一種即插即用的存儲解決方案。與傳統(tǒng)的N
    的頭像 發(fā)表于 12-25 09:26 ?3818次閱讀