曰本美女∴一区二区特级A级黄色大片, 国产亚洲精品美女久久久久久2025, 页岩实心砖-高密市宏伟建材有限公司, 午夜小视频在线观看欧美日韩手机在线,国产人妻奶水一区二区,国产玉足,妺妺窝人体色WWW网站孕妇,色综合天天综合网中文伊,成人在线麻豆网观看

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于1.35M Instance設計的GPU加速實例

芯行紀 ? 來源:芯行紀 ? 2025-04-15 16:54 ? 次閱讀

CPU是計算機的核心部件,由運算器、控制器寄存器組和內部總線等部分組成。常見的x86架構CPU核心數相對較少,一般在8 - 32核左右,主要是為了解決復雜的邏輯運算和順序執(zhí)行指令的任務。它在處理單線程任務時效率很高,能夠快速執(zhí)行復雜的指令集,例如進行數學計算、程序的流程控制等操作。

GPU最初是為了圖形渲染而設計的,其架構與CPU有很大不同,采用了大規(guī)模并行架構。以英偉達的CUDA架構為例,它擁有成千上萬個CUDA核心,這些核心可以同時處理多個任務。例如,在深度學習中,GPU可以加速神經網絡的訓練過程,因為神經網絡的訓練涉及大量的矩陣運算,這些運算可以并行處理,GPU的并行架構能夠大大縮短訓練時間。近兩年,GPU也成為EDA(電子設計自動化)加速的技術熱點。

在數字SoC芯片的設計和實現中,為了達到功能、性能、功耗和面積目標,芯片設計者通常需要進行多輪次的迭代和優(yōu)化。數字后端實現環(huán)節(jié)由于涉及的數據規(guī)模龐大且迭代次數多,基于CPU的計算耗時相當長。一般來說,一個后端設計大概需要半年左右的時間,以一個10M Instance規(guī)模的模塊設計為例,基于常見的x86_64架構、16核×128CPU、2.8G主頻的服務器運行數字后端各項任務,每輪時長大約為:布局(Place)75小時、時鐘樹綜合(CTS)45小時、時鐘優(yōu)化(CTSopt)45小時、布線(Route)35小時、布線優(yōu)化(RouteOpt)60小時。如果能夠有效利用GPU的并行計算能力,將對芯片設計的加速非常有幫助。

芯行紀自主研發(fā)的新一代數字實現解決方案,通過適配GPU的環(huán)境,使用GPU為自研布局布線軟件AmazeSys進行了加速,并且獲得了可觀的加速效果。以下是一個基于1.35M Instance設計的GPU加速實例,運行方案如下:

僅使用CPU,啟用31個CPU線程

使用CPU和GPU,啟用31個CPU線程和1個GPU (3584 CUDA cores)

a5369560-190a-11f0-9310-92fbcf53809c.png

圖1:機器配置

從圖2可以看到,通過啟用1個GPU,placement各個主要階段得到了5到20倍不等的加速比。

a5461c74-190a-11f0-9310-92fbcf53809c.png

圖2:Placement過程中的加速比

從圖3可以看到,使用兩種方案的wire length基本持平, GPU加速時雖然overflow略有增加,但總體獲得了9.1倍加速的效果。并且,當GPU數量增加、性能增強,加速比也將會繼續(xù)增大。

a54ff0f0-190a-11f0-9310-92fbcf53809c.png

圖3:使用GPU加速的結果

數字布局布線涉及的串行計算相對較多,但每一個環(huán)節(jié)只要能夠有并行的可能的情況下,提前考慮算法以及GPU環(huán)境的匹配,是能夠實現加速可能性的。GPU加速對數字電路的后端設計而言,屬于EDA工具研發(fā)中的新挑戰(zhàn)。芯行紀AmazeSys數字布局布線軟件適配GPU硬件加速技術,為設計者縮短設計周期、加速設計創(chuàng)新提供了新的途徑。

關于芯行紀

芯行紀科技有限公司匯聚EDA研發(fā)和技術支持精英,主營研發(fā)符合3S理念(Smart、Speedy、Simple)、包含新一代布局布線技術的數字實現EDA平臺,并提供高端數字芯片設計解決方案,助力提升芯片設計效率,以科技創(chuàng)新推動發(fā)展新質生產力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 控制器
    +關注

    關注

    114

    文章

    16876

    瀏覽量

    182449
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4889

    瀏覽量

    130473
  • 計算機
    +關注

    關注

    19

    文章

    7616

    瀏覽量

    89921
  • eda
    eda
    +關注

    關注

    71

    文章

    2857

    瀏覽量

    175944

原文標題:GPU硬件加速在數字實現EDA中的應用

文章出處:【微信號:gh_2894c3fc5359,微信公眾號:芯行紀】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    《CST Studio Suite 2024 GPU加速計算指南》

    許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權。 4. GPU計算的啟用 - 交互式模擬:通過加速對話框啟用,打開求解器對話框,點擊“加速”按鈕,打
    發(fā)表于 12-16 14:25

    GPU加速XenApp/Windows 2016/Office/IE性能會提高嗎

    Shark來查看哪些程序/進程使用GPU(硬件加速)。它看起來不像Internet Explorer 11或Office 2016根本不使用GPU。我已經驗證IE和Office都啟用了硬件
    發(fā)表于 09-12 16:24

    可與NvFBC一起使用的GPU

    我想在一個項目中使用NvFBC,但我不清楚究竟支持哪些GPU。我們可能會在生產中使用Quadro M4000,但我的開發(fā)機器中有一臺GTX 980,我無法使用它(NvFBC_CreateEx在
    發(fā)表于 09-25 15:04

    GPU加速matlab程序

    最近遇到了一個加速matlab程序的問題,不知道如何利用GPU,以及使用GPU的先決條件,是不是GPU加速必須要用cuda,最重要的是只用G
    發(fā)表于 03-30 11:21

    tengine是如何使用arm的GPU進行加速

    【嵌入式AI】多目標分類檢測系統(tǒng)實戰(zhàn)中,tengine是如何使用arm的GPU進行加速的,這個原理能詳細說明一下嗎?
    發(fā)表于 09-02 14:18

    Javascript如何實現GPU加速?

    由 Demi 于 星期四, 2018-09-06 16:10 發(fā)表 一、什么是Javascript實現GPU加速? CPU與GPU設計目標不同,導致它們之間內部結構差異很大。 CPU需要應對通用
    發(fā)表于 09-06 20:21 ?754次閱讀

    算法 | 超Mask RCNN速度4倍,僅在單個GPU訓練的實時實例分割算法

    YOLACT——Real-time Instance Segmentation提出了一種簡潔的實時實例分割全卷積模型,速度明顯優(yōu)于以往已有的算法,而且就是在一個 GPU 上訓練取得的!
    的頭像 發(fā)表于 06-11 10:34 ?7505次閱讀

    首個采用NVIDIA M2050 GPU實例 開啟GPU云計算下個十年

    十年前,AWS(Amazon Web Services)發(fā)布了首個采用 NVIDIA M2050 GPU實例。當時,基于 CUDA 的應用主要專注于加速科學模擬,AI 和深度學習還
    的頭像 發(fā)表于 02-24 12:08 ?2000次閱讀

    使用GPU加速RELION進行生物結構解析

    NVIDIA 與智東西公開課共同策劃推出「GPU 加速高性能計算(HPC)經典應用在線研討會」。研討會將聚焦經典高性能計算和科學計算應用,以及如何在 GPU 平臺更好的加速這些應用。
    的頭像 發(fā)表于 06-22 10:06 ?1813次閱讀

    OrCAD Capture CIS instance和occurrences概念解析

    Capture CIS 中兩個重要概念:instance 和 occurrences 用 OrCAD 設計原理圖必須理解兩個概念 instance 和 occurrences。對于元件放置、替換、修改屬性等很多操作都和這兩個概念有關。
    的頭像 發(fā)表于 10-11 11:01 ?1.3w次閱讀
    OrCAD Capture CIS <b class='flag-5'>instance</b>和occurrences概念解析

    Oracle 云基礎設施提供新的 NVIDIA GPU 加速計算實例

    也即將在 OCI Compute 上推出。 OCI 上的 NVIDIA? H100 Tensor Core GPU 實例 OCI Co mpute 裸機實例配備了具有? NVIDIA Hopper ? 架構 的 NVIDIA
    的頭像 發(fā)表于 09-25 20:40 ?728次閱讀
    Oracle 云基礎設施提供新的 NVIDIA <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b>計算<b class='flag-5'>實例</b>

    GPU虛擬化技術MIG簡介和安裝使用教程

    使用多實例GPU (MIG/Multi-Instance GPU)可以將強大的顯卡分成更小的部分,每個部分都有自己的工作,這樣單張顯卡可以同時運行不同的任務。本文將對其進行簡單介紹并且
    的頭像 發(fā)表于 10-11 14:42 ?1189次閱讀
    <b class='flag-5'>GPU</b>虛擬化技術MIG簡介和安裝使用教程

    instance是何時翻轉的?每次有多少instance在翻轉?

    在run dynamic vectorless IR時,instance是何時翻轉的?每次有多少instance在翻轉?
    的頭像 發(fā)表于 01-26 09:31 ?744次閱讀
    <b class='flag-5'>instance</b>是何時翻轉的?每次有多少<b class='flag-5'>instance</b>在翻轉?

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學計算、數據分析、機器學習等復雜計算任務的軟硬件結合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?472次閱讀

    GPU加速云服務器怎么用的

    GPU加速云服務器是將GPU硬件與云計算服務相結合,通過云服務提供商的平臺,用戶可以根據需求靈活租用帶有GPU資源的虛擬機實例。那么,
    的頭像 發(fā)表于 12-26 11:58 ?313次閱讀