麻豆精品无码国产在线,女人j进

自DeepSeek啟動“開源周”以來，已陸續(xù)開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構(gòu)，可提供原生FP8計算能力，同時升級了高性能線性代數(shù)模板庫MUTLASS，快速支持了FlashMLA。不僅如此，摩爾線程還基于MUTLASS在全新GPU架構(gòu)上優(yōu)化實(shí)現(xiàn)了FP8矩陣乘法，支持DeepGEMM的相應(yīng)功能，充分展示了摩爾線程MUSA架構(gòu)和全功能GPU在生態(tài)兼容與快速適配上的強(qiáng)大優(yōu)勢。

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理內(nèi)核開源倉庫，旨在加速M(fèi)LA機(jī)制的計算，特別適用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，為 V3/R1的訓(xùn)練與推理提供強(qiáng)大動力。這兩個重要的開源倉庫均基于高性能通用矩陣乘法（GEMM）的C++模板庫進(jìn)行開發(fā)。

摩爾線程基于新一代計算架構(gòu)MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計算引擎及數(shù)據(jù)搬運(yùn)引擎，能夠提供原生FP8計算能力。升級的MUTLASS高性能線性代數(shù)模板庫支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優(yōu)化參考實(shí)現(xiàn)，包括基于FlashAttention3思想實(shí)現(xiàn)的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓(xùn)練所需的Groupwise Scaling FP8矩陣乘法內(nèi)核函數(shù)。得益于全新的Tensor計算引擎，F(xiàn)P8計算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅實(shí)基礎(chǔ)。

借助MUTLASS 0.2.0，摩爾線程發(fā)布開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進(jìn)行兼容部署。同時摩爾線程MUTLASS提供了一個全新的參考實(shí)現(xiàn)，充分汲取FlashAttention3的先進(jìn)算法思想，針對摩爾線程GPU設(shè)計了全新的計算流水線。這一設(shè)計能夠有效掩藏數(shù)據(jù)搬運(yùn)的延遲和Softmax計算的開銷，充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。

作為國內(nèi)率先原生支持FP8計算精度的國產(chǎn)GPU企業(yè)，摩爾線程迅速響應(yīng)，并快速適配DeepSeek的各個開源倉庫，旨在為更多GPU開發(fā)者賦能。摩爾線程始終致力于推動開源生態(tài)的發(fā)展，通過技術(shù)開放與生態(tài)共建，加速國產(chǎn)全功能GPU在AI計算領(lǐng)域的規(guī)?；瘧?yīng)用，為更多用戶提供更智能、高效的解決方案。

關(guān)于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎(chǔ)設(shè)施和一站式解決方案，為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計算支持。

我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè)，為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴