5151h国产精品,国产自怕一区二区三区

人工智能已經(jīng)成為推動數(shù)字化創(chuàng)新的重要動力，伴隨著 AIGC 等應(yīng)用的快速落地，深度學(xué)習(xí)模型規(guī)模與復(fù)雜度不斷提升，數(shù)據(jù)量也持續(xù)增長，人工智能算力供給與需求之間的矛盾正在日趨凸顯。用戶希望優(yōu)化硬件、軟件和算法，在保證模型精度和時延等指標(biāo)的前提下，提升人工智能端到端流程的性能表現(xiàn)，從而充分釋放硬件的潛能，并降低系統(tǒng)總體擁有成本 (TCO)，加速人工智能技術(shù)的創(chuàng)新。

生成式人工智能(AIGC) 等創(chuàng)新浪潮驅(qū)動了人工智能的新一輪增長，模型訓(xùn)練和模型推理成為云服務(wù)器的重要負(fù)載。要滿足人工智能領(lǐng)域的市場需求，云服務(wù)提供商需要解決以下挑戰(zhàn)：如何加速數(shù)據(jù)清理、模型推理等人工智能端到端工作流程中的多種工作負(fù)載，加快平臺的一站式性能。如何高效使用CPU等現(xiàn)有的硬件資源，并且利用客戶公有云、私有云和混合云中的服務(wù)器資源，以降低硬件成本。如何增強(qiáng)云服務(wù)器的靈活性，使其能夠在復(fù)雜場景中敏捷擴(kuò)展，支撐傳統(tǒng)負(fù)載與人工智能等新型工作負(fù)載高效運(yùn)行的需求。

為了幫助用戶加速人工智能端到端流程，特別是提升人工智能推理性能，基于第四代英特爾至強(qiáng) 可擴(kuò)展處理器的金山云第七代性能保障型云服務(wù)器X7進(jìn)行了針對性優(yōu)化。服務(wù)器采用了處理器內(nèi)置的英特爾高級矩陣擴(kuò)展（英特爾 AMX）加速器，并融合了金山云自主創(chuàng)新的加速技術(shù)，能夠有效提高人工智能模型的推理性能，同時發(fā)揮云服務(wù)器在敏捷性、擴(kuò)展性等方面的優(yōu)勢，助力客戶挖掘人工智能時代的價值。

第四代英特爾至強(qiáng) 及英特爾 AMX使金山云服務(wù)器模型推理性能提升3.97倍 - 4.96倍

金山云第七代性能保障型云服務(wù)器 X7 搭載英特爾至強(qiáng) 鉑金 8458P 處理器，網(wǎng)絡(luò)帶寬升級至100G，同時支持掛載極速云盤 ESSD ，整體機(jī)型在計算、網(wǎng)絡(luò)、存儲多維度進(jìn)行了深度優(yōu)化，可為用戶提供計算速度更快、網(wǎng)絡(luò)吞吐更大以及存儲更加高效的云服務(wù)。

第四代英特爾至強(qiáng) 可擴(kuò)展處理器通過創(chuàng)新架構(gòu)增加了每個時鐘周期的指令，每個插槽多達(dá) 60個核心，支持 8 通道DDR5內(nèi)存，有效提升了內(nèi)存帶寬與速度，并通過PCIe 5.0 （80個通道）實(shí)現(xiàn)了更高的PCIe帶寬提升。第四代英特爾至強(qiáng) 可擴(kuò)展處理器提供了出色性能和安全性，可根據(jù)用戶的業(yè)務(wù)需求進(jìn)行擴(kuò)展。借助內(nèi)置的加速器，用戶可以在人工智能、分析、云和微服務(wù)、網(wǎng)絡(luò)、數(shù)據(jù)庫、存儲等類型的工作負(fù)載中獲得優(yōu)化的性能。通過與強(qiáng)大的生態(tài)系統(tǒng)相結(jié)合，第四代英特爾至強(qiáng) 可擴(kuò)展處理器能夠幫助用戶構(gòu)建更加高效、安全的基礎(chǔ)設(shè)施。

圖：第四代英特爾至強(qiáng) 可擴(kuò)展處理器

第四代英特爾至強(qiáng)可擴(kuò)展處理器在人工智能性能上更進(jìn)一步，內(nèi)置了創(chuàng)新的英特爾 AMX 加速引擎。英特爾 AMX 針對廣泛的硬件和軟件優(yōu)化，進(jìn)一步增強(qiáng)了前代技術(shù)——矢量神經(jīng)網(wǎng)絡(luò)指令 (VNNI) 和 BF16，從一維向量發(fā)展為二維矩陣，能夠有效利用計算資源，提高高速緩存利用率，以及避免潛在的帶寬瓶頸，從而可顯著增加人工智能應(yīng)用程序的每時鐘指令數(shù) (IPC)，為人工智能工作負(fù)載中的訓(xùn)練和推理帶來顯著的性能提升。

在計算方面，通過采用最新的第四代英特爾至強(qiáng) 可擴(kuò)展處理器，金山云新一代云服務(wù)器X7計算性能較上一代最大提升60%⁵ ，同時借助內(nèi)置的英特爾AMX 原生人工智能加速能力，大幅提高了云服務(wù)器的整體性能，更加適用于計算密集型、深度學(xué)習(xí)等業(yè)務(wù)場景。在內(nèi)存方面，金山云新一代云服務(wù)器 X7 支持八通道 DDR5 內(nèi)存，單條內(nèi)存帶寬高達(dá) 4800MT/s，對比上一代實(shí)例性能提升50%⁶ ，更加適用于內(nèi)存計算等數(shù)據(jù)密集型業(yè)務(wù)場景，服務(wù)深度學(xué)習(xí)以及人工智能相關(guān)領(lǐng)域。在網(wǎng)絡(luò)方面，金山云新一代云服務(wù)器 X7 的物理網(wǎng)絡(luò)升級至 2x 100G，單虛機(jī)內(nèi)網(wǎng)吞吐最高提升至 100G，PPS 提升至最高 2400 萬，連接數(shù)最高支持 400 萬，網(wǎng)絡(luò)性能大幅提升⁷。在存儲方面，金山云新一代云服務(wù)器 X7 支持掛載極速云盤 ESSD，單盤吞吐最高提升至 4GB/s，IOPS 提升至最高 100 萬，訪問延時降低至 0.2ms ，存儲能力顯著優(yōu)化⁸。

得益于第四代英特爾至強(qiáng) 可擴(kuò)展處理器內(nèi)置的英特爾AMX 技術(shù)，金山云新一代云服務(wù)器 X7 加速了人工智能推理性能，并在AIGC等負(fù)載中有著卓越的表現(xiàn)。

金山云測試了金山云新一代云服務(wù)器 X7在Stable-Di?usion模型推理中的性能表現(xiàn)。Stable- Di?usion是一種基于機(jī)器學(xué)習(xí)的生成式人工智能模型，能夠根據(jù)文本生成高分辨率圖像。Stable-Di?usion一般需要數(shù)秒完成圖片生成，計算量極大，其主要性能瓶頸在多頭注意力計算部分 (MHA)。

第四代英特爾至強(qiáng) 可擴(kuò)展處理器在Stable-Di?usion模型推理中有著卓越的性能表現(xiàn)，這源于其在算法上面的優(yōu)化。針對該模型的 MHA 計算瓶頸，英特爾基于PyTorch 優(yōu)化的 Intel-Extension-for-PyTorch (IPEX) 插件在2.0 版本發(fā)布了基于至強(qiáng) 可擴(kuò)展處理器平臺的Flash Attention算法，主要內(nèi)容包括以合適的尺寸拆分矩陣計算，實(shí)現(xiàn)更高效的緩存利用；使用張量 AMX- BF16 加速M(fèi)HA矩陣計算，達(dá)到更快的速度；將計算緩存區(qū)與線程綁定，實(shí)現(xiàn)更少的內(nèi)存開銷。

在搭載英特爾至強(qiáng) 鉑金 8458P處理器的金山云新一代云服務(wù)器X7上，雙方對 Stable-Di?usion模型推理性能進(jìn)行了測試。測試數(shù)據(jù)如圖所示，相較優(yōu)化之前的模型，在使用 IPEX 2.0 BF16優(yōu)化之后，Stable-Di?usion模型推理性能提升了3.97倍- 4.96倍⁹。

圖：Stable-Diffusion 模型優(yōu)化前后性能對比¹⁰

賦能云服務(wù)器AI性能提升，英特爾攜手合作伙伴為云上AI用戶提供既高效又經(jīng)濟(jì)的解決方案

云服務(wù)器已經(jīng)成為用戶擴(kuò)展人工智能創(chuàng)新，承載模型訓(xùn)練、模型推理等應(yīng)用需求的重要選擇，通過采用內(nèi)置英特爾AMX 加速器的四代英特爾至強(qiáng) 可擴(kuò)展處理器，金山云第七代性能保障型云服務(wù)器X7能夠顯著加速AIGC等模型的性能表現(xiàn)，在端到端人工智能流程中的優(yōu)勢突出。而且，該方案不需要部署獨(dú)立的加速器，因此在經(jīng)濟(jì)性方面有著更佳的表現(xiàn)。具體來講，它為用戶的云上業(yè)務(wù)帶來的收益包括：

更高的性能，能夠滿足廣泛實(shí)際應(yīng)用場景的對于性能的需求。特別是在人工智能性能方面，金山云新一代云服務(wù)器 X7 能夠有效加速AIGC等應(yīng)用的運(yùn)行。通過英特爾 AMX 的應(yīng)用以及算法優(yōu)化，充分釋放了硬件潛力，有效利用服務(wù)器資源，從而降低了端到端人工智能應(yīng)用流程的TCO。不受限于特定應(yīng)用類型，能夠靈活應(yīng)對深度學(xué)習(xí)、數(shù)據(jù)庫、高網(wǎng)絡(luò)收發(fā)包等負(fù)載的支撐需求，實(shí)現(xiàn)更高的敏捷性與擴(kuò)展性。

在當(dāng)前合作成果的基礎(chǔ)上，英特爾與金山云還將對第七代性能保障型云服務(wù)器X7進(jìn)行進(jìn)一步合作優(yōu)化，包括驗(yàn)證服務(wù)器在更多場景中的性能表現(xiàn)、通過軟件與算法優(yōu)化進(jìn)一步釋放硬件潛力等，進(jìn)而為用戶提供更加卓越的云服務(wù)。同時，英特爾也將通過更多云服務(wù)合作伙伴，為云上的AI用戶提供更高效、經(jīng)濟(jì)的解決方案。

參考資料：

1 數(shù)據(jù)來源自第四代英特爾至強(qiáng) 可擴(kuò)展處理器的最大核數(shù)（60 核）與第三代英特爾至強(qiáng) 可擴(kuò)展處理器的最大核數(shù)（40 核）的比較。

2 詳細(xì)配置信息請訪問：intel.com/processorclaims，選擇 “第四代英特爾至強(qiáng) 可擴(kuò)展處理器”，查看編號“G2”。實(shí)際性能受使用情況、配置和其他因素的差異影響。

3 數(shù)據(jù)來源自第四代英特爾至強(qiáng) 可擴(kuò)展處理器（80 條 PCIe 5.0 通道）與第三代英特爾至強(qiáng) 可擴(kuò)展處理器（64 條 PCIe 4.0 通道）的比較。

4詳細(xì)配置信息請訪問：intel.com/processorclaims，選擇 “第四代英特爾至強(qiáng) 可擴(kuò)展處理器”，查看編號“G1”。實(shí)際性能受使用情況、配置和其他因素的差異影響。

5,6,7,8 https://www.ksyun.com/nv/activity/X7launch，截止 2023 年 6 月。

9,10 數(shù)據(jù)援引自截止 2023 年 6 月金山云內(nèi)部測試結(jié)果。測試配置：英特爾至強(qiáng) 鉑金 8458P 處理器，48vcore，HuggingFace stabilityai/stable-diffusion-2-1。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容，咨詢其他來源，并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴