chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器解決方案

英特爾中國 ? 來源:英特爾中國 ? 2024-05-27 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概 述

近年來人工智能 (AI) 技術突飛猛進的一個重要標志是大語言模型 (LLM) 的重要突破。大語言模型是基于自然語言處理 (NLP) 技術的transformer機制,目標在于理解、生成自然語言文本,以及處理人機對話等邏輯性創(chuàng)造性語義理解要求更高的自然語言任務。與傳統(tǒng)NLP模型不同,大語言模型具備參數(shù)規(guī)模巨大、訓練數(shù)據(jù)量大等特點,在模型訓練、模型微調、模型推理等階段均需要龐大的算力資源。在大模型應用 “百花齊放” 的今天,AI算力的供需缺口已經成為一個不爭的事實,如何快速構建高性能、低成本的算力平臺成為企業(yè)普遍關心的問題。

面向希望經濟、高效進行大語言模型落地場景的中小企業(yè)用戶,新華三 (H3C) 提供了基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器解決方案。該服務器能夠借助英特爾至強可擴展處理器內置的強大AI加速能力,滿足常見大語言模型微調和推理算力需求。同時,該服務器還具備交付與部署便捷、性價比高等優(yōu)勢,能夠幫助更多中小企業(yè)挖掘大語言模型的應用潛力,賦能企業(yè)的智能化轉型。

背景:大語言模型突飛猛進中小企業(yè)迎來轉型契機

大語言模型是當前大模型最具應用潛力的領域之一,由大語言模型賦能的AI應用已經在搜索增強、代碼生成、問答系統(tǒng)、智能語音助手、知識圖譜構建、專業(yè)文檔生成、智能翻譯等任務中展現(xiàn)出巨大的價值。賽迪研究院的數(shù)據(jù)顯示,截止2023年 12月,中國已有多家語言大模型研發(fā)廠商,2023年市場規(guī)模約為132.3億元,增長率達到110%;預測到2027年,中國語言大模型市場規(guī)模有望達到600億元1。對于中小企業(yè)而言,積極迎接大語言模型帶來的產業(yè)發(fā)展浪潮,將有助于跟上AI發(fā)展趨勢,提升企業(yè)的競爭力,助力降本增效。

大語言模型落地鏈路主要分為模型預訓練、模型微調 (Fine Tuning)、模型推理等階段,對于中小企業(yè)而言,由于投入規(guī)模限制和特定應用場景的需求,其落地的工程化路徑更傾向于使用已經初步完成大規(guī)模預訓練的開源/通用大模型(30B及以下),并采用特定領域的數(shù)據(jù)集對模型進行微調,通過檢索增強生成 (RAG) 等相關技術,同樣達到與通用大模型接近的理想效果,以使其更好地適應特定的任務或應用場景。

綜上所述,在大語言模型的實際部署階段,中小企業(yè)需要解決大語言模型微調與推理問題,這會在性能、算力成本、效率等方面遇到相應的挑戰(zhàn)。

在滿足微調和推理兩大場景需求的同時降低成本

在大語言模型微調方面,性能與成本通常是呈現(xiàn)正比關系,采用專用的AI服務器能夠提供強大的算力,但是會消耗高額的成本,這對于中小企業(yè)而言是一項巨大的支出。

快速迎上大語言模型的發(fā)展浪潮

大語言模型發(fā)展的日新月異意味著,中小企業(yè)必須快速行動起來,投身到大語言模型的發(fā)展浪潮中。但同時,專用的AI服務器面臨著供貨緊張、部署繁瑣、上線時間周期長等客觀現(xiàn)狀,難以快速提供AI算力支持,反觀不少企業(yè)都擁有大量的通用服務器資源,若能高效利用這些資源,將有助于大幅縮短大模型應用上線周期。

解決案:基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器

針對中小企業(yè)在中小規(guī)模的模型微調與推理上的挑戰(zhàn),H3C推出了H3C UniServer R6900 G6服務器單一節(jié)點解決方案,成功地展示了基于中等規(guī)模大語言模型的微調和推理能力。

作為該解決方案的核心,H3C UniServer R6900 G6服務器是H3C基于第四代英特爾至強可擴展處理器自主研發(fā)的新一代4U四路機架式服務器。整機設計在上一代產品的基礎上進行了全面優(yōu)化,無論在計算效率、擴展能力還是低碳節(jié)能等方面都達到了全新的高度,是繼G5產品之后的又一標桿四路服務器產品,是大規(guī)模虛擬化、數(shù)據(jù)庫、內存計算、數(shù)據(jù)分析、數(shù)據(jù)倉庫、商業(yè)智能、ERP等數(shù)據(jù)密集型應用關鍵業(yè)務的理想選擇。

c3517f2c-1435-11ef-b74b-92fbcf53809c.png

圖 1. H3C UniServer R6900 G6服務器

H3C UniServer R6900 G6服務器搭載的第四代英特爾至強可擴展處理器通過創(chuàng)新架構增加了每個處理器核心每個時鐘周期的可執(zhí)行指令數(shù)量,每個插槽多達60個核心,支持8通道DDR5內存,有效提升了內存帶寬與速度,并通過PCIe 5.0(80個通道)實現(xiàn)了更高的PCIe帶寬提升。第四代英特爾至強可擴展處理器提供了出色性能和安全性,可根據(jù)用戶的業(yè)務需求進行擴展。借助內置的加速器,用戶可以在AI、分析、云和微服務、網絡、數(shù)據(jù)庫、存儲等類型的工作負載中獲得優(yōu)化的性能。

c3690020-1435-11ef-b74b-92fbcf53809c.png

圖 2. 第四代英特爾至強可擴展處理器為數(shù)據(jù)中心提供多種優(yōu)勢

H3C UniServer R6900 G6服務器單一節(jié)點解決方案在大語言模型微調及推理上的能力,源于以下三大技術突破:

CPU算力突破

在大模型微調和推理任務中,涉及大規(guī)模矩陣運算。隨著模型尺寸的擴大,矩陣的大小也相應增加,這對處理器的算力有著極高的要求。

第四代英特爾至強可擴展處理器提供了增強的AI算力支持。與此前的英特爾至強可擴展處理器中提供的英特爾AVX-512不同,英特爾 AMX采用了全新的指令集與電路設計,通過提供矩陣類型的運算,顯著增加了人工智能應用程序的每時鐘指令數(shù) (IPC),可為AI工作負載中的訓練和推理帶來大幅的性能提升。

單機算力突破

在大語言模型的訓練和微調過程中,為提供充足的算力,通常采用多機多卡的分布式訓練方式,但這種方式會帶來額外的系統(tǒng)互聯(lián)開銷,同時也可能導致訓練性能的損耗。

H3C結合英特爾平臺的特有的UPI (Ultra Path Interconnect) 多CPU組合技術,推出了H3C UniServer R6900 G6四路服務器。這種服務器突破了傳統(tǒng)雙路服務器的算力限制,能夠提供單機更高的算力密度。方案采用了高帶寬低延遲的UPI互聯(lián)方案,能夠實現(xiàn)CPU算力的高速橫向倍增。這意味著,用戶可以在一臺節(jié)點上完成所有的計算任務,從而避免了分布式訓練可能帶來的各種問題。

內存限制突破

大語言模型的訓練和推理對于內存容量有著較高需求,這種需求源于AI 模型訓練過程中的兩個關鍵步驟:一是加載模型的權重,二是存儲用于反向傳播的梯度信息以及執(zhí)行參數(shù)更新的優(yōu)化器參數(shù)。此外,選擇適當?shù)挠柧毰看笮∫仓陵P重要,因為較大的批量有助于模型更快地收斂,從而提升微調后模型的性能。然而,較大的批量會使得中間激活值的存儲也占據(jù)了大量的內存空間。以Llama 30B模型為例,在進行16位浮點數(shù)訓練時,如果訓練批量大小被設定為16并且使用Adam優(yōu)化器,估算需要600GB左右的內存才能成功完成30B模型的LoRA微調。雖然目前 涌現(xiàn)了非常多的技術手段來解決內存限制的問題,但是會引入復雜的技術棧和額外復雜度。

針對上述問題,H3C UniServer R6900 G6服務器可支持64根4800MT/s DDR5 ECC內存,能夠提供高達16TB的內存容量,從而打破了內存限制。相比于使用GPU的方案,這種方案能夠減少內存壓縮和多卡間數(shù)據(jù)通信的開銷,從而更有效地完成微調訓練任務。

除了上面三方面的技術突破,在實現(xiàn)算力突破的同時,英特爾還針對大型語言模型的推理和訓練過程,提供了一系列基于PyTorch框架的軟件優(yōu)化措施。這些優(yōu)化被集成在IntelExtension for PyTorch開源軟件庫中,旨在進一步提升模型的性能和效率。

IntelExtension for PyTorch是英特爾發(fā)起的一個開源擴展項目,它基于 PyTorch的擴展機制實現(xiàn),旨在通過提供額外的軟件優(yōu)化充分發(fā)揮硬件特性,幫助用戶在原生PyTorch的基礎上顯著提升英特爾硬件(如CPU和GPU)上的深度學習推理計算和訓練性能。通過擴展,PyTorch用戶將能更加及時地受益于英特爾硬件的最新功能,并在第一時間體驗軟件優(yōu)化帶來的卓越性能和部署便捷性。

c381b386-1435-11ef-b74b-92fbcf53809c.png

圖 3.IntelExtension for PyTorch框架

目前,IntelExtension for PyTorch配合PyTorch,可支持PyTorch框架下大部分主流模型,其中深度優(yōu)化模型有50+以上。用戶只需要從Hugging Face拉取模型,加載到PyTorch框架中,通過簡單幾步完成BF16混合精度轉換,模型就可以在CPU上高效部署。同時,Intel Extension for PyTorch面向transformer運算對相關計算進行了深入優(yōu)化,實現(xiàn)了融合的ROPE (Fused Rotary Positional Embeddings) 操作,可以減少計算的復雜性并提高模型的運行效率。

c38dd72e-1435-11ef-b74b-92fbcf53809c.png

圖 4.IntelExtension for PyTorch 支持50多種主流AI模型

性能驗證:充分滿足中等規(guī)模大模型微調

推理的算力要求

為驗證基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器在大語言模型推理和微調兩大場景的服務能力,H3C選擇了英特爾至強金牌 6448H處理器+2TB內存的配置,并進行了測試。

微調場景

H3C對Llama2-7B和Llama2-13B模型,以及Llama1-30B模型進行了微調測試。這些測試在業(yè)界通用的Alpaca數(shù)據(jù)集(6.5M token,數(shù)據(jù)集大小 20MBytes)上進行,旨在評估在禁用梯度累積(Gradient Accumulation) 的情況下,四路服務器能支持的batch size,訓練過程中的峰值內存占用,以及訓練完成所需的時間。

測試數(shù)據(jù)如表1所示,對于7B、13B和30B大小的Llama模型,四路H3C UniServer R6900 G6服務器可以滿足實用訓練時長的要求。

c39a3104-1435-11ef-b74b-92fbcf53809c.png

表 1. 不同模型在微調中的訓練時間與最大內存使用6

推理場景

H3C對Llama2的7B和13B模型,以及Code Llama的34B模型進行了深入測試,以充分挖掘基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器的性能極限。本測試專注于評估這些硬件配置在不同的 input/output token latency、 batch size,以及多實例運行情況下的表現(xiàn)。

首token延遲、總吞吐與并發(fā)數(shù)的測試結果分別如圖5、圖6所示,對于 7B、13B大小的Llama模型,四路H3C UniServer R6900 G6服務器可以滿足多實例運行的要求。

c3abfde4-1435-11ef-b74b-92fbcf53809c.png

圖 5. 不同模型的首token延遲7

c3bbb18a-1435-11ef-b74b-92fbcf53809c.png

圖 6. 不同模型的總吞吐性能測試8

收 益

基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器提供了大語言模型微調推理一體方案,為中小企業(yè)提供了一種更高效、更經濟的解決方案,實現(xiàn)了以下價值:

可以更加快速的推動以大語言模型為代表的AGI的部署:該方案能夠在單一服務器上覆蓋微調和推理,不僅簡化了操作流程,也提高了算力平臺的交付效率。同時,方案基于Pytorch,TensorFlow,OpenVINO等流行的開源框架,使得中小企業(yè)能夠在CPU平臺上方便快捷地搭建最新的模型服務,更快地將AGI應用到業(yè)務流程中。

有助于企業(yè)搭建更具性價比的大語言模型算力平臺:該方案不依賴于昂貴的GPU服務器,而是可以采用更具經濟性的通用CPU服務器,同時達到理想的性能表現(xiàn),可以助力用戶降低大語言模型算力平臺的總體擁有成本 (TCO)。

實現(xiàn)出色的靈活性與擴展性:解決方案具有極高的適應性和靈活性,可以廣泛應用于通用計算和AI專用場景。用戶可以靈活地調整和優(yōu)化系統(tǒng)資源的使用,從而實現(xiàn)最優(yōu)的性能和效果。

展 望

大語言模型已經徹底改變了智能化應用的生態(tài),大語言模型帶來的涌現(xiàn)能力賦予了其巨大的應用前景,成為足以改變商業(yè)競爭態(tài)勢的重要能力。基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器在當前算力稀缺、資源不足的情況下,為中小企業(yè)提供了經濟、高效、靈活的AI算力平臺選項,可以助力用戶投入到AI競賽中,為業(yè)務帶來切實的收益。

除了用于大語言模型的微調和推理之外,基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器具備的強大通用性意味著,其能夠在更多領域發(fā)揮價值,而對于有更高性能需求的場景,該方案也能夠通過服務器節(jié)點擴展來提供更高的算力。面向未來,英特爾與H3C還將進一步合作,包括采用新一代硬件平臺,通過軟件工具套件進行性能優(yōu)化,攜手拓展AI生態(tài)等,助力用戶在AI時代獲得成功。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20248

    瀏覽量

    252100
  • 英特爾
    +關注

    關注

    61

    文章

    10301

    瀏覽量

    180390
  • PCIe
    +關注

    關注

    16

    文章

    1459

    瀏覽量

    88376
  • 人工智能
    +關注

    關注

    1817

    文章

    50088

    瀏覽量

    265190

原文標題:基于英特爾? 至強? 可擴展處理器的H3C UniServer R6900 G6服務器加速大語言模型微調及推理

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    超越臺積電?英特爾首個18A工藝芯片邁向大規(guī)模量產

    Lake作為英特爾首款基于Intel 18A制程工藝打造的產品,意義非凡。這一制程是英特爾研發(fā)并制造的最先進半導體工藝,標志著英特爾在技術領域邁出了關鍵一步。 ? 英特爾還預覽了
    的頭像 發(fā)表于 10-11 08:14 ?9091次閱讀
    超越臺積電?<b class='flag-5'>英特爾</b>首個18A工藝芯片邁向大規(guī)模量產

    全球首款落地!英特爾攜手新華三等合作伙伴,重磅推出全域液冷服務器

    11月19日,英特爾攜手本地生態(tài)伙伴——新華三、英維克、憶聯(lián)及國內領先內存廠商,發(fā)布了基于英特爾至強6900系列性能核處理器的雙路冷板式全域
    的頭像 發(fā)表于 11-25 09:17 ?1w次閱讀
    全球首款落地!<b class='flag-5'>英特爾</b>攜手新華三等合作伙伴,重磅推出全域液冷<b class='flag-5'>服務器</b>

    打造智算基石:英特爾攜手本土生態(tài)發(fā)布全域液冷服務器

    2025年11月19日,重慶 ——在英特爾技術創(chuàng)新與產業(yè)生態(tài)大會上,英特爾攜手本地生態(tài)伙伴——新華三、英維克、憶聯(lián)及國內領先內存廠商,發(fā)布了基于英特爾 ? 至強 ? ?
    的頭像 發(fā)表于 11-20 14:31 ?418次閱讀
    打造智算基石:<b class='flag-5'>英特爾</b>攜手本土生態(tài)發(fā)布全域液冷<b class='flag-5'>服務器</b>

    英特爾舉辦行業(yè)解決方案大會,共同打造機器人“芯”動脈

    11月19日,在2025英特爾行業(yè)解決方案大會上,英特爾展示了基于英特爾? 酷睿? Ultra平臺的最新邊緣AI產品及解決方案,并預覽了針對
    的頭像 發(fā)表于 11-19 21:51 ?6718次閱讀
    <b class='flag-5'>英特爾</b>舉辦行業(yè)<b class='flag-5'>解決方案</b>大會,共同打造機器人“芯”動脈

    英特爾攜本地生態(tài)伙伴發(fā)布雙路冷板式全域液冷服務器,引領數(shù)據(jù)中心散熱與能效革新

    1月19日,在重慶舉辦的2025英特爾技術創(chuàng)新與產業(yè)生態(tài)大會上,英特爾攜手本地生態(tài)伙伴——新華三、英維克、憶聯(lián)及國內領先內存廠商,發(fā)布了基于英特爾?至強?
    發(fā)表于 11-19 21:21 ?1563次閱讀
    <b class='flag-5'>英特爾</b>攜本地生態(tài)伙伴發(fā)布雙路冷板式全域液冷<b class='flag-5'>服務器</b>,引領數(shù)據(jù)中心散熱與能效革新

    從云到端:英特爾展示全棧AI能力,覆蓋云、邊、PC多場景

    2025年9月25日,杭州——今日,在2025云棲大會上,英特爾與阿里云帶來了多項云基礎設施創(chuàng)新成果,包括兼容多代際服務器(支持第五代英特爾??至強??
    的頭像 發(fā)表于 09-26 17:27 ?1536次閱讀
    從云到端:<b class='flag-5'>英特爾</b>展示全棧AI能力,覆蓋云、邊、PC多場景

    英特爾288核新至強處理器揭秘:Intel 18A制程,3D堆疊與鍵合,EMIB封裝……

    ? 近日,在Hot Chips 2025大會舉行期間,英特爾新一代至強處理器?Clearwater Forest首次亮相,這是英特爾基于Intel 18A制程打造的首款
    的頭像 發(fā)表于 08-29 15:59 ?1551次閱讀

    英特爾至強6助力阿里云第九代企業(yè)級ECS實例100天贏得超萬家客戶青睞

    g9i為包括汽車、視頻服務、在線游戲、電商、工業(yè)設計、游戲開發(fā)在內的眾多企業(yè)客戶提供強大性能,加速企業(yè)邁向智能化時代。 卓越性能,全面提升企業(yè)核心業(yè)務 得益于技術創(chuàng)新,最新一代英特爾至強
    的頭像 發(fā)表于 07-29 15:44 ?595次閱讀

    主控CPU全能選手,英特爾至強6助力AI系統(tǒng)高效運轉

    有什么特殊之處呢? AI加速系統(tǒng)為何看重CPU主控能力? 作為造價極高的AI加速系統(tǒng),DGX B300可以不計成本地選任何CPU,只要它能充分的發(fā)揮整套系統(tǒng)的性能。選擇英特爾至強6作為默認推薦的CPU配置,這意味著它能很好地滿足
    的頭像 發(fā)表于 06-27 11:44 ?874次閱讀
    主控CPU全能選手,<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b><b class='flag-5'>6</b>助力AI系統(tǒng)高效運轉

    術業(yè)有專攻——AI系統(tǒng)主控CPU英特爾至強6新品處理器淺析

    一、至強6與NVIDIA GPU?協(xié)同的硬件基礎 在 AI 異構計算架構中,英特爾至強6處理器
    的頭像 發(fā)表于 06-19 16:37 ?808次閱讀
    術業(yè)有專攻——AI系統(tǒng)主控CPU<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b><b class='flag-5'>6</b>新品<b class='flag-5'>處理器</b>淺析

    1.9倍性能提升!英特爾至強6在MLPerf基準測試中表現(xiàn)卓越

    關鍵項目中,性能表現(xiàn)卓越。測試結果顯示,相較于上一代產品,該處理器的AI性能實現(xiàn)了高達1.9倍的顯著提升,這也充分顯示了至強6處理器作為現(xiàn)代AI系統(tǒng)理想
    的頭像 發(fā)表于 04-07 10:58 ?667次閱讀

    英特爾至強6處理器助力數(shù)據(jù)中心整合升級

    繼去年9月重磅推出英特爾 至強 6900性能核處理器后,英特爾進一步擴充至強
    的頭像 發(fā)表于 03-13 17:36 ?1481次閱讀

    英特爾至強6:如何煉就數(shù)據(jù)中心“全能型選手”

    面對數(shù)據(jù)中心領域日益激烈的競爭,英特爾緊抓核心產品,繼去年推出128核的至強6900P之后,近期又添“新兵”——至強6700P和至強6500
    的頭像 發(fā)表于 03-13 14:57 ?644次閱讀
    <b class='flag-5'>英特爾</b><b class='flag-5'>至強</b><b class='flag-5'>6</b>:如何煉就數(shù)據(jù)中心“全能型選手”

    英特爾至強6再推新品!打造最強AI“機頭引擎”

    2月底,英特爾一口氣發(fā)布多款至強6處理器,其中包括備受矚目的6700/6500性能核處理器。在數(shù)據(jù)中心領域需求持續(xù)攀升的當下,
    的頭像 發(fā)表于 03-13 14:57 ?737次閱讀

    英特爾展示基于至強6處理器的基礎網絡設施

    ; 與5G核心網解決方案合作伙伴的深度合作,加快了英特爾至強6能效核處理器在整個生態(tài)系統(tǒng)中的應用
    的頭像 發(fā)表于 03-08 09:24 ?1042次閱讀