杨晨晨裸全身任何部位无遮挡,国产精品原创第一页

概述

近年來人工智能 (AI) 技術突飛猛進的一個重要標志是大語言模型 (LLM) 的重要突破。大語言模型是基于自然語言處理 (NLP) 技術的transformer機制，目標在于理解、生成自然語言文本，以及處理人機對話等邏輯性創(chuàng)造性語義理解要求更高的自然語言任務。與傳統(tǒng)NLP模型不同，大語言模型具備參數(shù)規(guī)模巨大、訓練數(shù)據(jù)量大等特點，在模型訓練、模型微調、模型推理等階段均需要龐大的算力資源。在大模型應用 “百花齊放” 的今天，AI算力的供需缺口已經成為一個不爭的事實，如何快速構建高性能、低成本的算力平臺成為企業(yè)普遍關心的問題。

面向希望經濟、高效進行大語言模型落地場景的中小企業(yè)用戶，新華三 (H3C) 提供了基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器解決方案。該服務器能夠借助英特爾至強可擴展處理器內置的強大AI加速能力，滿足常見大語言模型微調和推理算力需求。同時，該服務器還具備交付與部署便捷、性價比高等優(yōu)勢，能夠幫助更多中小企業(yè)挖掘大語言模型的應用潛力，賦能企業(yè)的智能化轉型。

背景：大語言模型突飛猛進中小企業(yè)迎來轉型契機

大語言模型是當前大模型最具應用潛力的領域之一，由大語言模型賦能的AI應用已經在搜索增強、代碼生成、問答系統(tǒng)、智能語音助手、知識圖譜構建、專業(yè)文檔生成、智能翻譯等任務中展現(xiàn)出巨大的價值。賽迪研究院的數(shù)據(jù)顯示，截止2023年 12月，中國已有多家語言大模型研發(fā)廠商，2023年市場規(guī)模約為132.3億元，增長率達到110%；預測到2027年，中國語言大模型市場規(guī)模有望達到600億元1。對于中小企業(yè)而言，積極迎接大語言模型帶來的產業(yè)發(fā)展浪潮，將有助于跟上AI發(fā)展趨勢，提升企業(yè)的競爭力，助力降本增效。

大語言模型落地鏈路主要分為模型預訓練、模型微調 (Fine Tuning)、模型推理等階段，對于中小企業(yè)而言，由于投入規(guī)模限制和特定應用場景的需求，其落地的工程化路徑更傾向于使用已經初步完成大規(guī)模預訓練的開源/通用大模型（30B及以下），并采用特定領域的數(shù)據(jù)集對模型進行微調，通過檢索增強生成 (RAG) 等相關技術，同樣達到與通用大模型接近的理想效果，以使其更好地適應特定的任務或應用場景。

綜上所述，在大語言模型的實際部署階段，中小企業(yè)需要解決大語言模型微調與推理問題，這會在性能、算力成本、效率等方面遇到相應的挑戰(zhàn)。

在滿足微調和推理兩大場景需求的同時降低成本

在大語言模型微調方面，性能與成本通常是呈現(xiàn)正比關系，采用專用的AI服務器能夠提供強大的算力，但是會消耗高額的成本，這對于中小企業(yè)而言是一項巨大的支出。

快速迎上大語言模型的發(fā)展浪潮

大語言模型發(fā)展的日新月異意味著，中小企業(yè)必須快速行動起來，投身到大語言模型的發(fā)展浪潮中。但同時，專用的AI服務器面臨著供貨緊張、部署繁瑣、上線時間周期長等客觀現(xiàn)狀，難以快速提供AI算力支持，反觀不少企業(yè)都擁有大量的通用服務器資源，若能高效利用這些資源，將有助于大幅縮短大模型應用上線周期。

解決方案：基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器

針對中小企業(yè)在中小規(guī)模的模型微調與推理上的挑戰(zhàn)，H3C推出了H3C UniServer R6900 G6服務器單一節(jié)點解決方案，成功地展示了基于中等規(guī)模大語言模型的微調和推理能力。

作為該解決方案的核心，H3C UniServer R6900 G6服務器是H3C基于第四代英特爾至強可擴展處理器自主研發(fā)的新一代4U四路機架式服務器。整機設計在上一代產品的基礎上進行了全面優(yōu)化，無論在計算效率、擴展能力還是低碳節(jié)能等方面都達到了全新的高度，是繼G5產品之后的又一標桿四路服務器產品，是大規(guī)模虛擬化、數(shù)據(jù)庫、內存計算、數(shù)據(jù)分析、數(shù)據(jù)倉庫、商業(yè)智能、ERP等數(shù)據(jù)密集型應用關鍵業(yè)務的理想選擇。

圖 1. H3C UniServer R6900 G6服務器

H3C UniServer R6900 G6服務器搭載的第四代英特爾至強可擴展處理器通過創(chuàng)新架構增加了每個處理器核心每個時鐘周期的可執(zhí)行指令數(shù)量，每個插槽多達60個核心，支持8通道DDR5內存，有效提升了內存帶寬與速度，并通過PCIe 5.0（80個通道）實現(xiàn)了更高的PCIe帶寬提升。第四代英特爾至強可擴展處理器提供了出色性能和安全性，可根據(jù)用戶的業(yè)務需求進行擴展。借助內置的加速器，用戶可以在AI、分析、云和微服務、網絡、數(shù)據(jù)庫、存儲等類型的工作負載中獲得優(yōu)化的性能。

圖 2. 第四代英特爾至強可擴展處理器為數(shù)據(jù)中心提供多種優(yōu)勢

H3C UniServer R6900 G6服務器單一節(jié)點解決方案在大語言模型微調及推理上的能力，源于以下三大技術突破：

單CPU算力突破

在大模型微調和推理任務中，涉及大規(guī)模矩陣運算。隨著模型尺寸的擴大，矩陣的大小也相應增加，這對處理器的算力有著極高的要求。

第四代英特爾至強可擴展處理器提供了增強的AI算力支持。與此前的英特爾至強可擴展處理器中提供的英特爾AVX-512不同，英特爾 AMX采用了全新的指令集與電路設計，通過提供矩陣類型的運算，顯著增加了人工智能應用程序的每時鐘指令數(shù) (IPC)，可為AI工作負載中的訓練和推理帶來大幅的性能提升。

單機算力突破

在大語言模型的訓練和微調過程中，為提供充足的算力，通常采用多機多卡的分布式訓練方式，但這種方式會帶來額外的系統(tǒng)互聯(lián)開銷，同時也可能導致訓練性能的損耗。

H3C結合英特爾平臺的特有的UPI (Ultra Path Interconnect) 多CPU組合技術，推出了H3C UniServer R6900 G6四路服務器。這種服務器突破了傳統(tǒng)雙路服務器的算力限制，能夠提供單機更高的算力密度。方案采用了高帶寬低延遲的UPI互聯(lián)方案，能夠實現(xiàn)CPU算力的高速橫向倍增。這意味著，用戶可以在一臺節(jié)點上完成所有的計算任務，從而避免了分布式訓練可能帶來的各種問題。

內存限制突破

大語言模型的訓練和推理對于內存容量有著較高需求，這種需求源于AI 模型訓練過程中的兩個關鍵步驟：一是加載模型的權重，二是存儲用于反向傳播的梯度信息以及執(zhí)行參數(shù)更新的優(yōu)化器參數(shù)。此外，選擇適當?shù)挠柧毰看笮∫仓陵P重要，因為較大的批量有助于模型更快地收斂，從而提升微調后模型的性能。然而，較大的批量會使得中間激活值的存儲也占據(jù)了大量的內存空間。以Llama 30B模型為例，在進行16位浮點數(shù)訓練時，如果訓練批量大小被設定為16并且使用Adam優(yōu)化器，估算需要600GB左右的內存才能成功完成30B模型的LoRA微調。雖然目前涌現(xiàn)了非常多的技術手段來解決內存限制的問題，但是會引入復雜的技術棧和額外復雜度。

針對上述問題，H3C UniServer R6900 G6服務器可支持64根4800MT/s DDR5 ECC內存，能夠提供高達16TB的內存容量，從而打破了內存限制。相比于使用GPU的方案，這種方案能夠減少內存壓縮和多卡間數(shù)據(jù)通信的開銷，從而更有效地完成微調訓練任務。

除了上面三方面的技術突破，在實現(xiàn)算力突破的同時，英特爾還針對大型語言模型的推理和訓練過程，提供了一系列基于PyTorch框架的軟件優(yōu)化措施。這些優(yōu)化被集成在IntelExtension for PyTorch開源軟件庫中，旨在進一步提升模型的性能和效率。

IntelExtension for PyTorch是英特爾發(fā)起的一個開源擴展項目，它基于 PyTorch的擴展機制實現(xiàn)，旨在通過提供額外的軟件優(yōu)化充分發(fā)揮硬件特性，幫助用戶在原生PyTorch的基礎上顯著提升英特爾硬件（如CPU和GPU）上的深度學習推理計算和訓練性能。通過擴展，PyTorch用戶將能更加及時地受益于英特爾硬件的最新功能，并在第一時間體驗軟件優(yōu)化帶來的卓越性能和部署便捷性。

圖 3.IntelExtension for PyTorch框架

目前，IntelExtension for PyTorch配合PyTorch，可支持PyTorch框架下大部分主流模型，其中深度優(yōu)化模型有50+以上。用戶只需要從Hugging Face拉取模型，加載到PyTorch框架中，通過簡單幾步完成BF16混合精度轉換，模型就可以在CPU上高效部署。同時，Intel Extension for PyTorch面向transformer運算對相關計算進行了深入優(yōu)化，實現(xiàn)了融合的ROPE (Fused Rotary Positional Embeddings) 操作，可以減少計算的復雜性并提高模型的運行效率。

圖 4.IntelExtension for PyTorch 支持50多種主流AI模型

性能驗證：充分滿足中等規(guī)模大模型微調

與推理的算力要求

為驗證基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器在大語言模型推理和微調兩大場景的服務能力，H3C選擇了英特爾至強金牌 6448H處理器+2TB內存的配置，并進行了測試。

微調場景

H3C對Llama2-7B和Llama2-13B模型，以及Llama1-30B模型進行了微調測試。這些測試在業(yè)界通用的Alpaca數(shù)據(jù)集（6.5M token，數(shù)據(jù)集大小 20MBytes）上進行，旨在評估在禁用梯度累積(Gradient Accumulation) 的情況下，四路服務器能支持的batch size，訓練過程中的峰值內存占用，以及訓練完成所需的時間。

測試數(shù)據(jù)如表1所示，對于7B、13B和30B大小的Llama模型，四路H3C UniServer R6900 G6服務器可以滿足實用訓練時長的要求。

表 1. 不同模型在微調中的訓練時間與最大內存使用6

推理場景

H3C對Llama2的7B和13B模型，以及Code Llama的34B模型進行了深入測試，以充分挖掘基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器的性能極限。本測試專注于評估這些硬件配置在不同的 input/output token latency、 batch size，以及多實例運行情況下的表現(xiàn)。

首token延遲、總吞吐與并發(fā)數(shù)的測試結果分別如圖5、圖6所示，對于 7B、13B大小的Llama模型，四路H3C UniServer R6900 G6服務器可以滿足多實例運行的要求。

圖 5. 不同模型的首token延遲7

圖 6. 不同模型的總吞吐性能測試8

收益

基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器提供了大語言模型微調推理一體方案，為中小企業(yè)提供了一種更高效、更經濟的解決方案，實現(xiàn)了以下價值：

可以更加快速的推動以大語言模型為代表的AGI的部署：該方案能夠在單一服務器上覆蓋微調和推理，不僅簡化了操作流程，也提高了算力平臺的交付效率。同時，方案基于Pytorch，TensorFlow，OpenVINO等流行的開源框架，使得中小企業(yè)能夠在CPU平臺上方便快捷地搭建最新的模型服務，更快地將AGI應用到業(yè)務流程中。

有助于企業(yè)搭建更具性價比的大語言模型算力平臺：該方案不依賴于昂貴的GPU服務器，而是可以采用更具經濟性的通用CPU服務器，同時達到理想的性能表現(xiàn)，可以助力用戶降低大語言模型算力平臺的總體擁有成本 (TCO)。

實現(xiàn)出色的靈活性與擴展性：解決方案具有極高的適應性和靈活性，可以廣泛應用于通用計算和AI專用場景。用戶可以靈活地調整和優(yōu)化系統(tǒng)資源的使用，從而實現(xiàn)最優(yōu)的性能和效果。

展望

大語言模型已經徹底改變了智能化應用的生態(tài)，大語言模型帶來的涌現(xiàn)能力賦予了其巨大的應用前景，成為足以改變商業(yè)競爭態(tài)勢的重要能力。基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器在當前算力稀缺、資源不足的情況下，為中小企業(yè)提供了經濟、高效、靈活的AI算力平臺選項，可以助力用戶投入到AI競賽中，為業(yè)務帶來切實的收益。

除了用于大語言模型的微調和推理之外，基于英特爾至強可擴展處理器的H3C UniServer R6900 G6服務器具備的強大通用性意味著，其能夠在更多領域發(fā)揮價值，而對于有更高性能需求的場景，該方案也能夠通過服務器節(jié)點擴展來提供更高的算力。面向未來，英特爾與H3C還將進一步合作，包括采用新一代硬件平臺，通過軟件工具套件進行性能優(yōu)化，攜手拓展AI生態(tài)等，助力用戶在AI時代獲得成功。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴