3 月 12 日,云天勵飛中標湛江市AI滲透支撐新質(zhì)生產(chǎn)力基礎設施建設項目,中標金額4.2億元。項目將基于云天勵飛自研的國產(chǎn)AI推理加速卡,建設國產(chǎn)AI推理千卡集群。
該集群將搭載DeepSeek等國產(chǎn)大模型,為政務、產(chǎn)業(yè)及各類應用場景提供更加便捷、低成本的AI能力,探索打造“國模國芯”的AI生態(tài)樣板。
?
一、AI算力從“訓練優(yōu)先”走向“推理優(yōu)先”
智算集群是人工智能時代的基礎設施。如果說電力支撐了工業(yè)時代,互聯(lián)網(wǎng)支撐了信息時代,那么智算正在成為支撐AI時代的重要底座。
在AI算力體系中,算力大體可以分為訓練算力與推理算力。訓練算力決定模型如何完成“從0到1”的能力構(gòu)建,而推理算力則直接支撐AI應用落地。無論是春節(jié)期間大熱的SeeDance,近期廣泛討論的“小龍蝦”,還是各行業(yè)不斷上線的AI Agent應用,背后都離不開推理算力的支撐。根據(jù)Gartner預測,到2026年,約55%的AI專用云基礎設施支出將用于推理工作負載。
過去,國內(nèi)許多智算中心普遍采用“訓推一體”的建設模式。而此次在湛江建設的集群,則定位為專注推理任務的AI推理集群,主要面向各類行業(yè)應用場景,為傳統(tǒng)產(chǎn)業(yè)的AI化提供直接支撐。
湛江也是國產(chǎn)大模型DeepSeek創(chuàng)始人梁文峰的家鄉(xiāng)。近年來,當?shù)卦凇癉eepSeek+”應用探索方面動作頻頻。2025年初,DeepSeek-R1發(fā)布后,湛江即完成本地部署——基于國產(chǎn)技術棧的DeepSeek-R1大模型率先在湛江政務云上線。該模型在處理通用政務事務的同時,還能夠持續(xù)學習本地產(chǎn)業(yè)知識與方言表達,逐漸形成具有地方特色的“湛江智慧”。
此次云天勵飛建設的AI推理集群,也將與DeepSeek等國產(chǎn)模型進行深度適配,為更多行業(yè)應用提供算力支撐。
?
二、面向推理時代的千卡集群架構(gòu)
在大模型應用場景中,推理系統(tǒng)通常需要同時滿足高并發(fā)、高吞吐與低延遲三項要求。為提升整體效率,當前業(yè)界普遍采用“Prefill–Decode分離”的推理架構(gòu),通過對不同階段進行資源優(yōu)化,實現(xiàn)系統(tǒng)性能的整體提升。
其中,Prefill階段主要負責對長上下文進行理解和計算,計算量大、帶寬需求高;而Decode階段則負責持續(xù)生成Token,對系統(tǒng)延遲更加敏感。如何在兩個階段之間進行合理的資源配置,成為推理系統(tǒng)架構(gòu)設計的重要問題。
與此同時,隨著大模型上下文長度不斷增加,大量中間狀態(tài)需要以KV Cache的形式存儲。業(yè)內(nèi)普遍認為,未來推理系統(tǒng)的性能瓶頸將越來越多來自數(shù)據(jù)訪問效率,而不僅僅是計算能力。
在這一背景下,算力、存儲與網(wǎng)絡之間的協(xié)同設計,正逐漸成為AI基礎設施的重要競爭力。
此次在湛江落地的千卡推理集群,正是圍繞這一思路進行構(gòu)建。
該集群采用云天勵飛自主研發(fā)的AI推理芯片,并在系統(tǒng)架構(gòu)上確立了“優(yōu)先優(yōu)化Prefill、兼顧Decode”的技術路線。通過在芯片設計中對計算資源與存儲帶寬進行針對性配置,使系統(tǒng)在長上下文推理場景下依然能夠保持較高的吞吐效率。
在網(wǎng)絡互聯(lián)方面,系統(tǒng)采用統(tǒng)一高速互聯(lián)架構(gòu),通過400G光網(wǎng)絡構(gòu)建集群物理層網(wǎng)絡,實現(xiàn)節(jié)點之間的高帶寬、低延遲通信。與傳統(tǒng)在節(jié)點內(nèi)和節(jié)點間分別采用不同協(xié)議構(gòu)建網(wǎng)絡的方式相比,這種同構(gòu)互聯(lián)架構(gòu)減少了協(xié)議轉(zhuǎn)換帶來的額外開銷,也簡化了系統(tǒng)部署。
在部署能力上,該架構(gòu)既可以支持單節(jié)點數(shù)十卡規(guī)模擴展,也能夠平滑擴展至千卡級集群規(guī)模,從而適配不同規(guī)模的AI應用需求。
此外,針對大模型推理中KV Cache訪問帶來的壓力,系統(tǒng)在計算互聯(lián)與存儲互聯(lián)層面進行了協(xié)同優(yōu)化。通過計算網(wǎng)絡與存儲網(wǎng)絡的聯(lián)合調(diào)度,可以顯著提升數(shù)據(jù)讀取效率,使模型在長上下文推理場景下依然保持穩(wěn)定性能。
通過芯片架構(gòu)、網(wǎng)絡互聯(lián)以及系統(tǒng)調(diào)度等多層優(yōu)化,這一推理集群在整體效率與成本控制方面形成了明顯優(yōu)勢,為AI規(guī)?;瘧锰峁┝烁咏?jīng)濟的算力方案。
?
三、自研芯片構(gòu)建低成本推理能力
據(jù)悉,本次AI推理集群將分三期建設,并全部采用云天勵飛自研的國產(chǎn)AI推理加速卡。
其中,一期項目將部署云天勵飛 X6000 推理加速卡;二、三期建設將率先搭載公司最新一代芯片產(chǎn)品。
根據(jù)公司規(guī)劃,未來三年云天勵飛將推出三代AI推理芯片產(chǎn)品。
第一階段,將推出面向長上下文場景優(yōu)化的Prefill芯片,通過提升計算效率與內(nèi)存訪問能力,為OpenClaw、各類AI Agent提供基礎算力支撐。
第二階段,將研發(fā)專注于Decode階段低延遲優(yōu)化的芯片產(chǎn)品,進一步提升實時推理能力。
第三階段,則通過系統(tǒng)級協(xié)同優(yōu)化,實現(xiàn)Prefill與Decode性能的整體提升,向毫秒級推理時延目標邁進。
其中,首款Prefill芯片DeepVerse100預計將在年內(nèi)完成流片,并計劃在湛江集群中率先部署。
在更長期的規(guī)劃中,云天勵飛提出“1001計劃”,即以“百億Token一分錢”為長期目標,通過芯片與系統(tǒng)協(xié)同優(yōu)化持續(xù)降低大模型推理成本。
過去幾年,AI算力建設往往以“堆算力”為主要路徑——通過不斷擴大GPU規(guī)模來獲得更高性能。但隨著大模型逐漸進入應用階段,產(chǎn)業(yè)關注點正從“算力峰值”轉(zhuǎn)向“單位成本效率”。
換句話說,未來AI產(chǎn)業(yè)競爭的重要維度,不僅在于模型能力本身,還在于誰能夠以更低成本提供穩(wěn)定的大規(guī)模推理能力。
湛江項目的落地,也為這一目標提供了重要的實踐場景。千卡級推理集群不僅能夠滿足當前AI應用需求,同時也為更大規(guī)模算力系統(tǒng)提供技術部署平臺。
在典型架構(gòu)下,一個千卡級集群通常由多級擴展結(jié)構(gòu)組成:從單節(jié)點8卡、32卡,到64卡甚至百卡級超節(jié)點,再到跨節(jié)點的大規(guī)模集群。通過這一規(guī)模系統(tǒng)的實際運行,可以充分驗證卡間互聯(lián)、節(jié)點通信和負載均衡等關鍵技術,為未來更大規(guī)模AI算力系統(tǒng)建設積累經(jīng)驗。
隨著大模型逐步進入產(chǎn)業(yè)應用階段,AI基礎設施的發(fā)展邏輯也正在發(fā)生變化——從單純追求算力規(guī)模,轉(zhuǎn)向更加注重效率與成本。
在業(yè)內(nèi)看來,推理算力將成為決定AI應用規(guī)?;涞氐年P鍵基礎設施。誰能夠以更高效率、更低成本提供穩(wěn)定的大規(guī)模推理能力,誰就有機會在新一輪人工智能產(chǎn)業(yè)競爭中占據(jù)先機。
此次湛江AI推理千卡集群的建設,不僅為當?shù)禺a(chǎn)業(yè)數(shù)字化轉(zhuǎn)型提供了重要算力底座,也為國產(chǎn)模型與國產(chǎn)芯片協(xié)同發(fā)展提供了實踐場景。在“國模”與“國芯”的深度協(xié)同下,AI基礎設施正逐步從技術探索走向規(guī)?;瘧?,為人工智能產(chǎn)業(yè)的下一階段發(fā)展打開新的空間。
?
該集群將搭載DeepSeek等國產(chǎn)大模型,為政務、產(chǎn)業(yè)及各類應用場景提供更加便捷、低成本的AI能力,探索打造“國模國芯”的AI生態(tài)樣板。
?
一、AI算力從“訓練優(yōu)先”走向“推理優(yōu)先”
智算集群是人工智能時代的基礎設施。如果說電力支撐了工業(yè)時代,互聯(lián)網(wǎng)支撐了信息時代,那么智算正在成為支撐AI時代的重要底座。
在AI算力體系中,算力大體可以分為訓練算力與推理算力。訓練算力決定模型如何完成“從0到1”的能力構(gòu)建,而推理算力則直接支撐AI應用落地。無論是春節(jié)期間大熱的SeeDance,近期廣泛討論的“小龍蝦”,還是各行業(yè)不斷上線的AI Agent應用,背后都離不開推理算力的支撐。根據(jù)Gartner預測,到2026年,約55%的AI專用云基礎設施支出將用于推理工作負載。
過去,國內(nèi)許多智算中心普遍采用“訓推一體”的建設模式。而此次在湛江建設的集群,則定位為專注推理任務的AI推理集群,主要面向各類行業(yè)應用場景,為傳統(tǒng)產(chǎn)業(yè)的AI化提供直接支撐。
湛江也是國產(chǎn)大模型DeepSeek創(chuàng)始人梁文峰的家鄉(xiāng)。近年來,當?shù)卦凇癉eepSeek+”應用探索方面動作頻頻。2025年初,DeepSeek-R1發(fā)布后,湛江即完成本地部署——基于國產(chǎn)技術棧的DeepSeek-R1大模型率先在湛江政務云上線。該模型在處理通用政務事務的同時,還能夠持續(xù)學習本地產(chǎn)業(yè)知識與方言表達,逐漸形成具有地方特色的“湛江智慧”。
此次云天勵飛建設的AI推理集群,也將與DeepSeek等國產(chǎn)模型進行深度適配,為更多行業(yè)應用提供算力支撐。
?
二、面向推理時代的千卡集群架構(gòu)
在大模型應用場景中,推理系統(tǒng)通常需要同時滿足高并發(fā)、高吞吐與低延遲三項要求。為提升整體效率,當前業(yè)界普遍采用“Prefill–Decode分離”的推理架構(gòu),通過對不同階段進行資源優(yōu)化,實現(xiàn)系統(tǒng)性能的整體提升。
其中,Prefill階段主要負責對長上下文進行理解和計算,計算量大、帶寬需求高;而Decode階段則負責持續(xù)生成Token,對系統(tǒng)延遲更加敏感。如何在兩個階段之間進行合理的資源配置,成為推理系統(tǒng)架構(gòu)設計的重要問題。
與此同時,隨著大模型上下文長度不斷增加,大量中間狀態(tài)需要以KV Cache的形式存儲。業(yè)內(nèi)普遍認為,未來推理系統(tǒng)的性能瓶頸將越來越多來自數(shù)據(jù)訪問效率,而不僅僅是計算能力。
在這一背景下,算力、存儲與網(wǎng)絡之間的協(xié)同設計,正逐漸成為AI基礎設施的重要競爭力。
此次在湛江落地的千卡推理集群,正是圍繞這一思路進行構(gòu)建。
該集群采用云天勵飛自主研發(fā)的AI推理芯片,并在系統(tǒng)架構(gòu)上確立了“優(yōu)先優(yōu)化Prefill、兼顧Decode”的技術路線。通過在芯片設計中對計算資源與存儲帶寬進行針對性配置,使系統(tǒng)在長上下文推理場景下依然能夠保持較高的吞吐效率。
在網(wǎng)絡互聯(lián)方面,系統(tǒng)采用統(tǒng)一高速互聯(lián)架構(gòu),通過400G光網(wǎng)絡構(gòu)建集群物理層網(wǎng)絡,實現(xiàn)節(jié)點之間的高帶寬、低延遲通信。與傳統(tǒng)在節(jié)點內(nèi)和節(jié)點間分別采用不同協(xié)議構(gòu)建網(wǎng)絡的方式相比,這種同構(gòu)互聯(lián)架構(gòu)減少了協(xié)議轉(zhuǎn)換帶來的額外開銷,也簡化了系統(tǒng)部署。
在部署能力上,該架構(gòu)既可以支持單節(jié)點數(shù)十卡規(guī)模擴展,也能夠平滑擴展至千卡級集群規(guī)模,從而適配不同規(guī)模的AI應用需求。
此外,針對大模型推理中KV Cache訪問帶來的壓力,系統(tǒng)在計算互聯(lián)與存儲互聯(lián)層面進行了協(xié)同優(yōu)化。通過計算網(wǎng)絡與存儲網(wǎng)絡的聯(lián)合調(diào)度,可以顯著提升數(shù)據(jù)讀取效率,使模型在長上下文推理場景下依然保持穩(wěn)定性能。
通過芯片架構(gòu)、網(wǎng)絡互聯(lián)以及系統(tǒng)調(diào)度等多層優(yōu)化,這一推理集群在整體效率與成本控制方面形成了明顯優(yōu)勢,為AI規(guī)?;瘧锰峁┝烁咏?jīng)濟的算力方案。
?
三、自研芯片構(gòu)建低成本推理能力
據(jù)悉,本次AI推理集群將分三期建設,并全部采用云天勵飛自研的國產(chǎn)AI推理加速卡。
其中,一期項目將部署云天勵飛 X6000 推理加速卡;二、三期建設將率先搭載公司最新一代芯片產(chǎn)品。
根據(jù)公司規(guī)劃,未來三年云天勵飛將推出三代AI推理芯片產(chǎn)品。
第一階段,將推出面向長上下文場景優(yōu)化的Prefill芯片,通過提升計算效率與內(nèi)存訪問能力,為OpenClaw、各類AI Agent提供基礎算力支撐。
第二階段,將研發(fā)專注于Decode階段低延遲優(yōu)化的芯片產(chǎn)品,進一步提升實時推理能力。
第三階段,則通過系統(tǒng)級協(xié)同優(yōu)化,實現(xiàn)Prefill與Decode性能的整體提升,向毫秒級推理時延目標邁進。
其中,首款Prefill芯片DeepVerse100預計將在年內(nèi)完成流片,并計劃在湛江集群中率先部署。
在更長期的規(guī)劃中,云天勵飛提出“1001計劃”,即以“百億Token一分錢”為長期目標,通過芯片與系統(tǒng)協(xié)同優(yōu)化持續(xù)降低大模型推理成本。
過去幾年,AI算力建設往往以“堆算力”為主要路徑——通過不斷擴大GPU規(guī)模來獲得更高性能。但隨著大模型逐漸進入應用階段,產(chǎn)業(yè)關注點正從“算力峰值”轉(zhuǎn)向“單位成本效率”。
換句話說,未來AI產(chǎn)業(yè)競爭的重要維度,不僅在于模型能力本身,還在于誰能夠以更低成本提供穩(wěn)定的大規(guī)模推理能力。
湛江項目的落地,也為這一目標提供了重要的實踐場景。千卡級推理集群不僅能夠滿足當前AI應用需求,同時也為更大規(guī)模算力系統(tǒng)提供技術部署平臺。
在典型架構(gòu)下,一個千卡級集群通常由多級擴展結(jié)構(gòu)組成:從單節(jié)點8卡、32卡,到64卡甚至百卡級超節(jié)點,再到跨節(jié)點的大規(guī)模集群。通過這一規(guī)模系統(tǒng)的實際運行,可以充分驗證卡間互聯(lián)、節(jié)點通信和負載均衡等關鍵技術,為未來更大規(guī)模AI算力系統(tǒng)建設積累經(jīng)驗。
隨著大模型逐步進入產(chǎn)業(yè)應用階段,AI基礎設施的發(fā)展邏輯也正在發(fā)生變化——從單純追求算力規(guī)模,轉(zhuǎn)向更加注重效率與成本。
在業(yè)內(nèi)看來,推理算力將成為決定AI應用規(guī)?;涞氐年P鍵基礎設施。誰能夠以更高效率、更低成本提供穩(wěn)定的大規(guī)模推理能力,誰就有機會在新一輪人工智能產(chǎn)業(yè)競爭中占據(jù)先機。
此次湛江AI推理千卡集群的建設,不僅為當?shù)禺a(chǎn)業(yè)數(shù)字化轉(zhuǎn)型提供了重要算力底座,也為國產(chǎn)模型與國產(chǎn)芯片協(xié)同發(fā)展提供了實踐場景。在“國模”與“國芯”的深度協(xié)同下,AI基礎設施正逐步從技術探索走向規(guī)?;瘧?,為人工智能產(chǎn)業(yè)的下一階段發(fā)展打開新的空間。
?
電子發(fā)燒友App





























評論