來源:vLLM
2025年8月23日,vLLM Meetup上海站成功舉辦?;顒訁R聚技術專家、社區(qū)開發(fā)者及行業(yè)用戶,圍繞vLLM(一種用于大型語言模型的高性能推理引擎)的技術進展、生態(tài)建設及應用展開深度探討。會議涵蓋社區(qū)貢獻指南、分布式推理架構(gòu)、多模態(tài)模型集成等前沿議題,現(xiàn)場互動熱烈,并提出每年舉辦vLLM Con大會的倡議,為AI推理領域的技術落地注入新動能。
本次Meetup由沐曦與紅帽公司聯(lián)合主辦,紅帽作為全球開源社區(qū)vLLM的重要貢獻者,長期參與上游協(xié)作并分享實踐經(jīng)驗,推動社區(qū)發(fā)展;沐曦則結(jié)合國產(chǎn)硬件優(yōu)勢,積極探索vLLM在本土計算平臺上的適配與應用。沐曦開源生態(tài)總監(jiān)章津楠與紅帽亞太CTO辦公室首席架構(gòu)師張家駒共同開場,對到場嘉賓及觀眾表示歡迎?;顒釉O置五大核心議題,并穿插開發(fā)者提問環(huán)節(jié),最終以沐曦聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建博士的開源生態(tài)趨勢分享及書籍簽贈環(huán)節(jié)收尾,現(xiàn)場氣氛活躍。
活動核心環(huán)節(jié)圍繞五大技術方向展開,專家團隊通過案例解析與方案演示,系統(tǒng)呈現(xiàn)vLLM在社區(qū)生態(tài)、分布式架構(gòu)、多模態(tài)集成等領域的創(chuàng)新實踐。
在題為《vLLM: Building, Testing and Contributing》演講中, vLLM社區(qū)貢獻者、Red Hat資深專家Daniele Trifirò深入剖析了vLLM社區(qū)的發(fā)展現(xiàn)狀,為愛好者及開發(fā)者提供了系統(tǒng)性指南。他詳細闡述了項目構(gòu)建流程、關鍵測試規(guī)范,并指導開發(fā)者如何高效貢獻代碼。通過豐富的代碼實例、實踐案例及參考鏈接,演講極大降低了初學者入門門檻,獲得現(xiàn)場開發(fā)者高度認可。
在《Disaggregated P/D for Wide EP》主題分享中,vLLM社區(qū)貢獻者、Red Hat技術專家Nicolò Lucchesi重點介紹了利用llm-d實現(xiàn)vLLM分布式推理的方案,核心目標是通過預填充/解碼(P/D)解耦與寬專家并行(EP)擴展大模型推理能力,尤其針對長上下文和混合專家(MoE)模型場景,關鍵技術方案包括P/D解耦部署、通過NIXL實現(xiàn)高效KV Cache傳輸、支持預填充(P)與解碼(D)階段采用不同TP并行度、將MoE模型中的專家分布至不同GPU等實現(xiàn)細節(jié)。
百度高級產(chǎn)品經(jīng)理王凱在《ERNIE 4.5 + vLLM: Multimodal Model Integration》演講中,系統(tǒng)解析了百度ERNIE 4.5多模態(tài)模型與vLLM的集成實踐。內(nèi)容涵蓋ERNIE 4.5 的特性、與 vLLM 集成的原因以及 vLLM 為 ERNIE 4.5 模型提供的全面支持,包括密集模型、MoE 模型和用于加速生成的MTP。同時還介紹了正在進行的開發(fā)工作,例如專家并行性負載均衡和視覺-語言支持。
Mooncake核心開發(fā)者蘇金陽在《Mooncake x LMCache 性能優(yōu)化分享》的主題分享中重點介紹了 Mooncake(特別是其傳輸引擎和存儲)與 LMCache 的集成,以在 vLLM 中實現(xiàn)高性能 KV Cache 重用。LMCache 被認為是用于 KV Cache 管理(卸載、重用、P/D 分離、RAG 緩存)的流行 vLLM 社區(qū)擴展。此次集成旨在提高數(shù)據(jù)分發(fā)效率和整體系統(tǒng)性能。
沐曦vLLM推理引擎專家張廉潔在《vLLM-metax: Bridging CUDA to MetaX MACA》演講中,詳細介紹了vLLM-metax 如何通過 cu-bridge 在 MACA 上實現(xiàn)接近零成本的 CUDA 執(zhí)行,允許在不修改源代碼的情況下進行原生編譯。同時還解釋了在 vLLM 中使用插件架構(gòu)支持 MetaX 的方式,概述了修補方法(patch補丁和文件替換)和限制。演講還公布了2025年路線圖。
提問環(huán)節(jié)中,開發(fā)者圍繞社區(qū)貢獻規(guī)范、分布式推理落地、國產(chǎn)硬件支持等議題提出建議,嘉賓以技術細節(jié)回應,討論貫穿全場。
本次活動彩蛋,沐曦聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建博士驚喜亮相現(xiàn)場,他不僅生動分享了沐曦在開源生態(tài)和vLLM推理技術的最新趨勢,還熱情地為獲得《沐曦異構(gòu)并行計算軟件棧》書籍的幸運觀眾親筆簽名留念。
本次Meetup不僅展示了vLLM在分布式推理、多模態(tài)集成及硬件適配領域的最新成果,更通過技術交流與生態(tài)合作,為AI推理引擎的規(guī)模化應用提供了實踐范本。行業(yè)專家與開發(fā)者的深度互動,進一步強化了vLLM在開源社區(qū)的技術影響力,為下一代AI基礎設施的研發(fā)奠定基礎。
關于沐曦
沐曦致力于自主研發(fā)全棧高性能GPU芯片及計算平臺,為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟發(fā)展。
-
芯片
+關注
關注
462文章
53492瀏覽量
458455 -
開源
+關注
關注
3文章
4017瀏覽量
45537 -
模型
+關注
關注
1文章
3644瀏覽量
51683
原文標題:vLLM Meetup上海站圓滿落幕
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
2025開放原子校源行上海站成功舉辦
2025 NVIDIA創(chuàng)業(yè)企業(yè)展示北京站成功舉辦
2025紫光同創(chuàng)FPGA技術研討會成都站成功舉辦
格羅方德2025年度技術峰會北美站成功舉辦
開放原子園區(qū)行重慶站成功舉辦
2025開放原子園區(qū)行上海站成功舉辦
2025開放原子校源行廣東海洋大學站活動成功舉辦
2025開放原子校源行太原站成功舉辦
Wolfspeed助力捷豹TCS車隊FE上海站成功衛(wèi)冕
2025年開放原子校源行清華大學站成功舉辦
開放原子園區(qū)行太原站成功舉辦
2025芯來RISC-V技術研討會蘇州站成功舉辦
索尼新品品鑒會上海站成功舉辦
vLLM項目加入PyTorch生態(tài)系統(tǒng),引領LLM推理新紀元

vLLM Meetup上海站成功舉辦
評論