電子發(fā)燒友網(wǎng)綜合報(bào)道 2025年7月2日,百度在北京正式發(fā)布全球首個(gè)中文音視頻一體化生成模型——MuseSteamer,標(biāo)志著其正式進(jìn)軍圖生視頻領(lǐng)域。這款模型憑借多模態(tài)指令理解、動(dòng)態(tài)內(nèi)容生成及音畫(huà)同步等核心技術(shù)突破,為廣告商、影視創(chuàng)作者及中小企業(yè)提供高效、低成本的視頻創(chuàng)作解決方案,重新定義了AI視頻生成的技術(shù)標(biāo)準(zhǔn)與應(yīng)用邊界。
從指令理解到動(dòng)態(tài)敘事的全鏈路創(chuàng)新
MuseSteamer的核心能力體現(xiàn)在三大技術(shù)維度,包括多模態(tài)指令極致遵循、動(dòng)態(tài)內(nèi)容生成與運(yùn)鏡自動(dòng)化、中文音視頻一體化生成。
多模態(tài)指令極致遵循方面,MuseSteame模型通過(guò)億級(jí)中文多模態(tài)數(shù)據(jù)庫(kù)與三級(jí)語(yǔ)義對(duì)齊優(yōu)化,實(shí)現(xiàn)文本指令與視覺(jué)元素的精準(zhǔn)匹配。例如,在生成的武俠視頻中,俠客的斗笠微表情、怪物鱗片反光等細(xì)節(jié)均嚴(yán)格遵循指令描述,動(dòng)作軌跡符合物理規(guī)律,甚至支持“10秒超長(zhǎng)鏡頭+1080P高清畫(huà)質(zhì)”的電影級(jí)敘事。
動(dòng)態(tài)內(nèi)容生成與運(yùn)鏡自動(dòng)化方面,MuseSteame采用3D時(shí)空聯(lián)合注意力機(jī)制,模型可自動(dòng)完成俯拍、環(huán)繞運(yùn)鏡等專(zhuān)業(yè)鏡頭語(yǔ)言。以沙漠越野短片為例,系統(tǒng)同步生成輪胎摩擦聲、發(fā)動(dòng)機(jī)轟鳴聲,聲效與畫(huà)面動(dòng)作的物理規(guī)律高度契合,實(shí)現(xiàn)“所見(jiàn)即所感”的沉浸式體驗(yàn)。
中文音視頻一體化生成方面,這是全球首個(gè)支持中文文本、參考圖像、音效及臺(tái)詞同步生成的模型,通過(guò)多人語(yǔ)音對(duì)齊編排技術(shù),解決傳統(tǒng)AIGC“先畫(huà)面后配音”的割裂問(wèn)題。例如,在咖啡廳場(chǎng)景短片中,女主角睫毛顫動(dòng)與咖啡蒸汽的視覺(jué)細(xì)節(jié),與背景環(huán)境音、人物臺(tái)詞形成時(shí)空同步。
數(shù)據(jù)、算法與場(chǎng)景的三重壁壘
相較于快手可靈、Sora等競(jìng)品,MuseSteamer構(gòu)建了三大護(hù)城河:數(shù)據(jù)壁壘 、算法效率、成本與場(chǎng)景覆蓋。數(shù)據(jù)壁壘方面,MuseSteamer構(gòu)建億級(jí)規(guī)模中文多模態(tài)數(shù)據(jù)庫(kù),通過(guò)“篩選-凈化-配比”體系,實(shí)現(xiàn)中文語(yǔ)境下文本與視覺(jué)的語(yǔ)義對(duì)齊精度領(lǐng)先行業(yè)。例如,針對(duì)動(dòng)漫場(chǎng)景優(yōu)化數(shù)據(jù)后,模型可在一個(gè)月內(nèi)快速適配客戶(hù)提出的二次元風(fēng)格需求。
算法效率方面,MuseSteamer采用精細(xì)化結(jié)構(gòu)設(shè)計(jì),支持多模態(tài)條件輸入,運(yùn)算效率較傳統(tǒng)模型提升40%。在1080P高清視頻生成中,轉(zhuǎn)場(chǎng)流暢度與物理運(yùn)動(dòng)真實(shí)性達(dá)電影級(jí)標(biāo)準(zhǔn),同時(shí)將訓(xùn)練周期縮短至三個(gè)月。
成本與場(chǎng)景覆蓋方面,MuseSteamer推出Turbo(免費(fèi)公測(cè))、Lite(精準(zhǔn)動(dòng)作控制)、Pro(1080P電影運(yùn)鏡)三版本矩陣,定價(jià)低于市場(chǎng)競(jìng)品30%。其中,Turbo版面向長(zhǎng)尾需求,Pro版服務(wù)高端影視制作,形成全場(chǎng)景覆蓋。
從專(zhuān)業(yè)創(chuàng)作到大眾表達(dá)的范式革命
MuseSteamer已滲透四大核心場(chǎng)景:廣告營(yíng)銷(xiāo)、影視創(chuàng)作、中小企業(yè)賦能、公益領(lǐng)域。如廣告營(yíng)銷(xiāo)場(chǎng)景中,某美妝品牌利用模型生成“女主角喝咖啡特寫(xiě)”短片,通過(guò)王家衛(wèi)式色彩美學(xué)與1080P細(xì)節(jié)刻畫(huà),將點(diǎn)擊率提升65%,成本降低50%。
影視創(chuàng)作領(lǐng)域,如在古裝武俠視頻中,模型自動(dòng)生成俠客拔劍起手式、怪物咆哮碎石特效等復(fù)雜動(dòng)作,快慢鏡頭交替運(yùn)用,渲染出堪比專(zhuān)業(yè)團(tuán)隊(duì)的敘事張力。
中小企業(yè)賦能領(lǐng)域,某本地商家通過(guò)Lite版生成產(chǎn)品演示動(dòng)畫(huà),精準(zhǔn)控制機(jī)械部件運(yùn)動(dòng)軌跡,將制作周期從兩周壓縮至兩天。公益領(lǐng)域中,金山辦公“實(shí)時(shí)同傳字幕”功能集成MuseSteamer,為聽(tīng)障用戶(hù)提供視頻字幕生成服務(wù),已惠及上萬(wàn)人。
MuseSteamer的發(fā)布,不僅是技術(shù)層面的突破,更標(biāo)志著AI視頻生成從“專(zhuān)業(yè)實(shí)驗(yàn)室”走向“大眾創(chuàng)作場(chǎng)”。通過(guò)免費(fèi)公測(cè)策略與分層付費(fèi)模式,百度正降低技術(shù)使用門(mén)檻,讓每個(gè)人都能成為自己故事的導(dǎo)演。正如百度副總裁陳一凡所言:“技術(shù)不應(yīng)是少數(shù)人的特權(quán),而是每個(gè)人表達(dá)創(chuàng)意的畫(huà)筆?!蔽磥?lái),隨著模型在動(dòng)態(tài)內(nèi)容可控性、4K/8K超高清生成等方向持續(xù)進(jìn)化,AI視頻生成或?qū)⒋呱碌膬?nèi)容產(chǎn)業(yè)生態(tài)。
-
百度
+關(guān)注
關(guān)注
9文章
2333瀏覽量
92161
發(fā)布評(píng)論請(qǐng)先 登錄
泰芯半導(dǎo)體推出星閃音視頻無(wú)線SOC芯片TXW828
百度地圖重磅發(fā)布地圖AI開(kāi)放平臺(tái)
百度發(fā)布2025年Q1財(cái)報(bào) 蘿卜快跑一季度全球訂單超140萬(wàn)

百度發(fā)布文心4.5 Turbo、X1 Turbo和多款A(yù)I應(yīng)用
實(shí)用調(diào)試技能:全志T113-i 音視頻測(cè)試

評(píng)論