3 月 19 日,Google 在其官方博客上發(fā)布了關于 VLOGGER AI 模型的相關信息。這是一款利用用戶提供的肖像照片和音頻內容,使人物生動地呈現(xiàn)音頻內容并具備豐富面部表情的人工智能程序。
具體來說,VLOGGER AI 采用一種適應虛擬肖像的多模態(tài) Diffusion 模型,通過 MENTOR 數(shù)據(jù)庫進行訓練,涵蓋了超80萬個人物肖像及超過2200小時的視頻數(shù)據(jù)。得益于此,VLOGGER 可以生成各種族、各年齡段、穿著多樣、姿態(tài)各異的肖像視頻。
研發(fā)團隊指出,相較于之前的同類產(chǎn)品,VLOGGER 的獨特之處在于無需針對每個使用者進行單獨培訓,且不受限于人臉檢測和裁剪,能產(chǎn)出完整的圖像,且能夠處理更多元化的情境如可見的身軀或者其他身份特征,這對于真實再現(xiàn)人物交流過程至關重要。
谷歌將 VLOGGER 視為通往“通用聊天機器人”未來的關鍵一步,使人工智能能以自然的語音、手勢和眼神等方式與人類交互。除此之外,VLOGGER 還可用作報告、教育領域以及旁白等方面的輔助工具,并能對已有的電影進行剪輯和表情調整。
-
Google
+關注
關注
5文章
1801瀏覽量
60272 -
模型
+關注
關注
1文章
3649瀏覽量
51719 -
VLogger
+關注
關注
0文章
5瀏覽量
8458
發(fā)布評論請先 登錄
谷歌AlphaEarth和維智時空AI大模型的核心差異
谷歌AlphaEarth和維智時空AI大模型的技術路徑
NVIDIA推出多語種語音AI開放數(shù)據(jù)集與模型
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽
谷歌AI模型點亮開發(fā)無限可能
英語單詞學習頁面+單詞朗讀實現(xiàn) -- 【2】單詞朗讀實現(xiàn) ##HarmonyOS SDK AI##
英語單詞學習頁面+單詞朗讀實現(xiàn) -- 【1】頁面實現(xiàn) ##HarmonyOS SDK AI##
首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手
谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?
谷歌“減法”新動作:砍掉耳機按鍵喚醒朗讀功能

谷歌發(fā)布VLOGGER AI模型,實現(xiàn)肖像朗讀音頻內容
評論