chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌發(fā)布VLOGGER AI模型,實現(xiàn)肖像朗讀音頻內容

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-03-19 14:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

3 月 19 日,Google 在其官方博客上發(fā)布了關于 VLOGGER AI 模型的相關信息。這是一款利用用戶提供的肖像照片和音頻內容,使人物生動地呈現(xiàn)音頻內容并具備豐富面部表情的人工智能程序。

具體來說,VLOGGER AI 采用一種適應虛擬肖像的多模態(tài) Diffusion 模型,通過 MENTOR 數(shù)據(jù)庫進行訓練,涵蓋了超80萬個人物肖像及超過2200小時的視頻數(shù)據(jù)。得益于此,VLOGGER 可以生成各種族、各年齡段、穿著多樣、姿態(tài)各異的肖像視頻。

研發(fā)團隊指出,相較于之前的同類產(chǎn)品,VLOGGER 的獨特之處在于無需針對每個使用者進行單獨培訓,且不受限于人臉檢測和裁剪,能產(chǎn)出完整的圖像,且能夠處理更多元化的情境如可見的身軀或者其他身份特征,這對于真實再現(xiàn)人物交流過程至關重要。

谷歌將 VLOGGER 視為通往“通用聊天機器人”未來的關鍵一步,使人工智能能以自然的語音、手勢和眼神等方式與人類交互。除此之外,VLOGGER 還可用作報告、教育領域以及旁白等方面的輔助工具,并能對已有的電影進行剪輯和表情調整。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1801

    瀏覽量

    60272
  • 模型
    +關注

    關注

    1

    文章

    3649

    瀏覽量

    51719
  • VLogger
    +關注

    關注

    0

    文章

    5

    瀏覽量

    8458
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    谷歌AlphaEarth和維智時空AI模型的核心差異

    谷歌AlphaEarth和維智時空AI模型在技術理念上存在諸多共性,但兩者在目標尺度、數(shù)據(jù)來源、技術實現(xiàn)和應用模式上存在顯著差異。
    的頭像 發(fā)表于 10-22 14:50 ?530次閱讀

    谷歌AlphaEarth和維智時空AI模型的技術路徑

    谷歌AlphaEarth和維智時空AI模型在應用場景和技術實現(xiàn)上各有側重,但兩者在底層技術理念上存在顯著共性。
    的頭像 發(fā)表于 10-22 14:48 ?610次閱讀

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    NVIDIA推出多語種語音AI開放數(shù)據(jù)集與模型

    發(fā)布的 Granary 數(shù)據(jù)集包含約 100 萬小時音頻,可用于訓練高精度、高吞吐量的 AI 音頻轉錄與翻譯模型。
    的頭像 發(fā)表于 09-23 15:34 ?607次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實現(xiàn)深度學習AI芯片的創(chuàng)新方法和架構。以及一些新型的算法和思路。第四章是全面介紹半導體芯產(chǎn)業(yè)的前沿技
    發(fā)表于 09-05 15:10

    谷歌AI模型點亮開發(fā)無限可能

    在 2025 年的 Google 谷歌開發(fā)者大會上,AI 不是一門“技術”,更是一股徹底改變開發(fā)范式的“力量”,助力開發(fā)者們在海外市場更上一層樓。AI 已經(jīng)不僅僅是生成幾行代碼,它正在全面提升整個開發(fā)過程。從
    的頭像 發(fā)表于 08-29 09:29 ?873次閱讀

    英語單詞學習頁面+單詞朗讀實現(xiàn) -- 【2】單詞朗讀實現(xiàn) ##HarmonyOS SDK AI##

    的原理是通過文字轉語音的形式實現(xiàn)的,之前也寫過文章分享過在API9下如何進行文字轉語音,那是通過第三方的API實現(xiàn)的,需要申請token,請求接口,然后再通過media去播放,整體流程較為復雜,還必須
    發(fā)表于 06-29 23:26

    英語單詞學習頁面+單詞朗讀實現(xiàn) -- 【1】頁面實現(xiàn) ##HarmonyOS SDK AI##

    ?先看一下頁面效果 ? 整體頁面是一個比較簡潔的頁面,其中有兩個特色功能 對于例句中,能夠實現(xiàn)將當前的單詞從句子中進行識別并突出顯示 對于單詞和句子,可以進行朗讀,這個朗讀使用的是Core
    發(fā)表于 06-29 23:24

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    的自有模型移植,使首字詞生態(tài)速度比云端方案提升70%,賦能絕影多模態(tài)智能座艙強大的端側運行能力,讓汽車擁有“有趣的靈魂”。 不僅如此,天璣AI開發(fā)套件已經(jīng)接入NVIDIA TAO生態(tài)圈,實現(xiàn)TAO
    發(fā)表于 04-13 19:52

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    與推理 AI 模型。谷歌方面表示,它代表著 AI 發(fā)展從 “響應式” 向 “主動式” 的范式轉變,未來 AI 代理將能夠主動檢索并
    的頭像 發(fā)表于 04-12 00:57 ?3231次閱讀

    谷歌“減法”新動作:砍掉耳機按鍵喚醒朗讀功能

    電子發(fā)燒友網(wǎng)報道(文/莫婷婷)近期,谷歌宣布將對耳機上的 Google Assistant語音助手功能進行調整,取消通過觸控喚醒助理“自動朗讀未讀通知”的功能。谷歌表示,要想完成該功能可以通過語音
    的頭像 發(fā)表于 02-22 22:56 ?2892次閱讀
    <b class='flag-5'>谷歌</b>“減法”新動作:砍掉耳機按鍵喚醒<b class='flag-5'>朗讀</b>功能

    NVIDIA推出面向RTX AI PC的AI基礎模型

    NVIDIA 今日發(fā)布能在 NVIDIA RTX AI PC 本地運行的基礎模型,為數(shù)字人、內容創(chuàng)作、生產(chǎn)力和開發(fā)提供強大助力。
    的頭像 發(fā)表于 01-08 11:01 ?879次閱讀

    谷歌發(fā)布“深度研究”AI工具,利用Gemini模型進行網(wǎng)絡信息檢索

    據(jù)外媒最新報道,谷歌近期發(fā)布了一款名為“深度研究”的先進AI工具。這款工具借助其內部的Gemini大型語言模型,實現(xiàn)了對網(wǎng)絡信息的高效檢索與
    的頭像 發(fā)表于 12-16 09:35 ?1040次閱讀

    谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

    在智能體時代,谷歌再次引領技術潮流,正式發(fā)布了其最新力作——Gemini 2.0。這款AI模型不僅在性能上實現(xiàn)了顯著提升,更是在多模態(tài)表現(xiàn)和
    的頭像 發(fā)表于 12-12 14:22 ?1124次閱讀

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復雜主題探索與報告撰寫輔助。 Gemini 2.0通過高級推理和長上
    的頭像 發(fā)表于 12-12 10:13 ?971次閱讀