chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

“AI視頻通話”產(chǎn)品化的三條路

腦極體 ? 來源: 腦極體 ? 作者: 腦極體 ? 2024-10-17 09:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgaomcP5f2AOYjwAAnfIkAz9HY162.jpg

“做AI產(chǎn)品經(jīng)理太難了?!苯谀X極體的同事參加了一場開發(fā)者大會,一位產(chǎn)品經(jīng)理向我們坦言:“AI時代,做產(chǎn)品的方法論沒變,但以往熟悉的東西幾乎都被清零了?!?/strong>

用戶需求被清零了,大模型到底能用來做什么,用戶自己是不清楚的,需求是空白的,需求調(diào)研、產(chǎn)品定義,就要花費好幾個月的時間。

好不容易定義好了,基礎(chǔ)模型的一個更新,就有可能將前期所做的工作、功能規(guī)劃等推倒重來。

“比如GPT-4o出現(xiàn)之后,語音對話的能力是我們完全意想不到的,就又得把產(chǎn)品開發(fā)過程再來一遍……”

而縱觀一年多來推陳出新的數(shù)百個大模型,GPT-4o可以說是產(chǎn)品化程度非常高的一個了。

wKgZomcP5f2AUSYDAABr0doA8JI811.jpg

比如OpenAI發(fā)布會上展示的“AI視頻通話”,使用戶與AI進行實時的、跟真人對話一樣自然的視頻交流。國內(nèi)模型廠商也很快推出了類似的AI視頻通話功能,不少媒體和用戶都表示“體驗炸裂”。

但半年時間過去,發(fā)現(xiàn)在最初的震驚與新鮮感過后,在真正的軟件生態(tài)里,還是沒有看到“AI視頻通話”被大規(guī)模、高頻率地用起來,更別提激活用戶的付費欲望了。為什么會這樣?

我們就從“AI視頻通話”說開去,聊聊AI產(chǎn)品化、商業(yè)化到底要經(jīng)過哪些磨礪。

wKgaomcP5f6ACYcUAAJNgLuXPck977.jpg

鉆石原礦被開采出來,其實并不璀璨奪目,是經(jīng)由工匠們的切割打磨,被鑲嵌成鉆石首飾,包裝為“愛情象征”,才走進大眾消費市場,價值實現(xiàn)了百倍千倍攀升。

類GPT-4o大模型就類似于原礦,作為“交互天花板”,潛在商業(yè)價值很大,但必須經(jīng)過產(chǎn)品化的精細打磨與包裝,才能被大眾用戶廣泛接受,實現(xiàn)其真正的價值和應(yīng)用潛力。

而基于類GPT-4o所誕生的“AI視頻通話”,雖然向產(chǎn)品化邁進了一步,但依然屬于原型的基礎(chǔ)能力。

盡管OpenAI、智譜等模廠已經(jīng)針對“AI視頻通話”這一應(yīng)用,打磨了諸如響應(yīng)速度、具體用例等產(chǎn)品側(cè)的細節(jié),并融入到ChatGPT、智譜清言APP等產(chǎn)品當中。但作為一種軟件應(yīng)用來說,這種與通用場景相結(jié)合的落地模式,還是比較粗陋。

首先,需求過于寬泛。

AI視頻通話,技術(shù)上相當于讓AI擁有“眼睛”和“嘴”,具備察言觀色、跟真人對話的能力。這很容易就讓人想到AI陪伴,人與AI談天說地、談情說愛。

直接將AI視頻通話能力嫁接在聊天機器人上,本質(zhì)依然是AI聊天,能力升級,但無法解決chatbot商業(yè)價值低的核心問題。

AI視頻聊天,用戶容錯率高,不在乎AI偶爾犯錯或出現(xiàn)幻覺,這也意味著對基礎(chǔ)模型能力要求不嚴苛,無法在技術(shù)層面拉開差距。曾經(jīng)的智能音箱大戰(zhàn)、智能助手紅海,也會在AI視頻聊天領(lǐng)域出現(xiàn),并且由于聊天并不能幫助用戶完成具體任務(wù)或解決問題,用戶還得自己琢磨在視頻里跟AI聊什么,沒一會兒就只能跟AI面面相覷,難以帶來確定性的產(chǎn)品滿足和持久粘性,新鮮感過后就會流失。

而一些直接用途,想要普遍應(yīng)用,也有大量細節(jié)仍待填充。

比如基于AI視頻通話的無障礙功能,是一個非常直接的落地場景。AI視頻通話,可以將設(shè)備攝像頭作為“眼睛”,幫助人去理解物理世界,這對視障人群豈不是很友好?

但實際上,大模型APP的視頻通話功能,是無法直接被視障人群用起來的,還有大量的產(chǎn)品細節(jié)需要考慮。比如我們曾體驗過實時圖像識別,AI只能認出“面前有兩張卡”,但哪張是公交卡,哪張是銀行卡,是無法準確識別的,這就需要基于視障群體出行接觸的高頻物體,進行針對性地精調(diào)。

而且,在飛機、高鐵、地鐵等弱網(wǎng)、無網(wǎng)環(huán)境下,也要保證視障人群與AI視頻通話的實時性,就需要純端側(cè)運行的多模態(tài)大模型,將模型做小、計算效率做高。

產(chǎn)品設(shè)計層面,還有大量的細節(jié),還等待著填充,才能轉(zhuǎn)化為用戶可以方便使用的產(chǎn)品和服務(wù)。

可以看到,沒有更細致的產(chǎn)品化,盡管“AI視頻通話”這一基礎(chǔ)能力很厲害,卻不知道能用來干什么,很可能導(dǎo)致技術(shù)找不到市場,倒在了產(chǎn)品化變現(xiàn)的黎明到來之前。

這個“至暗時刻”會發(fā)生嗎?

欣慰的是,我們發(fā)現(xiàn) “AI視頻通話”能力,已經(jīng)開始向行業(yè)輸送了,意味著這座AI基礎(chǔ)能力的“原礦”,終于開始被打磨成晶光四射的鉆石。

我們就從“原礦”流向的應(yīng)用領(lǐng)域,來分享幾個“AI視頻通話”的產(chǎn)品化方向。

wKgZomcP5f-ASZ5sAAIRCq2qfR8957.jpg

大模型怎么落地?智能體是方向。

智能體怎么服務(wù)?+AI視頻通話事半功倍。

如今,手機軟件承載著我們?nèi)粘5慕^大多數(shù)服務(wù),在各個應(yīng)用中來回跳轉(zhuǎn)、操作是非常繁瑣的。

今年以來,榮耀、vivo等廠商都在基于智能體打造一系列創(chuàng)新功能體驗,比如“一句話點奶茶”“一句話訂餐廳”等。用戶只需要向手機助手發(fā)出指令,手機智能體會自動理解需求、拆解任務(wù)步驟、調(diào)取相關(guān)功能,一站到底地完成任務(wù)。

Agent手機就很好地解決了數(shù)字服務(wù)鏈路長、操作繁瑣的問題,但新的問題又來了,那就是智能體還需要“看得懂”“能交流”。

舉個例子,在外賣小程序下單時,遇到廣告是常態(tài),這時候需要智能體agent執(zhí)行準確的操作,比如“點擊關(guān)閉”“跳過”等,來推進到下一步。如果智能體無法識別相關(guān)內(nèi)容,必須用戶自己動手操作,那整個鏈路就被打斷了,用戶體驗會非常不好。有跟智能助手通過文字prompt交流的功夫,用戶自己就能點開程序完成下單了。

Agent手機+視頻通話,就能用戶體驗更進一步。

比起打字的繁瑣、語音尷尬癥,在人機對話時,像跟真人面對面交流一樣,通過語音對話完成下單,更符合直覺,也更有被服務(wù)的舒適感。對話之后,大模型對視頻畫面進行實時分析,指導(dǎo)智能體來自動執(zhí)行,整個體驗會從頭到尾絲滑無感。

wKgaomcP5f-AfO-hAACIzvedjH8747.jpg

目前,國內(nèi)終端廠商在端側(cè)智能體方面走得是更快的。腦極體在VDC 2024大會上了解到,藍河操作系統(tǒng)增添了視覺感知能力,讓系統(tǒng)像人類一樣“聽得懂”“看得清”。智能體能夠模擬人類的智能,助力操作系統(tǒng)像人一樣進行溝通、執(zhí)行智能任務(wù)。

如果說,智能體可以讓人成為數(shù)字服務(wù)的最小參與者,那么在智能體手機中打磨的AI視頻通話,則讓人機交互朝著更理想、更符合直覺的體驗靠近,讓數(shù)字生活管家走進現(xiàn)實。

wKgZomcP5gCAH77sAAJain53t2Y560.jpg

將AI視頻通話功能集成到垂直應(yīng)用軟件中,可以變成擬人化的垂域?qū)<?,提供更專業(yè)的服務(wù),解決更具體的問題,從而激活用戶的付費意愿和模型API經(jīng)濟。

目前,OpenAI為GPT-4o預(yù)設(shè)了十幾個場景,清言視頻通話API上線智譜開放平臺時,也列出了智能硬件VR眼鏡)、教育培訓(xùn)AI私教、文旅場景AI向?qū)?、具身智能等落地方向。通過將AI視頻通話API開放出來,鼓勵開發(fā)者在產(chǎn)品中集成“AI視頻通話”功能。

wKgaomcP5gGAAd8iAAS0jUTg9fE461.jpg

9月24日,多鄰國(Duolingo)在第六屆全球分享大會上,推出了 AI 視頻通話(Video Call)。Duolingo Max 用戶可以與多鄰國的角色 Lily(拽姐)進行視頻通話,進行個性化的互動練習(xí)。在對話中,AI會根據(jù)用戶的語言水平靈活調(diào)整內(nèi)容。

學(xué)習(xí)語言最難的就是高頻使用環(huán)境和開口說話的心理障礙,通過AI視頻通話提供實時的對話機會,可以讓小白初學(xué)者也能自信開口,進行有效聯(lián)系。據(jù)說,多鄰國的這一新功能接入了OpenAI的高級語音API功能。

wKgZomcP5gGAcEKNAADs3-8z5AQ814.jpg

國內(nèi)頭部社交軟件Soul,也上線了AI聊天機器人“AI茍蛋”,可以主動跟用戶找話題,并且年底將開啟AI陪聊機器人的視頻通話服務(wù)。不同于泛泛聊天,Soul主打的是靈魂交友,平臺用戶傾向于開展深層交流,探討深度話題,尋求心靈共鳴。

在這種較為成熟的社區(qū)氛圍下,用戶在使用AI視頻通話的預(yù)期、內(nèi)容也是較為明確的,不會出現(xiàn)不知道聊什么的情況。

各行各業(yè)都存在大量需要互動的場景,可以跟“AI視頻通話”相結(jié)合提供擬人化體驗。但用戶能否由此對應(yīng)用和AI視頻通話產(chǎn)生黏性,還需要行業(yè)伙伴把使用門檻降到最低,這不僅需要行業(yè)擁有產(chǎn)品開發(fā)的能力與意愿,能夠洞察缺口與機遇,也需要模廠的生態(tài)支持。

wKgaomcP5gKAK5b4AAINByWuuXo804.jpg

從哆啦A夢到阿童木、賈維斯、Her,這些讓人類感覺友好溫暖的AI,都是擬人化的。也許說明,我們更愿意跟更像人類的AI打交道,而不是冰冷無形的機器。

一位智能機器從業(yè)者告訴我們,一開始設(shè)計的新車只有虛擬的語音助手,用戶上車之后覺得跟空氣說話很尷尬,激活率不高,所以設(shè)計了一個帶有屏幕的車載控件,可以跟車主打招呼、有表情,車主很喜歡跟它對話,逢年過節(jié)還會為它買各種裝飾物,把它當作用車場景中的家庭一員。

從這個思路看,AI視頻通話其實可以被加入各種硬件當中,與用戶展開真人一般的對話,從而成為情感共同體,由此衍生的商業(yè)空間也非常充裕。

透過AI視頻通話,相信大家能夠感受到,無論是AI企業(yè)或普通大眾,對于AI產(chǎn)品化的需求越來越實質(zhì)。

模型技術(shù)只是能力,是原型,而遠不到普遍可用的階段。唯有通過產(chǎn)品化的細致打磨,AI這座商業(yè)富礦,才能真正顯露出鉆石般的光芒。

wKgaomcP5gOAIDl0AAHt8CWDx2M229.jpg

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280007
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI通話的N種新玩法,讓科幻照進現(xiàn)實

    打破次元壁,AI通話連接世界和未來
    的頭像 發(fā)表于 07-18 21:39 ?477次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>通話</b>的N種新玩法,讓科幻照進現(xiàn)實

    【BPI-CanMV-K230D-Zero開發(fā)板體驗】視頻會議場景下的 AI 應(yīng)用(電子云臺 EPTZ、人像居中 / 追蹤、畫中畫)

    就需要直接使用單攝出雙通道數(shù)據(jù),一低分辨率送 AI 處理,另一高分辨率經(jīng)過一定處理后送顯。 出兩視頻流的代碼如下: sensor =
    發(fā)表于 07-09 20:56

    智慧視覺:RT-Thread+MC632X高性價比雙圖像處理方案 | 產(chǎn)品動態(tài)

    在智能視覺技術(shù)高速發(fā)展的浪潮中,行業(yè)對芯片性能、能效比和開發(fā)效率的需求正呈現(xiàn)爆發(fā)式增長。面對多路高清視頻處理、實時智能分析和快速產(chǎn)品化落地的重挑戰(zhàn),RT-Thread操作系統(tǒng)攜手MC632X智能
    的頭像 發(fā)表于 07-01 12:05 ?2609次閱讀
    智慧視覺:RT-Thread+MC632X高性價比雙<b class='flag-5'>路</b>圖像處理方案 | <b class='flag-5'>產(chǎn)品</b>動態(tài)

    AI神經(jīng)網(wǎng)絡(luò)降噪算法在語音通話產(chǎn)品中的應(yīng)用優(yōu)勢與前景分析

    隨著人工智能技術(shù)的快速發(fā)展,AI神經(jīng)網(wǎng)絡(luò)降噪算法在語音通話產(chǎn)品中的應(yīng)用正逐步取代傳統(tǒng)降噪技術(shù),成為提升語音質(zhì)量的關(guān)鍵解決方案。相比傳統(tǒng)DSP(數(shù)字信號處理)降噪,AI降噪具有更強的環(huán)境
    的頭像 發(fā)表于 05-16 17:07 ?429次閱讀
    <b class='flag-5'>AI</b>神經(jīng)網(wǎng)絡(luò)降噪算法在語音<b class='flag-5'>通話</b><b class='flag-5'>產(chǎn)品</b>中的應(yīng)用優(yōu)勢與前景分析

    【米爾MYC-YM90X安路飛龍DR1開發(fā)板】安科技 SALDRAGON開發(fā)板介紹

    基于SALDRAGON的核心板、開發(fā)板,加速客戶產(chǎn)品化進程。例如,雙方聯(lián)合開發(fā)的電子后視鏡方案已應(yīng)用于商用車領(lǐng)域。 五、開發(fā)板介紹 米爾電子基于安科技DR1M90GEG484 FPGA SoC推出
    發(fā)表于 04-28 17:57

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    的訓(xùn)練樣本和訓(xùn)練 模型,具體商業(yè)價值和保密性,采用海思SD3403邊緣計算AI服務(wù)器+多路安防監(jiān)控IPC,讓差異化AI視頻系統(tǒng), 成本控制極具市場競爭力。 海思SD3403邊緣計算AI
    發(fā)表于 04-28 11:05

    華為AI通話反詐方案助力預(yù)防電信網(wǎng)絡(luò)詐騙

    近日,華為技術(shù)有限公司基于AI通話解決方案,幫助運營商實現(xiàn)通話中的實時AI反詐,標志著電信詐騙防控正式邁入“實時阻斷”的全新階段。
    的頭像 發(fā)表于 04-21 09:17 ?696次閱讀

    AI Agent 應(yīng)用與項目實戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    再次感謝發(fā)燒友提供的閱讀體驗活動。本期跟隨《AI Agent 應(yīng)用與項目實戰(zhàn)》這本書學(xué)習(xí)如何構(gòu)建開發(fā)一個視頻應(yīng)用。AI Agent是一種智能應(yīng)用,能夠根據(jù)用戶需求和環(huán)境變化做出相應(yīng)響應(yīng)。通常基于深度
    發(fā)表于 03-05 19:52

    行業(yè)集結(jié):共同定制 RK3566 集成 AI 眼鏡的前沿 AR 方案

    高性能、低功耗和多功能集成等優(yōu)勢,適用于多種智能場景。設(shè)簡約,佩戴輕巧,AI 眼鏡不僅是一款智能設(shè)備,更是彰顯品味的時尚單品。通過豐富的硬件和軟件支持,可以快速實現(xiàn)產(chǎn)品化,滿足市場需求。 在技術(shù)革新前沿
    發(fā)表于 02-20 18:44

    ads1248使用三條校準指令校驗時,要使用內(nèi)部的VREF,還是使用外部的REF0?

    我的系統(tǒng)使用外部REF0輸入基準電壓?,F(xiàn)在疑惑的是:使用三條校準指令校驗時,要使用內(nèi)部的VREF,還是使用我外部的REF0?手冊中沒有提到。
    發(fā)表于 01-16 07:00

    AI賦能新通話構(gòu)筑智能業(yè)務(wù)入口

    話音作為聯(lián)結(jié)全球80億人口的紐帶,承載著人與人之間最基本、最可靠的溝通需求。在科技發(fā)展日新月異的當下,各行各業(yè)迎來前所未有的革新契機。特別是AI技術(shù)的蓬勃興起,推動話音業(yè)務(wù)從傳統(tǒng)音視頻向多模態(tài)
    的頭像 發(fā)表于 01-06 10:49 ?649次閱讀
    <b class='flag-5'>AI</b>賦能新<b class='flag-5'>通話</b>構(gòu)筑智能業(yè)務(wù)入口

    TCL華星趙斌:Micro LED產(chǎn)品化尚需數(shù)年

    范圍內(nèi)展開激烈的競爭。 對于備受關(guān)注的Micro LED技術(shù),尤其是玻璃級Micro LED,趙斌表示,盡管該技術(shù)具有巨大的潛力,但其產(chǎn)品化的道路仍然漫長。目前,Micro LED仍處于相對早期的研發(fā)階段,各項技術(shù)和工藝仍在不斷完善和優(yōu)化之中。 趙斌強調(diào),Micro LED要實
    的頭像 發(fā)表于 12-16 10:19 ?934次閱讀

    Banana P開源社區(qū)基于龍芯芯片方案的產(chǎn)品化設(shè)計

    RS232端口+2個CAN2.0端口,配置靈活,為應(yīng)用開發(fā)者提供功能齊全的硬件解決方案。提供較強算力的邊緣計算支持。開發(fā)者可以快速利用開發(fā)平臺,進行開發(fā)并產(chǎn)品化 []() 龍芯2K1000LA處理器是面向
    發(fā)表于 11-30 14:00

    Banana P開源社區(qū)基于龍芯芯片方案的產(chǎn)品化設(shè)計-國產(chǎn)替換 全國產(chǎn)

    Banana P開源社區(qū)基于龍芯芯片方案的產(chǎn)品化設(shè)計
    的頭像 發(fā)表于 11-30 13:58 ?1089次閱讀
    Banana P開源社區(qū)基于龍芯芯片方案的<b class='flag-5'>產(chǎn)品化</b>設(shè)計-國產(chǎn)替換 全國產(chǎn)<b class='flag-5'>化</b>

    ADS1291 ECG三條感應(yīng)信號,在主板走線如圖, 影響大不大?

    ECG 三條感應(yīng)信號,在主板走線如圖, 影響大不大?
    發(fā)表于 11-28 06:52