chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

蘋果發(fā)布研究論文:揭示Ferret-UI AI系統(tǒng),破解MLLMs移動應(yīng)用理解難題

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-04-10 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據(jù)悉,Apple近期發(fā)表了有關(guān)于Ferret-UI AI系統(tǒng)的研究論文,這款新型AI系統(tǒng)可理解應(yīng)用程序屏幕上的內(nèi)容。

目前圍繞人工智能(AI)技術(shù),出現(xiàn)了如ChatGPT這樣的大語言模型(LLMs),這些模型擅長處理文本資料。然而,對于像圖片、視頻和聲音等多媒體類型的非文本n內(nèi)容,就需要擴(kuò)大AI模型的適用范圍,相應(yīng)地,多模態(tài)大語言模型(MLLMs)也就應(yīng)運而生。

盡管MLLMs已表現(xiàn)出對移動應(yīng)用程序的理解不足,具體表現(xiàn)在以下幾點:

首先,智能手機(jī)屏幕的寬高比和大多數(shù)訓(xùn)練視覺模型所使用的比例不同;其次,MLLMs需要識別出較小的圖標(biāo)和按鈕。

針對以上問題,Apple提出了名為“Ferret-UI”的MLLM系統(tǒng),以應(yīng)對這些挑戰(zhàn)。系統(tǒng)通過引入WMDR(任意分辨率),提升模型在處理用戶界面任務(wù)時的辨識度,使其能更好地識別和理解小圖標(biāo)、文字等元素。

此外,我們專門采集了大量與初級用戶界面任務(wù)相關(guān)的樣本,包括圖標(biāo)識別、文本查找和小部件列表等。所有樣本均按照區(qū)域注釋指令進(jìn)行設(shè)計,以便于精確解釋和實用化。

為了提高模型的認(rèn)知水平,我們進(jìn)一步定制了高級任務(wù)數(shù)據(jù)集,含括詳細(xì)描寫、感官/互交互對話及功能推理等方面。

該項研究表明,與現(xiàn)行的GPT-4V以及其他MLLMs模型相比,F(xiàn)erret-UI AI模型具有顯著優(yōu)勢。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1811

    文章

    49497

    瀏覽量

    258167
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    566

    瀏覽量

    11177
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1595

    瀏覽量

    9793
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    海瑞思科技如何破解AI眼鏡密封檢測難題

    2025年,消費電子賽道的最大黑馬無疑是AI眼鏡!根據(jù)調(diào)研機(jī)構(gòu)Counterpoint發(fā)布的《全球智能眼鏡型號出貨量追蹤》報告,2025年上半年國際智能眼鏡市場的出貨量同比增長110%。隨著技術(shù)突破與場景剛需的雙重推動,AI眼鏡
    的頭像 發(fā)表于 09-26 10:46 ?439次閱讀

    實時監(jiān)測技術(shù)如何破解高溫巡檢難題

    持續(xù)高溫,電網(wǎng)負(fù)荷屢創(chuàng)新高。設(shè)備過熱引發(fā)故障風(fēng)險激增,如何準(zhǔn)確防控?本文聚焦實時監(jiān)測技術(shù)如何破解高溫巡檢難題
    的頭像 發(fā)表于 08-12 14:20 ?424次閱讀
    實時監(jiān)測技術(shù)如何<b class='flag-5'>破解</b>高溫巡檢<b class='flag-5'>難題</b>

    HarmonyOS AI輔助編程工具(CodeGenie)UI生成

    UI Generator基于BitFun Platform AI能力平臺,用于快速生成可編譯、可運行的HarmonyOS UI工程,支持基于已有UI布局文件(XML),快速生成
    發(fā)表于 07-10 11:51

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+Agent的案例解讀

    、AI助手等功能,大大提升了古籍整理與研究利用的效率。? 業(yè)務(wù)特色? 在引入扣子前,識典古籍在古籍?dāng)?shù)字化過程中面臨以下的挑戰(zhàn):? 1)內(nèi)容理解難度高 古籍語言復(fù)雜晦澀,使普通用戶往往望而卻步,平臺
    發(fā)表于 05-14 11:23

    高校宿舍改造指南:智能水電計費系統(tǒng)如何破解管理難題?

    安科瑞解決方案,校園管理難題一應(yīng)俱全,全方位破解。采用智能硬件+云平臺,實現(xiàn)高效管理閉環(huán)精準(zhǔn)計量,安全防控,一鍵拉合閘,多支付,后付費模式,能耗分析,賦能綠色校園實時監(jiān)測,成功案例,降低管理難度,提高學(xué)生滿意度。
    的頭像 發(fā)表于 04-25 16:30 ?520次閱讀
    高校宿舍改造指南:智能水電計費<b class='flag-5'>系統(tǒng)</b>如何<b class='flag-5'>破解</b>管理<b class='flag-5'>難題</b>?

    企業(yè)通過AI技術(shù)定制提升營業(yè)收入

    生成式AI技術(shù)正在重塑我們的生活場景,而商業(yè)戰(zhàn)場上已掀起AI定制的浪潮。MIT最新報告揭示,50%企業(yè)通過AI定制實現(xiàn)效率躍升,49%借此構(gòu)筑競爭壁壘,但數(shù)據(jù)隱私與人才缺口等仍是最大挑
    的頭像 發(fā)表于 04-16 12:48 ?665次閱讀

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    RZ/V2N——近期在嵌入式世界2025上新發(fā)布,為 AI 計算、嵌入式系統(tǒng)及工自動化提供強(qiáng)大支持。這款全新的計算平臺旨在滿足開發(fā)者和企業(yè)用戶對高性能、低功耗和靈活擴(kuò)展的需求。 []() 領(lǐng)先的計算
    發(fā)表于 03-19 17:54

    美報告:中國芯片研究論文全球領(lǐng)先

    據(jù)新華社報道,美國喬治敦大學(xué)“新興技術(shù)觀察項目(ETO)”3日在其網(wǎng)站發(fā)布一份報告說,2018年至2023年間,在全球發(fā)表的芯片設(shè)計和制造相關(guān)論文中,中國研究人員的論文數(shù)量遠(yuǎn)超其他國家
    的頭像 發(fā)表于 03-05 14:32 ?1601次閱讀

    AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得2——客服機(jī)器人、AutoGen框架 、生成式代理

    關(guān)系,這種表示方法使得代理能夠更好地理解和預(yù)測環(huán)境變化。項目的評估結(jié)果表明,具備記憶和反思能力的代理在長期交互任務(wù)中表現(xiàn)出了更好的適應(yīng)性和學(xué)習(xí)能力,這對未來AI系統(tǒng)的設(shè)計具有重要的啟發(fā)意義。 總的來說
    發(fā)表于 02-25 21:59

    中興通訊AiCube:破解AI模型部署難題

    ,成為制約技術(shù)價值釋放的新痛點。 異構(gòu)算力適配困難、算力資源利用率低以及數(shù)據(jù)安全風(fēng)險高等問題,讓許多企業(yè)在AI技術(shù)的實際應(yīng)用中遇到了瓶頸。這些問題不僅增加了部署的難度,還可能導(dǎo)致資源的浪費和潛在的安全威脅。 為了破解這一難題,中
    的頭像 發(fā)表于 02-13 09:11 ?788次閱讀

    Qt Group發(fā)布Qt AI Assistant,助力跨平臺UI開發(fā)

    為了進(jìn)一步提升跨平臺用戶界面(UI)開發(fā)的效率與便捷性,Qt Group近日推出了一款實驗性工具——Qt AI Assistant。這款工具的問世,標(biāo)志著Qt Group在簡化UI開發(fā)流程、減少
    的頭像 發(fā)表于 02-07 13:47 ?1466次閱讀

    英監(jiān)管機(jī)構(gòu)或優(yōu)先調(diào)查蘋果谷歌移動生態(tài)系統(tǒng)

    近日,英國競爭與市場管理局(CMA)發(fā)布了一項重要聲明,引起了廣泛關(guān)注。該聲明指出,CMA正考慮根據(jù)將于明年生效的數(shù)字市場競爭新規(guī),優(yōu)先對蘋果和谷歌的移動生態(tài)系統(tǒng)活動展開調(diào)查。 據(jù)悉,
    的頭像 發(fā)表于 02-05 13:46 ?667次閱讀

    華為懸賞300萬元求解難題 牽引全球數(shù)據(jù)存儲領(lǐng)域基礎(chǔ)理論研究方向

    華為奧林帕斯獎獎金池高達(dá)3百萬,設(shè)置有2個奧林帕斯獎,獎金各100萬元;5個奧林帕斯先鋒獎,獎金各20萬元。 難題1:每bit極致性價比的存儲技術(shù) AI應(yīng)用的普及,引發(fā)存儲數(shù)據(jù)量激增且長期留存,冷數(shù)據(jù)呈現(xiàn)向溫數(shù)據(jù)轉(zhuǎn)變的趨勢,研究
    的頭像 發(fā)表于 12-30 17:50 ?1158次閱讀

    電線EMC電磁兼容性測試整改:破解電磁干擾的難題

    深圳南柯電子|電線EMC電磁兼容性測試整改:破解電磁干擾的難題
    的頭像 發(fā)表于 12-11 11:19 ?1106次閱讀
    電線EMC電磁兼容性測試整改:<b class='flag-5'>破解</b>電磁干擾的<b class='flag-5'>難題</b>

    利用VLM和MLLMs實現(xiàn)SLAM語義增強(qiáng)

    語義同步定位與建圖(SLAM)系統(tǒng)在對鄰近的語義相似物體進(jìn)行建圖時面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借助視覺語言模型
    的頭像 發(fā)表于 12-05 10:00 ?1965次閱讀
    利用VLM和<b class='flag-5'>MLLMs</b>實現(xiàn)SLAM語義增強(qiáng)