尤物国产清纯美女高潮出白浆,欧美成人精品大片免费流量

蘋果發(fā)布研究論文：揭示Ferret-UI AI系統(tǒng)，破解MLLMs移動(dòng)應(yīng)用理解難題

據(jù)悉，Apple近期發(fā)表了有關(guān)于Ferret-UI AI系統(tǒng)的研究論文，這款新型AI系統(tǒng)可理解應(yīng)用程序屏幕上的內(nèi)容。

目前圍繞人工智能（AI）技術(shù)，出現(xiàn)了如ChatGPT這樣的大語言模型（LLMs），這些模型擅長處理文本資料。然而，對于像圖片、視頻和聲音等多媒體類型的非文本n內(nèi)容，就需要擴(kuò)大AI模型的適用范圍，相應(yīng)地，多模態(tài)大語言模型（MLLMs）也就應(yīng)運(yùn)而生。

盡管MLLMs已表現(xiàn)出對移動(dòng)應(yīng)用程序的理解不足，具體表現(xiàn)在以下幾點(diǎn)：

首先，智能手機(jī)屏幕的寬高比和大多數(shù)訓(xùn)練視覺模型所使用的比例不同；其次，MLLMs需要識別出較小的圖標(biāo)和按鈕。

針對以上問題，Apple提出了名為“Ferret-UI”的MLLM系統(tǒng)，以應(yīng)對這些挑戰(zhàn)。系統(tǒng)通過引入WMDR（任意分辨率），提升模型在處理用戶界面任務(wù)時(shí)的辨識度，使其能更好地識別和理解小圖標(biāo)、文字等元素。

此外，我們專門采集了大量與初級用戶界面任務(wù)相關(guān)的樣本，包括圖標(biāo)識別、文本查找和小部件列表等。所有樣本均按照區(qū)域注釋指令進(jìn)行設(shè)計(jì)，以便于精確解釋和實(shí)用化。

為了提高模型的認(rèn)知水平，我們進(jìn)一步定制了高級任務(wù)數(shù)據(jù)集，含括詳細(xì)描寫、感官/互交互對話及功能推理等方面。

該項(xiàng)研究表明，與現(xiàn)行的GPT-4V以及其他MLLMs模型相比，F(xiàn)erret-UI AI模型具有顯著優(yōu)勢。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴