近日,微軟官網(wǎng)宣布了一項重要更新。微軟發(fā)布了其視覺Agent解析框架OmniParser的最新版本V2。這一新版本具備將包括OpenAI的4o、o1、o3-mini,DeepSeek的R1,Qwen的2.5VL,以及Anthropic的Sonnet在內(nèi)的大模型,轉(zhuǎn)化為“計算機使用智能體”(Computer Use Agent)的能力。
與前代版本相比,OmniParser V2在多個方面實現(xiàn)了顯著提升。在檢測更微小、可交互的元素時,V2展現(xiàn)了更高的精度和更快的推理速度。這一提升得益于V2采用了更大規(guī)模的交互元素檢測數(shù)據(jù)集和圖標功能描述數(shù)據(jù)進行訓(xùn)練。
此外,OmniParser V2還通過縮小圖標描述模型的輸入圖像尺寸,進一步優(yōu)化了推理性能。據(jù)微軟官方數(shù)據(jù),與前代版本相比,V2的推理延遲降低了60%。這一改進使得OmniParser V2在處理復(fù)雜視覺任務(wù)時更加高效,為用戶提供了更加流暢、實時的交互體驗。
此次OmniParser V2的發(fā)布,不僅展示了微軟在人工智能領(lǐng)域的持續(xù)創(chuàng)新,也為大模型在計算機智能體領(lǐng)域的應(yīng)用開辟了新的道路。
-
微軟
+關(guān)注
關(guān)注
4文章
6705瀏覽量
106966 -
計算機
+關(guān)注
關(guān)注
19文章
7722瀏覽量
92286 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
25914 -
大模型
+關(guān)注
關(guān)注
2文章
3348瀏覽量
4717
發(fā)布評論請先 登錄
【作品合集】賽昉科技VisionFive 2單板計算機開發(fā)板測評
微軟正式發(fā)布Microsoft行星計算機專業(yè)版
在V2板子上部署豆包模型調(diào)試指南
微軟推出兩款全新銷售智能體
求助,關(guān)于LT8625SP在LTPOWERCADII V2中的疑問求解
硅基覺醒已至前夜,聯(lián)發(fā)科攜手生態(tài)加速智能體化用戶體驗時代到來
軟通計算機重磅發(fā)布DeepSeek大模型一體機產(chǎn)品

機智云發(fā)布Gokit5 AI智能體開發(fā)板:工業(yè)級智能體流水線重構(gòu)AIoT開發(fā)范式

微軟OmniParser V2:大模型轉(zhuǎn)化為計算機智能體
新華三發(fā)布DeepSeek大模型一體機UniCube
OpenAI將發(fā)布更智能GPT模型及AI智能體工具
量子計算機與普通計算機工作原理的區(qū)別

評論