長(zhǎng)期以來(lái),AI的目標(biāo)就是準(zhǔn)確地描述圖像,而不僅僅是像笨拙的機(jī)器人。谷歌在2016年表示,其人工智能可以為人類(lèi)提供幾乎與人類(lèi)一樣的字幕圖像,準(zhǔn)確度達(dá)到94%?,F(xiàn)在,微軟表示,它走得更遠(yuǎn):它的研究人員建立了一個(gè)AI系統(tǒng),甚至比人類(lèi)更準(zhǔn)確-以至于現(xiàn)在坐上了榜首的nocaps圖像字幕標(biāo)桿。微軟聲稱(chēng)其自2015年以來(lái)一直使用的圖像字幕模型要好兩倍。
盡管這本身就是一個(gè)顯著的里程碑,但微軟不僅僅是將這項(xiàng)技術(shù)保留在自己手中?,F(xiàn)在,它作為Azure認(rèn)知服務(wù)的一部分提供了新的字幕模型,因此任何開(kāi)發(fā)人員都可以將其引入他們的應(yīng)用程序中。今天,它也可以在Seeing AI中使用,Seeing AI是面向盲人和視障用戶(hù)的Microsoft應(yīng)用程序,可以描述周?chē)氖澜?。今年下半年,字幕模型還將改善您在PowerPoint中針對(duì)Web,Windows和Mac的演示文稿。它還會(huì)在桌面平臺(tái)的Word和Outlook中彈出。
Azure AI的CVP Eric Boyd在接受Engadget采訪(fǎng)時(shí)說(shuō):“圖像捕獲是AI中最難的問(wèn)題之一。它不僅代表理解場(chǎng)景中的對(duì)象,還包括它們之間的交互方式,以及如何描述它們?!本?xì)的字幕技術(shù)可以為每個(gè)用戶(hù)提供幫助:它使在搜索引擎中查找所需圖像變得更加容易;對(duì)于視障用戶(hù),它可以使瀏覽網(wǎng)絡(luò)和軟件變得更加出色。
看到公司吹捧他們的AI研究創(chuàng)新并不少見(jiàn),但是將這些發(fā)現(xiàn)迅速部署到運(yùn)輸產(chǎn)品中卻很少見(jiàn)。Azure AI認(rèn)知服務(wù)的CTO Huang Xuedong出于對(duì)用戶(hù)的潛在好處,推動(dòng)將其迅速集成到Azure中。他的團(tuán)隊(duì)使用標(biāo)記有特定關(guān)鍵字的圖像對(duì)模型進(jìn)行了訓(xùn)練,這有助于使它成為大多數(shù)AI框架所沒(méi)有的視覺(jué)語(yǔ)言。通常,這些類(lèi)型的模型是使用圖像和完整標(biāo)題訓(xùn)練的,這使得模型更難于學(xué)習(xí)特定對(duì)象的交互方式。
“視覺(jué)詞匯預(yù)訓(xùn)練本質(zhì)上是訓(xùn)練系統(tǒng)所需的教育;我們正在嘗試教育這種運(yùn)動(dòng)記憶,”黃在博客文章中說(shuō)。這就是這種新模型在nocaps基準(zhǔn)測(cè)試中的優(yōu)勢(shì),該基準(zhǔn)測(cè)試側(cè)重于確定AI可以如何為字幕創(chuàng)建字幕,這些字幕從未見(jiàn)過(guò)。
但是,盡管要打破基準(zhǔn)很重要,但微軟新模型的真正考驗(yàn)將是它在現(xiàn)實(shí)世界中的功能。據(jù)博伊德說(shuō),Seeing AI開(kāi)發(fā)人員Saqib Shaik也在自己的盲人手中推動(dòng)了Microsoft的更大可訪(fǎng)問(wèn)性,他說(shuō)這是對(duì)他們先前產(chǎn)品的巨大改進(jìn)。既然微軟已經(jīng)設(shè)定了一個(gè)新的里程碑,那么有趣的是,看看來(lái)自Google和其他研究人員的競(jìng)爭(zhēng)模型也將如何競(jìng)爭(zhēng)。
責(zé)任編輯:lq
-
微軟
+關(guān)注
關(guān)注
4文章
6686瀏覽量
105778 -
機(jī)器人
+關(guān)注
關(guān)注
213文章
29748瀏覽量
212974 -
AI
+關(guān)注
關(guān)注
88文章
35168瀏覽量
280107
發(fā)布評(píng)論請(qǐng)先 登錄
最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(離線(xiàn)AI語(yǔ)音視覺(jué)識(shí)別篇)
CX3顯示RAW12圖像錯(cuò)誤的原因?
【「零基礎(chǔ)開(kāi)發(fā)AI Agent」閱讀體驗(yàn)】+讀《零基礎(chǔ)開(kāi)發(fā)AI Agent》掌握扣子平臺(tái)開(kāi)發(fā)智能體方法
泰克MDO3052示波器波形捕獲率評(píng)測(cè)

芯原推出新一代集成AI的ISP9000圖像信號(hào)處理器,賦能智能視覺(jué)應(yīng)用
中科億海微SoM模組——AI圖像推理解決方案

圖像采集卡:現(xiàn)代圖像處理技術(shù)的關(guān)鍵組件

攝像頭捕獲 2D 圖像,深度傳感器拉長(zhǎng)距離

高通AI Hub:輕松實(shí)現(xiàn)Android圖像分類(lèi)

AI圖像識(shí)別攝像機(jī)

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源分析
AI大模型在圖像識(shí)別中的優(yōu)勢(shì)
圖像采集卡:增強(qiáng)視覺(jué)數(shù)據(jù)采集

Freepik攜手Magnific AI推出AI圖像生成器
是德DSOX4032A示波器波形捕獲率

評(píng)論