chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用 AI 幫助視障者“聽懂”世界

yrlT_lianggezhi ? 來源:工程師李察 ? 2019-01-26 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自動駕駛、無人機,到監(jiān)控安防,視覺 AI 技術(shù)的突破為人們生活帶來了巨大改變,在許多領(lǐng)域迎來爆發(fā)式發(fā)展,僅在國內(nèi)就涌現(xiàn)商湯、云從、曠視和依圖等四大視覺 AI 獨角獸。但若真要論能為使用者帶來多大改變,恐怕很少有比得上這一項,那就是用視覺 AI 來打造盲人的眼睛。

無障礙人工智能成顯學(xué),各大科技巨頭亦相繼致力投入

AI for Accessibility、無障礙人工智能近來已在國際間成為一項顯學(xué)。如何將發(fā)展迅速的人工智能技術(shù),用來改善全世界約 10 億殘疾人士的生活,也是各大科技巨頭致力投入的方向之一。

以視障者來說,近日 Instagram 就新增一項輔助功能,用 AI 自動辨識照片內(nèi)容并以語音告知用戶。臉書 Messenger 也有無障礙機器人(Accessibility Bot),協(xié)助盲人辨識臉書朋友,甚至是朋友的臉部表情。華為 Mate 20 Pro 也有一個應(yīng)用程序 Facing Emotions,可以將七種最普遍的情緒轉(zhuǎn)化為相應(yīng)的聲音,可以大幅提升盲人與其他人的實時互動交流。

影像視覺 AI 并不是新的概念,其背后技術(shù)主要包含機器學(xué)習(xí)深度學(xué)習(xí),再加上 3D 臉部辨識等。尤其是深度學(xué)習(xí)算法運用在訓(xùn)練 AI來協(xié)助盲人辨識物體,可以發(fā)揮非常大的用處。

比方說,如果我們想要設(shè)計一個 AI 協(xié)助盲人分辨不同面額的紙鈔。做法就是將一張 10 元紙鈔,通過各種不同角度,包含正面、反面、整張、邊角、其中每一小片圖案,都展示給 AI 看,讓它學(xué)習(xí)什么是一張 10 元紙鈔。通過大量反覆學(xué)習(xí)后,視障者只要能讓手機鏡頭看到 10 元紙鈔的一小角,AI 就能將它分辨出來。

“這些小事,會讓你很確實地感覺到自己的獨立性。希望隨著人工智能的進展,可以讓我們更容易感受環(huán)境,協(xié)助我們完成更多日常事務(wù)”,微軟視覺輔助應(yīng)用程序 Seeing AI 的項目主管、同時自身也是視障者的 Saqib Shaikh,近日接受專訪時這樣對 DT 君說。

圖|微軟技術(shù)負責(zé)人(Tech Lead)Saqib Shaikh (來源:微軟)

Saqib Shaikh 在 7 歲時失去視力,此前不久,他才剛剛得到人生中的第一臺電腦。

所幸這并不是他與計算機科學(xué)之間的句點。

而后他就讀視障學(xué)生小學(xué),一位老師看出了他的潛力,鼓勵他開始學(xué)習(xí)打字。此后他一路進入大學(xué),主修計算機科學(xué),以班上頂尖的成績畢業(yè),并取得人工智能碩士學(xué)位。而后,他又加入微軟的人工智能團隊,并在大約 3 年前通過微軟內(nèi)部的黑客松競賽,以Seeing AI這個項目脫穎而出,獲得資源將之打造為實際產(chǎn)品,現(xiàn)在已可在美國地區(qū)免費下載。

Seeing AI 用視覺 AI 幫助視障者“聽懂”世界

Seeing AI 這個是一款結(jié)合圖像辨識、語音說明及人性化使用介面的應(yīng)用程序,可以用手機上的攝像頭識別所有圖像,包含通過掃描條形碼來識別產(chǎn)品、辨識身旁其他人的年齡,性別和面部表情,還可以描述它在圖片中看到的內(nèi)容,并閱讀出菜單和文件。

同時,這款應(yīng)用程序也可以結(jié)合智能眼鏡,更好地協(xié)助用戶了解所處的周遭環(huán)境。

圖|Seeing AI 是一款結(jié)合圖像辨識、語音說明及人性化使用介面的應(yīng)用程序(來源:微軟)

Saqib Shaikh 指出,近年深度學(xué)習(xí)技術(shù)的成熟,是 Seeing AI 可以真正發(fā)揮用處的主要關(guān)鍵。通過深度學(xué)習(xí)訓(xùn)練,向系統(tǒng)展示大量照片,并教導(dǎo)它們照片中的內(nèi)容,AI 可以真正有效辨識出現(xiàn)實生活環(huán)境中的各種物體與人物。

但是,要落實到讓 AI 有效協(xié)助視障者在生活中能真正用上,還必須歸功于近年硬件技術(shù)的發(fā)展,在軟、硬件配合之下,讓視覺 AI 技術(shù)實用價值大大提升。尤其是邊緣運算風(fēng)潮興起,視覺信息可以在裝置終端就能完成運算,才能對使用者提供實時反饋,讓盲人能夠即時對互動對象做出適合的反應(yīng)。

實時反饋絕對是關(guān)鍵。Saqib Shaikh 說,想像一個情境,當(dāng)你在一個會議上進行簡報。因為這是一個正式場合,因此所有人,包含旁邊的同事、上級主管,都只是安靜聽你說話,不會任意發(fā)出聲音。所以在你說話的同時,若無法用眼睛去觀察聽眾,你對于他們的反應(yīng)是毫無頭緒的,你甚至不知道應(yīng)不應(yīng)該繼續(xù)說下去,還是暫停下來詢問聽眾的想法。

這時候,如果有一個 AI 可以幫你辨識聽眾的反應(yīng),實時反饋你他們是不是看起來滿意、尤其是還能辨認(rèn)出特定人士,比方說直屬主管的表情和動作如何,這樣一個人工智能,將能夠大大地讓盲人突破限制,改善他們在日常工作中表現(xiàn)。

非監(jiān)督學(xué)習(xí)是視覺 AI 下一步突破關(guān)鍵

今日我們所談的視覺 AI ,其實多半仍局限于靜態(tài)圖像、單一圖像,但 Saqib Shaikh 想像中的 Seeing AI 2.0,將可以解讀一系列的圖像、可以掌握使用者的偏好。

“就像當(dāng)我與妻子一起在街上走路時,她會告訴我有什么我沒看過的新東西、有什么有趣的事物。比方說,她會告訴我我們很喜歡的一間咖啡店關(guān)門了?!盨aqib Shaikh 說,“一個真正的人可以了解什么是你會感興趣、什么是你會覺得重要的事物。”

而 AI 若要能夠做到這一點,就不能只是一次辨識單一圖像,而是還要能綜合理解背后的情境,甚至是接續(xù)出現(xiàn)的新的信息。Saqib Shaikh 分析,這意味著后續(xù) Seeing AI 必須運用更多非監(jiān)督學(xué)習(xí)的技術(shù)來訓(xùn)練 AI,進一步拓展 AI 對多變場景復(fù)雜信息的處理能力。

其實,Saqib Shaikh 早在求學(xué)期間意識到,為了讓身為盲人的自己表現(xiàn)更好,他必須做很多額外的努力來改變他所處的生活環(huán)境,包括不只是自己看書、而是要雇請其他人為他朗讀教科書的內(nèi)容等,才能讓自己與其他正常人站在更接近一點的比較基準(zhǔn)上。

當(dāng)時就有個朋友建議過他,與其只用嘴巴說要改變生活環(huán)境,不如實際做點什么真正的改變。這讓他早就思考過,從某種角度來講,殘疾者本人其實就是最好的創(chuàng)新者。因為,他們比任何人都了解殘疾者最迫切的需求是什么?愿意做什么嘗試?可以如何改變?

然而,在 Saqib Shaikh 進入微軟工作的近乎前 10 年,他并未在工作上試圖突出任何作為一個盲人的特殊能力。相反的,他讓自己就像一名正常的工程師一樣,絕大多數(shù)時間都投入內(nèi)部的主流專案,如 Cortana 等。

“我想,起初我是想證明自己可以成為一個主流的工程師”,Saqib Shaikh 說,而轉(zhuǎn)捩點是出現(xiàn)在他于微軟工作的第10年?!肮ぷ鳚M 10 年后,我覺得我已經(jīng)達到了目標(biāo),證明了自己的能力,所以我可以開始運用自己的專業(yè)去幫助其他人?!?/p>

現(xiàn)在,他終于決定投入自己真正想做的事情,也就是用 AI 來改善殘疾人士的生活環(huán)境。就像他所說的,“我可以選擇用這一種與我自己最相關(guān)的方式,從個人經(jīng)驗來理解許多盲人的問題,并且用自己的專業(yè)來提供協(xié)助?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41157

    瀏覽量

    302624
  • 人工智能
    +關(guān)注

    關(guān)注

    1820

    文章

    50335

    瀏覽量

    266976
  • 無人機
    +關(guān)注

    關(guān)注

    237

    文章

    11383

    瀏覽量

    196708

原文標(biāo)題:用 AI 幫助視障者“聽懂”世界,專訪微軟傳奇盲人工程師 Saqib Shaikh

文章出處:【微信號:lianggezhizi,微信公眾號:兩個質(zhì)子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    涂鴉智能舉辦2026開發(fā)大會,三大AI應(yīng)用生態(tài)首公開!

    的應(yīng)用實踐。 【TUYA全球開發(fā)大會現(xiàn)場】 Hey Tuya全新升級,AI生活助手打通物理世界與數(shù)字服務(wù) 本次大會上,涂鴉智
    的頭像 發(fā)表于 04-24 09:17 ?356次閱讀
    涂鴉智能舉辦2026開發(fā)<b class='flag-5'>者</b>大會,三大<b class='flag-5'>AI</b>應(yīng)用生態(tài)首公開!

    Vibe Coding AI全棧開發(fā)實戰(zhàn)

    棧開發(fā)模式,開發(fā)在數(shù)周內(nèi)就完成了從需求定義到系統(tǒng)上線的全過程。具體流程如下: 需求定義 :“用戶故事地圖”對齊認(rèn)知,明確業(yè)務(wù)目標(biāo)、用戶角色和核心場景。 技術(shù)選型 :AI根據(jù)需求推薦合適的技術(shù)棧
    發(fā)表于 04-15 16:02

    祥承科技發(fā)布端側(cè)智能體開發(fā)生態(tài)AngelClaw,AI鏈接真實世界

    不是“AI+硬件” 而是“硬件即AI” 當(dāng)大多數(shù)人還在討論大模型如何上云、如何降本、如何優(yōu)化Token時,祥承科技的CEO孫勤佳在一次內(nèi)部會議中說了一句話:“我們不是在給電腦裝AI,而是在給
    的頭像 發(fā)表于 03-18 13:24 ?266次閱讀
    祥承科技發(fā)布端側(cè)智能體開發(fā)<b class='flag-5'>者</b>生態(tài)AngelClaw,<b class='flag-5'>用</b><b class='flag-5'>AI</b>鏈接真實<b class='flag-5'>世界</b>

    世界知名科技史學(xué)家到訪??低?b class='flag-5'>視共探AI發(fā)展新路徑

    全球AI技術(shù)迭代加速,前沿思想不斷交融。近日,世界知名科技史學(xué)家、金融史學(xué)家、《哈薩比斯:谷歌AI之腦》作者塞巴斯蒂安·馬拉比到訪海康威,與海康威
    的頭像 發(fā)表于 03-17 14:15 ?444次閱讀

    NVIDIA 攜手全球機器人領(lǐng)導(dǎo),將物理 AI 帶入現(xiàn)實世界

    新聞?wù)?全球物理 AI 領(lǐng)域的領(lǐng)導(dǎo)——包括機器人“大腦”開發(fā)商、工業(yè)與手術(shù)機器人巨頭、人形機器人先鋒企業(yè),如 ABB Robotics、智元機器人、Agility、CMR Surgical
    的頭像 發(fā)表于 03-17 11:22 ?606次閱讀
    NVIDIA 攜手全球機器人領(lǐng)導(dǎo)<b class='flag-5'>者</b>,將物理 <b class='flag-5'>AI</b> 帶入現(xiàn)實<b class='flag-5'>世界</b>

    ??低?b class='flag-5'>視亮相2025世界智能制造大會

    近日,在2025世界智能制造大會的智能工廠梯度培育專題活動中,??低?b class='flag-5'>視商業(yè)與制造方案部高級總監(jiān)王俊卿圍繞《智能物聯(lián)助力智能工廠建設(shè)》主題,分享了??低?b class='flag-5'>視在技術(shù)深耕、自身實踐與助力產(chǎn)業(yè)發(fā)展方面的探索與成果。
    的頭像 發(fā)表于 12-08 15:42 ?696次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據(jù)生成。借助 NVIDIA Omniverse 庫和 Cosmos,開發(fā)可以大規(guī)模生成基于物理學(xué)的合
    的頭像 發(fā)表于 12-01 09:25 ?1445次閱讀

    UPS持續(xù)報警全解析:從聽懂“警報”到快速排

    或硬件損壞的巨大風(fēng)險之中。第一章:聽懂警報——UPS在“說”什么?不同的報警聲音模式,對應(yīng)著不同的故障類型。首先,請仔細辨別您聽到的聲音:規(guī)律的長鳴聲(“嘀——”
    的頭像 發(fā)表于 10-25 09:29 ?1482次閱讀
    UPS持續(xù)報警全解析:從<b class='flag-5'>聽懂</b>“警報”到快速排<b class='flag-5'>障</b>

    重磅!騰科技新官網(wǎng)正式上線,AI算力與智能解決方案一鍵直達

    AI算力模組到全棧智能解決方案,從技術(shù)研發(fā)到場景落地,騰科技始終以 “前沿技術(shù)落地” 為定位,助力產(chǎn)業(yè)智能化升級。新官網(wǎng)的上線,是我們與世界對話的新起點,未來,我們期待與更多伙伴
    的頭像 發(fā)表于 10-11 10:57 ?1024次閱讀
    重磅!騰<b class='flag-5'>視</b>科技新官網(wǎng)正式上線,<b class='flag-5'>AI</b>算力與智能解決方案一鍵直達

    思必馳推出全新一代AI辦公本X5系列

    從“聽見”到“聽懂”,從“記錄”到“決策”,AI正在徹底重構(gòu)我們的辦公方式。
    的頭像 發(fā)表于 09-30 11:32 ?1673次閱讀

    什么是AI算力模組?

    未來,騰科技將繼續(xù)深耕AI算力模組領(lǐng)域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰科技的
    的頭像 發(fā)表于 09-19 15:26 ?2091次閱讀
    什么是<b class='flag-5'>AI</b>算力模組?

    什么是AI算力模組?

    未來,騰科技將繼續(xù)深耕AI算力模組領(lǐng)域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰科技的
    的頭像 發(fā)表于 09-19 15:25 ?1037次閱讀
    什么是<b class='flag-5'>AI</b>算力模組?

    360環(huán)技術(shù)推薦的硬件平臺:支持多攝像頭與三屏異顯的理想選擇

    硬件平臺選型360環(huán)的落地并不簡單。它不僅需要多個高清攝像頭的數(shù)據(jù)輸入,還需要穩(wěn)定的圖像處理能力、強大的AI推理能力,以及足夠多的視頻輸出接口支持顯示需求。很多開發(fā)在選型時會遇到一些挑戰(zhàn),比如:l
    發(fā)表于 07-30 17:32

    智能入選世界經(jīng)濟論壇“全球創(chuàng)新

    2025年7月,世界經(jīng)濟論壇(World Economic Forum)正式宣布魔智能(Motovis)入選"全球創(chuàng)新"(Global Innovators)。此次入選標(biāo)志著
    的頭像 發(fā)表于 07-17 16:11 ?915次閱讀

    肇觀電子兩款無人機視覺避模組量產(chǎn)交付

    在無人機的世界里,視覺不僅定義了飛行的邊界,更是智能決策的核心。肇觀電子以其突破性的AI視覺芯片,賦予無人機前所未有的感知與認(rèn)知能力。 基于肇觀自研芯片的兩款無人機視覺避模組:無人機輕量智能避
    的頭像 發(fā)表于 05-06 15:11 ?1977次閱讀