亚洲第一区在线,国产综合99

前言

計(jì)算機(jī)視覺可以學(xué)習(xí)美式手語，進(jìn)而幫助聽力障礙群體嗎？數(shù)據(jù)科學(xué)家David Lee用一個(gè)項(xiàng)目給出了答案。

如果聽不到了，你會怎么辦？如果只能用手語交流呢？

當(dāng)對方無法理解你時(shí)，即使像訂餐、討論財(cái)務(wù)事項(xiàng)，甚至和朋友家人對話這樣簡單的事情也可能令你氣餒。對普通人而言輕輕松松的事情對于聽障群體可能是很困難的，他們甚至還會因此遭到歧視。

在很多場景下，他們無法獲取合格的翻譯服務(wù)，從而導(dǎo)致失業(yè)、社會隔絕和公共衛(wèi)生問題。為了讓更多人聽到聽障群體的聲音，數(shù)據(jù)科學(xué)家 David Lee 嘗試?yán)脭?shù)據(jù)科學(xué)項(xiàng)目來解決這一問題：計(jì)算機(jī)視覺可以學(xué)習(xí)美式手語，進(jìn)而幫助聽力障礙群體嗎？

如果通過機(jī)器學(xué)習(xí)應(yīng)用可以精確地翻譯美式手語，即使從最基礎(chǔ)的字母表開始，我們也能向著為聽力障礙群體提供更多的便利和教育資源前進(jìn)一步。

數(shù)據(jù)和項(xiàng)目介紹

出于多種原因，David Lee決定創(chuàng)建一個(gè)原始圖像數(shù)據(jù)集。首先，基于移動設(shè)備或攝像頭設(shè)置想要的環(huán)境，需要的分辨率一般是720p或1080p?，F(xiàn)有的幾個(gè)數(shù)據(jù)集分辨率較低，而且很多不包括字母「J」和「Z」，因?yàn)檫@兩個(gè)字母需要一些動作才能完成。

為此，David Lee 在社交平臺上發(fā)送了手語圖像數(shù)據(jù)收集請求，介紹了這個(gè)項(xiàng)目和如何提交手語圖像的說明，希望借此提高大家的認(rèn)識并收集數(shù)據(jù)。

數(shù)據(jù)變形和過采樣

David Lee 為該項(xiàng)目收集了 720 張圖片，其中還有幾張是他自己的手部圖像。由于這個(gè)數(shù)據(jù)集規(guī)模較小，于是 David 使用 labelImg 軟件手動進(jìn)行邊界框標(biāo)記，設(shè)置變換函數(shù)的概率以基于同一張圖像創(chuàng)建多個(gè)實(shí)例，每個(gè)實(shí)例上的邊界框有所不同。下圖展示了數(shù)據(jù)增強(qiáng)示例：

經(jīng)過數(shù)據(jù)增強(qiáng)后，該數(shù)據(jù)集的規(guī)模從 720 張圖像擴(kuò)展到 18，000 張圖像。

建模

David 選擇使用 YOLOv5 進(jìn)行建模。將數(shù)據(jù)集中 90% 的圖像用作訓(xùn)練數(shù)據(jù)，10% 的圖像用作驗(yàn)證集。使用遷移學(xué)習(xí)和 YOLOv5m 預(yù)訓(xùn)練權(quán)重訓(xùn)練 300 個(gè) epoch。

在驗(yàn)證集上成功創(chuàng)建具備標(biāo)簽和預(yù)測置信度的新邊界框。

由于損失值并未出現(xiàn)增長，表明模型未過擬合，因此該模型或許可以訓(xùn)練更多輪次。模型最終獲得了 85.27% 的 mAP@.5：.95 分?jǐn)?shù)。

圖像推斷測試

David 額外收集了他兒子的手部圖像數(shù)據(jù)作為測試集。事實(shí)上，還沒有兒童手部圖像用于訓(xùn)練該模型。理想情況下，再多幾張圖像有助于展示模型的性能，但這只是個(gè)開始。

26 個(gè)字母中，有 4 個(gè)沒有預(yù)測結(jié)果（分別是 G、H、J 和 Z）。四個(gè)沒有得到準(zhǔn)確預(yù)測：

D 被預(yù)測為 F；

E 被預(yù)測為 T；

P 被預(yù)測為 Q；

R 被預(yù)測為 U。

視頻推斷測試

即使只有幾個(gè)手部圖像用于訓(xùn)練，模型仍能在如此小的數(shù)據(jù)集上展現(xiàn)不錯(cuò)的性能，而且還能以一定的速度提供優(yōu)秀的預(yù)測結(jié)果，這一結(jié)果表現(xiàn)出了很大的潛力。更多數(shù)據(jù)有助于創(chuàng)建可在多種新環(huán)境中使用的模型。如以上視頻所示，即使字母有一部分出框了，模型仍能給出不錯(cuò)的預(yù)測結(jié)果。最令人驚訝的是，字母 J 和 Z 也得到了準(zhǔn)確識別。

其他測試

執(zhí)行其他一些測試，例如：左手手語測試

幾乎所有原始圖像都顯示的是右手，但驚喜地發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)在這里起到了作用，因?yàn)橛?50% 的可能性是針對左手用戶進(jìn)行水平翻轉(zhuǎn)。

兒童手語測試

兒童的手語數(shù)據(jù)未被用于訓(xùn)練集，但模型對此仍有不錯(cuò)的預(yù)測。

多實(shí)例

盡管手語的使用和視頻中有所不同，但這個(gè)示例表明當(dāng)多個(gè)人出現(xiàn)在屏幕上時(shí)，模型可以分辨出不止一個(gè)手語實(shí)例。

模型局限性

發(fā)現(xiàn)該模型還有一些地方有待改進(jìn)。

距離

許多原始圖像是用手機(jī)拍攝的，手到攝像頭的距離比較近，這對遠(yuǎn)距離推斷有一定負(fù)面影響。

新環(huán)境

這支視頻來自于志愿者，未用于模型訓(xùn)練。盡管模型看到過很多字母，但對此的預(yù)測置信度較低，還有一些錯(cuò)誤分類。

背景推斷

該測試旨在驗(yàn)證不同的背景會影響模型的性能。

結(jié)論

這個(gè)項(xiàng)目表明：計(jì)算機(jī)視覺可用于幫助聽力障礙群體獲取更多便利和教育資源！該模型在僅使用小型數(shù)據(jù)集的情況下仍能取得不錯(cuò)的性能。即使對于不同環(huán)境中的不同手部，模型也能實(shí)現(xiàn)良好的檢測結(jié)果。

而且一些局限性是可以通過更多訓(xùn)練數(shù)據(jù)得到解決的。經(jīng)過調(diào)整和數(shù)據(jù)集的擴(kuò)大，該模型或許可以擴(kuò)展到美式手語字母表以外的場景。

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴