其他優(yōu)勝作品包括 AI 驅(qū)動(dòng)的虛擬試衣應(yīng)用和一款能夠?qū)ふ疫z失物品的機(jī)器人等。
YouTube 機(jī)器人技術(shù)主播 Dave Niewinski 開(kāi)發(fā)的機(jī)器人五花八門(mén),從可駕駛的“La-Z-Boy”椅子到由 AI 引導(dǎo)的扔沙包機(jī)器人、馬車比賽機(jī)器人等。
他最近的交互式電子動(dòng)畫(huà) GLaDOS 項(xiàng)目成為了 Hackster AI 創(chuàng)新挑戰(zhàn)賽的九個(gè)優(yōu)勝作品之一。約 100 名參賽者通過(guò)創(chuàng)建開(kāi)源項(xiàng)目、推動(dòng) AI 在邊緣計(jì)算、機(jī)器人和物聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,來(lái)角逐由 NVIDIA 與 Sparkfun 提供的獎(jiǎng)品。
Niewinski 根據(jù)視頻游戲開(kāi)發(fā)商 Valve 的第一人稱解謎系列游戲《傳送門(mén)》(Portal)中的 GLaDOS 向?qū)?,設(shè)計(jì)出了一個(gè)創(chuàng)新機(jī)器人,該機(jī)器人贏得了生成式 AI 應(yīng)用組第一名。
另兩位優(yōu)勝者 Andrei Ciobanu 和 Allen Tao 分別獲得了邊緣生成式 AI 模型和邊緣 AI 應(yīng)用組的一等獎(jiǎng)。Ciobanu 利用生成式 AI 幫助實(shí)現(xiàn)虛擬試衣,而 Tao 所開(kāi)發(fā)的基于 ROS 的機(jī)器人可通過(guò)繪制家庭內(nèi)部地圖來(lái)幫助尋找物品。
將 LLM 應(yīng)用于機(jī)器人
Niewinski 在其位于加拿大安大略省滑鐵盧的 Armoury Labs 開(kāi)發(fā)定制化的機(jī)器人應(yīng)用。他使用 NVIDIA Jetson 平臺(tái)開(kāi)發(fā)邊緣 AI 和機(jī)器人技術(shù),并根據(jù)自己的經(jīng)驗(yàn)創(chuàng)建開(kāi)源教程和 YouTube 視頻。
為了給自己配備一名實(shí)驗(yàn)室私人助理,他制作了一個(gè)自己的 GLaDOS 交互機(jī)器人。該機(jī)器人使用基于 Transformer 的語(yǔ)音識(shí)別、文本轉(zhuǎn)語(yǔ)音和大語(yǔ)言模型(LLM)處理查詢,這些功能與模型均在 NVIDIA Jetson AGX Orin 上運(yùn)行,可與機(jī)械臂和攝像頭進(jìn)行交互。
GLaDOS 可以追蹤 Niewinski 在實(shí)驗(yàn)室中的行蹤,能夠朝不同的方向移動(dòng)來(lái)面對(duì)他,并對(duì)詢問(wèn)作出快速反應(yīng)。
Niewinski 表示:“我喜歡用機(jī)器人做一些出乎人們意料的事情?!?/p>
他希望這個(gè)助手的聲音能像《傳送門(mén)》中的原版 GLaDOS 一樣,并且能夠迅速作出反應(yīng)。幸運(yùn)的是,游戲公司 Valve 把《傳送門(mén)》和《傳送門(mén) 2》中的所有語(yǔ)音臺(tái)詞都放在了自己的網(wǎng)站上,Niewinski 可以下載該音頻來(lái)訓(xùn)練模型。
他提到:“使用 Jetson 的話,一般的問(wèn)答語(yǔ)音都能快速運(yùn)行?!?/p>
Niewinski 利用 NVIDIA 的開(kāi)源 NeMo 套件對(duì) GLaDOS 的語(yǔ)音進(jìn)行了微調(diào),訓(xùn)練出一個(gè)名為 FastPitch 的頻譜生成器網(wǎng)絡(luò)和一個(gè)名為 HiFiGAN 的聲碼器網(wǎng)絡(luò)來(lái)提高音頻質(zhì)量。
這兩個(gè)網(wǎng)絡(luò)都被部署到搭載 NVIDIA Riva 的 Orin 上,將語(yǔ)音識(shí)別與合成功能的運(yùn)行速度優(yōu)化到數(shù)倍于語(yǔ)音的實(shí)時(shí)速度,使其能夠與 LLM 同步運(yùn)行并保持流暢的交互傳輸。
為了讓 GLaDOS 生成符合現(xiàn)實(shí)的回答,Niewinski 使用了一個(gè)名為 OpenChat 的本地托管 LLM,該模型在 Docker 中運(yùn)行,來(lái)自 jetson-containers。所有這些 AI 都在 Jetson 模塊上運(yùn)行,使用的是由 CUDA 和 JetPack 構(gòu)建的最新開(kāi)源 ML 軟件堆棧。
為了讓 GLaDOS 能夠移動(dòng),Niewinski 專門(mén)為宇樹(shù)科技 Z1 機(jī)械臂開(kāi)發(fā)了交互功能。GLaDOS 可以通過(guò)一個(gè)立體攝像頭和多個(gè)模型來(lái)觀察和追蹤人類語(yǔ)言,其機(jī)械臂周圍裝上了 3D 打印的 GLaDOS 頭部和身體外殼。
借助生成式 AI 試遍新款服裝
來(lái)自羅馬尼亞的 Winner Ciobanu 希望借助生成式 AI 提升虛擬試衣體驗(yàn),他的作品 EdgeStyle: Fashion Preview at the Edge 奪得了第一名。
他使用 YOLOv5、SAM、OpenPose 等 AI 模型,從圖像和視頻中提取并完善數(shù)據(jù),然后使用 Stable Diffusion 生成圖像,他表示Stable Diffusion是實(shí)現(xiàn)精準(zhǔn)虛擬試穿的關(guān)鍵所在。
Ciobanu 提到,這個(gè)系統(tǒng)教會(huì)了模型如何將衣服“穿”在不同姿勢(shì)的人身上,從而增強(qiáng)了試穿的真實(shí)感。
“這個(gè)系統(tǒng)非常方便,可以讓用戶不用真的去實(shí)際試穿,就能看到衣服穿在身上的效果?!?/p>
他表示,NVIDIA JetPack SDK 提供了在 Jetson Orin 上順利運(yùn)行 AI 模型所需的所有工具。
“AI 技術(shù)日新月異,擁有一套穩(wěn)定的工具非常有用。它確實(shí)為我們這些開(kāi)發(fā)者節(jié)約了時(shí)間,減少了麻煩,讓我們能夠擺脫技術(shù)問(wèn)題的困擾,把更多精力放在構(gòu)建很酷的東西上。”
讓機(jī)器人幫助尋找遺失物品
加拿大安大略省的獲獎(jiǎng)?wù)?Winner Tao 創(chuàng)造的機(jī)器人可以幫助人們?cè)诩抑袑ふ疫z失物品。他的 An Eye for an Item 項(xiàng)目贏得了 Hackster 挑戰(zhàn)賽的第一名。
Tao 提到:“尋找丟失的物品是一件苦差事,而近期零樣本物體檢測(cè)和 LLM 領(lǐng)域的最新進(jìn)展使計(jì)算機(jī)可以根據(jù)文字或圖片描述為我們檢測(cè)任意物體,這帶來(lái)了實(shí)現(xiàn)自動(dòng)化的可能性。”
Tao 表示自己需要機(jī)器人的計(jì)算能力來(lái)對(duì)任何非結(jié)構(gòu)化環(huán)境中的物體進(jìn)行分類,比如客廳、大型倉(cāng)庫(kù)等。他還需要機(jī)器人執(zhí)行實(shí)時(shí)計(jì)算以進(jìn)行導(dǎo)航定位,并在更大規(guī)模的物體檢測(cè)模型上進(jìn)行推理。
他表示:“Jetson Orin 是一個(gè)絕佳的選擇,它支持從使用 NanoDB 查詢文本和圖像到實(shí)時(shí)里程反饋等一切功能,包括使用 Isaac ROS 的硬件來(lái)加速 AprilTag 檢測(cè)進(jìn)行漂移校正?!?/p>
審核編輯:劉清
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
30951瀏覽量
221380 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
39文章
1810瀏覽量
115867 -
ROS
+關(guān)注
關(guān)注
1文章
293瀏覽量
18624 -
邊緣計(jì)算
+關(guān)注
關(guān)注
22文章
3519瀏覽量
53165 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1313瀏覽量
25688
原文標(biāo)題:AI 大顯身手:GLaDOS 交互機(jī)器人入選 Hackster.io 挑戰(zhàn)賽 9 個(gè)優(yōu)勝作品之一
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
普渡D5在全球首個(gè)機(jī)器人登高挑戰(zhàn)賽中斬獲輪式四足機(jī)器人組冠軍
禾賽科技榮登全球人形機(jī)器人科技25強(qiáng)榜單
禾賽科技與高仙機(jī)器人達(dá)成戰(zhàn)略合作
RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知
語(yǔ)音機(jī)器人交互系統(tǒng):核心技術(shù)與應(yīng)用挑戰(zhàn)
再掀語(yǔ)音交互革命,廣和通AI解決方案加速機(jī)器人聽(tīng)覺(jué)進(jìn)化
2025 EDA精英挑戰(zhàn)賽華大九天賽題發(fā)布
2025 EDA精英挑戰(zhàn)賽紫光同創(chuàng)賽題發(fā)布
工業(yè)機(jī)器人的特點(diǎn)
明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量
盤(pán)點(diǎn)#機(jī)器人開(kāi)發(fā)平臺(tái)
【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門(mén)的引路書(shū)
名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.58】ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐
泰科機(jī)器人榮獲第二屆特種機(jī)器人產(chǎn)業(yè)鏈揭榜推進(jìn)活動(dòng)“優(yōu)勝單位”
GLaDOS交互機(jī)器人入選Hackster.io挑戰(zhàn)賽9個(gè)優(yōu)勝作品之一
評(píng)論