全球正在經(jīng)歷新一輪的科技和產(chǎn)業(yè)革命,人工智能作為這一輪革命的風(fēng)暴中心,成為各國爭相競逐的賽道。面對人工智能的熱潮,全球科技巨頭紛紛加碼投資,開始深度布局此領(lǐng)域,從全球科技公司所提交的人工智能專利申請來看,主要的技術(shù)專利集中在語音交互、人臉識別、AI芯片、機(jī)器學(xué)習(xí)等領(lǐng)域,本文針對以上提到的熱門領(lǐng)域,搜羅了2018年出現(xiàn)的十大革新性技術(shù),下面讓我們一起看看這些技術(shù)都有哪些“過人”之處:
一、語音交互技術(shù)就是一種以語音為主要信息載體,讓機(jī)器具有像人一樣“能聽會說、自然交互、有問必答”能力的綜合技術(shù),它涉及自然語言處理、語義分析和理解、知識構(gòu)建和自學(xué)習(xí)能力、大數(shù)據(jù)處理和挖掘等前沿技術(shù)領(lǐng)域。在這一領(lǐng)域,科大訊飛占據(jù)了超過60%的市場份額,絕對是語音技術(shù)的龍頭企業(yè)。
代表技術(shù):訊飛聽見M1轉(zhuǎn)寫機(jī)器人
訊飛聽見M1轉(zhuǎn)寫機(jī)器人是2018年科大訊飛發(fā)布的一款以專業(yè)錄音及轉(zhuǎn)文字為核心功能的智能轉(zhuǎn)寫機(jī)器人,可滿足會議、采訪、課程培訓(xùn)等多種場景下的錄音整理需求,幫助快速提升工作效率。
訊飛聽見M1轉(zhuǎn)寫機(jī)器人采用了24bit高精度拾音芯片,通過對環(huán)境、室內(nèi)混響、方向性噪聲進(jìn)行智能化抑制,顯著提升拾音效果,實(shí)現(xiàn)數(shù)字降噪、無損錄音的優(yōu)秀效果。M1還采用了科大訊飛7+1環(huán)形麥克風(fēng)陣列,做到360°全向型自動聲源定位,10米以內(nèi)的有效聲音可以輕松拾取,高品質(zhì)錄音無壓力?;诳拼笥嶏w深度全序列卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)寫能力和Dereverberation去混響技術(shù),訊飛聽見M1可實(shí)現(xiàn)的中英文語音轉(zhuǎn)文字識別準(zhǔn)確度高達(dá)95%。
機(jī)器人對話交互系統(tǒng):iBot Pro
小i機(jī)器人自主研發(fā)的iBot Pro具有獨(dú)創(chuàng)多模型混合引擎、全閉環(huán)智能運(yùn)營平臺、多模態(tài)情感和場景交互三大特征,大幅優(yōu)化了用戶體驗(yàn),重構(gòu)了整合深度推理、語義理解、深度學(xué)習(xí)三種能力的智能交互引擎,內(nèi)置了小i多年積累的領(lǐng)域語義庫,適用行業(yè)更廣泛,可為旅游、金融、電信、政務(wù)等多個傳統(tǒng)行業(yè)快速開發(fā)出具有深度語義交互能力的問答機(jī)器人。
對話式人工智能系統(tǒng):DuerOS 3.0
DuerOS是百度度秘事業(yè)部研發(fā)的對話式人工智能系統(tǒng),操作系統(tǒng)是用戶與硬件之間的連接,最核心的價值就是人機(jī)交互,DuerOS的初心就是要給用戶提供基于AI的自然交互,特別是語音交互,讓機(jī)器能聽會看,搭載DuerOS的設(shè)備可讓用戶以自然語言對話的交互方式,實(shí)現(xiàn)影音娛樂、信息查詢、生活服務(wù)等10大類目的500多項功能的操作。
2018年發(fā)布的DuerOS 3.0相對于此前版本,在自然交互能力上進(jìn)行了全新升級,不只是強(qiáng)調(diào)語音,還強(qiáng)調(diào)自然語言處理和機(jī)器視覺,支持情感語音播報、聲紋識別、兒童模式、極客模式、智能引導(dǎo)與糾錯、視覺搜索能力、視頻理解能力等功能。
二、正如人類被上帝賦予智慧一樣,人工智能也被人類賦予智慧,而智慧的本質(zhì)在于算法。人工智能是利用機(jī)器算法模擬人腦對歷史知識學(xué)習(xí)、吸收與理解并掌握運(yùn)用的訓(xùn)練過程。數(shù)據(jù)量的豐富程度決定了是否有充足數(shù)據(jù)對模型進(jìn)行訓(xùn)練,進(jìn)而使人工智能系統(tǒng)經(jīng)過深度學(xué)習(xí)訓(xùn)練后達(dá)到強(qiáng)人工智能水平。
集成多場景AI算法的智能機(jī)芯:智芯H002
智芯H002是智芯數(shù)據(jù)針對穿戴類產(chǎn)品推出的多場景應(yīng)用超低功耗機(jī)芯方案。智芯H002的一大亮點(diǎn)是在交互場景上可實(shí)現(xiàn)多場景、多人群動態(tài)切換,針對不同需求的功能定制化,升級數(shù)據(jù)分析與呈現(xiàn)。后臺數(shù)據(jù)通過AI算法的自主學(xué)習(xí),并存儲、分析、修正行為偏好識別、行為狀態(tài)預(yù)判,基于個人的行為偏好,以及私密圈子行為與偏好,進(jìn)行更精準(zhǔn)的信息及產(chǎn)品推送,打開并延展個人數(shù)據(jù)的商業(yè)價值。
在解決智能穿戴產(chǎn)品的續(xù)航問題上,智芯H002運(yùn)行平臺MCU Apollo 3 實(shí)現(xiàn)超低功耗控制,使電池壽命也得到極大的延長,超越續(xù)航極限,一次充電可使用至少30天。智芯H002搭載13種傳感器組合,傳感器的實(shí)時狀態(tài)空間至少達(dá)2的13次方8192種,支持至少11種人群場景應(yīng)用。目前,智芯H002后臺AI算法已在睡眠管理,心率、血壓、體溫體征測量,跑步,登山,游泳,嬰兒護(hù)理,日?;顒拥榷鄠€場景落地。
在智能手環(huán)無路可走,已然遭到嫌棄,智能手表不能解決續(xù)航痛點(diǎn)時,智能機(jī)芯H002 像一道光豁然打開智能可穿戴產(chǎn)品的真正價值,提供了顛覆性的行業(yè)解決方案。
三、邊緣計算是在靠近物或數(shù)據(jù)源頭的網(wǎng)絡(luò)邊緣側(cè),融合網(wǎng)絡(luò)、計算、存儲、應(yīng)用核心能力的分布式開放平臺,就近提供邊緣智能服務(wù),滿足行業(yè)數(shù)字化在敏捷聯(lián)接、實(shí)時業(yè)務(wù)、數(shù)據(jù)優(yōu)化、應(yīng)用智能、安全與隱私保護(hù)等方面的關(guān)鍵需求。它可以作為聯(lián)接物理和數(shù)字世界的橋梁,使能智能資產(chǎn)、智能網(wǎng)關(guān)、智能系統(tǒng)和智能服務(wù)。
代表技術(shù):Azure IoT Edge 開源
Azure IoT Edge 是微軟推出的基于邊緣智能計算,將云功能提供到邊緣設(shè)備的,一種混合云和邊緣設(shè)備的物聯(lián)網(wǎng)解決方案。2018年微軟Build大會上,微軟宣布將 Azure IoT Edge 開源,允許開發(fā)者進(jìn)行擴(kuò)展、添加功能,并部署到任何環(huán)境中。
用戶可以根據(jù)自己的業(yè)務(wù)邏輯自定義創(chuàng)建IoT應(yīng)用,在邊緣設(shè)備本地完成數(shù)據(jù)處理任務(wù),同時享受大規(guī)模云平臺的配置、部署和管理功能。即便在離線或間歇性連接狀態(tài)下,邊緣設(shè)備也可實(shí)現(xiàn)人工智能和高級分析,簡化開發(fā),并降低物聯(lián)網(wǎng)解決方案成本。
四、人臉識別,是基于人的臉部特征信息進(jìn)行身份識別的一種生物識別技術(shù)。用攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進(jìn)而對檢測到的人臉進(jìn)行臉部識別的一系列相關(guān)技術(shù),通常也叫做人像識別、面部識別。
代表技術(shù):“炬眼”智能人臉識別相機(jī)
云從科技是一家從中科院重慶研究院孵化的專注于計算機(jī)視覺與人工智能的高科技企業(yè),計算機(jī)視覺頭部企業(yè)中唯一的“國家隊”。由云從科技推出的“炬眼”智能人臉識別相機(jī)相較以往的智能攝像機(jī)在功能與性能上有了質(zhì)的飛躍?!熬嫜邸敝悄苋四樧R別相機(jī)使用Intel架構(gòu),在攝像機(jī)本地完成全程識別,極速傳輸識別結(jié)果到后臺,準(zhǔn)確率高達(dá)99.8%以上。
“炬眼”智能人臉識別相機(jī)內(nèi)置“梟龍”深度學(xué)習(xí)算法,相較于傳統(tǒng)智能相機(jī)平均10秒的識別時間與50-500k的帶寬占用,在處理同樣的AI應(yīng)用任務(wù)時,“梟龍”深度學(xué)習(xí)算法擁有大約50倍以上的性能優(yōu)勢,這意味著“炬眼”智能人臉識別相機(jī)可以用更高效的完成計算任務(wù)。
SenseAR增強(qiáng)現(xiàn)實(shí)感繪制引擎
為推動AR技術(shù)的應(yīng)用和普及,2018年商湯科技發(fā)布了全新升級的SenseAR增強(qiáng)現(xiàn)實(shí)感繪制引擎,和中國原創(chuàng)AR開發(fā)者平臺——SenseAR開發(fā)者平臺,合力驅(qū)動AR應(yīng)用和優(yōu)質(zhì)內(nèi)容產(chǎn)出,打造AR生態(tài)。
全新的SenseAR增強(qiáng)現(xiàn)實(shí)感引擎在原有的106人臉關(guān)鍵點(diǎn)定位技術(shù)基礎(chǔ)上,升級為240人臉關(guān)鍵點(diǎn)定位技術(shù),對眉、眼、口、鼻、唇等五官部位實(shí)現(xiàn)更加細(xì)致、精準(zhǔn)的定位和追蹤,還開創(chuàng)性地實(shí)現(xiàn)了舌頭跟蹤,眼神追蹤,頭發(fā)染色等玩法,由此將AR應(yīng)用推廣到美妝拍照、高仿真度虛擬形象等復(fù)雜場景。
同時,商湯科技還將在面部識別領(lǐng)域的原創(chuàng)領(lǐng)先技術(shù),應(yīng)用到肢體、手勢識別,從而將AR識別和繪制的能力從“臉部”延伸至“全身”,可以基于單目RGB攝像頭,實(shí)現(xiàn)對手勢、肢體動作的全方位精確描述和跟蹤,極大拓展了AR技術(shù)的應(yīng)用范圍和場景,滿足了視頻平臺不斷增多的全身場景AR玩法需求。
五、AI芯片目前大致的分類:從功能角度看,AI芯片主要做兩個事情,一是Training(訓(xùn)練),二是Inference(推理)。從應(yīng)用場景角度看,AI芯片主要有兩個方向,一個是在數(shù)據(jù)中心部署的云端,代表公司主要有谷歌,寒武紀(jì)等;一個是在消費(fèi)者終端部署的終端,代表公司主要有地平線,云知聲等。
自動駕駛:Matrix 1.0平臺
在自動駕駛的陣營中,AI公司地平線聚焦算法、芯片技術(shù)。Matrix 1.0是基于地平線自主研發(fā)的BPU架構(gòu)——征程2.0打造的,面向L3及以上自動駕駛的解決方案。
Matrix 1.0 采用深度學(xué)習(xí)技術(shù),支持多傳感器融合,可每秒處理720P視頻30幀,實(shí)時處理4路視頻,實(shí)現(xiàn)20種不同類型物體的像素級語義分割,而功耗僅為31W,已經(jīng)達(dá)到商用水準(zhǔn),開發(fā)者也可以基于Matrix平臺部署神經(jīng)網(wǎng)絡(luò)模型。
物聯(lián)網(wǎng)AI芯片:“雨燕”
“雨燕”由云知聲自主研發(fā),采用CPU+uDSP+DeepNet架構(gòu),支持8/16bit向量、矩陣運(yùn)算,基于深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),可將面向語音AI的并行運(yùn)算性能發(fā)揮到極致,在更低成本和功耗下提供更高的算力。其異構(gòu)AMP架構(gòu)可保證高性能與低功耗的有機(jī)結(jié)合,從而獲得更高的能效比,更適合IoT場景。
除了提供芯片和終端引擎,云知聲還將應(yīng)用部分向客戶開源,同時提供相應(yīng)定制化工具以及云端AI能力服務(wù)。通過云端芯結(jié)合,“雨燕”將應(yīng)用于智能家居、智能音箱、智能車載等各個具體場景中。
云端智能芯片:Cambricon MLU100
與寒武紀(jì)系列終端處理器一樣,MLU100云端芯片仍然延續(xù)了寒武紀(jì)產(chǎn)品一貫出色的通用性,可支持各類深度學(xué)習(xí)和經(jīng)典機(jī)器學(xué)習(xí)算法,充分滿足視覺、語音、自然語言處理、經(jīng)典數(shù)據(jù)挖掘等領(lǐng)域復(fù)雜場景下(如大數(shù)據(jù)量、多任務(wù)、多模態(tài)、低延時、高通量)的云端智能處理需求。
MLU100采用寒武紀(jì)最新的MLUv01架構(gòu)和臺積電16nm的先進(jìn)工藝,平衡模式下(1GHz主頻)的等效理論峰值速度達(dá)每秒128萬億次定點(diǎn)運(yùn)算,高性能模式下(1.3GHz主頻)的等效理論峰值速度更可達(dá)每秒166.4萬億次定點(diǎn)運(yùn)算,但典型板級功耗僅為80瓦,峰值功耗不超過110瓦。
點(diǎn)評:無論是語音交互,人臉識別還是AI算法,這些熱門的AI技術(shù)的發(fā)展宗旨均是為了應(yīng)對日常生活中所出現(xiàn)的各種復(fù)雜信息。未來AI技術(shù)的發(fā)展趨勢也不難預(yù)測,將圍繞不同的生活場景做垂直細(xì)分的技術(shù)落地。比如文中提到的智芯H002,其后臺AI算法目前已在睡眠管理,心率、血壓、體溫體征測量,跑步,登山,游泳,嬰兒護(hù)理,日常活動等多個場景落地,搭配智能腕表設(shè)備,將給日常生活帶來更多便利。
電子發(fā)燒友App




評論