日韩中文字幕无码免费视频,日本视频一区视频二区ae86

轉(zhuǎn)載自與非網(wǎng)

什么是語音AI芯片？

語音AI芯片，顧名思義是處理語音的AI芯片。很多人第一次接觸語音AI芯片可能是天貓精靈、小愛同學(xué)和小度等智能音箱產(chǎn)品，因為在這些產(chǎn)品中，我們可以體驗到智能語音的交互，而語音AI芯片是智能語音交互的基礎(chǔ)和核心。

都說這幾年AI芯片賽道很火，事實上語音識別、自然語義理解（NLP）和機(jī)器學(xué)習(xí)在AI技術(shù)中占據(jù)重要的位置，是人機(jī)交互的基礎(chǔ)，而前兩項均與語音識別相關(guān)，這是因為語音識別不僅方便，而且是人機(jī)交互中最符合人類日常交流形態(tài)的一種技術(shù)，目前已經(jīng)在智能家居和車載場景得到普遍應(yīng)用。

為何語音識別要從云端搬至終端？

說到語音識別技術(shù)，還要追溯到2010年左右，當(dāng)時以神經(jīng)網(wǎng)絡(luò)為代表的AI技術(shù)使得智能語音識別成為可能，并在后來的IoT和AIoT產(chǎn)業(yè)浪潮中不斷走向成熟。

早期的智能語音識別受限于算力要求，終端沒有專用的芯片可以解決算力和功耗成本的均衡問題，無法在終端處理智能語音識別，而云端處理又憑借天然自帶內(nèi)容和服務(wù)，模型可以快速迭代，數(shù)據(jù)收集和訓(xùn)練非常方便等優(yōu)勢，決定了當(dāng)時的語音識別大都是布置在云端的。

然而，云端的語音識別也有弊端，比如無法做到穩(wěn)定的實時響應(yīng)，網(wǎng)絡(luò)崩潰時更是響應(yīng)無門；重要的信息都要通過網(wǎng)絡(luò)傳輸，有被攻擊泄露的風(fēng)險，無法保障用戶隱私安全；此外在成本方面也不具優(yōu)勢，除了持續(xù)的帶寬消耗外，云端語音需要后臺不間斷的運行大量服務(wù)器來做語音處理，服務(wù)器的購置、后續(xù)的硬件更換和軟件運維、人力費用和電費場地費等都非常昂貴。

圖 | 為什么選擇離線語音

面對云端語音的優(yōu)劣勢，以啟英泰倫為代表的企業(yè)開始投入對端側(cè)語音識別的研究。不過，我們知道光有需求點還支撐不起一個新產(chǎn)業(yè)的崛起，要養(yǎng)活一個產(chǎn)業(yè)需要足夠的市場容量，實現(xiàn)資金的活流，才能有利于產(chǎn)品的不斷迭代，形成正向循環(huán)。

根據(jù)艾瑞咨詢發(fā)布數(shù)據(jù)顯示，2020年中國物聯(lián)網(wǎng)設(shè)備連接量達(dá)74億個，預(yù)計2025年將突破150億個。而麥肯錫則用更動態(tài)的數(shù)據(jù)表示出了物聯(lián)網(wǎng)的增長率，預(yù)估目前每秒大約有127臺設(shè)備連接到互聯(lián)網(wǎng)。

然而，面對當(dāng)前物聯(lián)網(wǎng)的聯(lián)網(wǎng)量，華為給出了另一個數(shù)據(jù)：當(dāng)前大部分具備物聯(lián)能力的消費類設(shè)備只有 5% ~ 20% 的聯(lián)接激活率。這是為什么呢？究其原因，還是操作交互太過于復(fù)雜。而解決這個復(fù)雜問題的方法就是加入更多“老少皆宜”的語音配合IoT連接。

有行業(yè)內(nèi)人士預(yù)測，語音AI芯片將會快速發(fā)展到5-10億顆/年左右的市場規(guī)模，隨著應(yīng)用面的不斷拓寬和滲透率的不斷提升，該規(guī)模還將持續(xù)不斷地提升。

綜上，不管是場景需求還是市場容量，都在推動端側(cè)語音識別的落地。但如何落地？不是一蹴而就的。

端側(cè)語音識別芯片的三個發(fā)展階段

語音識別面臨的挑戰(zhàn)和圖像識別不同，它對算力要求沒那么高，但對算法的要求很高。啟英泰倫創(chuàng)始人兼CEO何云鵬告訴與非網(wǎng)：“這是因為語音識別的應(yīng)用場景非常多，所以各種噪聲就非常多樣，有穩(wěn)態(tài)噪聲，也有非穩(wěn)態(tài)噪聲，要在這些環(huán)境中進(jìn)行高準(zhǔn)確率的語音識別是非常困難的。所以，必須掌握智能語音算法全鏈條技術(shù)才能實現(xiàn)更好的語音識別，包括智能語音信號前端降噪處理、語音智能識別、語音合成、語音解碼、語音大數(shù)據(jù)處理及訓(xùn)練、NLP等技術(shù)?！?/p>

當(dāng)然，語音識別技術(shù)在國內(nèi)的發(fā)展也是在不斷迭代中變得更加準(zhǔn)確和靈活。我們以啟英泰倫的三代自研技術(shù)平臺BNPU（腦神經(jīng)網(wǎng)絡(luò)處理器)，來簡單概括端側(cè)語音AI芯片的這三個發(fā)展階段。

圖 | 啟英泰倫在語音AI芯片上的創(chuàng)新

階段一：語音識別功能

第一代BNPU芯片實現(xiàn)的是端側(cè)語音識別，是行業(yè)首款集成神經(jīng)網(wǎng)絡(luò)處理器的語音AI芯片，也是離線語音產(chǎn)業(yè)應(yīng)用興起的標(biāo)志。

從集成度的角度來看，BNPU 1.0的方案相對分立，方案價格大約在50到90元左右（CI1006）。

階段二：離線聲紋識別+命令詞自學(xué)習(xí)

第二代BNPU芯片（CI1102/CI1103和CI1122），不僅實現(xiàn)了離線語音識別功能，還能實現(xiàn)離線聲紋識別和命令詞自學(xué)習(xí)等個性化的功能。在應(yīng)用上，可以根據(jù)不同人的聲紋實現(xiàn)基于用戶個性喜好的功能配置，并能通過離線命令詞的自學(xué)習(xí)實現(xiàn)在輕度噪聲下的地方口音和方言的識別。

從集成度的角度來看，BNPU 2.0集成了Audio CODEC、Flash 等單元，以及雙麥陣增強(qiáng)處理能力，方案價格大約在15到25元左右。

階段三：深度降噪+深度分離+命令詞自學(xué)習(xí)2.0+離線NLP

第三代BNPU芯片，除了繼承第二代的語音識別、聲紋識別外，還支持了基于深度學(xué)習(xí)的降噪技術(shù)（深度降噪）、人聲分離技術(shù)（深度分離）、命令詞自學(xué)習(xí)2.0版本技術(shù)，以及行業(yè)首次突破性的離線NLP技術(shù)。在應(yīng)用上，CI1301可以實現(xiàn)中等噪聲中的語音識別，而CI1302、CI1303、CI1306和CI1312則可實現(xiàn)強(qiáng)噪聲環(huán)境下的語音識別，比如當(dāng)油煙機(jī)噪聲高達(dá)80dB時，對于70多dB的人聲依然可以良好識別。

從集成度的角度來看，BNPU 3.0不僅集成了Audio Codec的模擬 MIC接口、數(shù)字PDM麥克的DMIC接口、通用的ADC和MCU常見的串口、PWM、GPIO等接口，還進(jìn)一步集成了 4線Nor Flash、3路LDO的PMU和高精度的RC振蕩器等，方案價格約10元左右。

對于三代產(chǎn)品的方案價格一代更比一代低的疑問，何云鵬表示：“很多人認(rèn)為離線語音在端側(cè)、數(shù)據(jù)處理、語音識別和存儲會產(chǎn)生很多的成本，實則云上的成本是持續(xù)的，傳輸?shù)某杀臼情L時間的，這個成本可以避免；此外，云端早期建設(shè)的成本很高，很多廠家會建不起，還有每年運營的成本，每臺設(shè)備每年10多元，這個費用在賣設(shè)備的時候廠商會包兩年，但后面就要客戶自己付費，所以不太公平。而隨著摩爾定律的發(fā)展，端側(cè)語音識別方案的整體成本已呈現(xiàn)30%的速率下降，已經(jīng)達(dá)到了一個通用MCU的成本?！?/p>

除了價格以外，更值得一提的是，原本被認(rèn)為只有云端才能實現(xiàn)的NLP，現(xiàn)在輕量級的NLP在端側(cè)智能語音芯片中也實現(xiàn)了，并且既保障了用戶的體驗感，又能降低云端搭建和運營成本，降低網(wǎng)絡(luò)帶寬消耗，也能提升用戶使用的安全性。

端云融合才是語音AI芯片的最終歸宿

當(dāng)然，說云端搬到端側(cè)，實際上在很多場景下端側(cè)和云端不是非此即彼的關(guān)系，從長期來看，端側(cè)和云端是相互融合、相輔相成的關(guān)系。

隨著端側(cè)語音芯片功能、性能、可靠性變得越來越強(qiáng)大，價格越來越低，端側(cè)語音識別將實現(xiàn)可靠性、隱私保護(hù)、成本和靈活性等多方面的優(yōu)勢，再加上集成聯(lián)網(wǎng)功能可實現(xiàn)AIOT，從而實現(xiàn)大數(shù)據(jù)爆發(fā)時代下的有效數(shù)據(jù)分析和場景利用。

以空調(diào)為例，傳統(tǒng)的空調(diào)大都只有調(diào)溫的功能，但在差異化競爭的今天，大廠空調(diào)正在往機(jī)器人的方向發(fā)展，可以提供更多智慧化的服務(wù)，比如調(diào)整空氣的溫濕度、清新程度、含氧量、PM 2.5值，以及在早晨起床時放音樂營造氛圍、營養(yǎng)咨詢等。而這些服務(wù)的基礎(chǔ)是語音交互，并且一定是延遲更低、工作更穩(wěn)定的端側(cè)語音識別，而背后的服務(wù)交易、用戶的習(xí)慣大數(shù)據(jù)等則更適合放在云端，達(dá)到協(xié)同的效果。

寫在最后

國內(nèi)語音AI芯片正呈現(xiàn)出爆發(fā)式增長的趨勢，誰將成為領(lǐng)頭者？何云鵬表示：“該市場領(lǐng)域未來發(fā)展壯大后，會呈現(xiàn)典型的頭部領(lǐng)先市場通吃的局面。而啟英泰倫在語料數(shù)據(jù)、算法模型、芯片架構(gòu)、AI開發(fā)平臺及應(yīng)用方案落地等多維度的迭代已經(jīng)產(chǎn)生了馬太效應(yīng)。經(jīng)過長達(dá)近7年的發(fā)展后，啟英泰倫已經(jīng)積累了B端客戶超過5000名，平臺開發(fā)者超過1萬名，使用啟英泰倫智能語音平臺的在校AI學(xué)員則超過10萬名。如今，整個離線語音行業(yè)快速發(fā)展，年內(nèi)裝機(jī)量將突破2000萬臺，未來兩年，年出貨將朝著1億臺邁進(jìn)?！?/p>

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴