日本一级爽快片婬片高清特级,无码网站一区二区三区

人工智能(AI)潛在的應用與日俱增。不同的神經(jīng)網(wǎng)絡(NN)架構(gòu)能力經(jīng)過測試、調(diào)整和改進，解決了不同的問題，也開發(fā)出以AI優(yōu)化數(shù)據(jù)分析的各種方法。當今大部份的AI應用，例如Google翻譯(Google Translate)和亞馬遜(Amazon) Alexa語音識別和視覺識別系統(tǒng)，都利用了云端的力量。

藉由依賴常時連網(wǎng)(always-on)的因特網(wǎng)聯(lián)機、高帶寬鏈路和網(wǎng)絡服務，物聯(lián)網(wǎng)(IoT)產(chǎn)品和智能手機應用也可以整合AI功能。到目前為止，大部份的注意力都集中在基于視覺的人工智能上，部份原因在于它易于出現(xiàn)在新聞報導和視頻中，另外一部份的原因則是它更類似于人類的活動。

在影像識別中，針對一個2D影像進行分析——每次處理一組像素，透過神經(jīng)網(wǎng)絡的連續(xù)層識別更大的特征點。一開始檢測到的邊緣是具有高對比度差異的部份。以人臉為例，最早識別的部位是在眼睛、鼻子和嘴巴等特征外圍。隨著檢測過程深入神經(jīng)網(wǎng)絡，將會檢測到整個臉部的特征。

而在最后階段，結(jié)合這些特征及其位置信息，就能在可用的數(shù)據(jù)庫中識別到具有最匹配的一張?zhí)囟ㄈ四槨?/span>

神經(jīng)網(wǎng)絡的特征提取

為了匹配經(jīng)由相機拍攝或擷取的物體，希望能透過神經(jīng)網(wǎng)絡在其數(shù)據(jù)庫中找到匹配機率最高的人臉。其巧妙之處在于擷取物體時并不需要與數(shù)據(jù)庫中的照片拍攝角度或場景完全相同，也不必處于相同的光線條件下。

AI這么快就流行起來，在很大程度上是因為開放的軟件工具(也稱為架構(gòu))，使得建構(gòu)和訓練神經(jīng)網(wǎng)絡實現(xiàn)目標應用變得容易起來，即使是使用各種不同的編程語言。兩個常見的通用架構(gòu)是TensorFlow和Caffe。對于已知的識別目標，可以脫機定義和訓練神經(jīng)網(wǎng)絡。一旦訓練完成，神經(jīng)網(wǎng)絡就可以很容易地部署到嵌入式平臺上。這是一種很聰明的劃分方式，能夠藉由開發(fā)PC或云端的力量來訓練神經(jīng)網(wǎng)絡，而功耗敏感的嵌入式處理器只需為了識別目的而使用訓練數(shù)據(jù)。

這種類似人類的人/物識別能力與流行的應用密切相關(guān)，例如工業(yè)機器人和自動駕駛車。然而，人工智能在音頻領(lǐng)域同樣具有吸引力和強大的能力。它采用和影像特征分析同樣的方式，可以將音頻分解成特征點而饋入神經(jīng)網(wǎng)絡。其中一種方法是使用梅爾頻率倒譜系數(shù)(MFCC)將音頻分解成有用的特性。一開始，音頻樣本被分解成短時間的訊框，例如20ms，然后再對信號進行傅利葉轉(zhuǎn)換(Fourier transforms)，使用重迭三角窗將音頻頻譜的功率映像到非線性尺度上。

聲音神經(jīng)網(wǎng)絡分解圖

透過這些提取的特征，神經(jīng)網(wǎng)絡可以用來確定音頻樣本和音頻樣本數(shù)據(jù)庫中詞匯或者語音的相似度。就像影像識別一樣，神經(jīng)網(wǎng)絡為特定詞匯在數(shù)據(jù)庫中提取了可能的匹配。對于那些想要復制Google和亞馬遜的‘OK Google’或‘Alexa’語音觸發(fā)(VT)功能的業(yè)者來說，KITT.AI透過Snowboy提供了一個解決方案。觸發(fā)關(guān)鍵詞可以上傳到他們的平臺進行分析，導出一個檔案后再整合進嵌入式平臺上的Snowboy應用程序，這樣語音觸發(fā)(VT)的關(guān)鍵詞在脫機情況下也可以被檢測到。音頻識別并不局限于語言識別。TensorFlow提供了一個iOS上的示例，可以區(qū)分男性和女性的聲音。

另一個替代應用是檢測我們居住的城市和住宅周圍動物和其他聲音。這已經(jīng)由安裝在英國倫敦伊麗莎白女王奧林匹克公園(Queen Elizabeth Olympic Park)的深度學習蝙蝠監(jiān)控系統(tǒng)驗證過了。它提供了將視覺和聽覺識別神經(jīng)網(wǎng)絡整合于一個平臺的可能性。例如透過音頻識別別特定的聲音，可以用來觸發(fā)安全系統(tǒng)進行錄像。

有很多基于云端的AI應用是不實際的，一方面存在數(shù)據(jù)隱私的問題，另一方面由于數(shù)據(jù)連接性差或帶寬不夠造成服務不能持續(xù)。另外，實時性能也是一個值得關(guān)注的問題。例如工業(yè)制造系統(tǒng)需要實時響應，以便實時操作生產(chǎn)線，如果連接云端服務的延遲就太長了。

因此，將AI功能移動到“邊緣”(edge)越來越受到關(guān)注。也就是說，在使用中的裝置上發(fā)揮人工智能的力量。很多IP供貨商都提供了解決方案，如CEVA的CEVA-X2和NeuPro IP核心和配套軟件，都很容易和現(xiàn)有的神經(jīng)網(wǎng)絡架構(gòu)進行整合。這為開發(fā)具備人工智能的嵌入式系統(tǒng)提供了可能性，同時提供了低功耗處理器的靈活性。以一個語音識別系統(tǒng)為例，可以利用整合在芯片上的功耗優(yōu)化人工智能，以識別一個語音觸發(fā)關(guān)鍵詞和語音命令(VC)的最小化組合。更復雜的語音命令和功能，可以在應用從低功耗的語音觸發(fā)狀態(tài)下喚醒之后，由基于云端的AI完成。

最后，卷積神經(jīng)網(wǎng)絡(CNN)也可以用來提高文本到語音(TTS)系統(tǒng)的質(zhì)量。一直以來，TTS用于將同一個配音員的許多高質(zhì)量錄音片段，整合成連續(xù)的聲音。雖然所輸出的結(jié)果是人類可以理解的，但由于輸出結(jié)果存在奇怪的語調(diào)和音調(diào)，仍然感覺像是機器人的聲音。如果試圖表現(xiàn)出不同的情緒則需要一組全新的錄音。Google的WaveNet改善了當前的情況，透過CNN以每秒16,000個樣本產(chǎn)生TTS波形。與之前的聲音樣本相比，其輸出結(jié)果是無縫連接的，明顯表現(xiàn)出更自然、更高質(zhì)量的聲音。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴