“我們一般都傾向于認為技術(shù)的進步會打破之前存在的東西,但這些通常不會發(fā)生,這可能會引導出一種不同的音樂創(chuàng)作方式。”——Jarvis Cocker,前Pulp樂隊主唱,獨唱藝術(shù)家、作家和播音員
近些年來音樂技術(shù)的發(fā)展趨向于漸進式的變化,對現(xiàn)有的聲音合成方法進行不斷的迭代改進,比如測序器和音效插件等工具。在某種程度上這個行業(yè)充滿了相互矛盾,它采用幾乎所有先進的CPU資源以便更好的模擬出70年代/80年代的復古裝備,一些公司(比如Korg、Roland和Behringer)最近發(fā)布了非常具有價格競爭力的產(chǎn)品,比如售價150英鎊的半模塊化模擬合成器,這些產(chǎn)品和技術(shù)正推動企業(yè)不斷向前發(fā)展。
AI和機器學習的顛覆性技術(shù)也在不斷得到應用,這些可以用來模擬一位有成就的表演者或作曲家的創(chuàng)作過程嗎?能達到令人信服的效果嗎?
2017年5月在未來圍棋峰會上人工智能Alpha Go向人類對手展示了完全出乎意料的操作,這一舉動可以說震驚了許多圍棋玩家,并導致人們開始重新評估如何繼續(xù)這款游戲??茖W博物館未來音樂技術(shù)小組的山姆·波特描述了這次活動的影響。
“這一招實在是太奇怪了,太獨特了,太奇異了,太有創(chuàng)意了,它打開了游戲全新的一面,讓我們了解如何用另一方式來玩這款游戲?!?/p>
神經(jīng)網(wǎng)絡可以進行重構(gòu)并可能超越傳統(tǒng)的期望,但強化學習方法的本質(zhì)意味著它必然是不透明的,導致的結(jié)果在本質(zhì)上是模糊的和不可預測的。
從谷歌 DeepMind的Wavenet開始就已經(jīng)有各種各樣的嘗試來發(fā)掘機器學習在聲音和音樂領(lǐng)域的潛力,創(chuàng)造可信的語音相當于聽覺上的“恐怖谷”現(xiàn)象,因為它既要求語音如何發(fā)生的現(xiàn)實綜合模型,也要求語調(diào)如何表現(xiàn)。對符合上下文的變化進行編碼是一個非常巨大的挑戰(zhàn),由于我們對語速、音高或整體表達的不準確十分敏感,我們經(jīng)常被提醒要注意合成語音的生成本質(zhì),Wavenet和微軟的神經(jīng)網(wǎng)路驅(qū)動的語音生成演示使用了在人類真實語音上訓練過的算法,這使得合成模型能夠創(chuàng)造出比傳統(tǒng)語音合成方法更令人信服的性能。

谷歌發(fā)布神經(jīng)網(wǎng)絡音頻合成器Nsynth
在Wavenet的引領(lǐng)下,谷歌的Magenta團隊使用Tensorflow(一款GPU加速的機器學習庫)來嘗試構(gòu)建一個音頻合成器,Nsynth(神經(jīng)網(wǎng)絡合成器)分析現(xiàn)有的音頻對列構(gòu)建出新的音頻,但是明顯不同于音頻源,編碼階段會考慮源音頻的質(zhì)量和特性以及它們的時序特性,從而生成傳統(tǒng)方式難以輸出的音頻效果。
上世紀90年代當布萊恩·伊諾(Brain Eno)使用Koan軟件制作了他的軟盤專輯“新生代音樂1”,SSEYO公司推出的Koan軟件一舉成名,這是早期采用計算機輔助合成的一個例子,藝術(shù)家可以自由的使用他們創(chuàng)造性的想法來選擇、編輯、排列或者采用程序的建議來創(chuàng)作音樂。盡管Koan軟件完全是采用算法生成的,但它仍是依賴人工操作的生成器,這類生成器僅限于特定范圍的音樂形式,而Amper Music和IBM推出的Watson Beat可以通過分析真實的音樂短語和“語法”來生成音樂,這要歸功于機器學習工具(比如Magenta)背后的處理能力,這種方式創(chuàng)作的音樂即使不能完全讓人信服,但已經(jīng)接近圖靈測試的音樂等效標準了。
“采用AI制作我們喜歡的音樂真的可以嗎?布萊恩·伊諾(Brain Eno)認為這大概需要6到7年的時間。”——薩姆·波特,音樂家兼作家
“無人之地(一款科幻題材的游戲)”中的生物生成表
“無人之地”中的所有生物都是由程序生成的,每一個都需要一個真實的聲音來與其匹配。
機器學習在這一性能方面可能蘊藏著巨大的潛力,在游戲“無人之地”中我們使用了物理建模的聲道來創(chuàng)造程序生成的聲音,然而為了讓聲音聽起來更有說服力,需要向演奏樂器一樣操作合成器,使用算法來驅(qū)動性能,比如Perlin噪聲轉(zhuǎn)換為基于時間的音頻域效果很差,導致聽起來像機器人,我們采用基于MIDI性能捕捉短語庫來驅(qū)動聲樂的解決方案已經(jīng)足夠有效了,但是如果能夠采用基于多種音頻源的訓練過程來學習并推斷出不同的情緒狀態(tài)將是一個更好的方案。
這些技術(shù)所帶來的影響不僅僅局限在音頻生成或音樂領(lǐng)域,Mastering (母帶處理)是音樂發(fā)行前的最后一個混音處理階段,在這一階段音軌會應用一系列DSP效果,比如壓縮、EQ等,使得音樂達到最后的潤色效果,母帶處理和發(fā)行公司LANDR就利用機器學習技術(shù),創(chuàng)作者可以選擇一種母帶風格從而最好的匹配正在處理的音樂類型,這些風格來自于基于現(xiàn)有音頻源訓練的過程。
機器學習在音頻制作領(lǐng)域的應用還有很多,從創(chuàng)造出新的聲音到模仿人類的聲音,以及最后階段的出版發(fā)行,這些工具的共同之處在于能夠增強創(chuàng)作過程而不是完全取代它。這其實提供了新的創(chuàng)造機會,同時音樂家們可以根據(jù)自己的創(chuàng)作決策形成新的音樂風格。
-
AI
+關(guān)注
關(guān)注
91文章
39130瀏覽量
299792 -
機器學習
+關(guān)注
關(guān)注
66文章
8546瀏覽量
136539
原文標題:AI如何引領(lǐng)音樂技術(shù)的未來發(fā)展?
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
《AI芯片:科技探索與AGI愿景》—— 勾勒計算未來的戰(zhàn)略羅盤
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽
AI的未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”
【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》
貿(mào)澤電子2025邊緣AI與機器學習技術(shù)創(chuàng)新論壇回顧(上)
阿里展廳同款無人超市技術(shù)解析:RFID與AI視覺如何顛覆零售?
Nordic收購 Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析
貿(mào)澤電子2025技術(shù)創(chuàng)新論壇探討“邊緣AI與機器學習”新紀元
智聚邊緣 創(chuàng)見未來 貿(mào)澤電子2025技術(shù)創(chuàng)新論壇探討“邊緣AI與機器學習”新紀元
【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+ 入門篇學習
面向AI與機器學習應用的開發(fā)平臺 AMD/Xilinx Versal? AI Edge VEK280
AI、機器學習顛覆未來音樂技術(shù)
評論