Google旗下的DeepMind研發(fā)的AlphaGo4:1戰(zhàn)勝了圍棋九段李世石,引起了全世界范圍的轟動(dòng)。2016年底,AlphaGo又以Master的身份復(fù)出,與中日韓數(shù)十位高手進(jìn)行快棋對(duì)決,連續(xù)60局AI大獲全勝。這回柯潔也無(wú)話可說(shuō)了。
緊接著,卡內(nèi)基梅隆大學(xué)研發(fā)的Libratus又在德州撲克戰(zhàn)勝了4位全球頂級(jí)職業(yè)玩家。與圍棋不同,德州撲克屬于不對(duì)稱信息游戲,玩家要猜測(cè)對(duì)方手牌,還要猜測(cè)對(duì)方的心思。輸?shù)腻X最少的金東(Dong Kim)賽后表示,比賽之前完全沒(méi)有想到AI這么強(qiáng)大,跟開掛了一樣似乎能夠看到自己的手牌。
雖然像Google,F(xiàn)acebook,Microsoft,Apple這些頂尖互聯(lián)網(wǎng)公司都在大力布局AI和深度學(xué)習(xí),但是在現(xiàn)實(shí)生活中并沒(méi)有出現(xiàn)AI的大規(guī)模應(yīng)用。我們每天接觸的AI,也不過(guò)是無(wú)聊的時(shí)候調(diào)戲一下Siri。
AI之所以未能在日常生主要活中普及,很大程度上是因?yàn)榻^大多數(shù)互聯(lián)網(wǎng)公司都在脫離產(chǎn)業(yè)去研發(fā)底層算法。
換句話說(shuō),懂AI和深度學(xué)習(xí)技術(shù)的科學(xué)家,不了解產(chǎn)業(yè)內(nèi)的實(shí)際問(wèn)題,而產(chǎn)業(yè)內(nèi)的企業(yè),對(duì)AI這類技術(shù)也是不敢觸及?!?/p>
深度學(xué)習(xí)到底是什么?
AlphaGo,Libratus還有各種自動(dòng)駕駛技術(shù)有什么共性呢?那就是運(yùn)用最新的深度學(xué)習(xí)(Deep Learning)算法。深度學(xué)習(xí)涉及到的較深的數(shù)學(xué)知識(shí),同時(shí)考慮到讀者未必有深厚的理工科背景,我盡可能以一種最通俗易懂的方式來(lái)介紹一下深度學(xué)習(xí)。
傳統(tǒng)的機(jī)器學(xué)習(xí)(Machine Learning)一般用于處理那些具有簡(jiǎn)單規(guī)律的數(shù)字。例如,已知這幾年的全球變暖,預(yù)測(cè)未來(lái)的趨勢(shì),或者是那些喜歡周杰倫歌的用戶還會(huì)喜歡誰(shuí)的歌曲。而對(duì)于許多復(fù)雜的數(shù)據(jù),就很難用簡(jiǎn)單的數(shù)學(xué)公式來(lái)回答了。例如我們?nèi)绻麨樨埖臉幼诱乙粋€(gè)數(shù)學(xué)公式,那一定是非常復(fù)雜的,因?yàn)榭赡艽嬖诤谪?、白貓、花貓,坐著的、躺著的和正在捕老鼠的——然而深度學(xué)習(xí)就可以做到對(duì)圖像、聲音、文字等復(fù)雜對(duì)象的識(shí)別和分析。
深度學(xué)習(xí)這個(gè)技術(shù),我們記住以下幾點(diǎn)就行了。
1、深度學(xué)習(xí)能夠把兩種不同的復(fù)雜的數(shù)據(jù)關(guān)聯(lián)起來(lái)
只要有足夠多的圖片標(biāo)注好其對(duì)應(yīng)的文字,通過(guò)深度學(xué)習(xí)就可以預(yù)測(cè)類似圖片所對(duì)應(yīng)的文字了。
把圖片替換成聲音,深度學(xué)習(xí)就由圖片識(shí)別變?yōu)槁曇糇R(shí)別。如果標(biāo)注的是聲音對(duì)應(yīng)的正文,就可以做語(yǔ)音識(shí)別,如果標(biāo)注的是講話的人,就可以做聲紋識(shí)別。把對(duì)應(yīng)的過(guò)程顛倒過(guò)來(lái),就可以做語(yǔ)音合成。
不僅圖像可以和文字對(duì)應(yīng),圖像還可以和圖像自己對(duì)應(yīng),例如可以把素描的圖像與真實(shí)照片對(duì)應(yīng),或者是把真實(shí)照片與藝術(shù)照對(duì)應(yīng)。
文字也可以與文字進(jìn)行對(duì)應(yīng)。中文對(duì)應(yīng)成英文,就可以做翻譯。把長(zhǎng)的新聞報(bào)道與其總結(jié)做對(duì)應(yīng)就可以自動(dòng)生成新聞標(biāo)題。把說(shuō)話與其潛在的回應(yīng)對(duì)應(yīng),就可以做聊天機(jī)器人。排列組合的情況非常多,例如自動(dòng)駕駛技術(shù)的基本原理就是圖片與方向盤/油門/剎車的對(duì)應(yīng)。當(dāng)然實(shí)踐中,并不是簡(jiǎn)單這么一下就對(duì)應(yīng)出來(lái)的,需要用到不同類型的深度學(xué)習(xí)網(wǎng)絡(luò)例如CNN/RNN/LSTM/GAN等等,在這里就不展開了,有興趣了解的可以去網(wǎng)上搜一下。
2、相比于人的學(xué)習(xí),深度學(xué)習(xí)需要非常多倍的數(shù)據(jù)量
目前深度學(xué)習(xí)的一大瓶頸就是想要準(zhǔn)確率高,就得有大量的人工標(biāo)注數(shù)據(jù)(supervised learning)。舉一個(gè)例子,一個(gè)從未見過(guò)袋鼠的人,只需要看一只袋鼠的一兩張照片就能識(shí)別出接下來(lái)看到的照片是不是袋鼠。而在imagenet里,每一個(gè)標(biāo)注的類別(例如袋鼠、卡車)都需要出現(xiàn)上千遍,電腦才能學(xué)會(huì)。同樣,DeepMind訓(xùn)練電腦玩游戲,都是幾千盤后電腦才能學(xué)會(huì),而一般人十幾盤就已經(jīng)上手了。就算是Alphago,Libratus能下得過(guò)頂尖人類高手,可是他們跟自己下的盤數(shù)遠(yuǎn)遠(yuǎn)超過(guò)頂尖高手這輩子下的棋盤個(gè)數(shù)。
從這個(gè)角度來(lái)講,深度學(xué)習(xí)是比人要更“笨”的,在同樣數(shù)據(jù)量的情況下,深度學(xué)習(xí)算法的總結(jié)歸納能力是更弱的——未來(lái)的算法(所謂One-shot Learning)應(yīng)該會(huì)在這個(gè)方向上有所突破。
3、不僅深度學(xué)習(xí)工具是開源免費(fèi)的,絕大多數(shù)深度學(xué)習(xí)算法甚至模型都是開源的
深度學(xué)習(xí)領(lǐng)域這幾年的發(fā)展速度迅猛,絕大多數(shù)科研從業(yè)者已經(jīng)摒棄了傳統(tǒng)發(fā)論文、審論文幾個(gè)月的周期,而是第一時(shí)間會(huì)把自己的論文公開上傳到國(guó)外的Arxiv網(wǎng)站。這大幅度加快了傳統(tǒng)科研的速度,往往剛一出來(lái)新的結(jié)果,不到幾周的時(shí)間,就有更新的結(jié)果超越了原有的算法。不僅如此,大量的代碼被開源放在Github上(之前的所有示例都可以在Github上找到開源項(xiàng)目),于是企業(yè)運(yùn)用AI的時(shí)候,絕大多數(shù)不需要去做算法上的基礎(chǔ)研究,而只需要去調(diào)研并使用國(guó)際上最新的科研結(jié)構(gòu)即可。企業(yè)完全可以把底層的深度學(xué)習(xí)工具當(dāng)做一個(gè)黑盒直接去使用,真正做的工作不過(guò)是建立足夠多的人工標(biāo)注數(shù)據(jù)以及對(duì)于深度學(xué)習(xí)原始結(jié)果的簡(jiǎn)單加工和封裝。
4、深度學(xué)習(xí)距離真正的通用AI還很遙遠(yuǎn)
深度學(xué)習(xí)目前就像一個(gè)把3-4歲的小孩,能夠汽車的圖片,汽車這個(gè)單詞,還有汽車的聲音建立聯(lián)系。本質(zhì)上它能夠把復(fù)雜數(shù)據(jù)對(duì)應(yīng)起來(lái),但是還有許多是做不到的,例如:與人進(jìn)行有意義的對(duì)話;寫出具有邏輯性的文章;在即將發(fā)生車禍時(shí),做出道德判斷;編寫計(jì)算機(jī)程序。
但這并不妨礙我們?cè)谶@個(gè)階段里在產(chǎn)業(yè)中使用深度學(xué)習(xí)。
第二,AI怎么和教育進(jìn)行結(jié)合?
在前一部分我們解釋了基于深度學(xué)習(xí)的AI有哪些潛力。這部分我們從圖像、聲音、文字、自適應(yīng)學(xué)習(xí)幾個(gè)不同的角度來(lái)看深度學(xué)習(xí)與教育產(chǎn)業(yè)的結(jié)合點(diǎn)有哪些。
2.1圖像篇
目前使用圖像識(shí)別最主流的應(yīng)用就是拍照搜題,典型代表是作業(yè)幫、學(xué)霸君、小猿搜題、阿凡題……
傳統(tǒng)的K12應(yīng)用更多是停留在學(xué)生需要主動(dòng)上來(lái)去看視頻和做題,這本身對(duì)于學(xué)生來(lái)講是很難有學(xué)習(xí)場(chǎng)景的。而拍照搜題則是學(xué)生帶著問(wèn)題和困惑來(lái)學(xué)習(xí)的,所以我們也看到拍照搜題App是所有K12應(yīng)用里活躍度最高的。拍照搜題的核心技術(shù)就是把圖片與文字做對(duì)應(yīng)在,然后再去做文字與已有題庫(kù)的匹配,上文中我們也提到由于開源技術(shù)的普及,圖像識(shí)別已經(jīng)不再有之前的門檻了,現(xiàn)在最大的門檻反倒是品牌和題庫(kù)的大小。
當(dāng)然拍照搜題本身是非常具有爭(zhēng)議性的。如果學(xué)生是在遇到困難并且思考后,通過(guò)手機(jī)獲得答案,這是一個(gè)很好的自主學(xué)習(xí)過(guò)程。但如果是無(wú)腦地把所有答案抄到練習(xí)冊(cè)上,就沒(méi)有任何學(xué)習(xí)意義了。不輪爭(zhēng)議的結(jié)果如何,有一件事情是值得肯定得,那就是拍照搜題打破了只有老師才有標(biāo)準(zhǔn)答案的壟斷,老師在布置作業(yè)時(shí),面臨的思考是,當(dāng)所有學(xué)生都有正確答案時(shí),怎么讓學(xué)生認(rèn)真去練習(xí)。
除了拍題識(shí)別以外,手寫識(shí)別準(zhǔn)確率也逐漸在提高,有一些專門的企業(yè)還會(huì)做針對(duì)公式、科學(xué)符號(hào)的識(shí)別,這里也就不展開了。
未來(lái)可以預(yù)見到的圖像識(shí)別與教育結(jié)合的三點(diǎn):
2.1.1打通紙質(zhì)書籍與在線教育
幾千年來(lái),傳統(tǒng)紙質(zhì)書籍承載了幾乎全部的人類知識(shí)。然而這些紙上的圖文知識(shí)與互動(dòng)性強(qiáng)/展現(xiàn)形式豐富的在線教育形成了明顯的反差。雖然現(xiàn)在的AR書籍都是以AR作為噱頭。但圖像識(shí)別和增強(qiáng)現(xiàn)實(shí)有潛力讓過(guò)去的紙質(zhì)書籍再次迎來(lái)新生,讓他們?cè)趶氐紫е埃蔀樽髡吲c讀者、讀者與讀者之間一個(gè)全新的學(xué)習(xí)交流渠道。有了足夠強(qiáng)大的圖像識(shí)別技術(shù),書無(wú)需嵌入二維碼,書的內(nèi)容本身就是“二維碼”?!冻笮▲啞纷兂闪?D的游戲,《新概念》可以直接評(píng)判自己朗讀的水平,《紅樓夢(mèng)》的經(jīng)典段落有著上萬(wàn)名讀者的批閱,《三體》則直接可以和大劉線上交流。
2.1.2打通真實(shí)可見的世界與在線教育
微軟之前推出一個(gè)App《微軟識(shí)花》,雖然交互體驗(yàn)和識(shí)別率都不夠理想,但是它代表了一種新的學(xué)習(xí)方式,所見即所學(xué),或者即時(shí)學(xué)習(xí)(Just-in-time learning)。未來(lái)一定會(huì)有底層的技術(shù)提供商以較高的準(zhǔn)確率和較低的延遲識(shí)別畫面里的物體——學(xué)習(xí)語(yǔ)言和科學(xué),不再是圍繞著“單詞”或“概念”,而是更加圍繞用戶所在的真實(shí)“場(chǎng)景”。
2.1.3動(dòng)作捕捉與在線教育
大量的體育、樂(lè)器、武術(shù)、舞蹈、繪畫難以做在線教育的根本原因是因?yàn)槿狈虒W(xué)者對(duì)學(xué)習(xí)者的姿態(tài)給出及時(shí)有效的反饋。隨著視覺(jué)動(dòng)作捕捉技術(shù)的成熟,成本逐漸下降(當(dāng)然也不排除基于可穿戴設(shè)備的方案),每一個(gè)學(xué)習(xí)者都能享受頂尖AI教練一對(duì)一的個(gè)性化指導(dǎo)。
對(duì)于教育機(jī)構(gòu)來(lái)講,動(dòng)作捕捉,尤其是人臉捕捉是保護(hù)自己IP的全新方式。機(jī)構(gòu)對(duì)名師那是又愛(ài)又恨——名師可以帶來(lái)大量?jī)?yōu)質(zhì)生源,也可以隨時(shí)把優(yōu)質(zhì)生源帶走??墒侨绻宫F(xiàn)在學(xué)生面前的不是一個(gè)真實(shí)面孔,而是一個(gè)例如“初音未來(lái)”的虛擬IP形象,那么最終學(xué)生認(rèn)同的是這個(gè)形象而非具體的老師。
2.2聲音篇
講完圖片接下來(lái)我們講講聲音與ai的結(jié)合點(diǎn)。目前使用聲音最主流的應(yīng)用就是語(yǔ)音評(píng)測(cè),也就是學(xué)生說(shuō)一句話,機(jī)器給打分,典型代表是訊飛、流利說(shuō)、一起作業(yè)、盒子魚……
主要的契機(jī)是不論是學(xué)生還是家長(zhǎng),還是學(xué)校和教委都逐漸對(duì)于英語(yǔ)口語(yǔ)這件事情重視起來(lái)了。雖然高考表面上是“弱化英語(yǔ)”了,但實(shí)際上如果要上名校,英語(yǔ),尤其英語(yǔ)口語(yǔ)所占的比重是要比過(guò)去更大。而目前絕大多數(shù)市面上的口語(yǔ)學(xué)習(xí)App的口語(yǔ)評(píng)測(cè)的水平就是評(píng)判規(guī)定的一句話的發(fā)音準(zhǔn)確度,或者是半開放式的交流。而真正的難點(diǎn)是評(píng)估開放性的對(duì)話的好壞——其實(shí)這部分更多還是下一部分要講的文字識(shí)別。訊飛已經(jīng)在這個(gè)方向上與國(guó)家多個(gè)省簽約合作,嘗試做高考開放式口語(yǔ)題目的自動(dòng)批改,這也與接下來(lái)要介紹的NLP有直接關(guān)聯(lián)。
聲音最大的未來(lái)應(yīng)用一個(gè)是做出人耳分辨不出來(lái)的語(yǔ)音合成。目前Google的Wavenet已經(jīng)接近這個(gè)水平只不過(guò)運(yùn)算起來(lái)非常慢,百度近期也對(duì)這個(gè)結(jié)果的性能進(jìn)行了優(yōu)化。另一個(gè)則是把語(yǔ)音識(shí)別率再提升一個(gè)新的檔次。這兩項(xiàng)工作都是在可預(yù)見的兩三年內(nèi)會(huì)實(shí)現(xiàn)并且普及起來(lái)的。到時(shí)候,配合上虛擬的IP形象,許多一線教師就會(huì)逐漸意識(shí)到自己可能會(huì)從“臺(tái)前”轉(zhuǎn)向“幕后”,甚至面臨著失業(yè)的風(fēng)險(xiǎn)。
另外,聲音識(shí)別在音樂(lè)教學(xué)這個(gè)細(xì)分領(lǐng)域也會(huì)有一些應(yīng)用,這塊就不展開了。
2.3文字篇(NLP)
文字處理,也就是所謂自然語(yǔ)言處理(簡(jiǎn)稱NLP),在傳統(tǒng)教育的最大應(yīng)用就是作文的自動(dòng)批改,由于市場(chǎng)較小,所以在這里也就不展開了。
我們來(lái)思考一件事情,人類99%的知識(shí)都是以文字的形勢(shì)記錄下來(lái)的。
老師講課,最重要不是他的面孔和他的音色,而是他所說(shuō)的話。同理,真正的在線教育與AI的最重要的結(jié)合點(diǎn)既不是聲音,也不是圖像,而是文字。在我們之前的論述里,只要文字確定好了,我們就可以合成出最磁性的聲音配合最帥氣的虛擬臉蛋,所有在線教育并不需要“固定的視頻”。如果講課內(nèi)容,也就是文字是變化的,那就相當(dāng)于每一個(gè)學(xué)生會(huì)有一個(gè)針對(duì)性的一對(duì)一老師。
AI對(duì)于在線教育要解決的大問(wèn)題是,如何把課本上死的知識(shí),變成老師給學(xué)生的對(duì)話。這里的技術(shù)挑戰(zhàn)就非常多了,包括:
1、自動(dòng)解題能力——能夠根據(jù)題目自動(dòng)得出詳細(xì)解析;
2、作業(yè)智能批改能力——這里說(shuō)的不只是批改選擇判斷題,而是能夠?qū)W(xué)生的做題過(guò)程進(jìn)行批改;
3、智能答疑能力——能夠回答學(xué)科相關(guān)問(wèn)題;
4、自適應(yīng)對(duì)話能力——感知到學(xué)生的學(xué)習(xí)狀態(tài)并且不斷地給出相應(yīng)的互動(dòng)。
目前這四個(gè)問(wèn)題的所有解決方案都是基于人工編寫的規(guī)則,而不是利用AI。但是這方面科技發(fā)展也非??欤瑖?guó)外已經(jīng)有Geosolver在試圖解決第一道題,國(guó)內(nèi)也有團(tuán)隊(duì)在試圖做“高考機(jī)器人”。
2.4自適應(yīng)篇
目前市面上的自適應(yīng)產(chǎn)品,都是基于人工梳理的教學(xué)模型+簡(jiǎn)單的數(shù)學(xué)建?!a(chǎn)品形態(tài)也比較簡(jiǎn)單,根據(jù)學(xué)生做題的對(duì)錯(cuò),評(píng)估其知識(shí)點(diǎn)的掌握程度。其中的典型就是Knewton、可汗學(xué)院和猿題庫(kù),他們所采用的IRT算法早已開源。實(shí)踐中,真正耗時(shí)耗力的是教研,而且這還是在做得非常粗糙的情況下。畢竟絕大多數(shù)自適應(yīng)學(xué)習(xí)產(chǎn)品只關(guān)心一道題的對(duì)錯(cuò),而無(wú)法判別具體“為什么”錯(cuò)了——同一道填空題,不同的學(xué)生答案老師一眼就能看出是哪一個(gè)知識(shí)點(diǎn)掌握不到家,而系統(tǒng)一遍就只能歸結(jié)于固定的一個(gè)知識(shí)點(diǎn)。至于證明題,解答題更是現(xiàn)有自適應(yīng)產(chǎn)品無(wú)法解決的。
所以真正的自適應(yīng)的依賴條件依然是之前所提到的NLP/文字處理能力。只有當(dāng)算法能夠看到題目知道正確答案,看到題目知道出題人的意思,看到錯(cuò)誤的答案就知道哪個(gè)知識(shí)點(diǎn)掌握不到家時(shí),在線教育就會(huì)出現(xiàn)全新的洗牌,自適應(yīng)也會(huì)成為所有學(xué)習(xí)的主流方式。
? ? ? 責(zé)任編輯:tzh
評(píng)論