真相并不是這樣的。
目前人工智能的深度學習算法是建立在大數(shù)據(jù)的基礎(chǔ)上的,人工智能在工作過程中首先要對大數(shù)據(jù)進行挖掘,然后再利用大數(shù)據(jù)訓練人工智能模型。
對于圖片數(shù)據(jù)來說,這一工作說起來好像很簡單,但實際上整個工作過程并不智能,這背后隱藏著一個賺錢十分辛苦而且工作內(nèi)容非常枯燥的勞動密集型的產(chǎn)業(yè)。
人工智能女神李飛飛開創(chuàng)“數(shù)據(jù)標注”產(chǎn)業(yè)
2005年,當時還沒有出名的李飛飛進入了斯坦福大學人工智能實驗室,選擇了當時還很冷門的研究方向——計算機視覺圖像識別。
計算機視覺圖象識別,主要目的讓計算機讀懂圖像——對計算機來說,每一張圖片都是3個矩陣按照不同權(quán)重疊加的結(jié)果,這3個數(shù)學上的矩陣被稱為RGB顏色矩陣。
對于自動駕駛來說,計算機要從這三個矩陣中找出紅綠燈與斑馬線的位置,難度其實是很高的。對于人工智能安防監(jiān)控來說,也是一樣的道理,基礎(chǔ)的人臉識別需要用到很復(fù)雜的算法。
這些事情看起來十分困難。因為要讓計算機識別“斑馬線”、“紅綠燈”、“人臉”其實就好像我們要訓練一只小狗,讓它過馬路的時候要走斑馬線,要看得懂紅綠燈標志,要記得住路上行人的相貌一樣。但實際上小狗的智商遠比計算機要高得多,因此訓練計算機做機器視覺遠比訓練小狗來得困難。
在2005年,計算機可識別的物體非常稀少。李飛飛與她的研究團隊從互聯(lián)網(wǎng)上下載了近10億張圖片,然后試圖對這些圖片進行分類、打上標簽,為計算機提供學習用的“題庫”。這個“題庫”后來發(fā)展為著名的ImageNet。
那么,怎么樣才可以把10億張圖片分類打上標簽?zāi)??以一個人每天可以分類1000張圖片來計算工作量,10億張圖片需要一個人干上100萬天,也就是2740年。這是一個巨大的工作量。李飛飛曾想過雇用大學生來完成這個工作,預(yù)計支付給每人10美元一小時的工資來做人工歸類,但用她能找到的大學生來人工完成這個項目需要90年的時間,而且開支是一個天文數(shù)字。所以,最后李飛飛只能去找更便宜更快速的方法。
后來,李飛飛找到了一種更快速的方式,這就是亞馬遜的眾包平臺。通過眾包平臺,李飛飛在網(wǎng)上雇傭到了5萬人,請他們?yōu)檫@10億張圖片分類、打標簽。
到2009年,李飛飛主導的ImageNet數(shù)據(jù)庫就包含了1500萬張已經(jīng)標注好的照片,這是一筆非常可貴的數(shù)據(jù)財富。李飛飛把這個圖片數(shù)據(jù)庫免費開放使用,極大地造福了全球所有致力于計算機視覺識別的研究團隊。
李飛飛所開創(chuàng)的這個行業(yè),后來在人工智能領(lǐng)域被稱為“數(shù)據(jù)標注”。目前,這一行業(yè)已經(jīng)在中國形成了一個勞動密集型產(chǎn)業(yè)。
數(shù)據(jù)標注產(chǎn)業(yè)是人工智能的“富士康”
在人工智能的光環(huán)背后,數(shù)據(jù)標注產(chǎn)業(yè)其實由一個個類似于“富士康”的勞動密集型工廠組成的。
在這些工廠里往往布滿了一排排的電腦,這些電腦屏幕上是各個被放大的物體圖像的細節(jié),還有一個一個標注框。數(shù)據(jù)標注員的工作內(nèi)容包括拉框標點,打標簽,分割,批注等等。
其中對圖片最常見的分類就是打標簽,比如有一種打標簽的方法是描點標注,一般用于細致的人臉標注:這需要在人臉的眉毛、眼睛、鼻子、嘴巴等關(guān)鍵部位做二十多個標記點——這個過程很像微軟的KINECT的骨架圖,也類似于數(shù)學上的“三角剖分”。
硅谷動力君在網(wǎng)上查閱了做數(shù)據(jù)標注的公司——“北京博雅海圖數(shù)據(jù)服務(wù)有限公司”。該公司是這樣介紹自己的:博雅數(shù)據(jù)相繼成立以“博雅上海”、“博雅北京”、“博雅溫哥華”三家子公司,同時又在衡水、濟南、武漢、西安等城市建立了自己的數(shù)據(jù)加工中心,目前是國內(nèi)生產(chǎn)規(guī)模較大的數(shù)據(jù)錄入服務(wù)企業(yè),現(xiàn)全職錄入員超過200人,博雅的管理人員,均從事錄入行業(yè)五年以上,具有良好的敬業(yè)精神和團隊精神。
從“博雅海圖數(shù)據(jù)服務(wù)”的相關(guān)介紹來看,該公司在河北、山東、山西與湖北建立了自己的數(shù)據(jù)加工中心,這些數(shù)據(jù)加工中心有一部分業(yè)務(wù)就是為人工智能企業(yè)提供“數(shù)據(jù)標注”服務(wù)。
另據(jù)報道,翊澳數(shù)據(jù)也是一家類似的數(shù)據(jù)標注公司,其在河南的十幾個縣市里建立了類似的數(shù)據(jù)標注工廠。為什么要在河南的縣城建立這樣的工廠呢?原來“下面這些地方場地租金更便宜,員工工資也低,更省成本。”所以,這也讓這些工廠看起來像“富士康”,服務(wù)于“高科技”,但實際上卻是“勞動密集型產(chǎn)業(yè)”。
因為數(shù)據(jù)標注其實沒有什么技術(shù)難度,只要有會用電腦的初中生就可以勝任這樣的工作。整個工作流程也相對單一,只需要把圖片中的事物識別出來,然后在圖片上標記出來就可以了。但這個工作需要一個工人每天處理上千張圖片,工作內(nèi)容相對單一,眼睛也十分疲憊。所以,很多人因為忍受不了如此高強度的視力勞動,選擇了跳槽。但也有很多工人堅持了下來,雖然他們不一定懂得他們處理的這些圖片是怎么用到人工智能行業(yè)的,但毫無疑問的是,這些工人是人工智能產(chǎn)業(yè)鏈上“沉默的大多數(shù)”,他們給人工智能行業(yè)提供了源源不斷的原材料。
數(shù)據(jù)標注眾包模式正在造就一個新產(chǎn)業(yè)
數(shù)據(jù)標注眾包模式最早出現(xiàn)在美國,前面說過的人工智能女神李飛飛就是在2005年亞馬遜剛推出勞務(wù)眾包平臺(Amazon Mechanical Turk)找到那批數(shù)據(jù)標注員的。
截至2017年底,亞馬遜的數(shù)據(jù)勞務(wù)眾包平臺注冊用戶量已經(jīng)累計超過50萬,這其實類似于美團把很多送外賣的快遞小哥連接在了一起,亞馬遜的數(shù)據(jù)勞務(wù)眾包平臺也把眾多的數(shù)據(jù)標注員連接在了一起。
目前在中國,還沒有出現(xiàn)面向個人的眾包數(shù)據(jù)標注平臺,但已經(jīng)出現(xiàn)了一批做數(shù)據(jù)標注的企業(yè),這些企業(yè)相對于個人來說更加專業(yè),工作效率更高,服務(wù)質(zhì)量更有保障,所以得到了很多人工智能企業(yè)的好評。因為很多人工智能企業(yè)本身位于一二線大城市,很難承擔這種勞動密集型工作的人員工資,于是把數(shù)據(jù)標注這部分工作外包給數(shù)據(jù)標注企業(yè),可以節(jié)省很多用工成本。
因此,有人高幄建瓴地總結(jié)這個產(chǎn)業(yè):沒有“人工”就沒有“智能”,這一幕很可能是人工智能產(chǎn)業(yè)發(fā)展史上的最為隱秘而壯觀的一幕。
數(shù)據(jù)標注的工作內(nèi)容非??菰锒倚枰獦O大的耐心,這處于人工智能高科技產(chǎn)業(yè)鏈的低端,這一工作內(nèi)容看起來基本沒有技術(shù)含量。
那么,中國有哪些從事數(shù)據(jù)標注的企業(yè)呢?除了前文提到的博雅海圖與翊澳數(shù)據(jù)這兩家公司,其他的相關(guān)公司還有BasicFinder、龍貓數(shù)據(jù)、星塵數(shù)據(jù)、愛數(shù)智慧、周同科技等。
除了圖片標注,目前還誕生了語音標注與視頻標注等相關(guān)的業(yè)務(wù)方向,其原則上與圖片標注沒有太大的區(qū)別,都是依靠大量的人力進行工作。
另外,像京東、百度、騰訊、阿里這樣的大公司都有自己的標注平臺和工具。
數(shù)據(jù)標注行業(yè)的轉(zhuǎn)包現(xiàn)象與未來
數(shù)據(jù)標注行業(yè)屬于勞動密集型行業(yè),所以很容易出現(xiàn)層層轉(zhuǎn)包地現(xiàn)象,上游的人工智能企業(yè)會把任務(wù)交給中游的數(shù)據(jù)標注公司,這些中游的公司會分包給下游的小公司與小作坊,有的小作坊還會進一步分包給個人,比如在校學生或家庭主婦。轉(zhuǎn)包的中間過程產(chǎn)生了大量賺差價的“中間商”,這使得整個行業(yè)的利潤空間越來越小,已經(jīng)不利于整個行業(yè)的發(fā)展。所以,硅谷動力君認為,應(yīng)該采取一定的措施禁止這種層層轉(zhuǎn)包的事情發(fā)生。
另外一方面,我們需要展望未來,目前看來,數(shù)據(jù)標注員的工作是最不智能、最沒有技術(shù)含量的。對于未來的人工智能來說,科學家們還必須研究如何讓人工智能自主學習,自主標記,而不依賴人類對人工智能的標注與訓練。這種更高級的人工智能,是未來的發(fā)展方向之一。
評論