【編者按】目前,各大科技巨頭包括谷歌、微軟等都在大力發(fā)展深度學(xué)習(xí)技術(shù),通過各種方式挖掘深度學(xué)習(xí)人才,馬克?扎克伯格任命Yann LeCun擔任Facebook人工智能實驗室主任。這些高科技公司正在探索深度學(xué)習(xí)的一種特殊形態(tài)――卷積神經(jīng)網(wǎng)絡(luò),對于可視化卷積神經(jīng)網(wǎng)絡(luò), LeCun的付出遠甚于他人。
以下為原文:
馬克?扎克伯格精心挑選了深度學(xué)習(xí)專家Yann LeCun擔任Facebook人工智能實驗室的負責人。該實驗室于去年年底成立。作為紐約大學(xué)任教已久的教授,Yann LeCun對深度學(xué)習(xí)的研究成績斐然,在IEEE世界計算智能大會中榮獲神經(jīng)網(wǎng)絡(luò)先鋒獎。深度學(xué)習(xí),作為人工智能的一種形式,旨在更密切地模仿人類大腦。最初,大多數(shù)人工智能研究人員公開表態(tài)對深度學(xué)習(xí)嗤之以鼻,但短短幾年后,它卻突然在整個高科技領(lǐng)域蔓延開來,橫跨谷歌、 微軟、 百度再至Twitter。
這些高科技公司正在探索深度學(xué)習(xí)的一種特殊形態(tài)――卷積神經(jīng)網(wǎng)絡(luò),旨在打造可以自動理解自然語言以及識別圖像的Web服務(wù)。谷歌Android手機的語音識別系統(tǒng)就是基于神經(jīng)網(wǎng)絡(luò)而開發(fā)的。百度利用神經(jīng)網(wǎng)絡(luò)對一種新型的可視化搜索引擎進行研發(fā)。研究深度學(xué)習(xí)的學(xué)者不在少數(shù),但它獲得成功, LeCun功不可沒。微軟的機器學(xué)習(xí)專家Leon Bottou早期曾與 LeCun合作,他說,“對于可視化卷積神經(jīng)網(wǎng)絡(luò), LeCun的付出遠甚于他人。”
Facebook人工智能實驗室主任 Yann LeCun
面臨巨大懷疑, LeCun仍然力挺神經(jīng)網(wǎng)絡(luò)。要讓神經(jīng)網(wǎng)絡(luò)正常運作需要功能強大的計算機和龐大的數(shù)據(jù)集,但上世紀80年代 LeCun剛剛接觸這一全新領(lǐng)域時,卻不具備這些支持條件。當時剛剛步入計算機時代,科學(xué)家們對人工智能報以熱切的期望,但神經(jīng)網(wǎng)絡(luò)受限于那時的條件,無力滿足科學(xué)家的愿景,因而不被看好。要想在權(quán)威學(xué)術(shù)期刊發(fā)表與神經(jīng)網(wǎng)絡(luò)相關(guān)的文章困難重重。時至90年代乃至21世紀初,這一狀況依舊沒有得到改善。
但 LeCun仍然堅持不懈。深度學(xué)習(xí)的核心學(xué)者Geoffrey Hinton說,“他就像在黑暗中舉著火炬。”終于,如今電腦技術(shù)大邁步向前,為深度學(xué)習(xí)提供了必要的技術(shù)支持,其潛力亦得以開發(fā)。
LeCun的LeNets
在加入Facebook之前的二十多年, LeCun在貝爾實驗室中工作,這段時間內(nèi),他研發(fā)出了一個可以識別手寫數(shù)字的系統(tǒng),并稱之為LeNet。貝爾實驗室作為世界上最著名的計算機研究實驗室,是晶體管、Unix操作系統(tǒng)和C語言的發(fā)源地。
LeNet能夠自動讀取銀行支票,它標志著卷積神經(jīng)網(wǎng)絡(luò)首次被應(yīng)用于實踐中。Bottou表示,“卷積網(wǎng)絡(luò)原本像是個小玩具, LeCun將之應(yīng)用于規(guī)模更廣的實際問題中。”
上個世紀70以及80年代,認知機(cognitron)和神經(jīng)認知機(Neocognitron)這些早期的神經(jīng)網(wǎng)絡(luò)模型能夠自主學(xué)習(xí)從數(shù)據(jù)中識別圖形,并且無需人類的過多提示。但這類模型都相當復(fù)雜,研究人員無法完全弄清楚如何使它們運行無誤。 LeCun表示,“當時缺少一種監(jiān)督學(xué)習(xí)算法,現(xiàn)在我們稱之為反向傳播算法(Back propagation)。”這種算法能有效地使錯誤率最小化。
卷積神經(jīng)網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)是由相互連通的卷積層組成,與大腦中處理視覺信息的視覺皮層十分類似。卷積網(wǎng)絡(luò)的不同之處在于,它們可以重復(fù)使用一張圖像中多個位置的相同過濾器。舉例而言,一旦卷積網(wǎng)絡(luò)學(xué)會了在某個位置識別人臉,那么它也可以自動在其他位置識別人臉。這種原理也適用于聲波和手寫文字。
百度研究院負責人吳恩達(Andrew Ng)認為,這使人工神經(jīng)網(wǎng)絡(luò)能夠快速接受培訓(xùn),因為“內(nèi)存占用空間小,不需要對圖像中每個位置的過濾器進行單獨存儲,從而使神經(jīng)網(wǎng)絡(luò)非常適合于創(chuàng)建可擴展的深網(wǎng)(deep nets)”。這也令卷積神經(jīng)網(wǎng)絡(luò)具有善于識別圖形的優(yōu)點。
當卷積神經(jīng)網(wǎng)絡(luò)接收到圖像(即輸入)時,它將其轉(zhuǎn)換為代表特征的數(shù)字陣列,并對每個卷積層中“神經(jīng)元”進行調(diào)整以識別數(shù)字中某些圖形。低級神經(jīng)元能夠識別基本形狀,而高級神經(jīng)元則能夠識別狗或人等更復(fù)雜的形態(tài)。每個卷積層與相鄰的層互通,當信息在網(wǎng)絡(luò)中傳播時,就會得出平均值。最后,網(wǎng)絡(luò)通過猜測圖像中是什么圖形從而得出輸出結(jié)果。
如果網(wǎng)絡(luò)出錯,工程師可以對層與層之間的連接進行微調(diào),以便得到正確答案。而神經(jīng)網(wǎng)絡(luò)能夠自主進行微調(diào),因而更勝一籌。這時反向傳播算法就開始發(fā)揮作用了。
反向傳播算法
反向傳播算法的原理是計算誤差,并根據(jù)誤差對卷積層所接收的強度進行更新。上個世界80年代中期,David Rumelhart、Geoffrey Hinton及Ronald Williams提出反向傳播算法,即同時為多重輸入計算誤差,并取平均值。然后通過網(wǎng)絡(luò)將平均誤差從輸出層到輸入層反向傳播。
LeCun對反向傳輸算法的構(gòu)想與上述不同,他并未采取平均值,而是為每個樣本計算出誤差。他的這種方法成效不錯,速度更快。
據(jù)Bottou透露, LeCun得出這一辦法,實際上是陰錯陽差的結(jié)果。“當時我們在法國使用的電腦不太給力。”他們不得不想辦法,希望用盡可能少的電腦配置,盡可能快速地計算出誤差。這在當時似乎是蒙混過關(guān)的做法,但如今卻成為人工智能工具箱的重要部分。它就是隨機梯度下降算法(stochastic gradient descent)。
LeCun的LeNets已廣泛應(yīng)用于世界各地的自動取款機和銀行,用以識別支票上的手寫字跡。但仍有人持懷疑態(tài)度。 LeCun表示,“目前我們所獲得的進展還不足以說服計算機視覺領(lǐng)域承認卷積神經(jīng)網(wǎng)絡(luò)的價值。”部分原因在于,雖然卷積神經(jīng)網(wǎng)絡(luò)功能強大,但沒有人知道它為什么這么強大。目前還未能揭開這項技術(shù)謎一般的內(nèi)在原理。
深度學(xué)習(xí)的前景
批評聲此起彼伏。支持向量機(Support Vector Machine)的創(chuàng)建者兼數(shù)學(xué)家Vladimir Vapnik也持批評立場。支持向量機是目前使用最廣泛的人工智能模型之一。
1995年3月的一個下午,Vapnik和Larry Jackel兩人打了個賭。Jackel認為,到2000年,深度人工神經(jīng)網(wǎng)絡(luò)(deep artificial neural nets)的內(nèi)在原理將明朗化。Vapnik則堅持將時限推后至2005年。他們還較真地把賭注內(nèi)容寫在紙上,并在幾位見證人面前簽了名。 LeCun和Bottou當時都在場。
打賭雙方最終難解勝負。2000年,神經(jīng)網(wǎng)絡(luò)的核心原理仍然籠罩在神秘面紗下,哪怕是現(xiàn)在,研究人員也無法用數(shù)學(xué)方法參透個中奧妙。2005年,深度神經(jīng)網(wǎng)絡(luò)在自動取款機和銀行中獲得廣泛應(yīng)用,雖然人們?nèi)晕茨苷莆蘸诵脑恚?nbsp;LeCun在上個世紀80年代中期和90年代初的研究工作為深度神經(jīng)網(wǎng)絡(luò)的解密奠定了重要根基。
LeCun指出,“很少有某項技術(shù)能在問世20或25年后,雖然基本上未經(jīng)改變,但在時間的考驗下被證實是最優(yōu)異的。人們接受它的速度是驚人。我過去從未遇見過這樣的情況。”
目前使用最廣泛的卷積神經(jīng)網(wǎng)絡(luò)幾乎完全依賴于監(jiān)督學(xué)習(xí)(supervised learning)。這意味著,如果想讓神經(jīng)網(wǎng)絡(luò)學(xué)會如何識別某一特定對象,就必須對幾個樣本進行標注。無監(jiān)督學(xué)習(xí)(unsupervised learning)是指從未經(jīng)標記的數(shù)據(jù)展開學(xué)習(xí),這更接近人腦的學(xué)習(xí)方式。目前一些深度學(xué)習(xí)的研究者正在探索這一領(lǐng)域。
LeCun表示,“我們對大腦如何學(xué)習(xí)幾近完全陌生。人們已經(jīng)知道神經(jīng)元突觸能夠自我調(diào)整,但我們對大腦皮層的機理尚不明確。我們知道最終答案是無監(jiān)督學(xué)習(xí),但卻無力解答。”
反向傳播算法不太可能體現(xiàn)出人類大腦的運作機理,所以研究者正在探索其他算法。此外,卷積網(wǎng)絡(luò)在收集數(shù)據(jù)或計算平均值時,效果并非十全十美,所以當前研究者也盡力做出改進。辛頓表示,“卷積網(wǎng)絡(luò)會丟失信息。”
以人臉為例。系統(tǒng)如果學(xué)會識別眼睛和嘴唇之類的面部特征,便能有效地識別出圖像中有人臉,但無力分辨出不同面孔之間的差異。它也無法很好地找出眼睛在臉上的準確位置。高科技公司和政府想要創(chuàng)建有關(guān)用戶或居民詳盡的數(shù)字檔案,以上所提及的缺陷將成為無法回避的短板。
LeCun的研究也許不算完美,但當前卻是這一領(lǐng)域的尖端理論。
原文鏈接:深度學(xué)習(xí)在巨頭圈流行 Facebook大腦就靠它了 (責編/魏偉)