【一線】亞馬遜AWS首席科學(xué)家:語(yǔ)音識(shí)別取得突破
文/騰訊《一線》薛芳
2018年1月28日上午,《麻省理工科技評(píng)論》新興科技峰會(huì)EmTech China于北京國(guó)貿(mào)大酒店正式召開(kāi),亞馬遜AWS首席科學(xué)家Animashree Anandkumar發(fā)表了演講。
以下附上演講全文:
多域技術(shù)已成為前沿科技的一大領(lǐng)軍技術(shù)力量,我非常榮幸在我的博士學(xué)位和博士后學(xué)位中研究這個(gè)話題。今天我會(huì)和大家談一談機(jī)器學(xué)習(xí),怎么研究和量化機(jī)器學(xué)習(xí)。
深度學(xué)習(xí)需要經(jīng)過(guò)多層甚至數(shù)百層的處理過(guò)程,這樣的機(jī)器學(xué)習(xí)也會(huì)在不同的GPU,進(jìn)行跨機(jī)器、跨設(shè)備處理,這就需要網(wǎng)絡(luò)技術(shù)。多域模型能夠幫助我們同時(shí)處理科學(xué)、工程,各種領(lǐng)域方面的應(yīng)用。我們一直致力于尋求機(jī)器學(xué)習(xí)多域模型的解決方案,以及多領(lǐng)域的應(yīng)用如何能夠在云上進(jìn)行計(jì)算。
深度學(xué)習(xí)跨越了許多的領(lǐng)域。首先我們做的是圖像理解,基礎(chǔ)任務(wù)是識(shí)別不同的物品。對(duì)于人類來(lái)說(shuō)在一張圖片中識(shí)別物品很簡(jiǎn)單,但是對(duì)于機(jī)器來(lái)說(shuō)卻是極度困難的。但我們的體系有了很大的改善,也比以往的更有優(yōu)勢(shì)。
之后我們也在語(yǔ)音識(shí)別方面取得了突破。針對(duì)不同語(yǔ)言的自然語(yǔ)言處理也有了深度學(xué)習(xí)參與。不同的語(yǔ)言有不同的結(jié)構(gòu),怎么才能自動(dòng)的處理這些不同的語(yǔ)種并理解他們?
人類利用語(yǔ)言在不同的背景下進(jìn)行交流,比如聽(tīng)說(shuō)讀寫。在這些過(guò)程中,語(yǔ)種的表現(xiàn)方式是不一樣的。機(jī)器如何來(lái)處理不同的語(yǔ)言呢?這就是深度學(xué)習(xí)面臨的挑戰(zhàn)。
另一個(gè)領(lǐng)域就是關(guān)于無(wú)人駕駛。怎么提高其的性能,怎么識(shí)別障礙物,怎么能夠有很好的視覺(jué),怎樣立即做出決策,這些都是無(wú)人駕駛技術(shù)需要解決的一些問(wèn)題,也是深度學(xué)習(xí)可以發(fā)揮作用的地方。
和大家分享一下怎么運(yùn)作當(dāng)前的深度學(xué)習(xí)模式。深度學(xué)習(xí)有很廣泛的運(yùn)用領(lǐng)域,我們有一些專門的項(xiàng)目,也在將它應(yīng)用到更多不同的硬件基礎(chǔ)設(shè)施中。Mxnet就是其中的一個(gè)深度學(xué)習(xí)引擎,這個(gè)項(xiàng)目首先由大學(xué)里的研究員開(kāi)發(fā),現(xiàn)在我們正在AWS開(kāi)發(fā)這個(gè)引擎。
這個(gè)引擎的優(yōu)點(diǎn)是顯而易見(jiàn)的。它建立了一個(gè)網(wǎng)絡(luò),編程過(guò)程、表述、特征描述、風(fēng)格都非常靈活、方便,提高了程序員的效率。同時(shí)也提供了很好的語(yǔ)言支持,且前后端自動(dòng)對(duì)接,提高了編程的效率。
這個(gè)網(wǎng)絡(luò)有一些固定的數(shù)據(jù),相互連接的層級(jí)會(huì)在輸入和輸出之間進(jìn)行連接。雖然一些專門的項(xiàng)目編程過(guò)程比較容易書寫,語(yǔ)流更長(zhǎng),書寫起來(lái)象征物也更多。在計(jì)算順序方面,他們有一定的序列關(guān)系,我們制定了圖表來(lái)自動(dòng)進(jìn)行平行的對(duì)比。它還實(shí)現(xiàn)了記憶進(jìn)行自動(dòng)化,這樣在代碼運(yùn)算時(shí)也提高了效率。
我們也用多GPU的訓(xùn)練提升效率。一個(gè)機(jī)器上面會(huì)有多個(gè)GPU進(jìn)行數(shù)據(jù)并行化,可以同時(shí)獲得大量的數(shù)據(jù)。中央數(shù)據(jù)是來(lái)自于不同CPU等級(jí)上面的網(wǎng)絡(luò),數(shù)據(jù)不斷地向下劃分,進(jìn)入各個(gè)GPU。
GPU需要進(jìn)行處理時(shí)發(fā)現(xiàn)了相似的內(nèi)容就會(huì)進(jìn)行整合,也增加了我們的效率。GPU可以在Mxnet上面整合運(yùn)算結(jié)果,這樣成本也比較低。同時(shí)我們也提升了Mxnet的性能。增加了GPU以后,整個(gè)輸入輸出效率也會(huì)翻翻。這是在AWS基建上運(yùn)行的,包括B2X和B22X。
所有的服務(wù)里面, Mxent的效率最高,有91%,包括Resnet和Inception v3和Alexnet。這是有多個(gè)GPU的單一基體。在多基體上每一個(gè)機(jī)器都有16個(gè)GPU,組合到一起后,所有的數(shù)據(jù)經(jīng)過(guò)網(wǎng)絡(luò)就會(huì)影響效率。但我們的效率并沒(méi)有降低很多,因?yàn)镸xnet它的打造非常緊密,可以提升效率。所以我們可以進(jìn)行這種分布式的多機(jī)器的訓(xùn)練。
這些現(xiàn)在也可以應(yīng)用于一些情景的運(yùn)行以及我們多GPU和CPU的框架之中。我們也希望可以提供這樣的技術(shù)給我們的消費(fèi)者,讓他們知道我們分布式的訓(xùn)練有非常好的技術(shù)包裹,可以幫助我們進(jìn)行網(wǎng)絡(luò)壓縮以及網(wǎng)絡(luò)解壓,提供好的技術(shù)服務(wù)。
所有的這些框架,都可以應(yīng)用于我們的機(jī)器學(xué)習(xí)平臺(tái)CHMaker。這是多機(jī)器學(xué)習(xí)的一個(gè)平臺(tái),所有的分布式深度學(xué)習(xí)框架都可以在這個(gè)平臺(tái)上進(jìn)行運(yùn)行,比如說(shuō)TensorFlow、Mxnet。我們的平臺(tái)除MxNet之外可以支持所有的框架,我們希望可以給我們的用戶更多靈活的選擇。
除此之外,DeepLens也是我們最近發(fā)布的第一款深度學(xué)習(xí)的攝像頭,可以提供很多的服務(wù),比如語(yǔ)言、語(yǔ)句、計(jì)算機(jī)視覺(jué)等。使用者不需要培訓(xùn)自己的學(xué)習(xí)模型,完全可以使用我們的服務(wù)。
【一線】為騰訊新聞旗下產(chǎn)品,第一時(shí)間為你提供獨(dú)家、一手的商業(yè)資訊。