三分鐘看懂人工智能核心技術(shù):深度學(xué)習(xí)
來源:人工智能網(wǎng)
自從2012年以來,深度學(xué)習(xí)(Deep Learning)就以一種勢如破竹之勢突破了一個(gè)個(gè)經(jīng)典的人工智能問題。面對(duì)人工智能的快速發(fā)展,你不想了解它的基本工作原理嗎?
想搞清楚什么是深度學(xué)習(xí),要先從人工智能說起,自從 1956 年計(jì)算機(jī)科學(xué)家們?cè)谶_(dá)特茅斯會(huì)議(Dartmouth Conferences)上確認(rèn)人工智能這個(gè)術(shù)語以來,人們就不乏關(guān)于人工智能奇思妙想,我們夢想著擁有人類五感(甚至更多)、推理能力以及人類思維方式的神奇機(jī)器。如今,雖然夢想的局面還沒有出現(xiàn),但是稍微弱一點(diǎn)的人工智能已經(jīng)大行其道了,比如:圖像識(shí)別、語音識(shí)別、多語言翻譯等。
機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種重要方法。機(jī)器學(xué)習(xí)的概念來自早期的人工智能研究者,簡單來說,機(jī)器學(xué)習(xí)就是使用算法分析數(shù)據(jù),從中學(xué)習(xí)并自動(dòng)歸納總結(jié)成模型,最后使用模型做出推斷或預(yù)測。與傳統(tǒng)的編程語言開發(fā)軟件不同,我們使用大量的數(shù)據(jù)送給機(jī)器學(xué)習(xí),這個(gè)過程叫做“訓(xùn)練”。
深度學(xué)習(xí) ( Deep Learning ) 是機(jī)器學(xué)習(xí)中近年來備受重視的一支,深度學(xué)習(xí)根源于類神經(jīng)網(wǎng)絡(luò)模型,但今日深度學(xué)習(xí)的技術(shù)和它的前身已截然不同,目前最好的語音識(shí)別和影像辨識(shí)系統(tǒng)都是以深度學(xué)習(xí)技術(shù)來完成,像各 手機(jī) 廠商宣傳的AI拍照功能,以及此前紅遍大街小巷的AlphaGo都是基于深度學(xué)習(xí)技術(shù),僅僅是應(yīng)用場景不同。
深度學(xué)習(xí)的基礎(chǔ)是大數(shù)據(jù),實(shí)現(xiàn)的路徑是云計(jì)算。只要有充足的數(shù)據(jù)、足夠快的算力,得出的“結(jié)果”(宏觀上呈現(xiàn)機(jī)器的某種智能化功能),就會(huì)更加準(zhǔn)確。目前,基于大數(shù)據(jù)、云計(jì)算這種智能化操作路徑,可以在深度神經(jīng)網(wǎng)絡(luò)框架下來更好解釋。
深度神經(jīng)網(wǎng)絡(luò)也被稱為深度學(xué)習(xí),是人工智能領(lǐng)域的重要分支,深度神經(jīng)網(wǎng)絡(luò)目前是很多現(xiàn)代AI應(yīng)用實(shí)現(xiàn)的基礎(chǔ)。自從深度神經(jīng)網(wǎng)絡(luò)在語音和圖像識(shí)別任務(wù)中展現(xiàn)出突破性成果后,使用深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用數(shù)量就呈爆炸式增長。
目前這些深度神經(jīng)網(wǎng)絡(luò)方法被大量應(yīng)用在自動(dòng)駕駛、語音識(shí)別、圖像識(shí)別、AI 游戲 等領(lǐng)域。在很多領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)跟早期的專家手動(dòng)提取特征或制定規(guī)則不同,深度神經(jīng)網(wǎng)絡(luò)的優(yōu)越性能來自于在大量數(shù)據(jù)上使用統(tǒng)計(jì)學(xué)習(xí)方法,從原始數(shù)據(jù)中提取高級(jí)特征的能力,從而對(duì)輸入空間進(jìn)行有效的表示。
實(shí)際上,這種表示的過程就包含對(duì)大量數(shù)據(jù)計(jì)算的過程,因?yàn)獒槍?duì)某種特定功能的最終呈現(xiàn)的超高的準(zhǔn)確性,是以超高的計(jì)算復(fù)雜度為代價(jià)的。
而通常我們所說的計(jì)算引擎,尤其是GPU,就是深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。因此,能夠在不犧牲準(zhǔn)確性和增加硬件成本的前提下,提高深度神經(jīng)網(wǎng)絡(luò)的能量效率和吞吐量的方法,對(duì)于深度神經(jīng)網(wǎng)絡(luò)在AI系統(tǒng)中更廣泛的應(yīng)用是至關(guān)重要的。
目前,國內(nèi)一些知名大公司近些年的研究人員已經(jīng)更多的將關(guān)注點(diǎn)放在針對(duì)深度神經(jīng)計(jì)算開發(fā)專用的加速方法,并著手研發(fā)人工智能專用芯片,也就是真正的人工智能芯片。
所謂人工智能芯片,一般是指針對(duì)人工智能算法設(shè)計(jì)的ASIC(專用芯片)。雖然傳統(tǒng)的CPU、GPU也都可以拿來執(zhí)行人工智能算法,但是這些芯片要么計(jì)算速度慢,要么功耗大,這么多缺點(diǎn)使得它們?cè)诤芏鄨龊鲜遣荒苡玫摹?/p>
比如,自動(dòng)駕駛的 汽車 需要人工智能芯片,因?yàn)槠囋谛旭傔^程中需要識(shí)別道路行人以及紅綠燈的變化狀況,這些情況有時(shí)候是突發(fā)的,如果我們利用傳統(tǒng)的CPU去做這個(gè)突發(fā)路況計(jì)算,因?yàn)镃PU不是專職干人工智能計(jì)算的,所以它的計(jì)算速度慢,很可能綠燈已經(jīng)變成紅燈了,我們的自動(dòng)駕駛汽車還沒有剎車。
如果換成用GPU,計(jì)算速度確實(shí)要快很多,但這個(gè)時(shí)候的計(jì)算功耗非常大,電動(dòng)汽車的車載電池?zé)o法長時(shí)間支撐這個(gè)功能,而且大功率芯片會(huì)導(dǎo)致車體發(fā)熱,容易引發(fā)油箱自燃。而且GPU一般價(jià)格昂貴,普通消費(fèi)者也很少能買得起這種使用大量GPU芯片的自動(dòng)駕駛汽車。因此,在人工智能領(lǐng)域,開發(fā)專用芯片成了必然趨勢。
(行業(yè)針對(duì)不同場景開發(fā)的專用芯片技術(shù)實(shí)現(xiàn)路徑)
目前市場上可以買到的人工智能芯片按照處理任務(wù)的不同可以分為兩類。
——面向訓(xùn)練和推斷(Inference),這個(gè)工作GPU可以干,CPU也可以干,F(xiàn)PGA也可以干。但如果開發(fā)人工智能的芯片,則干得更好。因?yàn)槿斯ぶ悄苄酒菍I(yè)干這個(gè)的,相當(dāng)于是“專家”。
——推斷加速芯片。這類芯片就是把神經(jīng)網(wǎng)絡(luò)訓(xùn)練好的模型放在芯片上跑。比如寒武紀(jì)的神經(jīng)網(wǎng)絡(luò)芯片,深鑒 科技 的DPU,地平線機(jī)器人的BPU都是這類產(chǎn)品。
如果按使用場景劃分,人工智能芯片主要分為云端和終端芯片。
目前主流的深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)算法包括訓(xùn)練和推斷兩個(gè)環(huán)節(jié)。由于訓(xùn)練需要大量數(shù)據(jù)去訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),因此訓(xùn)練主要在云端進(jìn)行。比如百度在2018年的AI開發(fā)者大會(huì)上推出的昆侖芯片——這是中國首款云端全功能AI芯片。而終端芯片更側(cè)重低成本和低功耗,目前中國的人工智能芯片初創(chuàng)企業(yè)主要布局在這個(gè)領(lǐng)域。
那么,人工智能芯片是如何工作的呢?在神經(jīng)網(wǎng)絡(luò)領(lǐng)域,一個(gè)子領(lǐng)域被稱為深度學(xué)習(xí)。最初的神經(jīng)網(wǎng)絡(luò)通常只有幾層的網(wǎng)絡(luò)。而深度網(wǎng)絡(luò)通常有更多的層數(shù),今天的網(wǎng)絡(luò)一般在五層以上,甚至達(dá)到一千多層。
目前在視覺應(yīng)用中使用深度神經(jīng)網(wǎng)絡(luò)的解釋是:將圖像所有像素輸入到網(wǎng)絡(luò)的第一層之后,該層的加權(quán)和可以被解釋為表示圖像不同的低階特征。隨著層數(shù)的加深,這些特征被組合,從而代表更高階的圖像特征。
當(dāng)然,一片在指甲蓋大小的面積上集成了超過 55 億個(gè)晶體管的 AI 芯片不可能只用來拍拍照這么簡單。目前手機(jī)上已經(jīng)有語音服務(wù)、機(jī)器視覺識(shí)別、圖像處理等智能應(yīng)用,未來還會(huì)增加包含醫(yī)療、AR、游戲AI 等更多元化的應(yīng)用類型。
那么語音服務(wù)、機(jī)器識(shí)別、圖像自動(dòng)處理這些功能,在微觀層面的機(jī)制如何運(yùn)行的?
以AI拍照拍攝一只在混亂背景中的貓咪為例,當(dāng)圖片進(jìn)入攝像頭中的圖片在表層時(shí),該層的加權(quán)可能被“認(rèn)定”為一直老虎,但當(dāng)隨著加權(quán)層數(shù)的不斷增加,顯現(xiàn)的結(jié)果就會(huì)越來越精確,不僅能識(shí)別圖片中是一只貓,而且還能進(jìn)一步識(shí)別出貓的周圍環(huán)境:有一片草地,天空是藍(lán)的,貓站在臺(tái)階上等等更高階的圖像特征。
深度學(xué)習(xí)網(wǎng)絡(luò)在近些年得到巨大成功,主要是由三個(gè)因素導(dǎo)致的。
首先是訓(xùn)練網(wǎng)絡(luò)所需的海量信息。學(xué)習(xí)一個(gè)有效的表示需要大量的訓(xùn)練數(shù)據(jù)。目前Facebook每天收到超過3.5億張圖片,沃爾瑪每小時(shí)產(chǎn)生2.5Pb的用戶數(shù)據(jù),YouTube每分鐘有300小時(shí)的視頻被上傳。因此,云服務(wù)商和許多公司有海量的數(shù)據(jù)來訓(xùn)練算法。
其次是充足的計(jì)算資源。半導(dǎo)體和計(jì)算機(jī)架構(gòu)的進(jìn)步提供了充足的計(jì)算能力,使得在合理的時(shí)間內(nèi)訓(xùn)練算法成為可能。
最后,算法技術(shù)的進(jìn)化極大地提高了準(zhǔn)確性并拓寬了DNN的應(yīng)用范圍。早期的DNN應(yīng)用打開了算法發(fā)展的大門。它激發(fā)了許多深度學(xué)習(xí)框架的發(fā)展(大多數(shù)都是開源的),這使得眾多研究者和從業(yè)者能夠很容易的使用DNN網(wǎng)絡(luò)。
目前,DNN已經(jīng)廣泛應(yīng)用到各個(gè)領(lǐng)域,包括圖像和視頻、語音和語言、醫(yī)藥、游戲、機(jī)器人、自動(dòng)駕駛等領(lǐng)域??梢灶A(yù)見的是,深度神經(jīng)網(wǎng)絡(luò)必將也會(huì)在 金融 (例如交易,能源預(yù)測和風(fēng)險(xiǎn)評(píng)估),基礎(chǔ)設(shè)施建設(shè)(例如結(jié)構(gòu)安全性,交通控制),天氣預(yù)報(bào)和事件檢測中有更多深入的應(yīng)用。