“長(zhǎng)遠(yuǎn)研究”和“短期應(yīng)用”兩大實(shí)驗(yàn)室雙劍合璧,能否支撐起Facebook稱霸人工智能的雄心?(下)
《“長(zhǎng)遠(yuǎn)研究” 和 “短期應(yīng)用” 兩大實(shí)驗(yàn)室雙劍合璧,能否支撐起 Facebook 稱霸人工智能的雄心?(上)》
應(yīng)用機(jī)器學(xué)習(xí)實(shí)驗(yàn)室(AML)
坐在由 Frank Gehry 設(shè)計(jì)的 Facebook 總部里,公司的應(yīng)用機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的掌門人 Joaquin Candela 在一堆填充玩具動(dòng)物的巨大箱子的環(huán)繞下顯得非常格外矮小。當(dāng)時(shí)已經(jīng)沒有空閑的會(huì)議室了,不過(guò)它并沒有因此苦惱,他毫無(wú)猶豫地選在一個(gè)被遺棄在昏暗角落里的沙發(fā)上進(jìn)行交流。后來(lái)不知不覺到了他與 Schroepfer 開會(huì)的時(shí)間,他依然非常慷慨地接受在前往 Facebook CTO 辦公室的路上繼續(xù)交談。
當(dāng) AML 還在孵化的時(shí)候,LeCun 就已經(jīng)加入了 Facebook。事實(shí)上,AML 正是在 LeCun 的推動(dòng)下創(chuàng)立的。對(duì)此,他這樣說(shuō)道:“在我看來(lái),要想將在 FAIR 研發(fā)的技術(shù)應(yīng)用到產(chǎn)品中,AML 是一個(gè)基本的通道。”
AML 的目標(biāo)是 “推動(dòng)先進(jìn)技術(shù)在產(chǎn)品上的最大化應(yīng)用” 和 “成為科研成果與產(chǎn)品開發(fā)間的粘合劑”。為篩選信息流、廣告、搜索、語(yǔ)言翻譯、語(yǔ)音識(shí)別、視頻字幕的自動(dòng)生成和自然語(yǔ)言理解等領(lǐng)域開發(fā)更好的算法都是 AML 要做的工作,AML 想借此來(lái)提升 Facebook 的效益。
Candela 曾作為 Facebook 的技術(shù)經(jīng)理帶領(lǐng)團(tuán)隊(duì)打造機(jī)器學(xué)習(xí)的基礎(chǔ)架構(gòu),當(dāng)他被邀請(qǐng)啟動(dòng) AML 這個(gè)項(xiàng)目的時(shí)候,他希望 AML 能避免其它很多應(yīng)用研究實(shí)驗(yàn)室曾犯過(guò)的錯(cuò)誤。Candela 之前曾在微軟研究院和德國(guó)著名的馬克斯-普朗克研究所都工作過(guò)。“我曾經(jīng)看過(guò)很多實(shí)驗(yàn)室都沒有很好地將科研成果轉(zhuǎn)化為工程成果。” Candela 這樣說(shuō)道。Candela 說(shuō)的很多研究實(shí)驗(yàn)室犯的錯(cuò)誤包括實(shí)驗(yàn)室與工程太過(guò)脫節(jié),或是科研人員一點(diǎn)都不注重開發(fā)能應(yīng)用到產(chǎn)品上的技術(shù)。(圖中為 AML 掌門人 Joaquin Candela)
LeCun 的 FAIR 團(tuán)隊(duì)將自己 70%的時(shí)間用在長(zhǎng)期的科學(xué)研發(fā)上,30%的時(shí)間用在短期的產(chǎn)品開發(fā)上。Candela 帶來(lái)的團(tuán)隊(duì)的時(shí)間分配則恰好相反。AML 的大部分時(shí)間都用在將科研成果應(yīng)用在產(chǎn)品上。Candela 表示,他帶來(lái)的 AML 團(tuán)隊(duì)是以季度或月份為周期來(lái)對(duì)待一個(gè)項(xiàng)目的,而不是像 FAIR 團(tuán)隊(duì)那樣通常以 5-10年 為周期來(lái)思考項(xiàng)目。AML 通常只做 6 個(gè)月的時(shí)間規(guī)劃。
盡管 AML 和 FAIR 兩個(gè)團(tuán)隊(duì)的工作內(nèi)容和方式非常不同,但 Candela 和 LeCun 都堅(jiān)信,只要致力于開放,他們就能獲得更大的成功。Facebook 的 CTO Schroepfer 也認(rèn)同這個(gè)觀點(diǎn),而且很快就為踐行這一理念找到了很多量化的方法。Schroepfer 表示,除了開源了硬件和數(shù)據(jù)中心外,F(xiàn)acebook 的工程師共開源了 1000 萬(wàn)行代碼,開源社區(qū) GitHub 上已經(jīng)有 Facebook 的 350 個(gè)活躍的開源項(xiàng)目。
Facebook 的這種開放的精神已經(jīng)成為招聘牛人的一大優(yōu)勢(shì)。“那些頂尖的科學(xué)家一般都想要去哪里工作呢?他們當(dāng)然都希望能與和自己類似想法的人一起工作,那么他們?cè)趺粗牢覀?Facebook 的人是否和他們的想法類似呢?因?yàn)?Facebook 的開放性,他們能夠看到我們 Facebook 的員工都在做什么工作,他們能看到 Facebook 的員工都發(fā)布了什么論文和研究成果,他們可以了解我們正在努力解決的問(wèn)題以及我們是如何解決這些問(wèn)題的。”
AML 的一個(gè)最新成立的團(tuán)隊(duì)是計(jì)算攝影團(tuán)隊(duì),這個(gè)團(tuán)隊(duì)是在 Rick Szeliski 和其他幾名科研人員去年10月 從微軟研究院跳槽來(lái) AML 后成立的。這個(gè)團(tuán)隊(duì)的主要工作方向包括視頻防抖,其中包括 306 度視頻,幫助用戶拍更好的自拍照,同時(shí)幫助用戶更好地在手機(jī)上管理視覺內(nèi)容。
“我們之所以選擇加入 Facebook 是因?yàn)檎掌蛿?shù)據(jù)都在這里。我們?cè)谶@里有大量可以分析的數(shù)據(jù)內(nèi)容。我們每天都能接觸像素和取悅用戶,讓用戶變得更開心后,他們就會(huì)拍更多的照片和分享更多的內(nèi)容。因此,這里不僅是照片的聚集地,同時(shí)也是照片的 “流動(dòng)”(flow)場(chǎng)所。” Szeliski 這樣說(shuō)道。在加入 Facebook 前,他曾在微軟研究院負(fù)責(zé)交互視覺媒體團(tuán)隊(duì)。
“Flow”(工作流)這個(gè)詞是我們?cè)?Facebook 經(jīng)常會(huì)聽到的一個(gè)詞。這部分是由于 FBLearnerFlow 這個(gè)項(xiàng)目,F(xiàn)BLearnerFlow 是一個(gè)由 AML 開發(fā)一個(gè)端對(duì)端的科研工程工作流,它是一個(gè)供全公司員工測(cè)試和分享機(jī)器學(xué)習(xí)模型的端對(duì)端的機(jī)器學(xué)習(xí)軟件,也就是說(shuō)它目前還是一個(gè)僅供 Facebook 內(nèi)部員工使用的軟件。FBLearnerFlow 是一個(gè)知識(shí)庫(kù),公司里任何專注于人工智能或機(jī)器學(xué)習(xí)的員工都可以在里面發(fā)布自己的研究成果,供其他工程師在各自的項(xiàng)目里使用。
“假設(shè)我們有一個(gè)新的垂直廣告,需要向 Instant Articles 里投放富媒體廣告,但是這個(gè)團(tuán)隊(duì)沒有什么機(jī)器學(xué)習(xí)方面的專家,所以工程師便可以去 “Flow” 這個(gè)科研工程流水線里去查看公司里正在開展的所有實(shí)驗(yàn)和產(chǎn)品原型,并能夠從中選擇一些有用的模塊直接供自己使用。我總是鼓勵(lì)大家去祈求、去借和去偷。你并不需要白費(fèi)力氣做重復(fù)的工作。” Candela 這樣說(shuō)道。
Flow 還是一個(gè)可以用來(lái)在一個(gè)可控環(huán)境下測(cè)試新功能的平臺(tái)。“這是一件非常美妙的事。你可以在這里對(duì)自己的科研成果進(jìn)行測(cè)試。如果我們做了一個(gè) 1%的用戶參與的測(cè)試,如果測(cè)試結(jié)果非常不錯(cuò)的話,那么我們就可以將科研成果推送給 100%的用戶。”
Flow 的用途非常廣泛,這也是為什么目前 Facebook 四分之一的工程師都在使用它的原因,而不光是人工智能領(lǐng)域的科研人員在使用。Flow 也是 Facebook 在內(nèi)部踐行開放精神的典型案例,它不會(huì)將研究結(jié)果藏起來(lái),而是會(huì)供所有員工使用。
Facebook 采用的這種同時(shí)依靠 FARI 做長(zhǎng)遠(yuǎn)研究、依靠 AML 做短期應(yīng)用研究的雙重研究機(jī)制為自己在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域贏得了一定的威望,但這并不能保證能夠?qū)崿F(xiàn) Zuckerberg、Schroepfer 和整個(gè) Facebook 公司大聲宣揚(yáng)的 10年 愿景和目標(biāo)。
有很多問(wèn)題都可能導(dǎo)致 Facebook 這個(gè)項(xiàng)目的失敗,其中隱私問(wèn)題是其中最明顯的一個(gè)問(wèn)題。在 Facebook 的用戶意識(shí)到這家公司正在越來(lái)越廣泛地分析自己的每一條動(dòng)態(tài)、每一張照片并越來(lái)越深入地挖掘自己生活里的所有事情時(shí),用戶可能就會(huì)開始反抗。
同時(shí)還可能有財(cái)務(wù)方面的問(wèn)題。Facebook 的高管和董事會(huì)會(huì)在什么時(shí)候要求看到他們從在人工智能和機(jī)器學(xué)習(xí)方面進(jìn)行的投入中獲得的回報(bào)呢?Schroepfer 自己堅(jiān)持表示,F(xiàn)acebook 的管理層并不擔(dān)心 FAIR 和 AML 的投資回報(bào)問(wèn)題,他這樣說(shuō)道:“我認(rèn)為,F(xiàn)AIR 和 AML 這兩個(gè)團(tuán)隊(duì)做的工作已經(jīng)為未來(lái) 5-10年 的回報(bào)奠定了堅(jiān)實(shí)的基礎(chǔ),我們現(xiàn)在并不擔(dān)心投資回報(bào)率,因?yàn)槲磥?lái)可能只要 1-2 個(gè)項(xiàng)目成功,我們就能獲得期望的投資回報(bào)率。”
目前包括 Schroepfer、LeCun 和 Candela 在內(nèi)的所有 Facebook 領(lǐng)導(dǎo)層都對(duì)開放這個(gè)本質(zhì)屬性非常重視,如果一旦情況發(fā)生改變,導(dǎo)致這些管理者放棄開放的理念,這時(shí)將會(huì)出現(xiàn)什么樣的情況呢? “如果他們舍棄了開放的理念,像過(guò)去很多公司所做過(guò)的那樣,那么他們可能就會(huì)喪失在科研領(lǐng)域的前沿領(lǐng)先優(yōu)勢(shì)。當(dāng)公司到了某個(gè)發(fā)展節(jié)點(diǎn)后,如發(fā)展得不太順利的時(shí)候,這時(shí)就會(huì)自然而然地出現(xiàn)一種促使科研人員追求短期利益的趨勢(shì),這只會(huì)傷害實(shí)驗(yàn)室,同時(shí)不利于公司長(zhǎng)期愿景的實(shí)現(xiàn)。” 蒙特利爾大學(xué)的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室主管 Yoshua Bengio 說(shuō)道。(AML 實(shí)驗(yàn)室的部分成員)
這里的挑戰(zhàn)在于要讓像 LeCun 這樣真正的強(qiáng)人去充當(dāng)產(chǎn)品人員和科研人員之間的緩沖器,確保不給科研人員太多的壓力去迫使他們追求短期利益。但無(wú)論如何,F(xiàn)acebook 未來(lái)依然會(huì)面臨這方面的挑戰(zhàn),因?yàn)榭倳?huì)有追求短期目標(biāo)和利益的壓力存在。
即使 LeCun 自己也意識(shí)到,有時(shí)事情會(huì)在毫無(wú)征兆的情況下發(fā)生轉(zhuǎn)變。“沒有人強(qiáng)迫我們?nèi)プC明自己存在的價(jià)值。但在經(jīng)歷了幾家科研實(shí)驗(yàn)室的興衰成敗后,我開始認(rèn)識(shí)到這樣一個(gè)事實(shí):除非你在公司里有東西可說(shuō),如:因?yàn)槲覀優(yōu)楣咀隽诉@些工作,所以才會(huì)花這多么錢。否則的話,你現(xiàn)有的工作模式將無(wú)法持續(xù)太久。” 這也是 LeCun 和 Candela 在運(yùn)營(yíng)這兩個(gè)實(shí)驗(yàn)室時(shí)會(huì)尋求將科研成果最大程度地應(yīng)用到產(chǎn)品中的原因所在,以提高成功的可能性。
“你對(duì)一家公司要做什么事情越清楚,那么要做的事情就越少,這時(shí)就能越出色地完成這些工作。所以,如果你要求他們做 10 件事,他們可能其中的三件事做得比較好,其它 7 件事都做得都非常糟糕。這時(shí)你只能希望他們能選對(duì)那三件事情。作為對(duì)比,如果你說(shuō)公司目前只需要做一件事情,這時(shí)你就能清楚地知道他們是如何做這件事的。對(duì)我們自己而言,我們現(xiàn)在就有兩個(gè)問(wèn)題需要解決:一是做基于未來(lái)的長(zhǎng)期科研,二是找到科研成果應(yīng)用到產(chǎn)品上的方法。這意味著我們需要?jiǎng)?chuàng)造有效的方法在全公司內(nèi)共享想法。
我們希望能夠形成這樣一種理想的內(nèi)部流通方式:AML 成員加入 FAIR,F(xiàn)AIR 成員也將加入 AML。這樣的情況已經(jīng)在發(fā)生了。其中一個(gè)例子是,F(xiàn)acebook 的臉部識(shí)別團(tuán)隊(duì)最開始是在 FAIR 啟動(dòng)的,后來(lái)就搬進(jìn)了 AML 實(shí)驗(yàn)室,因?yàn)檫@個(gè)團(tuán)隊(duì)的工作和產(chǎn)品的關(guān)聯(lián)性越來(lái)越大。還有一個(gè)例子是,AML 實(shí)驗(yàn)室的機(jī)器翻譯團(tuán)隊(duì)的一位科研人員對(duì)將神經(jīng)網(wǎng)絡(luò)研究成果運(yùn)用到機(jī)器翻譯領(lǐng)域很有熱情,所以他將研究重點(diǎn)轉(zhuǎn)移到了推動(dòng)最尖端的神經(jīng)網(wǎng)絡(luò)科學(xué)研究里,于是他后來(lái)就去了 FAIR 實(shí)驗(yàn)室。
LeCun 表示,很多由一個(gè)實(shí)驗(yàn)室搭建的基礎(chǔ)框架都流向了另一個(gè)實(shí)驗(yàn)室。舉個(gè)例子,F(xiàn)acebook 剛剛發(fā)布的智能搜索引擎項(xiàng)目 DeepText 雖然由 AML 直接完成,但它使用的確是 FAIR 搭建的基礎(chǔ)架構(gòu),因?yàn)樽铋_始 FAIR 想要搞清楚如何使用卷積網(wǎng)絡(luò)以及其他深度學(xué)習(xí)技術(shù)去分類文本和理解文本。
當(dāng)他們?cè)谶@些領(lǐng)域的研究舉得突破的時(shí)候,F(xiàn)acebook 并沒有將自己的研究成果隱藏起來(lái)不和大家分享。以 Deep Text 為例,在剛發(fā)布后不久,F(xiàn)acebook 就在自己的開源代碼博客里發(fā)布了有關(guān) Deep Text 的深度文章。“你在學(xué)術(shù)界發(fā)表研究成果,參加科研大會(huì),積極為整個(gè)科學(xué)界做貢獻(xiàn)。與此同時(shí),你還能看到自己的科研成果影響數(shù)十億的用戶。” 計(jì)算機(jī)視覺團(tuán)隊(duì)的主管 Manohar Paluri 如此說(shuō)道。
一些人可能會(huì)擔(dān)心這樣的開放可能會(huì)導(dǎo)致一些商業(yè)上的風(fēng)險(xiǎn),LeCun 卻并不這么看認(rèn)為。Facebook 能從讓外部人在自己代碼的基礎(chǔ)上工作里受益良多,因?yàn)槿绻@些外部人的工作做得非常好的話,F(xiàn)acebook 可以直接將他們招入麾下,或者直接采用他們做出的改進(jìn)即可。
“基于我們的市場(chǎng)地位,其他人使用我們的技術(shù)是 Ok 的,因?yàn)榧夹g(shù)的價(jià)值很少存在于技術(shù)本身,而是存在于我們利用技術(shù)過(guò)程里。我們自己是一個(gè)巨大的社交網(wǎng)絡(luò),如果我們發(fā)明了一種能夠應(yīng)用到社交網(wǎng)絡(luò)里的技術(shù),我們就會(huì)是最快利用這個(gè)新技術(shù)的人。如果我們不先人一步運(yùn)用這項(xiàng)技術(shù)的話,那就是我們的錯(cuò)了。“ LeCun 說(shuō)道。