欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

圖靈獎(jiǎng)遺忘的AI之父,GAI時(shí)代再發(fā)聲:Jurgen重談AI“創(chuàng)業(yè)”史

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  

最近人工智能領(lǐng)域戰(zhàn)火紛飛,各種觀點(diǎn)打架。脾氣火爆的人工智能之父Jürgen Schmidhuber也不斷吐槽自己“被遺忘”了,不滿之余還不忘四處宣講自己全新的人工智能發(fā)展理念,誓要奪回大眾視線。

不久前,他就接受了Machine Learning Street(MLST)的一次獨(dú)家專訪,回憶了自己在深度學(xué)習(xí)和人工智能方面的開(kāi)創(chuàng)性工作,分享他對(duì)智能機(jī)器未來(lái)的展望,還重點(diǎn)回顧了世界模型帶來(lái)的人工智能創(chuàng)新和LSTM和Transformer的開(kāi)發(fā)及演變。

在Jürgen Schmidhuber看來(lái),深度學(xué)習(xí)雖然不能解決像基礎(chǔ)理論改進(jìn)一類的問(wèn)題,但在大部分問(wèn)題上都表現(xiàn)出了很高的實(shí)用性,尤其是循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)的強(qiáng)大之處在于,它本質(zhì)上是一臺(tái)通用計(jì)算機(jī),所以理論上來(lái)任何能在計(jì)算機(jī)上執(zhí)行的計(jì)算任務(wù)都能在循環(huán)神經(jīng)網(wǎng)絡(luò)上進(jìn)行。只需要增加存儲(chǔ),就能讓循環(huán)神經(jīng)網(wǎng)絡(luò)處理更復(fù)雜的問(wèn)題。

不過(guò)Jürgen Schmidhuber也說(shuō)了,一開(kāi)始自己的想法還是很天真的,想讓神經(jīng)網(wǎng)絡(luò)去模擬和預(yù)測(cè)未來(lái)的每一個(gè)小步驟,再?gòu)闹刑暨x出能夠帶來(lái)最大回報(bào)的行動(dòng)路徑。

Jürgen Schmidhuber也找到了這個(gè)繁瑣低效的流程的改進(jìn)方式。他想把輸入的那一長(zhǎng)串的行動(dòng)序列都拆分成不同的塊,之后再以新的方式組合在一起。這樣一來(lái),就可以在不同的情況下調(diào)用相同的塊,而不是再重新一步一步地預(yù)測(cè)抽取。

Jürgen Schmidhuber把這些理念和世界模型結(jié)合在了一起,讓世界模型去預(yù)測(cè)環(huán)境未來(lái)發(fā)展的情況通過(guò)建立模型來(lái)推斷下一個(gè)時(shí)刻的狀態(tài),并不斷優(yōu)化模型的表現(xiàn)。世界模型的結(jié)構(gòu)類似于人腦中的“心智模式”,是對(duì)外部世界的一種內(nèi)在模擬。

Jürgen Schmidhuber相信未來(lái)能夠構(gòu)建出一個(gè)足夠通用的系統(tǒng),讓系統(tǒng)能夠反復(fù)利用之前學(xué)習(xí)的內(nèi)容,從神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)更多的子程序,最終實(shí)現(xiàn)系統(tǒng)的自主學(xué)習(xí)。

Jürgen Schmidhuber還從世界模型的發(fā)展中領(lǐng)悟到一個(gè)特殊的觀點(diǎn),整個(gè)科學(xué)史其實(shí)是一部數(shù)據(jù)壓縮發(fā)展史。科學(xué)家們不斷地從數(shù)據(jù)簡(jiǎn)化中發(fā)現(xiàn)新的科學(xué)技術(shù),再利用新的科學(xué)技術(shù)壓縮研究中面對(duì)的龐大數(shù)據(jù)。

在人工智能領(lǐng)域,這一現(xiàn)象更加明顯。通過(guò)收集和分析大量數(shù)據(jù),科學(xué)家們發(fā)現(xiàn)背后的規(guī)律,找到壓縮數(shù)據(jù)的方法,從而提升人工智能的能力。未來(lái),人工智能將學(xué)會(huì)自主進(jìn)行數(shù)據(jù)壓縮,理解數(shù)據(jù)背后的深層規(guī)則。

回顧人工智能的發(fā)展歷程,上世紀(jì)90年代年是個(gè)充滿奇跡的時(shí)期。可以說(shuō)沒(méi)有那時(shí)候Jürgen Schmidhuber的種種發(fā)現(xiàn),就沒(méi)有現(xiàn)在火爆的生成式人工智能。

例如ChatGPT里的“G”(生成對(duì)抗網(wǎng)絡(luò))、“P”(自監(jiān)督預(yù)訓(xùn)練)、“T”(Transformer),無(wú)一不是基于Jürgen Schmidhuber及其團(tuán)隊(duì)過(guò)去發(fā)表的成果。

1990年,Jürgen Schmidhuber提出了Adversarial Curiosity原則,包括一個(gè)生成器和一個(gè)預(yù)測(cè)器,讓兩個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行博弈和對(duì)抗。生成對(duì)抗網(wǎng)絡(luò)(GAN)就是基于這個(gè)原則誕生的。

一年后他提出了線性Transformer,奠定了Transformer的基本原理,現(xiàn)在火爆的大語(yǔ)言模型都建立在Transformer的基礎(chǔ)上。

那時(shí)Jürgen Schmidhuber也在深度學(xué)習(xí)策略方面實(shí)現(xiàn)了一個(gè)天才的想法,使用預(yù)測(cè)編碼來(lái)大大壓縮長(zhǎng)序列,騰出空間讓深度學(xué)習(xí)變成可能。這也是大名鼎鼎的自監(jiān)督預(yù)訓(xùn)練的來(lái)源。

同樣在1991年,他的學(xué)生提出了早期的LSTM概念,兩人在1997年共同發(fā)表了LSTM的論文,這篇論文還成為了20世紀(jì)引用量最高的論文。

早期的大語(yǔ)言模型都是基于LSTM開(kāi)發(fā)的,沒(méi)有Transformer的某些限制,但并行化上不如Transformer高效。

不過(guò)Jürgen Schmidhuber并未止步于此,他和他的團(tuán)隊(duì)最近正在研發(fā)X LSTM,旨在打破這一局限,為人工智能領(lǐng)域帶來(lái)新的突破。通過(guò)這些創(chuàng)新,Schmidhuber不斷推動(dòng)著人工智能的邊界,為我們展示了一個(gè)充滿可能性的未來(lái)。

以下是Jürgen Schmidhuber訪談的具體內(nèi)容,AI科技評(píng)論摘取精華內(nèi)容,作了不改原意的整理:


人工智能算法的局限和突破

MLST:再次歡迎來(lái)到MLST,非常榮幸能有您參加節(jié)目。

Jürgen Schmidhuber: 我的榮幸,感謝邀請(qǐng)我。


MLST:你認(rèn)為未來(lái)人工智能技術(shù)的突破會(huì)減少計(jì)算量嗎?我上周采訪了ARC challenge的獲勝者Jack Cole,他認(rèn)為我們需要離散程序合成,需要可能是神經(jīng)引導(dǎo)的符號(hào)人工智能或神經(jīng)符號(hào)人工智能。他還提到神經(jīng)網(wǎng)絡(luò)是“寬但淺”,而符號(hào)方法是“狹窄但深入”。你對(duì)此有什么看法?

Jürgen Schmidhuber: 我完全同意。深度學(xué)習(xí)無(wú)法解決計(jì)算機(jī)科學(xué)中的很多問(wèn)題,例如基礎(chǔ)理論改進(jìn)。深度搜索樹(shù)更能確保新定理的正確性。雖然深度學(xué)習(xí)可以用來(lái)尋找捷徑或識(shí)別模式。有很多問(wèn)題可以通過(guò)非深度學(xué)習(xí)的方法更快更高效地解決。例如符號(hào)操作,當(dāng)前的語(yǔ)言模型在遇到符號(hào)操作問(wèn)題時(shí),也是調(diào)用傳統(tǒng)的符號(hào)計(jì)算方法來(lái)解決。


MLST:確實(shí),我們常說(shuō)神經(jīng)網(wǎng)絡(luò)是有限狀態(tài)自動(dòng)機(jī),而不是圖靈機(jī)。多年來(lái),LeCun和Hinton等人試圖反駁這個(gè)觀點(diǎn),他們認(rèn)為神經(jīng)網(wǎng)絡(luò)原則上可以進(jìn)行符號(hào)抽象操作。但你認(rèn)為它們有很明顯的區(qū)別,對(duì)嗎?

Jürgen Schmidhuber: 是的,循環(huán)網(wǎng)絡(luò)就是一臺(tái)通用計(jì)算機(jī),所以原則上你可以在循環(huán)網(wǎng)絡(luò)中計(jì)算任何在筆記本電腦上可以計(jì)算的東西。


MLST:一篇1995年的論文證明了這一點(diǎn),它使用了任意精度,似乎有些作弊,通過(guò)增加權(quán)重的精度來(lái)假裝是圖靈機(jī)。

Jürgen Schmidhuber: 你指的是Siegelmann的論文?那篇論文的論點(diǎn)不太有說(shuō)服力,因?yàn)樗枰獙?duì)權(quán)重進(jìn)行無(wú)限精確的計(jì)算。循環(huán)網(wǎng)絡(luò)作為通用計(jì)算機(jī)的證明并非那么簡(jiǎn)單,但它確實(shí)表明在這些網(wǎng)絡(luò)中可以實(shí)現(xiàn)NAND門(mén)。因此,任何筆記本電腦可以做的事情,循環(huán)網(wǎng)絡(luò)也可以做到。

圖靈獎(jiǎng)遺忘的AI之父,GAI時(shí)代再發(fā)聲:Jurgen重談AI“創(chuàng)業(yè)”史

MLST:我同意,但很多人會(huì)提出圖靈機(jī)可以通過(guò)擴(kuò)展內(nèi)存處理潛在無(wú)限數(shù)量的情況,這是否意味著圖靈機(jī)提供了更多的可能性?

Jürgen Schmidhuber: 這只是一個(gè)理論。圖靈機(jī)是圖靈在1931年提出的,用來(lái)討論計(jì)算和人工智能的基本限制。圖靈機(jī)的理論構(gòu)造與現(xiàn)實(shí)可以構(gòu)建的東西無(wú)關(guān)。在現(xiàn)實(shí)世界中,所有計(jì)算機(jī)都是有限狀態(tài)的自動(dòng)機(jī)。


MLST:理論上,Python解釋器可以執(zhí)行無(wú)限多的程序,而神經(jīng)網(wǎng)絡(luò)只能識(shí)別它們訓(xùn)練過(guò)的有限事物,這是兩者的根本區(qū)別。

Jürgen Schmidhuber: 理論上是這樣,但在實(shí)際操作中,因?yàn)榇鎯?chǔ)空間有限,所有計(jì)算設(shè)備都受限于有限狀態(tài)自動(dòng)機(jī)。我們能實(shí)現(xiàn)的,是由循環(huán)神經(jīng)網(wǎng)絡(luò)代表的有限狀態(tài)自動(dòng)機(jī)。有些任務(wù),比如乘法運(yùn)算或定理證明,某些自動(dòng)機(jī)更高效。

這些自動(dòng)機(jī)看似簡(jiǎn)單,但在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)并不直觀。理論上,它們是等價(jià)的,但在實(shí)用計(jì)算中,沒(méi)有超越有限狀態(tài)自動(dòng)機(jī)的優(yōu)越性。大多數(shù)實(shí)際問(wèn)題都很簡(jiǎn)單,只需要有限存儲(chǔ)和計(jì)算能力即可。

因此,我們專注于用循環(huán)神經(jīng)網(wǎng)絡(luò)或Transformer解決實(shí)際問(wèn)題。


MLST:希拉里·普特南提到過(guò)多重實(shí)現(xiàn)性,任何計(jì)算都可以用不同的物理系統(tǒng)來(lái)表示。在我看來(lái),多重實(shí)現(xiàn)性的奇妙之處在于其表示和概括能力。這種方式是人工智能的一種理想形式,可以通過(guò)緊湊的符號(hào)表示處理可能在無(wú)限多種情境下工作的事物,而不是單純記住所有不同的操作方式。

Jürgen Schmidhuber: 是的,但是這個(gè)概念很難劃定邊界。

我們?cè)谟懻撈媾夹r?yàn)問(wèn)題之前,就明確了一點(diǎn),Transformer無(wú)法學(xué)習(xí)奇偶校驗(yàn)的邏輯。奇偶校驗(yàn)是一個(gè)簡(jiǎn)單的問(wèn)題,就是判斷一串二進(jìn)制數(shù)字中是奇數(shù)還是偶數(shù)。

要解決這個(gè)問(wèn)題,你需要逐個(gè)讀取位,你就有了一個(gè)很小的循環(huán)網(wǎng)絡(luò),只有一個(gè)從隱藏單元到自身的偵察連接。每當(dāng)一個(gè)新單元進(jìn)入,內(nèi)部狀態(tài)就會(huì)在1.0和0.0之間翻轉(zhuǎn)。這個(gè)類似小邏輯電路的東西能解決Transformer解決不了的奇偶校驗(yàn)問(wèn)題,循環(huán)神經(jīng)網(wǎng)絡(luò)當(dāng)然也能做到。

這就是我從80年代開(kāi)始對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)著迷的原因,因?yàn)樗鼈冊(cè)谕ㄓ糜?jì)算的意義上是通用的,只需在需要時(shí)增加存儲(chǔ),就能處理更復(fù)雜的問(wèn)題。


MLST:我認(rèn)為,RNN作為計(jì)算模型的基礎(chǔ)和它作為可訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實(shí)際用途是有區(qū)別的。因?yàn)?991年的那篇論文表明,RNN不能通過(guò)梯度下降進(jìn)行訓(xùn)練,而只是以一種特殊的方式輸入信息,使它表現(xiàn)得像圖靈機(jī)。我們希望它們不僅可訓(xùn)練,而且有實(shí)際用處。

Jürgen Schmidhuber: 確實(shí),這就是一個(gè)問(wèn)題。一個(gè)學(xué)習(xí)奇偶校驗(yàn)的小網(wǎng)絡(luò)只有5個(gè)連接,梯度下降并不適用。

最好的辦法是隨機(jī)初始化權(quán)重,如果解決了訓(xùn)練樣本的奇偶校驗(yàn),它幾乎肯定能泛化到所有長(zhǎng)度。這個(gè)小網(wǎng)絡(luò)比前饋網(wǎng)絡(luò)更強(qiáng)大,如果訓(xùn)練一個(gè)前饋網(wǎng)絡(luò)解決9位奇偶校驗(yàn),它無(wú)法泛化到10位或11位,而這個(gè)小網(wǎng)絡(luò)可以泛化到任何類型的奇偶校驗(yàn)輸入。

我們有一個(gè)非傳統(tǒng)的學(xué)習(xí)算法,就是隨機(jī)搜索權(quán)重,只需嘗試1000次,看是否解決了訓(xùn)練集中的問(wèn)題。1997年的LSTM論文中也提到,有些問(wèn)題不適合梯度下降學(xué)習(xí),離散程序搜索可能更合適。權(quán)重矩陣是網(wǎng)絡(luò)的程序,梯度下降有時(shí)會(huì)陷入困境,而其他搜索方法可以找到你真正需要的權(quán)重設(shè)置。

從1987年以來(lái)的研究來(lái)看,我們的研究涵蓋了很多象征性的算法,這些算法專注于漸近最優(yōu)問(wèn)題解決者,如2003年的OOPS,這些算法與神經(jīng)網(wǎng)絡(luò)無(wú)關(guān)。但神經(jīng)網(wǎng)絡(luò)在很多實(shí)際問(wèn)題上表現(xiàn)良好,即使沒(méi)有理論證明。這兩種方法的界限很難劃定,因?yàn)樗鼈冎g的區(qū)別已經(jīng)越來(lái)越模糊了。

在90年代初,我們有子目標(biāo)生成器,可以做一些像是符號(hào)化的事,但其實(shí)是通過(guò)系統(tǒng)中的梯度下降實(shí)現(xiàn)的。

這個(gè)系統(tǒng)學(xué)會(huì)了把實(shí)現(xiàn)目標(biāo)所必須執(zhí)行的動(dòng)作序列分解成有意義的塊。這樣你就可以從開(kāi)始到目標(biāo),然后從子目標(biāo)到目標(biāo),所有看起來(lái)有點(diǎn)像符號(hào)化的事情。

但現(xiàn)在我們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)也能實(shí)現(xiàn),并且甚至可以通過(guò)梯度下降來(lái)對(duì)齊。當(dāng)然我們也碰到了其他問(wèn)題導(dǎo)致梯度下降失敗。所以你不會(huì)考慮把梯度下降當(dāng)作能解決所有問(wèn)題的萬(wàn)能方法。這并是神經(jīng)網(wǎng)絡(luò)的問(wèn)題,因?yàn)樯窠?jīng)網(wǎng)絡(luò)可以用許多非梯度下降的方法來(lái)訓(xùn)練。


MLST:這是一個(gè)有趣的觀點(diǎn)。你職業(yè)生涯中花了很多時(shí)間研究元學(xué)習(xí),這涉及更高階的學(xué)習(xí)方法。正如你提到的,在元學(xué)習(xí)中可以混合多種模式,比如隨機(jī)梯度上升、符號(hào)模式以及復(fù)雜的元推理模式。對(duì)于目前進(jìn)行arc挑戰(zhàn)的人,他們?cè)谶M(jìn)行離散程序搜索,有的嘗試在頂層使用元模式的神經(jīng)搜索或完全不同的方法。你認(rèn)為應(yīng)該怎么做?

Jürgen Schmidhuber: 你需要看具體問(wèn)題的性質(zhì)。雖然我沒(méi)有研究所有問(wèn)題,但我確信,很多問(wèn)題可以用類似最優(yōu)順序問(wèn)題的方法來(lái)解決。這是一種漸進(jìn)的最優(yōu)方式,找到解決計(jì)算問(wèn)題的程序,使驗(yàn)證時(shí)間與解決方案大小呈線性關(guān)系。

這是一個(gè)重要的概念,與P和NP問(wèn)題有關(guān)。有一種最優(yōu)的方法進(jìn)行程序搜索,類似1973年的通用搜索算法。最優(yōu)順序問(wèn)題求解器基于這種方法,以漸進(jìn)最優(yōu)的方式解決新問(wèn)題,利用先前問(wèn)題的解決方案。這種方法并不局限于神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)領(lǐng)域,但你可以將神經(jīng)網(wǎng)絡(luò)用作基本指令,并測(cè)量其運(yùn)行時(shí)間。最優(yōu)的運(yùn)行方式是將時(shí)間分配給測(cè)試程序,優(yōu)先考慮簡(jiǎn)單和快速的方法。

這些程序可以包含各種原始指令,比如Transformer的反向傳播等,但需要測(cè)量其運(yùn)行時(shí)間。如果消耗時(shí)間過(guò)多,就要中斷程序并調(diào)整分配時(shí)間,尋找易于驗(yàn)證的解決方案。雖然這些看起來(lái)很符號(hào)化,但我在90年代已經(jīng)將這些原則應(yīng)用于神經(jīng)網(wǎng)絡(luò)。

這其實(shí)是另一種搜索神經(jīng)網(wǎng)絡(luò)權(quán)重的方法,不是通過(guò)梯度下降,而是更智能的方法。如果運(yùn)氣好的話,還能帶來(lái)更好的泛化效果。因?yàn)檫@些方法能夠找到解決問(wèn)題的最短、最快的方式,最小化算法復(fù)雜性或Kolmogorov復(fù)雜性。

這些方法在神經(jīng)網(wǎng)絡(luò)的運(yùn)行時(shí)間限制下,有助于更好的泛化。因此,傳統(tǒng)的符號(hào)推理、程序搜索和神經(jīng)網(wǎng)絡(luò)之間存在一定的重疊。


人工智能與AGI發(fā)展討論

MLST:那么,技術(shù)行業(yè)是否試圖挖走你的團(tuán)隊(duì)?

Jürgen Schmidhuber: 他們確實(shí)這樣做了。他們當(dāng)然試圖挖走我的合作者。

例如,在2010年和2011年,當(dāng)我們?cè)谏窠?jīng)網(wǎng)絡(luò)上取得快速轉(zhuǎn)化的成功時(shí),蘋(píng)果確實(shí)成功地挖走了我一位獲獎(jiǎng)團(tuán)隊(duì)成員。有些人認(rèn)為蘋(píng)果在深度GPU CNN領(lǐng)域來(lái)得太晚,但并非如此,他們?cè)谶@一領(lǐng)域商業(yè)化后就積極參與了。

而谷歌DeepMind是由我實(shí)驗(yàn)室的一名學(xué)生和其他人共同創(chuàng)辦的,他們的第一位員工是我的另一位博士生。后來(lái),他們還聘用了我的許多博士后和博士生。


MLST:順便說(shuō)一句,前幾天我在推特上看到一個(gè)有趣的段子,一位女士說(shuō):“我不想讓人工智能為我完成我的藝術(shù)創(chuàng)作,我想讓它洗碗。”

Jürgen Schmidhuber: 這就是我媽媽在70年代說(shuō)過(guò)的話。她說(shuō),“給我造一個(gè)能洗碗的機(jī)器人。”


MLST:是的,沒(méi)錯(cuò)。但我想要探討的是,為什么人們會(huì)認(rèn)為ChatGPT正在走向通用人工智能(AGI)?

而我看它時(shí),覺(jué)得它只是一個(gè)數(shù)據(jù)庫(kù)。它沒(méi)有知識(shí)獲取,因此沒(méi)有推理能力。它沒(méi)有創(chuàng)造力,也沒(méi)有自主性。它沒(méi)有我們所擁有的許多認(rèn)知特征。

然而,人們卻對(duì)它產(chǎn)生了興趣,要么是故意將其擬人化,要么是自我欺騙,或者他們真的看到了什么。

你認(rèn)為這可以用什么來(lái)解釋呢?

Jürgen Schmidhuber: 在我看來(lái),情況是那些對(duì)AGI保持懷疑態(tài)度的人質(zhì)疑了幾十年,被ChatGPT的誕生說(shuō)服,轉(zhuǎn)而相信和之前相反的觀點(diǎn)。因?yàn)橥蝗恢g,你有了一臺(tái)在圖靈測(cè)試中表現(xiàn)得非常好的機(jī)器。

他們認(rèn)為,AGI來(lái)了。但我認(rèn)為所有因?yàn)镃hatGPT和其他大型語(yǔ)言模型而開(kāi)始擔(dān)心AGI的人,主要是因?yàn)樗麄儾惶私馊斯ぶ悄埽涣私獗澈蟮纳窠?jīng)網(wǎng)絡(luò)的局限性。今天我們已經(jīng)提到過(guò)一些這些神經(jīng)網(wǎng)絡(luò)根本做不到的事情。

實(shí)際上有點(diǎn)奇怪的是,我多年來(lái)一直在倡導(dǎo),或者說(shuō)在炒作AGI。我在70年代告訴我媽媽,在我有生之年AGI一定會(huì)實(shí)現(xiàn)的。在80年代,我所有的同事都認(rèn)為我瘋了。

但突然,很多不相信我的預(yù)測(cè)的人改變了自己的想法,只是因?yàn)镃hatGPT的出現(xiàn),他們就開(kāi)始認(rèn)為離AGI已經(jīng)很近了。

我認(rèn)為唯一的原因是他們并沒(méi)有真正理解這些大型語(yǔ)言模型的本質(zhì)和局限性。


MLST:我明白,但我無(wú)法理解這一點(diǎn)。因?yàn)槠渲性S多人,特別是在硅谷的那些人,他們?cè)诩夹g(shù)行業(yè)工作,他們正在研究這項(xiàng)技術(shù),他們卻不了解機(jī)器學(xué)習(xí)是如何工作的。我只能理解為有時(shí)你會(huì)碰到一些非常聰明的人,在其他方面卻容易被迷惑,或者說(shuō),一定有什么東西可以解釋他們?yōu)槭裁纯床坏竭@一點(diǎn)。

我的意思是,這些都是機(jī)器學(xué)習(xí)模型,它們只能將參數(shù)化的曲線擬合到數(shù)據(jù)分布中,在密度大的地方效果很好,而在密度小的地方效果就不好了。為什么他們會(huì)認(rèn)為這是神奇的呢?

Jürgen Schmidhuber: 也許是因?yàn)樗麄冎械脑S多人都是風(fēng)險(xiǎn)投資家。他們被一些正在成立初創(chuàng)公司的科學(xué)家所說(shuō)服,這些科學(xué)家聲稱他們的新初創(chuàng)公司非常接近成功,需要大量投資。

因此,我認(rèn)為產(chǎn)生這種誤解的一個(gè)原因是,一些機(jī)器學(xué)習(xí)研究人員過(guò)度夸大了當(dāng)前大型語(yǔ)言模型的能力。而風(fēng)險(xiǎn)投資家并不了解實(shí)際上發(fā)生的事情,他們只是試圖找出將錢(qián)投在哪里,并愿意跳上任何額外的炒作列車(chē)。

AGI是可能的,它將會(huì)到來(lái),而且他們不是那么遙遠(yuǎn)的未來(lái),但它將只把大語(yǔ)言模型作為一個(gè)子模塊,因?yàn)橥ㄓ萌斯ぶ悄艿暮诵哪繕?biāo)是完全不同的東西,它更接近強(qiáng)化學(xué)習(xí)。

現(xiàn)在你可以作為一個(gè)強(qiáng)化學(xué)習(xí)者從監(jiān)督學(xué)習(xí)中獲得很多好處。例如,你可以構(gòu)建一個(gè)世界的預(yù)測(cè)模型。你可以利用這個(gè)模型,這個(gè)模型可能是由與語(yǔ)言模型相同的基礎(chǔ)模型構(gòu)建的,你可以在這個(gè)世界模型中使用它來(lái)規(guī)劃未來(lái)的行動(dòng)序列。

但現(xiàn)在情況確實(shí)不同了。現(xiàn)在你需要有一些具體化的人工智能,比如機(jī)器人,在現(xiàn)實(shí)世界中運(yùn)行。在現(xiàn)實(shí)世界中,你可以做到在電子游戲中做到的事情。在電子游戲中,你可以做一萬(wàn)億次模擬,一萬(wàn)億次試驗(yàn)來(lái)優(yōu)化你的表現(xiàn)。每次你被擊中后,你又會(huì)復(fù)活。

現(xiàn)在,在現(xiàn)實(shí)世界中,你有一臺(tái)機(jī)器人,你做了三次簡(jiǎn)單試驗(yàn)后,一個(gè)手指的肌腱就斷了。你必須應(yīng)對(duì)現(xiàn)實(shí)世界中類似這樣的令人難以置信的挫折,也必須做好現(xiàn)實(shí)世界的執(zhí)行規(guī)劃來(lái)減少問(wèn)題的出現(xiàn)。

你需要通過(guò)與世界的互動(dòng),對(duì)未來(lái)進(jìn)行心理規(guī)劃,從而優(yōu)化你的表現(xiàn)。但當(dāng)你通過(guò)行動(dòng)收集新的訓(xùn)練示例時(shí),也要非常高效。因?yàn)槟阆M畲笙薅鹊販p少獲取新數(shù)據(jù)的工作量,以改善你的世界模型(你正在使用這些數(shù)據(jù)進(jìn)行規(guī)劃)。

簡(jiǎn)而言之,我現(xiàn)在提到的這些非常重要,而且有幾個(gè)提到的組件還不能達(dá)到比較好的工作效果。不過(guò)現(xiàn)有的神經(jīng)網(wǎng)絡(luò)可以以某種方式作為稍大系統(tǒng)的組件,來(lái)完成所有的任務(wù)。

這類系統(tǒng)的首次出現(xiàn)可以追溯到1990年,當(dāng)時(shí)我可能是第一個(gè)在循環(huán)神經(jīng)網(wǎng)絡(luò)研究中使用“世界模型”這個(gè)詞的人,試圖為最大化獎(jiǎng)勵(lì)的控制器規(guī)劃動(dòng)作序列。但是這些更復(fù)雜的問(wèn)題解決者和決策者與僅僅使用大型語(yǔ)言模型是有很大不同的。

圖靈獎(jiǎng)遺忘的AI之父,GAI時(shí)代再發(fā)聲:Jurgen重談AI“創(chuàng)業(yè)”史

Jürgen“世界模型”的結(jié)構(gòu)圖。來(lái)源:Jürgen與David Ha2018年發(fā)表的論文《World Models》

MLST:是的,我讀過(guò)你和David Ha的論文,那是好幾年前的事了。他是第一個(gè)使用基于想象力的強(qiáng)化學(xué)習(xí)模型來(lái)玩電腦游戲的人。

不過(guò)這是題外話。我想說(shuō)的是,現(xiàn)在在硅谷,你只需要1000行代碼就能訓(xùn)練神經(jīng)網(wǎng)絡(luò),而且很容易就能賺到大把鈔票,擁有很高的地位。他們?yōu)槭裁催€要做其他事情呢?這是一個(gè)例子。

你已經(jīng)做了三分之一個(gè)世紀(jì)的工作,你也已經(jīng)考慮了下一步,我不知道他們是否只是在淡化這一點(diǎn)。他們?yōu)槭裁床蝗プ瞿切├щy的部分呢?也許是因?yàn)楝F(xiàn)在生活太輕松了,只要說(shuō)著這就是AGI就夠了。

Jürgen Schmidhuber: 是的,我猜許多現(xiàn)在過(guò)度炒作AGI的人正在為他們的下一個(gè)公司尋找融資,也有足夠多的容易上當(dāng)受騙的風(fēng)險(xiǎn)投資者想要跳上這臺(tái)“大馬車(chē)”。

另一方面,我們目前擁有的技術(shù)遠(yuǎn)遠(yuǎn)超出了純粹的語(yǔ)言模型,原則上來(lái)說(shuō)足以完成下一步工作。

就像我說(shuō)的那樣,用來(lái)創(chuàng)建語(yǔ)言模型的技術(shù)也可以用來(lái)創(chuàng)建世界模型。重點(diǎn)在于,你如何學(xué)會(huì)以層次化、高效的方式使用這個(gè)世界模型來(lái)規(guī)劃導(dǎo)致成功的行動(dòng)序列。你有一個(gè)想要解決的問(wèn)題,但你不知道如何解決,也沒(méi)有人類老師的幫助。現(xiàn)在你想通過(guò)自己的實(shí)驗(yàn)和這些心理規(guī)劃程序來(lái)弄清楚如何解決這個(gè)問(wèn)題。

1990年,我們選擇了一種錯(cuò)誤的、天真的方式想要解決這件事。我們建立了循環(huán)網(wǎng)絡(luò)控制器和循環(huán)網(wǎng)絡(luò)世界模型,用于規(guī)劃。我們做的是天真的事情,也就是一毫秒一毫秒地規(guī)劃。這意味著你要模擬你可能的未來(lái)的每一個(gè)小步驟,并且試圖在你的心理模擬中選擇一個(gè)你會(huì)獲得大量預(yù)測(cè)獎(jiǎng)勵(lì)的步驟。這太愚蠢了,不是人類做事的方式。

當(dāng)人類遇到一個(gè)問(wèn)題,比如“我怎樣才能從這里到達(dá)北京?”時(shí),他們會(huì)將問(wèn)題分解成子目標(biāo)。例如,他們會(huì)說(shuō):“好吧,首先……”但是,他們不會(huì)像這樣一步一步地計(jì)劃。他們不會(huì)說(shuō):“好的,首先我激活我的小指,然后……”他們會(huì)抓起手機(jī),然后打車(chē),然后在機(jī)場(chǎng)辦理登機(jī)手續(xù),接下來(lái)九個(gè)小時(shí)都不會(huì)發(fā)生什么,直到在北京下車(chē)。

所以,你并不是一毫秒一毫秒地模擬所有這些可能的幾率。

目前大多數(shù)強(qiáng)化學(xué)習(xí)仍在一步一步地進(jìn)行模擬,例如,在國(guó)際象棋或圍棋中,你確實(shí)在對(duì)這些可能的未來(lái)進(jìn)行蒙特卡洛采樣,然后選出一個(gè)看起來(lái)有希望的未來(lái),你的世界模型會(huì)隨著時(shí)間的推移不斷改進(jìn),即使你做出了錯(cuò)誤的決定,至少世界模型會(huì)變得更好。這樣,下次你就能做出更明智的決定。

但回到1990年,我們只能說(shuō)這還不夠好。我們必須學(xué)習(xí)子調(diào)用。我們必須將這些長(zhǎng)長(zhǎng)的行動(dòng)序列分解成塊。我們必須將整個(gè)輸入流分解成塊,將這些塊以某種方式分開(kāi),這些塊的抽象表示應(yīng)該是不同的,但它們對(duì)于這些特定序列是相似的。

然后你可以使用這些自適應(yīng)子代碼生成器,我們也在1990年有了,以一種新的方式將它們組合在一起,有效地和快速地解決你的問(wèn)題。因?yàn)槟阏谝媚阋呀?jīng)學(xué)會(huì)的子程序,比如從這里到出租車(chē)站。

所以我們有那項(xiàng)技術(shù),但與我們后來(lái)在2015年所做的相比,它不夠聰明。

后來(lái)我們有了更好的方法來(lái)使用這些預(yù)測(cè)性野生模型,以抽象的方式進(jìn)行規(guī)劃。因此,在2015年,我發(fā)表了論文《學(xué)會(huì)思考》,我認(rèn)為這篇文章在今天仍然很重要,我想很多不知道這篇文章的人或許應(yīng)該讀一讀。

圖靈獎(jiǎng)遺忘的AI之父,GAI時(shí)代再發(fā)聲:Jurgen重談AI“創(chuàng)業(yè)”史

那么2015年的論文是關(guān)于什么的?

它關(guān)于一個(gè)強(qiáng)化學(xué)習(xí)機(jī)器,這個(gè)機(jī)器有一個(gè)世界預(yù)測(cè)模型。

這個(gè)模型試圖預(yù)測(cè)一切,但我們并不是真的對(duì)一切都感興趣。我們只是對(duì)它為了預(yù)測(cè)一切而創(chuàng)造的內(nèi)部表示感興趣。通常它不能預(yù)測(cè)一切,因?yàn)槭澜缭谠S多方面都是不可預(yù)測(cè)的,但某些事情是可以預(yù)測(cè)的。而這些內(nèi)部表示中的一些變得真的可以預(yù)測(cè),它包括你可以想象到的一切。

舉個(gè)例子,如果你必須正確預(yù)測(cè)這個(gè)像素,也許這取決于1000步之前發(fā)生的一些事情。因此,預(yù)測(cè)機(jī)的這些內(nèi)部表征,會(huì)隨著時(shí)間的推移而考慮到這一點(diǎn)。所以這些內(nèi)部分辨率它們會(huì)傳達(dá)與這個(gè)世界和這個(gè)特定像素相關(guān)的信息。但在跳轉(zhuǎn)時(shí),你想以更聰明的方式進(jìn)行規(guī)劃。

那要怎么做呢?控制器必須完成某項(xiàng)任務(wù),最大化它的回報(bào)。而不是一毫秒一毫秒地使用世界模型相反,它應(yīng)該忽略所有根本無(wú)法預(yù)測(cè)的東西,只關(guān)注這些抽象的、可預(yù)測(cè)的內(nèi)部概念,至于其他的,控制器必須了解它們是什么。

那又該如何學(xué)習(xí)呢?我能做什么?

你可以給它與世界模型的額外連接,讓它學(xué)會(huì)好奇地發(fā)送查詢。查詢只是數(shù)字向量,一開(kāi)始,它不知道如何向這個(gè)野生模型發(fā)送好的查詢。然后,世界模型會(huì)反饋一些信息,因?yàn)槟銌拘蚜艘恍﹥?nèi)部表征,這些信息會(huì)反饋回來(lái)。所以它們必須通過(guò)控制器所做的強(qiáng)化學(xué)習(xí)或類似的事情來(lái)學(xué)習(xí)。

因此,現(xiàn)在控制器本質(zhì)上是在通過(guò)說(shuō)謊成為一個(gè)提示工程師。

那是我2015年的強(qiáng)化學(xué)習(xí)提示工程師,學(xué)習(xí)發(fā)送數(shù)據(jù)到墻模型,然后從角色模型中獲取數(shù)據(jù),這些數(shù)據(jù)在某種程度上應(yīng)該代表與之相關(guān)的算法信息。

因此,基本上控制器必須學(xué)習(xí)在這個(gè)龐大的世界模型中穿行,可能已經(jīng)看過(guò)所有YouTube視頻。有人必須學(xué)習(xí)以抽象的規(guī)劃方式處理這些內(nèi)部知識(shí),并解釋返回的內(nèi)容。而AC測(cè)試是這個(gè)控制器是否能夠在沒(méi)有模型的情況下,通過(guò)將所有連接設(shè)置為零,或者通過(guò)某種方式學(xué)習(xí)到在世界模型中處理相關(guān)算法信息,這樣更便宜,從而更快地學(xué)習(xí)所需的內(nèi)容。

因此,學(xué)習(xí)是重要的。我相信這就是前進(jìn)的方向。在機(jī)器人技術(shù)、強(qiáng)化學(xué)習(xí)、機(jī)器人及所有這些目前尚未有效的領(lǐng)域。


世界模型和人工智能的創(chuàng)新

MLST:我可以回顧一下你前面說(shuō)的一些事情嗎?因?yàn)槟阏劦降某橄笤瓌t與生成對(duì)抗網(wǎng)絡(luò)非常相似,在這個(gè)游戲中你試圖增加算法信息或信息轉(zhuǎn)換率,我理解為粗化或抽象。

正如你所說(shuō),你從微觀動(dòng)作空間開(kāi)始,或者轉(zhuǎn)向動(dòng)作抽象空間,在那里你實(shí)際上是在學(xué)習(xí)動(dòng)作空間中的模式。這是有道理的,因?yàn)楫?dāng)你開(kāi)車(chē)時(shí),例如,你會(huì)考慮宏觀的東西,忽略路上的樹(shù)葉,你在考慮大局,你有這種粗化、這種分辨率的跳躍,取決于你如何看待問(wèn)題。

根據(jù)我的理解,你正在學(xué)習(xí)思考,你剛才描述的控制器模式有點(diǎn)像是在建模這個(gè)過(guò)程。

Jürgen Schmidhuber: 是的,這里的控制器只是試圖提取另一個(gè)網(wǎng)絡(luò)的算法信息,這個(gè)網(wǎng)絡(luò)可能接受過(guò)各種訓(xùn)練。

例如,正如我之前提到的,它可能是所有YouTube視頻的集合。在這些數(shù)十億的視頻中,有很多是關(guān)于人們?nèi)訓(xùn)|西的,比如機(jī)器人、籃球運(yùn)動(dòng)員、足球運(yùn)動(dòng)員等。

這些視頻包含了大量關(guān)于重力、世界運(yùn)作方式以及三維特性的隱含信息。但控制器并不能直接訪問(wèn)這些視頻隱含的信息。

控制器通過(guò)執(zhí)行器發(fā)送信號(hào)來(lái)進(jìn)行操作,而這些執(zhí)行器可能與視頻中人類的操作方式不同,比如機(jī)器人只有三個(gè)手指而不是五個(gè),但它們?nèi)匀辉谕粋€(gè)受重力影響的世界中工作。通過(guò)觀察這些視頻,我們可以學(xué)習(xí)如何在不同條件下進(jìn)行操作,比如如何用三個(gè)手指進(jìn)行查詢和提示。

你需要將這些觀察注入到世界模型中。你想要進(jìn)行搜索,以解決模型中的關(guān)鍵問(wèn)題,從而提取出控制器改進(jìn)行為所需的有用信息。你可能只需要一些額外的信息,這些信息必須通過(guò)學(xué)習(xí)來(lái)獲得。

有些信息你不能立即用來(lái)提高投擲技能,但你可以稍微調(diào)整幾個(gè)參數(shù)位,這樣你就能比沒(méi)有這些參考信息時(shí)更快學(xué)會(huì)投擲球。在給定環(huán)境中找到正確的規(guī)劃算法,解決所有這些問(wèn)題是非常復(fù)雜的,需要通過(guò)學(xué)習(xí)來(lái)實(shí)現(xiàn)。

你無(wú)法預(yù)先編程出一個(gè)完美的解決方案,因此你必須在特定的環(huán)境下學(xué)習(xí),并考慮所有的資源限制,比如控制器中的神經(jīng)元數(shù)量和每毫秒的時(shí)間步數(shù)等。

你必須學(xué)習(xí)如何成為一個(gè)更好的提示工程師,發(fā)送正確的提示,并理解反饋的信息。

所以原則上,我認(rèn)為這就是未來(lái)規(guī)劃、層次化和類比推理以及所有這些東西的核心。你需要構(gòu)建一個(gè)足夠通用的系統(tǒng),讓它能夠自主學(xué)習(xí)所有這些內(nèi)容。

這種方法不是像我早期在谷歌或博士后研究中那樣的通用規(guī)劃,而是更加實(shí)際的,能夠在有限資源和各種限制下運(yùn)行的系統(tǒng)。在這種系統(tǒng)中,控制器需要學(xué)會(huì)如何更好地引導(dǎo)提示。

現(xiàn)在你給系統(tǒng)一系列問(wèn)題,它可以重復(fù)利用之前學(xué)到的內(nèi)容,并不斷學(xué)習(xí)更多的子程序,這些子程序可以編碼在重構(gòu)的神經(jīng)網(wǎng)絡(luò)中。這些網(wǎng)絡(luò)是通用計(jì)算機(jī),可以編碼所有層次化推理和子程序。原則上,它應(yīng)該能做得很好,但它并不像許多人癡迷的大型語(yǔ)言模型那樣的有限監(jiān)督技術(shù)一樣運(yùn)行得很好。


MLST:是的,這是您又一次超越時(shí)代的思考。

一個(gè)月前,我采訪了一些多倫多的大學(xué)生,他們正在將控制理論應(yīng)用于大型語(yǔ)言模型提示,并用它來(lái)探索可達(dá)性空間。他們使用一個(gè)控制器來(lái)優(yōu)化語(yǔ)言模型的輸出,探索可能的標(biāo)記空間。關(guān)鍵在于我們開(kāi)始看到一種元架構(gòu),語(yǔ)言模型只是整個(gè)架構(gòu)的一部分。

我認(rèn)為這種跳出思維定勢(shì)的思考方式真的非常有趣。

Jürgen Schmidhuber: 是的,我們最近的一篇論文受到了2015年學(xué)習(xí)提示工程師的啟發(fā),就是我們的心智社會(huì)論文。我們不僅有控制器和一個(gè)模型,而是很多基礎(chǔ)模型。有些模型非常擅長(zhǎng)計(jì)算機(jī)視覺(jué),能從圖像中生成標(biāo)題,另一些則擅長(zhǎng)用自然語(yǔ)言回答問(wèn)題。

現(xiàn)在你有一個(gè)由這些家伙組成的社會(huì),你給他們一個(gè)他們無(wú)法單獨(dú)解決的問(wèn)題,要求他們共同解決,那么他們會(huì)怎么做呢?

圖靈獎(jiǎng)遺忘的AI之父,GAI時(shí)代再發(fā)聲:Jurgen重談AI“創(chuàng)業(yè)”史

模型正在進(jìn)行“頭腦風(fēng)暴”。來(lái)源:Jürgen Schmidhuber等人2023年發(fā)表的論文《Mindstorms in Natural Language-Based Societies of Mind》

他們開(kāi)始為彼此成為提示工程師。他們會(huì)進(jìn)行一些我們稱之為“思維風(fēng)暴”的活動(dòng)。因?yàn)檫@個(gè)基于自然語(yǔ)言的思維社會(huì)的成員們?cè)诨ハ嗝嬖嚒D銜?huì)怎么做,你建議我們應(yīng)該怎么做?

我們會(huì)有不同類型的社會(huì)。例如,我們有君主制,那里有一個(gè)國(guó)王,一個(gè)神經(jīng)網(wǎng)絡(luò)國(guó)王,根據(jù)下屬的建議決定接下來(lái)應(yīng)該做什么。我們還會(huì)有民主制,在這些不同的家伙之間有投票機(jī)制。他們把所有的想法都放在黑板上,吸收其他人的所有想法,最終得出一個(gè)通常相當(dāng)令人信服的解決方案。

所以在各種應(yīng)用中,比如生成一個(gè)更好的圖像設(shè)計(jì),展示那個(gè)或者在3D環(huán)境中操縱世界以實(shí)現(xiàn)某個(gè)目標(biāo)等等,這種方式以一種開(kāi)放的方式運(yùn)作,并且打開(kāi)了一系列新問(wèn)題,比如,君主制是否比民主制更好?如果是的話,在什么條件下?反之亦然。


MLST:我感興趣的是,我認(rèn)為獲取知識(shí)是一件非常重要的事情。比如,我在建立一家初創(chuàng)公司,我在建立一個(gè)YouTube頻道,我在學(xué)習(xí)如何剪輯視頻和做音頻工程等等。這其中有太多的嘗試和錯(cuò)誤,因?yàn)橥评怼?chuàng)造力和智慧就是要能有靈光一現(xiàn)的洞察力,并以這種令人難以置信的方式將你已有的許多知識(shí)組成一個(gè)整體。

當(dāng)你看到它的時(shí)候,你就會(huì)有"啊哈"的一瞬間,然后你就再也看不到它了。現(xiàn)在,它改變了你看待整個(gè)世界的方式。但有時(shí)也會(huì)有"啊哈時(shí)刻"。

但有時(shí),通過(guò)我們的集體智慧,人們會(huì)嘗試很多不同的事情,我們會(huì)分享信息,進(jìn)行評(píng)估,然后新的事情發(fā)生了,這種創(chuàng)造性的洞察力,然后它改變了整個(gè)世界,我們會(huì)利用這些知識(shí)并分享它。

因此,這是一個(gè)有趣的過(guò)程。

Jürgen Schmidhuber: 是的,確實(shí)如此。根據(jù)別人的發(fā)現(xiàn),你也可以有"啊哈時(shí)刻"。當(dāng)愛(ài)因斯坦通過(guò)廣義相對(duì)論發(fā)現(xiàn)了物理學(xué)的巨大簡(jiǎn)化時(shí),很多人都被深深吸引,并產(chǎn)生了這些內(nèi)在的"喜悅時(shí)刻"。一旦他們理解了其中的奧秘,通過(guò)這一個(gè)人的發(fā)現(xiàn),世界突然變得簡(jiǎn)單了。

當(dāng)時(shí)發(fā)生了什么?我們看到的是一個(gè)以新穎方式壓縮數(shù)據(jù)的時(shí)刻。事實(shí)上,所有的科學(xué)都是一部數(shù)據(jù)壓縮的發(fā)展史。科學(xué)并不像我在1990年提出的那樣,只有這些生成對(duì)抗網(wǎng)絡(luò),其中的控制器只是試圖最大化與預(yù)測(cè)機(jī)試圖最小化的相同誤差函數(shù)。因此,主題預(yù)測(cè)器的誤差就是控制器的回報(bào)。這是一個(gè)相當(dāng)有限的人工科學(xué)家。

你真正想做的是讓一個(gè)控制器創(chuàng)建動(dòng)作序列,即通過(guò)實(shí)驗(yàn)來(lái)獲得數(shù)據(jù),而不僅僅是不可預(yù)測(cè)的、令人驚訝的、對(duì)模型來(lái)說(shuō)誤差很大的數(shù)據(jù)。你想創(chuàng)建的數(shù)據(jù)具有模型所不具備的規(guī)律性。

不規(guī)則性意味著你可以壓縮數(shù)據(jù)。所以,讓我們以我最喜歡的例子--蘋(píng)果掉落的視頻為例。有人通過(guò)他的行動(dòng)和實(shí)驗(yàn)生成了這些掉落的蘋(píng)果視頻。結(jié)果發(fā)現(xiàn),蘋(píng)果的掉落方式是相同的。你可以通過(guò)觀察視頻的前三幀來(lái)預(yù)測(cè)第四幀中的許多像素。盡管不是所有像素都可以預(yù)測(cè),但許多像素的預(yù)測(cè)很準(zhǔn)確,因此不需要額外存儲(chǔ)。這樣,你可以大大壓縮掉落蘋(píng)果的視頻,這說(shuō)明編碼預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)可以非常簡(jiǎn)單,可能只需要幾位信息來(lái)描述,因?yàn)槟憧梢岳脤?duì)重力的了解來(lái)大幅壓縮視頻。最初,你可能需要很多兆字節(jié)來(lái)存儲(chǔ)數(shù)據(jù),但由于你對(duì)重力有了深入了解,你只需要編碼模型預(yù)測(cè)的偏差。因此,如果模型很簡(jiǎn)單,你可以節(jié)省大量的數(shù)據(jù)存儲(chǔ)空間。這就是人們發(fā)現(xiàn)重力的方式。


MLST:你用蘋(píng)果的例子真的很有趣,因?yàn)樗屛以俅嗡伎加洃浐头夯年P(guān)系。在深度網(wǎng)絡(luò)中,我們使用歸納偏置,它們的形式是對(duì)稱性和尺度分離。例如,我們可以進(jìn)行平移,即局部權(quán)重共享,從而實(shí)現(xiàn)平移等變性。這將允許模型使用更少的表示或容量來(lái)模擬不同位置的球。但是,這是否是一個(gè)連續(xù)的過(guò)程呢?因?yàn)槲覀兛梢砸恢弊叩阶詈螅罱K我們會(huì)得到一個(gè)幾乎沒(méi)有自由度的模型,仍然可以表示蘋(píng)果的下落。但是,這在表示或保真度方面存在一個(gè)連續(xù)譜。

Jürgen Schmidhuber: 是的。而且,你還必須考慮到將內(nèi)部演示轉(zhuǎn)化為有意義的行動(dòng)所需的時(shí)間。當(dāng)嬰兒看著下面這些蘋(píng)果時(shí),他們?cè)谧鍪裁茨兀克麄円苍趯W(xué)習(xí)預(yù)測(cè)同步像素,這也是他們學(xué)習(xí)的方式,壓縮。

現(xiàn)在他們對(duì)數(shù)學(xué)的平方定律和描述許多不同物體的引力的簡(jiǎn)單的5符號(hào)定律一無(wú)所知。但原則上,他們知道這些蘋(píng)果掉落的速度會(huì)急劇加快。他們學(xué)習(xí)了這部分物理知識(shí)。

即使不能命名或?qū)⑵滢D(zhuǎn)化為符號(hào),這不是目標(biāo),但它可以極大地壓縮。在400年前,開(kāi)普勒還是一個(gè)嬰兒。他長(zhǎng)大了后看到了數(shù)據(jù),行星環(huán)繞著太陽(yáng)。這是嘈雜的數(shù)據(jù)。但后來(lái)他突然意識(shí)到數(shù)據(jù)存在規(guī)律性,因?yàn)橐坏┠阋庾R(shí)到所有這些數(shù)據(jù)點(diǎn)都在橢圓上,你就可以極大地壓縮它們。有一個(gè)簡(jiǎn)單的數(shù)學(xué)定律,他能夠根據(jù)這個(gè)簡(jiǎn)單的洞察力做出各種預(yù)測(cè)。這些都是正確的。預(yù)測(cè)就是全部。

幾十年后,另一個(gè)家伙,牛頓,他看到下落的蘋(píng)果和這些橢圓上的行星,它們是由同一個(gè)簡(jiǎn)單的東西驅(qū)動(dòng)的。這說(shuō)明許多額外的簡(jiǎn)化和預(yù)測(cè)確實(shí)有效。

又過(guò)了300年左右,直到另一個(gè)人開(kāi)始擔(dān)心與預(yù)測(cè)的偏差,整個(gè)事情變得越來(lái)越糟。傳統(tǒng)的世界模型變得越來(lái)越丑,因?yàn)槟阈枰絹?lái)越多的信息來(lái)編碼這些與預(yù)測(cè)的偏差。因?yàn)槿绻氵h(yuǎn)遠(yuǎn)地觀察星星在做的事情,按照標(biāo)準(zhǔn)理論,它們?cè)谧鲆恍┎辉撟龅氖虑椤?/p>

然后他提出了這個(gè)超級(jí)簡(jiǎn)化的理論,很多人認(rèn)為它不簡(jiǎn)單,但它非常簡(jiǎn)單。你可以用一句話概括廣義相對(duì)論的本質(zhì)。它的基本意思是,不管你加速或減速有多難,或者你目前生活的環(huán)境中的重力有多大,光速總是看起來(lái)一樣的。

這就是廣義相對(duì)論背后的整個(gè)程序。如果你理解了這一點(diǎn),你必須,你知道,學(xué)習(xí)十幾微積分來(lái)形式化它并從中推導(dǎo)出預(yù)測(cè)。但這只是基本洞察的副作用,它再次非常簡(jiǎn)單。所以這個(gè)非常簡(jiǎn)單的洞察再次允許大大壓縮數(shù)據(jù)。

所有的科學(xué)就是這樣,這就是數(shù)據(jù)壓縮進(jìn)步的歷史。

正如我們?cè)噲D構(gòu)建人工科學(xué)家一樣,我們正在做的就是這個(gè)。

每當(dāng)我們通過(guò)我們自己的數(shù)據(jù)收集程序,通過(guò)我們自己的實(shí)驗(yàn),每當(dāng)我們生成具有以前未知規(guī)律性的數(shù)據(jù),我們就會(huì)發(fā)現(xiàn)這種可壓縮性。因?yàn)槲覀冃枰芏嗤挥|和神經(jīng)元來(lái)存儲(chǔ)這些東西,但后來(lái)又不需要那么多。前后之間的差異,就是我們作為科學(xué)家的樂(lè)趣。

我們理解這個(gè)原理。我們只是構(gòu)建由相同愿望驅(qū)動(dòng)的人工科學(xué)家,旨在沿著這些方向最大化洞察力、數(shù)據(jù)壓縮和進(jìn)步。

我們已經(jīng)有了人工智能科學(xué)家。它們就像小型人工科學(xué)家,它們?yōu)樽约涸O(shè)定目標(biāo),為了最大化科學(xué)獎(jiǎng)勵(lì),它們樂(lè)于成為科學(xué)家。它們?cè)噲D發(fā)明實(shí)驗(yàn),以獲得具有某種特性的數(shù)據(jù)顯示出數(shù)據(jù)中存在的規(guī)律,而這些規(guī)律它們之前并不知道,但可以提取出來(lái)。

它們意識(shí)到,不知道的規(guī)律實(shí)際上讓它們能夠通過(guò)更好地預(yù)測(cè)數(shù)據(jù)來(lái)壓縮數(shù)據(jù),通過(guò)理解數(shù)據(jù)背后的規(guī)則來(lái)實(shí)現(xiàn)這一點(diǎn),因此我們可以在人工系統(tǒng)中實(shí)現(xiàn)這些東西。

因此,我們已經(jīng)有了人工科學(xué)家,雖然它們的工作效果不如你所知道的ChatGPT,并且它的領(lǐng)域更為有限,僅僅是關(guān)于世界知識(shí)的處理。但這將會(huì)到來(lái),它將改變一切。


LSTM和Transformer的演變及未來(lái)

MLST:盡管現(xiàn)代的大型語(yǔ)言模型如ChatGPT存在限制,但它們基于自注意力的Transformer是革命性的。你在大約三十年前就發(fā)表了首個(gè)Transformer變體,對(duì)此有何感想?它能做什么?

Jürgen Schmidhuber: 1991年我發(fā)表了線性Transformer。這種線性Transformer實(shí)際上是一個(gè)神經(jīng)網(wǎng)絡(luò),內(nèi)部包含許多非線性操作,并且計(jì)算需求很低。線性Transformer可以基于當(dāng)前聊天內(nèi)容來(lái)預(yù)測(cè)下一個(gè)詞。它學(xué)習(xí)生成“鍵”和“值”,并優(yōu)化注意力以減少預(yù)測(cè)錯(cuò)誤。它將存儲(chǔ)和控制分離,并通過(guò)梯度下降調(diào)整權(quán)重,提高預(yù)測(cè)準(zhǔn)確性。


MLST:你提到了1991年的那些突破。ChatGPT中有"T"(Transformer),還有"P"(預(yù)訓(xùn)練網(wǎng)絡(luò)),以及第一個(gè)生成對(duì)抗網(wǎng)絡(luò),GAN。你能多說(shuō)一些嗎?

Jürgen Schmidhuber: 1991年的工作為T(mén)ransformer和預(yù)訓(xùn)練網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)。同時(shí),我提出了GANs,通過(guò)生成網(wǎng)絡(luò)和預(yù)測(cè)機(jī)的互動(dòng),讓機(jī)器人通過(guò)人工好奇心探索環(huán)境,這是深度學(xué)習(xí)和對(duì)抗學(xué)習(xí)的重要里程碑。


MLST:我還想談?wù)凩STM,因?yàn)樗舱Q生在1991年。

Jürgen Schmidhuber: 對(duì),我的學(xué)生會(huì)Sep Hochreiter在1991年提出了LSTM的早期概念。他通過(guò)引入殘差連接解決了梯度消失問(wèn)題,這項(xiàng)技術(shù)后來(lái)發(fā)展成為廣泛認(rèn)可的LSTM,并在1997年成為20世紀(jì)被引用最多的人工智能論文之一。


MLST:20世紀(jì)被引用最多的人工智能論文,你對(duì)此有何感想?

Jürgen Schmidhuber: LSTM的普及程度非常高,比如Facebook曾用它每天進(jìn)行超過(guò)40億次翻譯,這比YouTube上最火視頻《Baby Shark》的點(diǎn)擊量增長(zhǎng)還要快,顯示了LSTM在實(shí)際應(yīng)用中的廣泛影響力。


MLST:我聽(tīng)說(shuō)他正在研發(fā)一種更先進(jìn)的LSTM版本,X LSTMs,能分享一些細(xì)節(jié)嗎?

Jürgen Schmidhuber: 在討論X LSTMs之前,我想指出,早期的大型語(yǔ)言模型,包括谷歌的一些模型,都是基于LSTM構(gòu)建的。直到2000年代末,基于注意力機(jī)制的Transformer才開(kāi)始成為主流。LSTM在某些方面比Transformer更高效,因?yàn)樗С志€性擴(kuò)展,而不是Transformer的二次方擴(kuò)展。

此外,值得注意的是,循環(huán)神經(jīng)網(wǎng)絡(luò)(如LSTM)可以解決許多Transformer無(wú)法處理的問(wèn)題。例如簡(jiǎn)單的奇偶性問(wèn)題,Transformer在泛化這一任務(wù)時(shí)表現(xiàn)不佳,而循環(huán)神經(jīng)網(wǎng)絡(luò)可以輕松解決這個(gè)問(wèn)題。

另一方面,Transformer比LSTM更容易進(jìn)行并行化,這一點(diǎn)非常重要,因?yàn)樗梢猿浞掷矛F(xiàn)代的大規(guī)模并行計(jì)算架構(gòu),特別是Nvidia的GPU。

最近,Sep和他的團(tuán)隊(duì)開(kāi)發(fā)了X LSTM,它在多個(gè)語(yǔ)言處理基準(zhǔn)上超越了Transformer,并且具有線性而非四次方的計(jì)算復(fù)雜度。

X LSTMs還引入了矩陣記憶功能,這使得它們能夠存儲(chǔ)比傳統(tǒng)LSTM更多的信息。這種增強(qiáng)的記憶能力對(duì)于理解和處理復(fù)雜的文本語(yǔ)義至關(guān)重要。

此外,X LSTMs的某些版本支持高度并行化,這使得它們能夠更有效地利用現(xiàn)代計(jì)算資源。

總的來(lái)說(shuō),X LSTMs旨在結(jié)合LSTM的序列處理優(yōu)勢(shì)和Transformer的可擴(kuò)展性,提供更強(qiáng)大的語(yǔ)言處理能力。


MLST:聽(tīng)說(shuō)你的LSTM技術(shù)被蘋(píng)果、微軟和谷歌等科技巨頭用于開(kāi)發(fā)語(yǔ)言模型,這是真的嗎?

Jürgen Schmidhuber: 確實(shí),許多早期的語(yǔ)言模型是基于LSTM的。例如,微軟的Tay聊天機(jī)器人,它通過(guò)不斷學(xué)習(xí)來(lái)改進(jìn),但也曾因用戶重新訓(xùn)練而出現(xiàn)問(wèn)題。

LSTM沒(méi)有Transformer的某些限制,但并行化不如Transformer高效。

不過(guò),我們開(kāi)發(fā)的新技術(shù),如X LSTM,正在改變這一局面。


MLST:LSTM和共振流之間似乎有驚人的相似之處,尤其是在層間共享信息的概念上。這與你早期的“高速公路網(wǎng)絡(luò)”論文非常相似,能分享一下嗎?

Jürgen Schmidhuber: 2015年,我們發(fā)表了高速公路網(wǎng)絡(luò),它實(shí)際上是一個(gè)始終開(kāi)啟的門(mén)控網(wǎng)絡(luò)。共振流基本上是一個(gè)始終開(kāi)啟的高速公路網(wǎng)絡(luò)。高速公路網(wǎng)絡(luò)結(jié)合了前饋和循環(huán)結(jié)構(gòu),使其能夠構(gòu)建非常深的網(wǎng)絡(luò)。這種設(shè)計(jì)是共振流的基礎(chǔ),通過(guò)調(diào)整門(mén)控機(jī)制,可以實(shí)現(xiàn)不同的網(wǎng)絡(luò)行為。


MLST:關(guān)于深度學(xué)習(xí)模型中的深度問(wèn)題,我最近采訪了一些專家,他們提到深度網(wǎng)絡(luò)的某些神秘特性。你怎么看深度的作用及其重要性?

Jürgen Schmidhuber: 深度網(wǎng)絡(luò)的效率和效果是一個(gè)復(fù)雜的話題。理論上,單層網(wǎng)絡(luò)可以通過(guò)增加隱藏單元來(lái)實(shí)現(xiàn)任何復(fù)雜的功能,但這需要大量的參數(shù)和數(shù)據(jù)。深層網(wǎng)絡(luò)通過(guò)較少的權(quán)重和參數(shù),可以在訓(xùn)練集上實(shí)現(xiàn)良好的性能,并可能在測(cè)試集上有更好的泛化能力。這符合奧卡姆剃刀原則,即在模型復(fù)雜度和性能之間尋求最佳平衡。盡管深層網(wǎng)絡(luò)在實(shí)際應(yīng)用中表現(xiàn)出色,但其背后的理論仍在不斷發(fā)展中。


MLST:Daniel Roberts有一個(gè)探討了神經(jīng)網(wǎng)絡(luò)的寬度和深度,尋找最優(yōu)配置以優(yōu)化訓(xùn)練。你對(duì)此了解嗎?

Jürgen Schmidhuber: 我不太了解那篇特定的論文,但聽(tīng)起來(lái)他的研究是基于梯度下降的傳統(tǒng)學(xué)習(xí)算法。我們從90年代初就開(kāi)始研究如何找到簡(jiǎn)單解決方案的網(wǎng)絡(luò),即具有低Kolmogorov復(fù)雜度的網(wǎng)絡(luò)。我們的目標(biāo)是找到能夠生成這些網(wǎng)絡(luò)的最短程序,這與超泛化有關(guān),例如從極少的訓(xùn)練樣本中學(xué)習(xí)并泛化到更廣泛的情況。


MLST:你曾經(jīng)說(shuō)生成神經(jīng)網(wǎng)絡(luò)的程序應(yīng)該盡可能小,以達(dá)到最小描述長(zhǎng)度。

Jürgen Schmidhuber: 是的,我在1994年的研究中首次探討了這一概念,尋找具有低Kolmogorov復(fù)雜度的解決方案。1997年,我進(jìn)一步研究了如何找到這樣的神經(jīng)網(wǎng)絡(luò),不使用梯度下降,而是使用通用搜索原則。這種方法在程序空間中搜索,尋找能夠計(jì)算網(wǎng)絡(luò)權(quán)重矩陣的最短程序。這使得網(wǎng)絡(luò)能夠在測(cè)試集上以傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無(wú)法實(shí)現(xiàn)的方式泛化。盡管這種方法當(dāng)時(shí)難以擴(kuò)展,但現(xiàn)在我們有了更強(qiáng)的計(jì)算能力,可以重新考慮這些方法。


MLST:那么你能告訴我更多關(guān)于策略梯度的信息嗎?

Jürgen Schmidhuber: 策略梯度在LSTM中的應(yīng)用非常重要,尤其是在需要記憶和決策的環(huán)境中,比如視頻游戲中。例如,DeepMind使用策略梯度訓(xùn)練的LSTM在星際爭(zhēng)霸游戲中戰(zhàn)勝了專業(yè)玩家,這比傳統(tǒng)的棋類游戲更具挑戰(zhàn)性。這種技術(shù)使得LSTM能夠處理復(fù)雜的情境記憶和決策,這是監(jiān)督學(xué)習(xí)中的Transformer難以實(shí)現(xiàn)的。


MLST:聽(tīng)起來(lái),像OpenAI和DeepMind這樣的主要人工智能實(shí)驗(yàn)室都在使用你們開(kāi)發(fā)的技術(shù)。

Jürgen Schmidhuber: 確實(shí),這些實(shí)驗(yàn)室的技術(shù)基礎(chǔ)深受我們研究的影響。 雷峰網(wǎng) (公眾號(hào):雷峰網(wǎng)) 雷峰網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn) 轉(zhuǎn)載須知 。

圖靈獎(jiǎng)遺忘的AI之父,GAI時(shí)代再發(fā)聲:Jurgen重談AI“創(chuàng)業(yè)”史

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 一区二区三区在线 | 国产大尺度福利视频在线观看 | 91麻豆精品国产91久久久久久 | 夜间福利影院 | 青青青青爽视频在线播放 | 国产成人精品久久免费动漫 | 国产片一级aaa毛片视频 | 国产尤物在线播放 | 久久久久国产成人精品 | 99久久精品免费看国产 | 2021久久精品永久免费 | 午夜免费福利在线观看 | 久久88色综合色鬼 | 久久手机视频 | 久久国产免费一区 | 四虎免费在线视频 | 九九视频在线 | 很黄的网站在线观看 | 久久综合香蕉 | 欧美精品免费在线 | 免费色视频网站 | 久色精品| 亚洲第一a| 国产成人久久久精品一区二区三区 | 青青青国产精品国产精品久久久久 | 成人牲交一极毛片 | 国产在线播放一区 | 香蕉视频免费在线看 | 成人毛片免费观看视频大全 | 久久网免费 | 伊人久久色 | 国产啪视频1000部免费视频 | 亚洲成人免费在线视频 | 涩涩视频网 | 免费日b视频| 亚洲国产成人精品区 | 国产高清成人 | 国产精品入口麻豆高清在线 | 国产福利精品视频 | 精品精品国产理论在线观看 | 天天爱天天干天天操 |