AI 發(fā)現(xiàn)16萬(wàn)種新RNA病毒成果登上《Cell》后,我們和阿里云算法專家賀勇聊了聊
近期,AI for Science 領(lǐng)域的驚喜不斷,持續(xù)在物理、化學(xué)、生物領(lǐng)域開(kāi)花結(jié)果。
不僅諾貝爾物理和化學(xué)獎(jiǎng)雙雙頒給 AI 領(lǐng)域的科學(xué)家,阿里云與中山大學(xué)的科研也帶來(lái)了RNA病毒尋找的突破,國(guó)際頂級(jí)學(xué)術(shù)期刊《Cell》收錄了這一研究論文。
《基于人工智能探索和記錄隱藏的RNA病毒世界》論文提出深度學(xué)習(xí)模型"LucaProt",用于快速準(zhǔn)確判別RNA病毒,顛覆傳統(tǒng)病毒發(fā)現(xiàn)方法。LucaProt基于Transformer框架與大模型技術(shù),結(jié)合蛋白質(zhì)序列與結(jié)構(gòu)特征,在測(cè)試中展現(xiàn)出高準(zhǔn)確性與特異性。通過(guò)引入蛋白質(zhì)結(jié)構(gòu)性信息,模型在外部驗(yàn)證集上達(dá)到97.4%召回率及0.023%假陽(yáng)性率,檢測(cè)速度僅需幾百毫秒至幾秒,遠(yuǎn)超經(jīng)典方法的幾天至幾周。
研究團(tuán)隊(duì)利用云計(jì)算與AI技術(shù)發(fā)現(xiàn)超16萬(wàn)種新RNA病毒,是已知種類(lèi)的近30倍,深化了對(duì)RNA病毒多樣性和演化歷史的認(rèn)知,并帶來(lái)病毒學(xué)新發(fā)現(xiàn)。
論文的作者團(tuán)隊(duì)橫跨了生物學(xué)領(lǐng)域與 AI,是傳統(tǒng)學(xué)科與 AI 前沿技術(shù)雙方人才的高效聯(lián)合。阿里云飛天實(shí)驗(yàn)室算法專家賀勇與中山大學(xué)醫(yī)學(xué)院侯新博士,為論文共同第一作者。論文共同通訊作者為中山大學(xué)施莽教授,阿里云生物計(jì)算研究總監(jiān)李兆融,和悉尼大學(xué)全球知名病毒學(xué)家 Edward Holmes。
(阿里云和中山大學(xué)團(tuán)隊(duì),右二賀勇、右三李兆融、右四施莽)
作為論文共同一作,賀勇表示:“基于AI+病毒學(xué)的新研究框架刷新了人類(lèi)對(duì)病毒圈的認(rèn)識(shí),隨著這種認(rèn)識(shí)的不斷完善,有助于人類(lèi)對(duì)未來(lái)可能發(fā)生的大流行進(jìn)行預(yù)警,以及進(jìn)一步推動(dòng)RNA病毒疫苗的研發(fā)。”
AI for Science 探索,更需要“AI+云計(jì)算”的多面支持。近幾年,AI 技術(shù)助推學(xué)術(shù)發(fā)展上,阿里云已與全球超過(guò)70所高校開(kāi)展學(xué)術(shù)合作,累計(jì)支持合作高校發(fā)表100 余篇高水平論文,共同申請(qǐng)近70項(xiàng)發(fā)明專利。
在 AI for Science領(lǐng)域,阿里云與中山大學(xué)、浙江大學(xué)等國(guó)內(nèi)知名高校共同開(kāi)展病毒學(xué)、藥物學(xué)、生物學(xué)等方向的科研課題,在生命科學(xué)領(lǐng)域已發(fā)表核酸和蛋白質(zhì)統(tǒng)一基礎(chǔ)模型-LucaOne、RNA病毒發(fā)現(xiàn)-LucaProt、磷循環(huán)蛋白家族識(shí)別-LucaPCycle 等研究成果,其中多項(xiàng)成果由賀勇主導(dǎo)參與。
為探尋這次科研成果背后的 AI 邏輯,雷峰網(wǎng)旗下的 AI 科技評(píng)論專訪了阿里云飛天實(shí)驗(yàn)室算法專家賀勇。賀勇老師分享了科研成果的經(jīng)驗(yàn)、AI for Science 的洞見(jiàn)。以下是訪談實(shí)錄,限于篇幅,雷峰網(wǎng) (公眾號(hào):雷峰網(wǎng)) 進(jìn)行了不改原意的編輯:
可標(biāo)準(zhǔn)化的 RNA 病毒尋找,AI 大展身手
AI 科技評(píng)論:是否有預(yù)期到這次研究成果的突破?
賀勇: 我們起初是抱著試一試的態(tài)度,目標(biāo)是找新病毒,能不能發(fā)到頂刊,取決于最終的研究成果。 找RNA病毒的方法,已經(jīng)有一套傳統(tǒng)固定的方法了,其過(guò)程已經(jīng)可以標(biāo)準(zhǔn)化,但過(guò)程還很繁瑣與復(fù)雜,我們就想著嘗試用 AI 的方法來(lái)處理尋找 RNA 病毒的問(wèn)題。 當(dāng)然也需要一定的效果直覺(jué),十年的AI實(shí)踐經(jīng)驗(yàn)讓我覺(jué)得這個(gè)問(wèn)題AI能夠取得不錯(cuò)的效果。
AI 科技評(píng)論:AI 的方法具備哪些優(yōu)勢(shì)?
賀勇: 傳統(tǒng)的方法需要有很多人工迭代的過(guò)程,需要人去查看確認(rèn)、結(jié)果篩選、驗(yàn)證,是相當(dāng)復(fù)雜的過(guò)程,專家參與的工作較多。我們使用了最新的第三代深度學(xué)習(xí)技術(shù),基于Transformer架構(gòu),基于生物領(lǐng)域的大模型構(gòu)建了LucaProt,對(duì)RNA病毒的復(fù)制酶序列進(jìn)行表征,基于該表征進(jìn)行RNA病毒鑒定。
AI 的方法就是端到端,把中間很多人工過(guò)程直接省略了。 生物數(shù)據(jù)與通俗意義上的文本和圖像其實(shí)不太一樣,一般人是無(wú)法直接閱讀的,要借助很多生物的工具才能辨認(rèn)。AI 的好處在于,有了相關(guān)數(shù)據(jù)就可以自動(dòng)去發(fā)現(xiàn)里面的一些隱含信息,識(shí)別隱含信息更利于發(fā)現(xiàn)病毒,所以使用 AI 的效果就非常好。
我們訓(xùn)練的模型LucaProt,只要輸入一個(gè)序列,就能判斷其是否是RNA病毒,而不需要復(fù)雜的生信過(guò)程,或者傳統(tǒng)生物方法的過(guò)程。我們有一個(gè)獨(dú)立測(cè)試數(shù)據(jù)集來(lái)測(cè)試這個(gè)模型的效果泛化性,發(fā)現(xiàn)效果很好。通過(guò)全球大規(guī)模推理,經(jīng)過(guò)生物實(shí)驗(yàn)的驗(yàn)證,用 AI 的方法發(fā)現(xiàn)了超16萬(wàn)種新RNA病毒。
AI 科技評(píng)論:相較于 LucaOne 模型,LocaProt 有哪些技術(shù)突破?
賀勇: LucaOne是一個(gè)生物基礎(chǔ)大模型,無(wú)差別對(duì)核酸與蛋白質(zhì)進(jìn)行表征。LocaProt是生物大模型的表征能力,針對(duì)特定任務(wù)(如尋找新病毒)進(jìn)行優(yōu)化的模型。LucaOne提供強(qiáng)大的基礎(chǔ)表征,而LocaProt則解決具體的下游任務(wù)。
AI 科技評(píng)論:這次研究中如何處理生物與AI的跨學(xué)科隔閡?
賀勇: 我們團(tuán)隊(duì)在醫(yī)療和生物方面有一定的基礎(chǔ),但直接對(duì)話生物學(xué)家仍有困難。阿里云生物計(jì)算研究總監(jiān)李兆融作為中間角色,加速了雙方理解。交叉學(xué)科,橋梁的作用是不可替代的。
AI 科技評(píng)論:這個(gè)過(guò)程中遇到的主要瓶頸是什么?
賀勇: 最大的瓶頸是生物學(xué)知識(shí)門(mén)檻。我們需要不斷學(xué)習(xí)生物知識(shí),以全局思維處理生物問(wèn)題。此外,生物學(xué)數(shù)據(jù)的校驗(yàn)和處理也面臨挑戰(zhàn)。
AI 科技評(píng)論:如何解決這些瓶頸?
賀勇: 我們呼喚復(fù)合型人才,即具備計(jì)算機(jī)和生物學(xué)雙重背景的人才。同時(shí),與交叉學(xué)科的學(xué)院合作可能更得心應(yīng)手,因?yàn)殡p方能互補(bǔ)解決問(wèn)題。
AI for Science 仍處于早期識(shí)別階段
AI 科技評(píng)論:AI for Science 的方法可以抽象成什么模式?
賀勇: AI的方法可以抽象為以下模式:首先分析數(shù)據(jù)與面對(duì)的科學(xué)問(wèn)題的特性,然后基于這些特性設(shè)置專門(mén)的模塊,利用現(xiàn)有技術(shù)進(jìn)行優(yōu)化改造或提出新的模型架構(gòu)以適應(yīng)問(wèn)題,接著進(jìn)行效果評(píng)估和模型迭代,最后進(jìn)行科學(xué)新發(fā)現(xiàn)與挖掘。
AI 科技評(píng)論:如何衡量一個(gè)項(xiàng)目是否適合用 AI 解決?
賀勇: 我們會(huì) 評(píng)估傳統(tǒng)方法的成熟度、對(duì)問(wèn)題的理解門(mén)檻以及AI可能帶來(lái)的效果 。同時(shí),深入了解問(wèn)題背后的規(guī)律是關(guān)鍵,有規(guī)律可循的問(wèn)題AI往往能取得好效果。
AI 科技評(píng)論:您認(rèn)為 AI for Science 在生物學(xué)領(lǐng)域具備哪些優(yōu)勢(shì)?
賀勇: AI for Science在生物學(xué)領(lǐng)域的優(yōu)勢(shì)主要體現(xiàn)在三個(gè)方面:一是 生物數(shù)據(jù)的開(kāi)放性和豐富性,特別是高質(zhì)量數(shù)據(jù)的可獲得性 ,比如美國(guó)國(guó)家生物技術(shù)中心會(huì)把開(kāi)放的數(shù)據(jù)經(jīng)過(guò)由全球范圍內(nèi)的科學(xué)家組成的校驗(yàn)組去人工校驗(yàn),經(jīng)過(guò)人工校驗(yàn)之后就變成了高質(zhì)量數(shù)據(jù)且全世界可以獲取;二是 計(jì)算資源的不斷增強(qiáng)與成本下降 ;三是 技術(shù)遷移的便利性 ,如生物序列與文本序列具有的相似性,使得與語(yǔ)言模型技術(shù)可以無(wú)縫遷移至生物學(xué)領(lǐng)域。
AI 科技評(píng)論:最近也是諾獎(jiǎng)的物理跟化學(xué)都頒給了AI,您這次的研究成果也為病毒學(xué)帶來(lái)的突破,您對(duì) AI for Science 發(fā)展有哪些看法?
賀勇: AI for Science雖然仍處于起步階段,但已經(jīng)成為了解決科學(xué)問(wèn)題的一種非常重要的手段與研究方法。它之所以受歡迎,是因?yàn)榭茖W(xué)中有許多待解問(wèn)題。現(xiàn)階段,需要將科學(xué)問(wèn)題進(jìn)行抽象,形式化定義成輸入輸出、有數(shù)據(jù)支撐、可計(jì)算的問(wèn)題,AI 可以更好的解決。
在生物學(xué)中,AI剛開(kāi)始發(fā)展,目前處于第一階段,比如識(shí)別生物序列的功能、病毒序列鑒定、來(lái)源及其感染性等,相當(dāng)于文本或圖像領(lǐng)域的讀懂與階段,尚未達(dá)到生成式的第二階段。諾貝爾化學(xué)獎(jiǎng)得主 David Baker 所做的蛋白質(zhì)生成研究,想要什么功能蛋白質(zhì),就用 AI 的方法生成一個(gè),現(xiàn)在效果還不是很好。
未來(lái),在生物醫(yī)療領(lǐng)域,AI將逐漸進(jìn)入生成式階段,如生成抗體或小分子藥物等。然而, 目前 AI for Science 仍處于認(rèn)識(shí)世界的階段,離改造世界還有一定距離。但前景是光明的,只是所處的階段的問(wèn)題。
AI 科技評(píng)論:要達(dá)到AI for Science改造世界的階段,需要哪些條件?
賀勇: 要達(dá)到 AI for Science 改造世界的階段,需要三個(gè)條件:一是 更多精細(xì)化的數(shù)據(jù)積累 ,特別是治療疾病和制藥的數(shù)據(jù)。二是 大模型架構(gòu)的變革 ,以適應(yīng)生物學(xué)信息的空間分子結(jié)構(gòu),目前的主流架構(gòu) Transformer 是基于序列的。但生物學(xué)的信息本身不是一個(gè)序列,是一個(gè)分空間分子結(jié)構(gòu),所以還是無(wú)法完全獲取全部信息,存在信息損失。三是 基礎(chǔ)設(shè)施的跟進(jìn) ,如算力、顯卡等需要重構(gòu)與之匹配。這些條件在自然科學(xué)領(lǐng)域使用AI時(shí)都是通用的。
AI 科技評(píng)論:您對(duì) AI for Science 的未來(lái)發(fā)展有何擔(dān)憂?
賀勇: 目前AI仍有諸多局限性,特別是它無(wú)法解決一些精細(xì)和微小變化的問(wèn)題。 AI仍依賴大量數(shù)據(jù),還無(wú)法真正像科研人員那樣進(jìn)行創(chuàng)新和改變。 此外,生物學(xué)實(shí)驗(yàn)中的手藝活和實(shí)操技術(shù)也是目前階段,AI無(wú)法替代的。
AI for Science,阿里在路上
AI 科技評(píng)論:您為何選擇深耕 AI for Science 領(lǐng)域?
賀勇: 我受性格驅(qū)使,喜歡解決問(wèn)題。我擁有計(jì)算機(jī)和AI背景,希望用這些技能去解決科學(xué)界的具體問(wèn)題,探索AI在科學(xué)領(lǐng)域的潛力。
AI 科技評(píng)論:阿里云在生命科學(xué)領(lǐng)域的三款大模型均已開(kāi)源,是基于怎樣的考慮呢?
賀勇: 阿里云開(kāi)源這三款大模型主要是為了讓更多人使用,推動(dòng)生物學(xué)細(xì)分領(lǐng)域的基礎(chǔ)通用模型完善。同時(shí),開(kāi)源有助于模型進(jìn)一步優(yōu)化,并降低使用者數(shù)據(jù)訓(xùn)練的成本。
AI 科技評(píng)論:阿里在與高校合作 AI for Science 時(shí)有哪些優(yōu)勢(shì)?
賀勇: 阿里具備顯著的算力優(yōu)勢(shì),同時(shí)擁有支持有意義項(xiàng)目的文化基因。此外,阿里云、達(dá)摩院與高校有長(zhǎng)期合作經(jīng)驗(yàn),建立了深厚的信任關(guān)系。
AI 科技評(píng)論:與 AI 技術(shù)高校合作時(shí)有何感受?
賀勇: AI 的加入能加速傳統(tǒng)學(xué)科科研的速度,實(shí)現(xiàn)顛覆性的提速。但傳統(tǒng)學(xué)科有自身的發(fā)展節(jié)奏,需要雙方共同適應(yīng)與推進(jìn)。
AI 科技評(píng)論:后面的研發(fā)規(guī)劃是什么?
賀勇: 我們繼續(xù)對(duì)現(xiàn)有基礎(chǔ)的模型大模型 LucaOne 進(jìn)行迭代,解決更多潛在的問(wèn)題,并與合作團(tuán)隊(duì)深化合作,來(lái)解決更多的科學(xué)問(wèn)題。目前仍專注于生物領(lǐng)域,未來(lái)可能向下游臨床和制藥方向發(fā)展。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn) 轉(zhuǎn)載須知 。