乂學教育-松鼠AI獲KDD國際圖深度學習研討會最佳論文 & 最佳學生論文
KDD,國際數據挖掘與知識發現大會,全稱:ACM SIGKDD Conference on Knowledge Discovery and DataMining,是數據挖掘領域國際最高級別會議。
KDD“圖深度學習國際研討會:方法與應用(DLG 2019)”于2019年8月5日在美國阿拉斯加安克雷奇市舉辦。值得一提的是,國內人工智能獨角獸乂學教育-松鼠AI深度參與的研究項目包攬了研討會的最佳論文和最佳學生論文獎項。
深度學習是當今人工智能研究的核心。不過,由于這項技術無法直接應用于圖形結構數據上,這也推動了學界對圖深度學習的探索。過去幾年,基于圖形結構數據的神經網絡在社交網絡、生物信息學和醫學信息學等領域取得了顯著的成果。
自1995年以來,KDD大會連續舉辦了二十余屆,每年的接收率不超過20%,今年的接收率不到15%。
值得一提的是,今年也是KDD采用雙盲評審的第一年。依然分為研究賽道和應用賽道。
其中,據已公開消息,KDD研究賽道共收到1179篇投稿,其中111篇被接收為Oral論文,63篇被接收為Poster論文,入選率14.8%。
應用賽道收到700余篇論文,其中大45篇被接收為Oral論文,100篇被接收為Poster論文,接收率20.7%。
相較而言,KDD 2018年研究賽道接收181篇,接收率為18.4%,應用賽道接受112篇,接收率22.5%。
作為全球頂尖數據挖掘會議—第25屆ACM SIGKDD知識發現和數據挖掘會議(KDD)— 的分支,DLG 2019旨在匯聚自不同背景和觀點的學術研究人員和從業者,分享在圖神經網絡領域的前沿技術。
最佳論文:利用圖神經網絡解決基于RDF數據的文本生成問題
獲得最佳論文的是來自華中師范大學、IBM研究院和乂學教育-松鼠AI的研究《Exploiting Graph Neural Networks with Context Information for RDF-to-Text Generation 》,這篇論文研究的是基于RDF數據的文本生成,該任務是在給定一組RDF三元組的情況下生成相應的描述性文本。
大多數先前的方法要么將此任務轉換為序列到序列(Seq2Seq)的問題,要么使用基于圖形的編碼器對RDF三元組進行建模并解碼文本序列。但這些方法都不能明確地模擬三元組內和三元組之間的全局和局部結構信息。此外,它們沒有利用目標文本作為建模復雜RDF三元組的附加上下文內容。?
為了解決這些問題,論文作者提出通過將圖編碼器和基于圖形的三重編碼器進行組合,從而學習RDF三元組的局部信息和全局結構信息。此外,研究者還使用基于Seq2Seq的自動編碼器,利用目標文本作為上下文監督圖編碼器的學習。
WebNLG數據集的實驗結果表明,研究團隊提出的模型優于最先進(state of the art)的基線方法。
論文作者:
高含寧,吳凌飛,胡佰,許芳麗 (吳凌飛來自IBM研究院,許芳麗來自乂學教育-松鼠AI,其余作者來自華中師范大學)
為什么這項研究重要:
資源描述框架(Resource Description Frameworks) 是在結構化知識庫中表達實體及其關系的常用框架。 基于W3C標準,每個RDF數據是由三個元素組成的三元組,形式為(主語,謂語,賓語)。
在自然語言生成(NLG)中,基于RDF數據的文本生成是一項具有挑戰性的任務,因其廣泛的工業應用而備受研究者的關注,包括基于知識的問答系統、實體摘要、數據驅動的新聞生成等等。
“比如你有一個知識圖譜,然后你需要做一個問答系統。比如你有一個SparQL(RDF開發的一種查詢語言),然后你去查詢這個知識圖譜,這樣會返回一個RDF。RDF人是很難看懂的,所以這篇論文的初衷是可不可以把這個RDF返回的答案轉換成自然語言,這樣就能很自然的讀懂返回的答案是什么意思。”論文作者之一、來自IBM研究院的吳凌飛博士解釋說。
挑戰何在:
隨著端到端深度學習取得了巨大進展,尤其是各種Seq2Seq模型,基于RDF數據的文本生成已經取得了實足的進步。然而,如果簡單地將RDF三元組轉換為序列,可能會丟失重要的高階信息。
由于RDF三元組可以被表達為知識圖,因此研究人員最近提出了兩種基于圖網絡的方法,但都分別存在缺陷:比如基于循環神經網絡的模型無法表達實體和關系之間豐富的局部結構信息,而基于改進的圖卷積網絡(GCN)的圖編碼器無法表達三元組內和三元組之間的全局信息。
核心貢獻:
為了解決上述問題,論文作者提出了一種新穎的神經網絡架構,它利用基于圖神經網絡和上下文信息,試圖提高模型基于RDF數據生成文本的能力。
研究團隊提出了一種新的基于圖結構的編碼器模型,它結合了GCN編碼器和GTR-LSTM三重編碼器,為RDF三元組的多個視角輸入建模,學習RDF三元組的局部和全局結構信息。
兩個編碼器都生成一組節點表征,GCN生成的節點更好地捕捉RDF三元組內的局部結構信息,而GTR-LSTM生成的節點主要關注全局結構信息,研究團通過結合GCN和GTR-LSTM的節點,通過平均池化獲得圖嵌入。
由于目標參考文本包含與三元組幾乎相同的信息,因此,研究團隊繼而使用基于Seq2Seq的自動編碼器,利用目標文本作為輔助上下文來監督圖編碼器的學習。
實驗結果:
研究團隊使用WEBNLG數據集,該數據集由資源側三元數據集和目標側參考文本組成。 每個RDF三元組表達為(主語,關系,賓語)。
整個數據集分為18102個訓練對,2495個驗證對和2269個測試對。實驗采用WebNLG挑戰的標準評估指標,包括BLEU和METEOR。
實驗結果表明,研究團隊提出的模型能夠更好地對RDF三元組的全局和局部圖結構進行編碼,模型比WebNLG數據集上的其他基線模型高出約2.0 BLEU點。
此外,研究團隊也手動評估了不同模型的結果。他們發現涉及GCN編碼器的模型在表達實體之間的正確關系方面時表現更好;目標文本自動編碼器和GTR-LSTM編碼器在生成與RDF三元組之間的上下文信息相關聯的文本方面表現更好。
在進一步的研究中,研究團隊發現,他們提出的模型中有四個關鍵因素可能會影響生成文本的質量。它們分別是目標文本自動編碼器,它將有助于集成目標測上下文信息;因子Ldis,能最小化圖形表達和文本表達之間的距離;GCN編碼器和GTR-LSTM編碼器,它們對三元組的本地和全局信息進行編碼。
最佳學生論文:基于圖神經網絡的語義分析實證研究
獲得最佳學生論文的是來自南京大學、IBM研究院和乂學教育-松鼠AI的研究《An Empirical Study of Graph Neural Networks Based Semantic Parsing》,這篇論文研究的是基于圖神經網絡語義解析。
現有的神經語義解析器要么只考慮用于編碼或解碼的單詞序列,要么忽略對解析目的有用的重要語法信息。 在本文中,論文作者提出了一種新的基于圖神經網絡(GNN)的神經語義解析器,即由圖形編碼器和分層樹解碼器組成的Graph2Tree。?
論文作者:
李書城,吳凌飛,馮詩偉,許芳麗,許封元,仲盛? (吳凌飛來自IBM研究院,許芳麗來自乂學教育-松鼠AI,其余作者來自南京大學)
為什么這項研究重要:
作為自然語言處理(NLP)中的一個經典任務,語義解析(Sematic Parsing)是將自然語言的句子轉換為機器可解析的語義表征。工業界有大量基于語義解析的成熟應用,如問答系統、語音助手和代碼生成等等。
在過去的兩年間,隨著神經編解碼方法的引入,語義分析模型也隨之發生了巨大的變化。近年來,研究者開始開發具有Seq2Seq模型的神經語義解析器,這些解析器已經取得了顯著的成果。
挑戰何在:
由于語義表征通常是結構化對象(例如樹形結構),因此研究人員投入了大量精力來開發基于結構的解碼器,包括樹形解碼器、語法約束解碼器、語義圖生成的動作序列、以及基于抽象語法樹的模塊化解碼器。?
盡管這些方法取得了令人印象深刻的成果,但它們只考慮單詞序列信息,而忽略了編碼器端可用的其他豐富的語法信息,如依存樹(dependency tree)或短語結構樹(constituency tree)。
最近,研究人員已經證明了圖神經網絡在各種NLP任務中的重要應用,包括神經機器翻譯、信息提取、和基于AMR的文本生成。 在語義解析中,研究人員曾提出過Graph2Seq模型,將依存樹和短語結構樹與單詞序列結合起來,然后創建一個語法圖作為編碼輸入。 然而,這種方法只是將邏輯形式視為一個序列,而忽略了解碼器體系結構中結構化對象(如樹)中的豐富信息。
核心貢獻:
論文作者提出了一種新的基于圖網絡的神經語義解析器,即由一個圖形編碼器和一個分層樹形解碼器組成的Graph2Tree。
圖形編碼器將語法圖(syntactic graph)有效地編碼為矢量表征,而該語法圖是從單詞序列和相應的依存解析樹或短語結構樹構建的。具體而言,研究團隊先將原始文本數據相應的語法關系自然地結合到輸入序列中,形成一個圖形數據結構,然后用圖形編碼器從這個圖形架構中學習到高質量的矢量表征。
樹形解碼器從學習好的圖級矢量表征中解碼邏輯形式,充分學習邏輯形式表征的組成性質。同時,研究團隊還提出在對應原始單詞令牌和解析樹節點的不同節點表征上計算單獨的注意機制,以計算用于解碼樹結構化輸出的最終上下文向量。 然后通過聯合訓練,在給定語法圖的情況下來最大化正確描述的條件對數概率。
這篇論文一個比較大特點是自然語言的input和邏輯形式的output,兩邊都是結構化對象,把輸入語句變成語法圖,然后做input,邏輯形式是一個結構化ouput,用樹形解碼器來解碼,可以最好的利用隱含的結構化信息和輸出的時候對象的特點。
此外,研究團隊還研究了不同語法圖架構對GNN語義分析性能的影響。它們發現,由于依存樹解析器或復雜短語結構樹的不完美性,圖形架構引入的噪聲信息和結構復雜性都可能導致對基于GNN的語義解析器性能的顯著不利影響。
實驗結果:
研究團隊通過實驗希望回答幾個問題:i)使用什么語法圖能讓基于圖網絡的方法表現良好? ii)通過正確構建的圖形輸入,Graph2Tree與基線方法相比表現會更好嗎?
研究團隊在三個基準數據集JOBS、GEO和ATIS上評估了Graph2Tree框架。第一個是個工作列表數據庫JOBS,第二個是美國地理數據庫GEO,最后一個是航班預訂系統數據集ATIS。?
在數據集JOBS和GEO的比較結果中,研究團隊觀察到,無論使用何種類型的圖形結構,Graph2Tree在基于圖形輸入生成高質量邏輯形式方面要優于Graph2Seq模型。
在圖架構方面,如果由CoreNLP工具產生的噪音導致語義解析錯誤,那么兩個解析器的性能都會降低,甚至不能與只有Word Order的解析器相比。
類似地,短語結構樹的跳躍大小 — 即結構復雜性 — 也對性能有很大影響。如果結構信息壓倒性或極少,解析器的性能也會下降。
相反,當通過某種方法控制或減少輸入引起的噪聲時,可以顯著提高Word Order + 依存數的性能;選擇正確的圖層時,也可以提高Word Order + 短語結構樹的表現。例如,單層切割中的Word Order + 短語結構樹的邏輯形式精度分別高于Word Order。
乂學教育-松鼠AI崔煒:自適應學習的圖深度學習和知識圖
當天的研討會由SIGKDD主席、京東集團副總裁裴健發表開場詞,并邀請了來自斯坦福大學、清華大學、UCLA、UIUC等高校的學者發表演講。
乂學教育-松鼠AI首席科學家崔煒博士也受大會邀請,介紹了目前圖深度學習和知識圖在自適應學習中的進展。
乂學教育自主研發的松鼠AI智適應在線學習系統,能不斷地監測和評估學生個體的能力,發現他們學習中的弱點與不足,并讓學生按照自己的步伐進步,提高學習成果。該系統提供優化的學習解決方案和同步的輔導支持,最大限度地提高學習效率,并提高學生的知識、技能和能力。
多年來,中國教育存在的高級教師資源短缺和地緣問題都影響優質教育的普及。松鼠AI的愿景是通過人工智能打造超級教師,給成千上萬的學生提供量身教學。“每一個孩子讀值得擁有一位一對一的超級教師,”崔煒說。
從2014年開始,乂學教育-松鼠AI就在自主研發針對中國K12學生的智適應學習系統,它的主要目標是精確地診斷學生的知識點掌握情況,然后推薦個性化的學習內容和學習路徑規劃。
首先是學生知識點的掌握。下圖是某位松鼠AI學生對物理知識點的熟練掌握程度,可以看到藍色的部分是該學生已經掌握的部分,占80%;黃色的部分是學生相對 比較薄弱的知識點,占20%。
如何精確地獲悉學生的知識點掌握情況?松鼠AI從數據維度考量,可以通過學生的測試結果、測試時長、該測試的難度和涵蓋哪些知識點,甚至是學生選擇不同的錯誤選項和學生劃鼠標的行為,都可以被用來當做行為數據判斷。
具體到松鼠AI的工作原理,崔煒介紹說,這套智適應引擎共分為三層架構:本體層、算法層、交互系統。
本體層以內容為主,包括學習目標的本體、學習內容的本體和錯因分析本體。松鼠AI自主研發了超納米級的知識點拆分,可以對學生知識點更精準地判斷。以初中數學為例,松鼠AI可以將300個知識點細化為3萬個。
同時,松鼠AI基于貝葉斯網絡狀的圖譜,把相關的知識點關聯起來。通過這種技術,可以模擬優秀老師教學的順序和關系,這種教學方法符合學生認知的規律和知識點層次難易上的關系。
算法層包含內容推薦引擎、學生用戶畫像引擎、目標管理引擎等。松鼠AI會結合用戶狀態評估引擎和知識推薦引擎,構建出數據模型,精準高效地測出每個學生的知識漏洞,根據學生的知識漏洞推薦相應的學習內容。
交互系統通過采集交互數據了解更多學生的信息,包括管理系統,檢測預警系統和實時的事件收集器。
崔煒強調,基于人工智能的智適應學習系統采取了和傳統教育完全不同的教學過程。
比如,在知識狀態診斷方面,傳統診斷是基于高頻的考試,而松鼠AI的系統擁有基于信息論和知識空間理論的知識狀態診斷,能精確定位知識漏洞。
傳統的測評是基于成績或排名,傳統的智適應測評是基于 IRT、DINA、BKT、DKT模型,這些模型的缺陷是無法進行實時評測。松鼠AI的系統基于貝葉斯理論是能基于學生過去所有的記錄來進行持續性的、實時的評估。
在內容推薦上,傳統的推薦算法采用的是協同過濾算法,但在教育領域該算法并不適用,因為每個學生盡管學習情況類似,但知識點掌握各不相同,協同過濾算法不夠精準,無法保證推薦內容的效果。
松鼠AI采用的是神經網絡,基于學生的學習成果實現個性化的推薦,并通過深度學習的算法進一步提升個性化學習的精準性和推薦的精準性。
算法的優越性也體現在結果上。過去兩年,松鼠AI已經在四次人機大戰中戰勝了優秀教師。截至目前,松鼠AI已經全國400多個城市開設近2000家線下學校,累計學生近200萬。
乂學教育-松鼠AI目前累計融資近10億人民幣。去年,松鼠AI還捐贈了100萬個賬號,給數百萬貧困家庭的孩子,來促進教育的公平化。
乂學教育-松鼠AI將在今年11月12-13日在上海中心舉辦第四屆全球人工智能智適應教育峰會(AIAED),本次大會組委會主席是CMU計算機學院院長、機器學習教父Tom Mitchell教授。崔煒希望相關的從業者能在此契機下匯聚一堂,共同推動人工智能教育的進步。
第四屆AIAED大會網址:
https://www.aiaed.net/
雷鋒網版權文章,未經授權禁止轉載。詳情見。
