專訪GAIR研究院院長朱曉蕊:以Web3技術為引擎,推動「去中心化科學期刊」的新時代
作為一名創(chuàng)投背景的學術帶頭人,朱曉蕊剛剛迎來她的47歲人生。
從學術成就看,1977年出生的朱曉蕊,先后在1998年和2000年取得哈爾濱工業(yè)大學學士和碩士學位,2006年,她在美國猶他大學獲得博士學位,具有機電一體化和機械工程多重背景;學成歸來后,朱曉蕊進入哈爾濱工業(yè)大學(深圳)任教,2011年被破格評為博士生導師,2014年被評為正教授。
在她擔任哈工大教授的14年中,作為項目負責人主持了不少國家級項目,總經(jīng)費超過千萬,并多次參與組織了機器人領域的全球頂級學術會議,曾被IEEE評價為“機器人領域的杰出女性”。
從創(chuàng)投成就看,她是“全球無人機霸主”大疆前首席科學家、“港股激光雷達第一股”速騰聚創(chuàng)首席科學家、機器人公司大道智創(chuàng)的聯(lián)合創(chuàng)始人和投資人、自主駕駛導航技術研發(fā)商一清創(chuàng)新的創(chuàng)始股東。一拿資金二拿技術,走出了一條“導師+學生”的獨角獸孵化之路。
但業(yè)內(nèi)少有人知的是,朱曉蕊還是中國科技媒體雷峰網(wǎng)創(chuàng)始人林軍的另一半。兩人于2011年在深圳成立雷峰網(wǎng),五年后聯(lián)合高文院士、徐揚生院士等人共同發(fā)起國內(nèi)第一個具有全球視野的大型AI論壇——全球人工智能與機器人大會(GAIR)。
作為歷屆大會的組委會主席或程序主席,朱曉蕊所積攢的人脈圖譜被再次釋放。她曾定下嘉賓邀請的三條準則:
一是國內(nèi)在某個研究方向上的知名院士、
二是海外包括華人在內(nèi)的某一領域的領軍人士、
三是在以科技創(chuàng)新為特色,有很強學術背景的大公司任職的知名科學家。
她表示,“以前,學術界、工業(yè)界、投資界各自為營,大部分人覺得這三個領域是完全分開的。但在我們的會上,這三界的融合一定要成為大會一個新看點。”
科技圈內(nèi)用一句話總結朱曉蕊:不會創(chuàng)業(yè)的教授不是好的投資人,技術出身的她善于聯(lián)手一眾學術界、產(chǎn)業(yè)界、投資界人士,投身中國硬科技產(chǎn)業(yè)化的歷史進程。
新加坡GAIR研究院院長朱曉蕊博士
2023年,除了教授、投資人、聯(lián)合創(chuàng)始人之外,朱曉蕊有了第四個身份--學術期刊創(chuàng)刊主編--《人工智能與機器人研究國際期刊》(IJAIRR)。
IJAIRR是全球第一本聚焦在人工智能(AI)、機器人(R)以及基礎科學研究領域(R)的跨學科國際學術期刊。延續(xù)以往思路,這本期刊將重點關注來自產(chǎn)學研各界的研究進展,并且入選該期刊的優(yōu)秀作者,將會受邀在GAIR大會上作主題演講。
但不同于其他期刊,“鼓勵互動”是IJAIRR最大的特點,即以“去中心化科學”為核心理念,采用激勵方式提倡科學家公開分享和討論他們的研究。
期刊主頁鏈接: https://gairdao.com/journals/ijairr(點擊文末閱讀原文即可進入)
近日,經(jīng)科學論證、嚴格評審、扎實籌備,首期五篇論文已上線。借此契機,雷峰網(wǎng)對話朱曉蕊教授,深入探討了她的人生經(jīng)歷、創(chuàng)刊歷程,以及簡要介紹首期收錄論文。
揭秘創(chuàng)刊心路
Q:朱老師,首先請您講一講,作為一名有產(chǎn)學研投背景,參與組織過多屆大型科技峰會的女性科學家,為何在現(xiàn)在這個時間點決定創(chuàng)辦一本學術期刊?
朱曉蕊: 我在2021年就有創(chuàng)立一本“人工智能+機器人+基礎科學”聚焦交叉學科的國際期刊的想法,并在2022年下半年開始籌備。當時我先聯(lián)系了新加坡世界科技出版集團的董事會主席潘國駒教授。
這個出版社是他一手創(chuàng)立,如今已經(jīng)成為亞洲最大的科學出版社之一。這是我們首次正式合作,但我很早就對他們的學術出版和期刊有所了解,潘國駒教授非常認可和支持我,便向我推薦了他們出版社的總經(jīng)理李志偉博士。
緊接著我開始選擇聯(lián)合主編人選,聯(lián)系長期從事人工智能、機器人或基礎科學等跨學科研究的學者。
我與孫宇教授認識多年,他在機器人抓取研究領域表現(xiàn)出色,過去幾年曾來GAIR大會做過演講,效果很好,還擔任過大會的session chair,因此是聯(lián)合主編的理想人選之一。但我希望在期刊的研究方向上擁有多樣化的團隊。
人工智能與醫(yī)學結合是一個有趣的領域,并通過朋友的介紹聯(lián)系到了在這個領域造詣頗深的許東教授。在討論后,許東教授認為該期刊在定位上獨特,沒有其他類似的刊物,便很爽快地答應了作為聯(lián)合主編的邀請。而且在后續(xù)過程中他非常有熱情,我們一起討論了期刊的運作模式。
人工智能與機器人研究國際期刊(IJAIRR)成立儀式,李志偉、孫宇、朱曉蕊、許東
更為關鍵的是,許東和孫宇兩位教授在過去的職業(yè)生涯中,曾經(jīng)擔任過許多頂級期刊的編輯,他們對期刊的運作有豐富的經(jīng)驗,知道如何管理和運營一個期刊。這是我們能順利做同一件事的重要原因。
Q:能介紹下《人工智能與機器人研究國際期刊》(IJAIRR)嗎,包括這本期刊的定位和面向?qū)ο螅?/strong>
朱曉蕊: 這本期刊雖然在新加坡創(chuàng)立,而且合作出版社的董事會主席潘國駒是華僑領袖,聯(lián)合主編們也是華人背景,但我們的期刊并不是專門面向華人。
可以理解為,這是一個由華人科學家組織的,面向人工智能、機器人及基礎科學研究的交叉領域的期刊,但我們的目標是成為一個全球性的平臺,吸引來自不同國家和地區(qū)的科學家參與投稿和閱讀。
為了具有全球影響力,期刊的編委成員應該具有多樣性,覆蓋不同的地域和國家,以反映全球范圍內(nèi)的科學研究。而且期刊在新加坡成立也會放大這種國際優(yōu)勢。新加坡作為一個連接亞洲、歐洲和北美的重要門戶,具有獨特的地理位置優(yōu)勢。
我希望通過在新加坡設立期刊,吸引更多的國際科學家和讀者參與進來,展現(xiàn)多種文化和研究背景的視角。未來IJAIRR期刊與GAIR大會是相輔相成的關系,優(yōu)秀的期刊作者會邀請到大會做演講和宣傳,也有助于促進全球范圍內(nèi)的學術交流和合作。
Q:這個期刊和雷峰網(wǎng)GAIR大會有何聯(lián)系?從雷峰網(wǎng) (公眾號:雷峰網(wǎng)) 2011年成立,到2016年創(chuàng)辦GAIR大會,一直到2023年成立GAIR研究院,創(chuàng)辦期刊,背后是怎樣的演變發(fā)展邏輯?
朱曉蕊: 雷峰網(wǎng)最初以智能手機及其生態(tài)為重點,隨著時間的推移,其關注領域逐漸擴展到更廣泛的深科技領域。
2016年,雷峰網(wǎng)創(chuàng)辦了GAIR全球人工智能與機器人大會,目的是促進學術界、產(chǎn)業(yè)界、投資界以及地方政府的交流與合作,推動產(chǎn)學研的深度融合。因為過去它們之間存在明顯的隔閡和邊界。
學術界往往專注于自己的學術研究,工業(yè)界則關注產(chǎn)品研發(fā)和升級,而地方政府則關注宏觀政策和產(chǎn)業(yè)規(guī)劃。這種隔閡和邊界的存在,導致三方之間的交流和碰撞機會很少。
比如學術界的人所做的研究原來只需要得到同行的認可,邊界就到這了。但是你把這些東西拿給工業(yè)界的人看,給政府做宏觀政策的人看,他們是什么想法、他們認不認可這個東西、或者是從他們的角度對你有些什么樣的建議。
工業(yè)界的人也是一樣的。尤其是在中國工業(yè)界,以前大家自主研發(fā)的東西并不太多,后面慢慢地隨著整個產(chǎn)業(yè)去做升級,工業(yè)界的人發(fā)現(xiàn)原來那種粗放的方式已經(jīng)不能奏效了,必須要有自主研發(fā),因此會第一時間想到要跟學術界形成對接。
為了把整個產(chǎn)業(yè)升級的生態(tài)鏈條搭建起來,雷峰網(wǎng)在2016年舉辦了GAIR大會,旨在搭建一個學術界、產(chǎn)業(yè)界、投資界和政府之間的交流平臺。可以說這是一個各界雙向奔赴的過程。2023年GAIR研究院的成立,是在GAIR大會基礎上進一步深化這種跨界合作,通過各種方式將會議內(nèi)容的精華部分沉淀下來。
會議結束后,討論和交流的內(nèi)容往往很難被保存和延續(xù)。因此,我們決定創(chuàng)建一個在線的社區(qū)和一本高質(zhì)量期刊,以便更好地將會議中的討論和交流內(nèi)容進行整理和保存。這樣可以促進學術交流和合作,并使更多的學者能夠分享他們的研究成果。
Q:為什么這件事是你來做?在您自己此前求學和博導經(jīng)歷中,您和產(chǎn)業(yè)界、投資界的互動就比較多了,而且還鼓勵學生去創(chuàng)辦公司,所以從你個人來說,什么觸動了你去做“橋梁”的工作?
朱曉蕊: 我是2006年底博士畢業(yè)從美國回來的,2007年正式開始在哈工大深圳研究生院做老師,正好是深圳市產(chǎn)業(yè)轉(zhuǎn)型的關鍵時期。當時,深圳市主要是以低端制造業(yè)為主,而政府希望將其轉(zhuǎn)向高端產(chǎn)業(yè)。
深圳市政府希望通過建設大學城來吸引優(yōu)秀的高校和學生,以推動產(chǎn)業(yè)升級,所以最早才有了哈工大、北大、清華三個學校的深圳研究生院(沒有本科)。
我當時也是因為這個事情,在深圳開始了我做老師的生涯。2002年哈工大與深圳共建成立研究生院,由于成立初期全職老師的數(shù)量相對較少,實驗室的研究方向有限,而每位研究生必須從頭到尾完成一項研究課題才能達到畢業(yè)要求。
盡管深圳市有產(chǎn)業(yè)升級的需求,但當時擁有研發(fā)的企業(yè)并不多,于是我開始考慮如何讓學生參與到更有意義的項目中,而不是僅僅去企業(yè)里做一些重復性的低端技術工作。
因此,我那時候鼓勵學生在完成基礎課程學業(yè)后創(chuàng)辦公司,將前沿課題轉(zhuǎn)化為創(chuàng)業(yè)項目。通過這種方式,學生可以在創(chuàng)業(yè)過程中完成畢業(yè)論文,又能為產(chǎn)業(yè)升級做出貢獻。
這個過程中,我加深了對工業(yè)界的了解,也促使我梳理出一種學術研究與產(chǎn)業(yè)實踐結合的模式。過去我們在學校實驗室里做了很多東西,但往往被浪費掉了,很多研究成果被擱置,沒有進一步地轉(zhuǎn)化為應用。
尤其是我們偏工程的一些學科,做出來的很多研究成果差不多就是 3 到 5 年的生命周期。也就是說,如果這3 到 5 年之內(nèi),你這個成果沒有去更進一步地轉(zhuǎn)化成應用,很大可能就會過時了。
所以當時大概5年左右我會換一個新的課題方向。因此學校的教授們可以引領研究方向,去找產(chǎn)業(yè)界里的漏洞、短板、長期需要升級的地方,然后把后續(xù)的產(chǎn)業(yè)轉(zhuǎn)化機會交給有興趣有能力的學生,這在某種程度上也是一種傳承。
總的來說,我認為與產(chǎn)業(yè)界的緊密合作和鼓勵學生創(chuàng)業(yè)是將研究成果轉(zhuǎn)化為實際應用的重要途徑,同時需要不斷地更新研究方向,保持研究的時效性和價值。
Q:為什么要創(chuàng)辦一本囊括了AI、機器人和基礎科學的交叉研究的期刊,這與您自身的研究方向有關嗎?朱曉蕊: 我本科就讀于哈爾濱工業(yè)大學(哈工大),在大三時選擇進入了學校新成立的“機電一體化系”,屬于最早成立的一個交叉學科的系,哈工大機器人研究所當時就隸屬于這個系。這個研究所是學校的重要研究機構之一,機器人研究所的成立標志著學校對機器人技術這一前沿領域的重視,現(xiàn)在基本上算是機器人領域的“黃埔軍校”了,許多從事機器人研究的學者和專家都與該研究所有關聯(lián)。
我當時是考研第一名順利進入了機器人研究所讀碩士,在那里對機器人研究領域產(chǎn)生了濃厚的興趣,并在博士階段去了美國猶他大學做進一步深入研究。
隨著機器人技術的發(fā)展,我意識到機器人不僅僅需要關注身體部分(機器人的物理結構),還需要關注大腦部分(即智能決策和感知能力),即人工智能。因此,我在博士后半程開始偏重于機器人+AI方向的研究。等到我自己開始獨立做研究的時候,基本上都是在往機器人與 AI 這個交叉方向去做。
我當時以做“感知定位技術“開始,感知技術是機器人+AI方向的一個重要分支,涉及理解周圍環(huán)境,包括視覺、聽覺、觸覺等。我認為,將機器人與人工智能相結合是一個具有挑戰(zhàn)性和前景的領域,希望通過自己的努力,為這個領域做出更多的貢獻,我們現(xiàn)在創(chuàng)辦的這本期刊重點關注之一便是機器人學與人工智能領域的緊密結合。
這本期刊關注的另外一個重點是AI或機器人和基礎科學的交叉研究,這塊是我自己很感興趣但是時間精力所限沒有機會開展的跨學科研究方向,也是引領未來的研究方向。
我相信人工智能與機器人技術將成為未來人類社會的基礎設施。
一方面,更多的基礎科學研究會在人工智能與機器人的賦能下取得范式轉(zhuǎn)移層面的理論突破和應用進展。另外一方面,人工智能與機器人研究的進展也將受益于與不同基礎科學的合作,包括數(shù)學、物理、生物學、心理學、語言學等。這種相互影響、相互成就才是跨學科研究的魅力所在。
Q:首期上線的五篇論文,能介紹它們各自的特點和研究領域,以及你們的篩選評審過程嗎?
朱曉蕊: 首期論文非常重要,希望為后面投稿的作者們提供有益的啟示和借鑒。所以最終入選的論文來自不同國家和地區(qū),包括美國、新加坡和中國,展現(xiàn)了期刊的國際性。同時,這些論文也代表了AI、機器人、基礎科學領域的跨學科研究成果,符合期刊的定位要求。
我分別來簡單介紹一下IJAIRR首期發(fā)表的五篇文章:
Bud Mishra教授的論文《AI, Thinking Machines and A Vast Active Living Intelligent System》
Bud教授來自美國紐約大學,是該校Courant數(shù)學研究所,Tandon工程學院和醫(yī)學院的教授,以及西奈山醫(yī)學院和冷泉港實驗室的客座教授,同時也是我們期刊的編委會榮譽顧問。
他長期從事生物信息學研究,所以他從生物學的一些概念類比過來,探討了生物學啟發(fā)的AI研究,提出了一種超前的觀點性文章。我稱之為"Biology-inspired AI",即,該文章創(chuàng)新性地從生物學的維度思考和暢想人工智能的未來,利用信息不對稱性博弈論的工具去分析和討論未來人工智能時代人和智能機器共生的可能性。
論文全文鏈接:
https://gairdao.com/doi/10.1142/S2972335323020015
田英利教授團隊的文章《Multi-Modal Multi-Channel American Sign Language Recognition》
田教授來自美國紐約城市大學,2000年前后曾在卡內(nèi)基梅隆大學機器人研究所進行博士后研究工作,師從當今計算機視覺和機器人領域巨擘金出武雄(Takeo ?Kanade)教授,曾在 IBM T. J. Watson 研究中心領導視頻分析團隊,是工業(yè)界走向?qū)W術界的重要女性代表。
她的這一論文涉及研究AI在語言學領域的應用(AI for Linguistics),提出了一個基于機器學習的多流框架,用于從RGB-D視頻中實時識別美國手語(ASL)手動手勢和非手動手勢(面部和頭部運動)。具體方法是基于3D卷積神經(jīng)網(wǎng)絡(3DCNN),通過融合來自多個通道(RGB、深度、運動和骨骼關節(jié))的多模態(tài)特征,包括手勢、面部表情和身體姿勢。
論文全文鏈接:
https://gairdao.com/doi/10.1142/S2972335324500017
Ling Feng教授團隊的《Asymptotic edge of chaos as guiding principle for neural network training》
Ling Feng教授來自新加坡高性能計算研究所,利用數(shù)學方法研究AI,試圖解決AI的“黑箱”問題,即AI決策過程的可解釋性和理論指導。
論文全文鏈接:
https://gairdao.com/doi/10.1142/S2972335323500011
周伯文教授團隊的文章《Generative AI for Complex Scenarios: Language Models are Sequence Processors》
周伯文教授擁有豐富的前沿研究經(jīng)歷與業(yè)界經(jīng)驗,曾任IBM Research人工智能基礎研究院院長、IBM Watson Group首席科學家、IBM杰出工程師、京東集團高級副總裁、集團技術委員會主席、云與AI總裁,2022年從產(chǎn)業(yè)界回到學術圈。
本篇論文中,他從宏觀框架層面討論人工智能應用從解決狹義問題到導航復雜的現(xiàn)實場景的范式轉(zhuǎn)變。因為如今以GPT-4為代表的大型語言模型(LLMs),已經(jīng)超越了語言處理的傳統(tǒng)界限,在理解和生成精妙文本方面表現(xiàn)出了非凡的能力。這篇涉及AI 和機器人的交叉研究,也是一篇觀點類論文。
論文全文鏈接:
https://gairdao.com/doi/10.1142/S2972335324010014
孫宇教授團隊的文章《Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》
孫宇教授來自美國南佛羅里達大學計算機科學與工程系,主要研究領域為機器人、智能系統(tǒng)、醫(yī)療健康應用。他的這篇論文也是AI 和機器人的交叉研究,但不同于周伯文教授,他討論了如何將AI中的大型語言模型應用于機器人的任務規(guī)劃,這是一個具體的場景應用研究。
論文全文鏈接:
https://gairdao.com/doi/10.1142/S2972335324500029
總之,首期發(fā)表的五篇文章涵蓋了AI與生物學、語言學、數(shù)學以及機器人學的交叉研究,不僅關注AI的具體應用場景,還探討了AI的理論基礎和可解釋性,以及研究范式探討。而且同行評審是學術期刊中非常重要的一環(huán),可以確保論文的質(zhì)量和學術價值。
在我們的編委會成員中,已經(jīng)有Prof Bud Mishra?、Prof. Dr.-Ing. Tamim Asfour?、Prof I-Ming Chen?、ProfessorZhidong Wang等5位編委會榮譽顧問,以及15位來自全球各地的編輯,他們會根據(jù)文章的研究領域和內(nèi)容,再選擇合適的同行評審者。以確保評審過程的公正性和準確性。
具體可看:
https://www.worldscientific.com/page/ijairr/editorial-board
Q:在這本期刊的運營方式上,您提到了“去中心化科學”“Web3技術支持”兩個詞,這對期刊發(fā)展有何影響?
朱曉蕊: 這是針對學術界長期存在的“學術中心化”而提出的一種解決方法,旨在打破學術思想的不流動性桎梏,促進學術交流和創(chuàng)新。我們會利用Web 3技術提供的工具來支持未來在線學術社區(qū)的運作。
因為Web 3技術的核心特點是去中心化,這意味著數(shù)據(jù)和信息的控制權不再集中在單一的實體手中,而是分散在網(wǎng)絡的各個節(jié)點。這種模式有助于促進開放和透明的學術交流。
一個好的學術社區(qū)平臺是能夠促進科學生產(chǎn)資料的流通,包括論文、數(shù)據(jù)庫、實驗視頻、算法原始代碼等。 (平臺為?gairdao.com?,目前還在建設中,將在2024年3月開放測試) 幫助學者們將他們的研究成果推廣到更廣泛的受眾,而不僅僅是發(fā)表在期刊上后就被淹沒。這樣的平臺可以鼓勵更多的學術交流和反饋,讓學者們能夠看到他們的工作被實際應用和復現(xiàn),從而獲得同行的認可和進一步的改進建議。
就像社交媒體上的互動一樣,學者們可以在平臺上分享他們的進展,得到同行的點贊和評論。這種互動不僅能夠提升研究的可見度,還能夠促進學術界的民主化,讓研究者們能夠直接從同行那里獲得反饋,而不是僅僅依賴于有限的同行評審過程。更重要的是,對于公開分享他們研究并參與社區(qū)建設的人,我們會提供相應的經(jīng)濟回報,形成一個良性循環(huán)。
這里就會用到Web3工具中的經(jīng)濟功能。未來社區(qū)將會有不同級別的活動,以激勵學者們在不同層面上參與平臺上的交流和合作。總的來說,我設想的去中心化學術社區(qū)平臺,將有助于促進知識的開放共享,提高研究的透明度和可復現(xiàn)性,同時也為學者們提供了一個更加活躍和互動的學術交流環(huán)境。
我們從過去的GAIR大會到現(xiàn)在的期刊和在線社區(qū),都是為了形成一個完整的學術交流平臺,服務于在該領域的所有人。
Q:最后,請您說說后續(xù)期刊的上線進程,以及對期刊的寄語。
朱曉蕊: 我們計劃在每三個月左右發(fā)布一期,每年發(fā)布四期,也就是每年的3月、6月、9月、12月。除了學術界,期刊還鼓勵企業(yè)界學者和專家投稿,尤其是那些在企業(yè)內(nèi)部研究院從事AIR研究的學者。
由于AIR領域發(fā)展迅速,許多企業(yè)都在進行相關研究以保持競爭力。通過期刊這個平臺,企業(yè)界和學術界可以更好地交流和合作,共同推動AIR領域的發(fā)展和創(chuàng)新。
最后,我想說,《人工智能與機器人研究國際期刊》(IJAIRR)是人工智能與機器人(AIR)領域,第一本專注于人工智能、機器人技術和基礎科學相結合的跨學科研究的科學期刊。
歡迎投遞IJAIRR期刊,我們真誠地希望你能從閱讀文章中得到啟發(fā),同時,我們也歡迎更多前沿科研人員加入編委團隊? ijairr@wspc.com 希望這本期刊盡力做到最好!
首期論文已上線
論文一
題目:《Multi-Modal Multi-Channel American Sign Language Recognition》
作者:Elahe Vahdani、Longlong Jing、Matt Huenerfauth、Yingli Tian(田英利)
摘要:In this paper, we propose a machine learning-based multi-stream framework to recognize American Sign Language (ASL) manual signs and non-manual gestures (face and head movements) in real-time from RGB-D videos. Our approach is based on 3D Convolutional Neural Networks (3DCNN) by fusing multimodal features including hand gestures, facial expressions, and body poses from multiple channels (RGB, depth, motion, and skeleton joints). To learn the overall temporal dynamics in a video, a proxy video is generated by selecting a subset of frames for each video which are then used to train the proposed 3DCNN model. We collected a new ASL dataset, ASL-100-RGBD, which contains 42 RGB-D videos captured by a Microsoft Kinect V2 camera. Each video consists of 100 ASL manual signs, along with RGB channel, depth maps, skeleton joints, face features, and HD face. The dataset is fully annotated for each semantic region (i.e. the time duration of each sign that the human signer performs). Our proposed method achieves 92.88% accuracy for recognizing 100 ASL sign glosses in our newly collected ASL-100-RGBD dataset. The effectiveness of our framework for recognizing hand gestures from RGB-D videos is further demonstrated on a large-scale dataset, Chalearn IsoGD, achieving the state-of-the-art results.
關鍵詞:American Sign Language Recognition; Hand Gesture Recognition; RGB-D Video Analysis; Multimodality; 3D Convolutional Neural Networks; Proxy Video
論文引用鏈接:
https://www.worldscientific.com/doi/10.1142/S2972335324500017#:~:text=Add%20To%20Favorites-,Download%20Citations,-Track%20Citations
論文二
題目:《Generative AI for Complex Scenarios: Language Models are Sequence Processors》
作者:周伯文、丁寧
摘要:Large Language Models (LLMs), exemplified by GPT-4, have transcended traditional boundaries in language processing, demonstrating remarkable capabilities in understanding and generating nuanced text. ?Crucially, these models are pioneering a paradigm shift in AI applications—from solving narrowly defined problems to navigating complex, real-world scenarios. ?Such a shift is based on a simple and fundamental principle: LLMs can process any data that can be serialized and tokenized, enabling them to engage in multifaceted reasoning and utilize diverse tools. ?This capability positions LLMs to operate effectively in broader, more intricate contexts, marking a leap in AI's practical applicability and potential.
關鍵詞:Large language models; Generative AI; Complex scenarios
論文引用鏈接:
https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324010014&area=0000000000000010
論文三
題目:《Asymptotic edge of chaos as guiding principle for neural network training》
作者:Lin Zhang、Ling Feng、Kan Chen、Choy Heng Lai
摘要:It has been recently demonstrated that optimal neural networks operate near the asymptotic edge of chaos for state of art feedforward neural networks, where its generalization power is maximal due to the highest number of asymptotic metastable states. However, how to leverage this principle to improve the model training process remains open. Here by mapping the model evolution during training to the phase diagram in the classic analytic result of Sherrington–Kirkpatrick model in spin glasses, we illustrate on a simple neural network model that one can provide principled training of the network without manually tuning the training hyper-parameters. In particular, we provide a semi-analytical method to set the optimal weight decay strength, such that the model will converge towards to edge of chaos during training. Consequently, such hyper parameter setting leads the model to achieve highest test accuracy. Another benefit for restricting the model at the edge of chaos is its robustness against the common practical problem of label noise, as we find that it automatically avoids fitting the shuffled labels in the training samples while maintaining good fitting to the correct labels, providing simple means of achieving good performance on noisy labels without any additional treatment.
關鍵詞:Complexity science; Deep learning theory; Dynamical systems; Critical phase transitions; Spin Glasses; Order and Chaos
論文引用鏈接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335323500011&area=0000000000000001
論文四
題目:《Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》
作者:Md Sadman Sakib、Yu Sun(孫宇)
摘要:The inherent probabilistic nature of Large Language Models (LLMs) introduces an element of unpredictability, raising concerns about potential discrepancies in their output. This paper introduces an innovative approach aims to generate correct and optimal robotic task plans for diverse real-world demands and scenarios. LLMs have been used to generate task plans, but they are unreliable and may contain wrong, questionable, or high-cost steps. The proposed approach uses LLM to generate a number of task plans as trees and amalgamates them into a graph by removing questionable paths. Then an optimal task tree can be retrieved to circumvent questionable and high-cost nodes, thereby improving planning accuracy and execution efficiency. The approach is further improved by incorporating a large knowledge network. Leveraging GPT-4 further, the high-level task plan is converted into a low- level Planning Domain Definition Language (PDDL) plan executable by a robot. Evaluation results highlight the superior accuracy and efficiency of our approach compared to previous methodologies in the field of task planning.
關鍵詞:Robotics; LLM; GPT-4; Task Planning; PDDL
論文引用鏈接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500029&area=0000000000000010
論文五
題目:《AI, Thinking Machines and A Vast Active Living Intelligent System》
作者:Bud Mishra
摘要:Biology-inspired AI: a descriptive discussion of the information-asymmetric game theory of AI, thinking machines and a vast active living intelligent system, and a prescriptive analysis of likely symbiosis of individual humans and bots resulting in a hierarchy of multi-cellularization.
論文引用鏈接:
https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335323020015&area=0000000000000001
后續(xù)雷峰網(wǎng)將推出IJAIRR論文作者專訪,首篇為紐約城市大學田英利教授團隊的工作,《多模態(tài)多通道的美國手語識別》。如果你也從事手語工作或其他醫(yī)學基礎研究,歡迎添加作者吳彤微信溝通,微信號: icedaguniang?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。