斯坦福大學“急了”
出品|虎嗅科技組
作者|余楊
編輯|苗正卿
頭圖|視覺中國
6月4日消息,斯坦福大學AI團隊反過來學習國內AI明星公司面壁智能的開源成果MiniCPM模型,激起了HuggingFace社區網友的廣泛討論,話題主要集中在:斯坦福大學AI團隊涉嫌抄襲。
這并不是中國的大模型第一次在國外被抄襲。 但此次事涉斯坦福大學這樣的知名機構,在引發關注的同時,也暴露出AI領域知識產權保護和學術誠信問題。
更值得深思的是, 為何MiniCPM模型吸引了斯坦福的眼球?這是否意味著國內大模型“出圈”了?
此次事件開始于斯坦福團隊聲稱 以不到500美元( 約等于人民幣3650元 )的成本就能訓練出一個性能超越GPT-4V的SOTA多模態大模型。 這一聲明迅速吸引了廣泛關注,但不久后,社區內開始出現對Llama3-V的質疑聲,指責其抄襲了面壁智能的MiniCPM-Llama3-V 2.5。
網友Magic Yang發現Llama3-V項目中有大量與MiniCPM-Llama3-V 2.5雷同的內容,包括模型結構和配置文件高度相似,只是變量名不同。
除了社區網友列出的證據外,經面壁智能團隊核實, Llama3-V不但能夠與MiniCPM一樣識別出“清華簡”戰國古文字,并且兩個模型連做錯的樣例都一模一樣。 而這項成果來自面壁智能團隊對浩如煙海的清華簡逐字掃描,再一個一個地進行數據標注,經歷了數個月的努力,才融合進模型中的,這進一步證實了Llama3-V模型的抄襲行為。
?
MiniCPM模型到底有什么魔力?
今年2月,面壁智能發布了20億參數的開源端側模型MiniCPM,在多個主流評測榜單中,該模型中英文分均超過Mistral-7B開源模型,甚至優于Llama 2-13B。
?
這個名為MiniCPM的開源模型的價值增長點在哪?
?
3月31日,虎嗅科技組主辦的“2024 AI內參會”上,邀請到了面壁智能CTO曾國洋,極客邦科技副總裁、TGO鯤鵬會總經理楊攀做客。與會者就曾對開源模型的價值提出疑問,即相比其他增量模型,這個模型有什么優勢呢?
在內參會上,曾國洋給出的答案是這樣:它是一個“更高效的模型”,就是在有限的資源內去把模型做得更好。
“如果簡單地將模型參數規模做大的話,它確實會隨著scaling law出現效果的提升,但它單一維度的提升是低效的。我們在研究出一個更優化的方法之后,其實是可以隨著參數擴大,讓模型爆發出一種更明顯地增長。”曾國洋說。
也就是說,研發人員可以通過它在固定資源預算中,如額定的GPU數量、訓練數據量或是訓練時長下,匹配模型的最佳大小,且無需經歷昂貴的試錯。 這無疑從很大程度上提高了研發效率,我們猜測,這或許就是開源模型Llama3-V反被抄襲的原因所在。
?
對此事,面壁智能CEO李大海表示遺憾,并呼吁共建開放、合作、有信任的社區環境。
目前,Llama3-V模型已從Hugging Face等開源平臺上下架。 在社交媒體上,Llama3-V團隊的兩位作者森德哈斯·沙瑪(Siddharth Sharma)和阿克沙·加格(Aksh Garg)正式向MiniCPM團隊道歉。
?
斯坦福大學是世界頂尖的學術機構之一,此次事件使其聲譽面臨拷問,尤其是在AI研究領域,未來的學術成果的審查想必會更加嚴格。
相應地,面壁智能因禍得福,在國際關注度陡增的背景下,其商業價值也在聚光燈下無限放大,也就意味著更多合作伙伴和投資者。而AI領域的知識產權保護和學術誠信問題則任重道遠。