欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

悅數(shù)Graph RAG,早于微軟站上起跑線

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來看看。  



向量數(shù)據(jù)庫近年水花激蕩。

高效檢索高維向量數(shù)據(jù),對(duì)大模型訓(xùn)練和推理至關(guān)重要。2023 年大模型狂奔以來,向量檢索——RAG(檢索增強(qiáng)生成)技術(shù)中的一個(gè)重要組成部分——也成為數(shù)據(jù)庫技術(shù)的核心焦點(diǎn)。

但隨著 RAG 的廣泛應(yīng)用,其局限性也逐漸顯露:它只能對(duì)知識(shí)本身做向量化,難以理解獨(dú)立信息之間的鏈接,無法結(jié)合關(guān)系和語境,處理需要更深層次語義關(guān)系和上下文細(xì)微差別時(shí)的復(fù)雜查詢就顯無力。

如何解決這一困境?杭州悅數(shù)科技有限公司(下稱悅數(shù)) CTO 葉小萌帶領(lǐng)團(tuán)隊(duì),在 2023 年與 LlamaIndex 聯(lián)合提出 Graph RAG 設(shè)想,并快速分享這個(gè)概念的初步驗(yàn)證。

圖數(shù)據(jù)庫的優(yōu)勢(shì)在于處理關(guān)聯(lián)關(guān)系,Graph RAG 通過知識(shí)圖譜,能更精確全面檢索相關(guān)信息,使模型能關(guān)聯(lián)上下文給出答復(fù)。這個(gè)概念起初在國內(nèi)水花平平,但悅數(shù)組建團(tuán)隊(duì)持續(xù)推動(dòng)落地,去年 11 月推出悅數(shù) RAG 產(chǎn)品,實(shí)現(xiàn)了基于圖的檢索增強(qiáng)生成,幫助企業(yè)應(yīng)對(duì)知識(shí)孤島問題。

微軟也于去年 7 月 2 日開源了 Graph RAG 研究項(xiàng)目,讓這一概念真正被大眾廣泛關(guān)注。但究其概念提出時(shí)間,悅數(shù)早于微軟。把圖庫與向量結(jié)合的這個(gè)團(tuán)隊(duì),起初只有一個(gè)人。開發(fā) Graph RAG 的難度幾何?致力于打造信創(chuàng)領(lǐng)域圖數(shù)據(jù)庫的悅數(shù),又需要多做些什么?葉小萌向雷峰網(wǎng)分享這些年的心路歷程。

悅數(shù)Graph RAG,早于微軟站上起跑線 悅數(shù) CTO 葉小萌

Graph RAG的先行者 一個(gè)人也是一支隊(duì)伍

談及悅數(shù)跟行業(yè)的差異化策略,葉小萌直言:技術(shù)。

大模型的出現(xiàn)在 2023 上半年帶火 RAG。葉小萌介紹道,要讓通過公域數(shù)據(jù)訓(xùn)練的大模型了解私域數(shù)據(jù),就要先把私域數(shù)據(jù)保存下來,這是 RAG 技術(shù)的起點(diǎn)。而要快速在私域數(shù)據(jù)里找到關(guān)聯(lián)內(nèi)容,就需要將圖片文字等知識(shí)內(nèi)容向量化進(jìn)行比較。

但在向量浪潮下,團(tuán)隊(duì)看到其缺陷:向量數(shù)據(jù)庫只能對(duì)知識(shí)本身做向量化,難以呈現(xiàn)知識(shí)間的關(guān)聯(lián),也因此,擅長處理關(guān)聯(lián)關(guān)系的圖數(shù)據(jù)庫,在此大有可為。

在悅數(shù)團(tuán)隊(duì)于 2023 年 8 月首次提出 Graph RAG 概念時(shí),人們對(duì)這兩者的結(jié)合還難以想象。但悅數(shù)并未退卻,11 月組建團(tuán)隊(duì)開始打造這款 RAG 產(chǎn)品。一年后推出了悅數(shù) RAG,目前已進(jìn)入 PMF,預(yù)計(jì)今年能進(jìn)行推廣。

對(duì)于團(tuán)隊(duì)規(guī)模七八十人的創(chuàng)業(yè)公司而言,在原有產(chǎn)品上分出一條新的線并不容易。除了內(nèi)核的圖庫外,做上層 RAG 的團(tuán)隊(duì),起初只有古思為一個(gè)人。

2023 年,市面上有的 RAG 三種結(jié)合方式在古思為看來“都不是很令人興奮”。學(xué)習(xí) RAG 范式時(shí),深耕圖庫多年的他敏銳捕捉到, RAG 利用無狀態(tài)大模型做上下文理解和推理時(shí)無法繞過知識(shí)圖譜,因?yàn)檎鎸?shí)世界中知識(shí)組織結(jié)構(gòu)都是網(wǎng)狀的。當(dāng)時(shí) RAG 的明顯缺陷能靠圖做 index 來補(bǔ)充,“Graph RAG 足夠復(fù)雜、足夠有想象力,值得投入”,悅數(shù)于是開始了 RAG 的研究。

古思為向雷峰網(wǎng) (公眾號(hào):雷峰網(wǎng)) 回顧說,Graph RAG 就像一個(gè)小帳篷,里面能放很多東西,由此帶來的挑戰(zhàn)就是做抉擇。例如,圖的形式是選擇現(xiàn)有的知識(shí)圖譜進(jìn)行事實(shí)檢測(cè)和推理,還是從不同類型知識(shí)中二次處理增強(qiáng)變成圖狀數(shù)據(jù),還是僅用圖狀結(jié)構(gòu)生成總結(jié)?沒有足夠參考的情況下,每個(gè)決定都需反復(fù)斟酌。最終悅數(shù)取舍簡化后呈現(xiàn)的初步驗(yàn)證反響不錯(cuò);而當(dāng)時(shí)定下來的實(shí)現(xiàn)方式,現(xiàn)在依然是 Graph RAG 的默認(rèn)常用方法。

后續(xù)概念的落地比想象中復(fù)雜。2024 年上半年,悅數(shù)開始提供抽象工具給用戶,但技術(shù)門檻令當(dāng)時(shí)許多客戶難以自己搭建 pipeline。如何讓用戶即便對(duì)圖庫無感知也能有很好使用效果?兩三個(gè)月里跟四五十個(gè)客戶聊過后,團(tuán)隊(duì)開始迭代一定程度開箱即用的方案,以消除用戶使用產(chǎn)品的心智負(fù)擔(dān)。

回顧起初的探索,對(duì)新技術(shù)狂熱的古思為笑說,自己當(dāng)時(shí)已充分利用生成式 AI 參與工作,如在 2023 年 9 月就成了 cursor 的付費(fèi)用戶,這讓他的效率翻二十倍,雖然是一個(gè)人做研發(fā),但又不完全是“一個(gè)人”。如今團(tuán)隊(duì)中不同角色逐漸完備,很多工作都是通過 v0.dev 完成,“這在一兩年前不敢想象”。

如今,悅數(shù) RAG 已經(jīng)可以無縫銜接 deepseek,團(tuán)隊(duì)也在基于蒸餾技術(shù)、圖上推理等功能進(jìn)行 RAG 迭代,“做更多令人興奮、更有回報(bào)的事情”。

悅數(shù)Graph RAG,早于微軟站上起跑線 古思為和客戶講解產(chǎn)品

悅數(shù)走在前沿,不止在 RAG 的探索。2024 年 4 月,國際標(biāo)準(zhǔn)化組織(ISO)發(fā)布了國際標(biāo)準(zhǔn)圖查詢語言 GQL,是 ISO 在四十多年里制定的第二個(gè)數(shù)據(jù)庫查詢語言國際標(biāo)準(zhǔn)。這個(gè)標(biāo)準(zhǔn)制定開始于 2019 年,在其發(fā)布第一版、第二版草稿征求意見的過程中,悅數(shù)一直跟蹤投入研發(fā)。GQL 標(biāo)準(zhǔn)發(fā)布后的同年 11 月,悅數(shù)也推出悅數(shù)圖數(shù)據(jù)庫 v5.0 ,是全球第一款原生支持 GQL 的分布式圖數(shù)據(jù)庫產(chǎn)品。

開源的 NebulaGraph 經(jīng)過三四年場景打磨和產(chǎn)品驗(yàn)證后,悅數(shù)基于 NebulaGraph 開始做企業(yè)級(jí)的商業(yè)化產(chǎn)品。在圖數(shù)據(jù)庫的增長勢(shì)頭下,悅數(shù)在 2023 年比 2022 年實(shí)現(xiàn)兩倍多增長,2024 年又比 2023 年增長近三倍,已接近收支平衡。


在圖庫進(jìn)入信創(chuàng)名錄前 先做到“萬事俱備”

悅數(shù)走在成為信創(chuàng)品牌的路上,但“悅數(shù)不是為了做信創(chuàng)而做信創(chuàng)”,在葉小萌看來,這是個(gè)自然發(fā)生的過程:信創(chuàng)的重要特征中,首當(dāng)其沖便是自主可控,而悅數(shù)圖數(shù)據(jù)庫的每一行代碼都是團(tuán)隊(duì)親手寫下,悅數(shù)本身已有 IP 和代碼的自主權(quán),是做信創(chuàng)的良好土壤。

不過,在 2027 年實(shí)現(xiàn) “2+8+N” 的數(shù)據(jù)庫 100% 國產(chǎn)替代目標(biāo)下,數(shù)十種數(shù)據(jù)庫類型中,目前也只有關(guān)系型數(shù)據(jù)庫被收錄在冊(cè),相對(duì)小眾、發(fā)展勢(shì)頭仍較年輕的圖數(shù)據(jù)庫還不在信創(chuàng)名錄之列。悅數(shù)能進(jìn)入信創(chuàng)名錄、得到認(rèn)證,是葉小萌的目標(biāo)之一。而在此之前,他們要做的是匹配各種信創(chuàng)操作系統(tǒng)或硬件,先萬事俱備,再等東風(fēng)吹來。

適配國產(chǎn)硬件生態(tài)并非易事。國產(chǎn)硬件起步較晚,國內(nèi) CPU 在近幾年才集中快速增長。一般較常用的芯片基于 x86 架構(gòu)和 arm 架構(gòu),但現(xiàn)有主要六大國產(chǎn) CPU,龍芯、海光、兆芯、鯤鵬、申威、飛騰,其中有些比較小眾的架構(gòu)如 MIPS,對(duì)團(tuán)隊(duì)編譯適配提出更高的時(shí)間和人力要求。但葉小萌也看到,雖然國產(chǎn)與國外硬件在 x86 的差距仍較大,但 arm CPU 的級(jí)別已與國際化水平非常接近。

與國產(chǎn)操作系統(tǒng)的適配也存在挑戰(zhàn),尤其當(dāng)國產(chǎn) OS 上游的 Linux 版本仍相對(duì)較老時(shí)。此外,悅數(shù)圖數(shù)據(jù)庫在去年 6 月通過中國信通院舉辦的“可信數(shù)據(jù)庫”圖數(shù)據(jù)庫性能測(cè)試,是國內(nèi)首個(gè)全項(xiàng)完成該測(cè)試的圖數(shù)據(jù)庫產(chǎn)品,這也體現(xiàn)了悅數(shù)做信創(chuàng)匹配國標(biāo)的決心。

悅數(shù)Graph RAG,早于微軟站上起跑線 悅數(shù)RAG產(chǎn)品界面

以信創(chuàng)為發(fā)展目標(biāo)的悅數(shù),目前客戶也一半以上都有信創(chuàng)需求。

葉小萌觀察到,現(xiàn)在還愿意出大價(jià)格的企業(yè),許多是國央企或至少有國資背景的企業(yè),也因?yàn)榇耍箢I(lǐng)域的客戶競爭總是較為激烈,最甚是金融業(yè)——金融業(yè) IT 需求發(fā)展起步較早,每年預(yù)算高,大家都擠破頭往里卷。

在價(jià)格戰(zhàn)硝煙中,悅數(shù)盡量避免受到波及:投標(biāo)時(shí),悅數(shù)會(huì)避開除產(chǎn)品分?jǐn)?shù)外其他分?jǐn)?shù)(如價(jià)格分?jǐn)?shù)、公司資質(zhì)、評(píng)委打分等)占比過高的場景,也盡量避免卷入搶低價(jià)客戶的漩渦。葉小萌相信,產(chǎn)品價(jià)格得體現(xiàn)產(chǎn)品本身給客戶帶來的價(jià)值,卷技術(shù)對(duì)行業(yè)有利,但卷價(jià)格“沒法體現(xiàn)軟件產(chǎn)品的價(jià)值,很不可取”。


數(shù)據(jù)庫市場競爭如長跑 一二梯隊(duì)已漸顯

葉小萌畢業(yè)后不久,就扎進(jìn)圖數(shù)據(jù)庫領(lǐng)域。

他在 2010 年底進(jìn)入 Facebook,一年后開始做圖數(shù)據(jù)庫產(chǎn)品。2015 年左右,葉小萌回國,業(yè)務(wù)蒸蒸日上的螞蟻正準(zhǔn)備引入圖庫做風(fēng)控。彼時(shí)國內(nèi)圖數(shù)據(jù)庫市場剛起步,業(yè)界產(chǎn)品難以滿足螞蟻數(shù)據(jù)量和查詢并發(fā)量的高需求。就這樣,葉小萌成了團(tuán)隊(duì)負(fù)責(zé)人,開始了這款比 Facebook 的圖數(shù)據(jù)庫查詢模式更復(fù)雜的項(xiàng)目——畢竟后者應(yīng)用場景單一,基本查詢需求都只跟社交網(wǎng)絡(luò)有關(guān)。

螞蟻曾將自研的圖數(shù)據(jù)庫囊括在金融解決方案中一起銷售。葉小萌與客戶溝通接觸時(shí),發(fā)現(xiàn)很多銀行在數(shù)據(jù)庫、中間件上都有現(xiàn)成配置,但在如反洗錢、反欺詐等新場景上,對(duì)圖庫有新需求。當(dāng)時(shí)圖數(shù)據(jù)庫囊括在螞蟻的成套方案中,無法單獨(dú)拆分給銀行使用,但葉小萌已從中嗅到圖數(shù)據(jù)庫的商機(jī)。

早期風(fēng)控主要基于規(guī)則和簡單算法,隨著需求深度提升,傳統(tǒng)算法難以滿足,圖數(shù)據(jù)庫優(yōu)勢(shì)漸顯。葉小萌舉例說到,銀行放貸業(yè)務(wù)要判斷企業(yè)資質(zhì)征信情況,便需要企業(yè)圖譜,了解企業(yè)間十幾二十層的控股關(guān)系,這種關(guān)聯(lián)是圖數(shù)據(jù)庫的擅長領(lǐng)域;此外,貸后監(jiān)控如資金流向等,也是圖數(shù)據(jù)庫能大展拳腳的地方。

悅數(shù)Graph RAG,早于微軟站上起跑線 葉小萌在產(chǎn)品發(fā)布會(huì)上演講

親歷圖數(shù)據(jù)庫市場成長的浪潮,葉小萌也感受到,這些年的市場教育已卓有成效。現(xiàn)在團(tuán)隊(duì)接觸客戶不再需要介紹圖數(shù)據(jù)庫的定義功能,能直接從介紹行業(yè)經(jīng)驗(yàn)和使用場景開始。

而作為從業(yè)者,他形容數(shù)據(jù)庫市場的競爭有如跑八百米,進(jìn)程近半,“雖然不排除有人最后沖刺反超,但到四百米左右已經(jīng)可以分出第一梯隊(duì)和第二梯隊(duì)了”。如今,數(shù)據(jù)庫市場開始大浪淘沙,產(chǎn)品差距只會(huì)越來越明顯,他對(duì)此也抱有信心:淘汰完成后,最后能留下的玩家就是技術(shù)產(chǎn)品最好的。

技術(shù)狂人葉小萌領(lǐng)略過硅谷科技大公司的工程師文化,深受感染,希望能打造技術(shù)上最強(qiáng)的公司。也因?yàn)榇耍瑦倲?shù)的氛圍十分接近他心之所向的工程師文化——大家專注做技術(shù)、以技術(shù)為導(dǎo)向,員工自驅(qū)力很強(qiáng)。尤其創(chuàng)立初期,公司團(tuán)隊(duì)里幾乎全都是程序員,大家的共同點(diǎn)是:非常理想化、相信圖數(shù)據(jù)庫未來可期。

不過,對(duì)葉小萌來說,創(chuàng)業(yè)最難的是突破邊界。浸潤技術(shù)領(lǐng)域多年的他,在 2023 年商業(yè)化后開始接觸客戶,面對(duì)的對(duì)象從電子屏幕轉(zhuǎn)變?yōu)槿恕!半娔X比較簡單,你發(fā)出指令它執(zhí)行就可以,但跟客戶見面聊天時(shí),要觀察對(duì)方對(duì)自己講的話的反應(yīng)、猜測(cè)他們背后的想法”,葉小萌感慨,自己仍走在突破自我的路上。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。

本文被轉(zhuǎn)載1次

首發(fā)媒體 雷鋒網(wǎng) | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 欧美性色福利视频在线观看 | 天天干天天操天天舔 | 亚洲成在人网站天堂一区二区 | 精品国产调教最大网站女王 | 欧美操操操 | 国产成人亚洲精品大帝 | 日本成人久久 | 在线观看精品一区 | 99精品福利视频 | 亚洲精品国产字幕久久不卡 | 亚洲精品永久一区 | 94久久国产乱子伦精品免费 | 国产精品久久久久久久久福利 | 欧美日韩在线视频播放 | 狼人香蕉香蕉在线视频播放 | 九九精品视频在线观看九九 | 日韩亚洲欧美一区 | jzz欧美| 美女个护士一级毛片亚洲 | 一本一道波多野结衣一区二区 | 国产精品视频第一区二区 | 成人夜色视频网站在线观看 | 久草在线在线精品观看 | 综合久久久久久久综合网 | 曰本不卡视频 | 亚洲色图国产精品 | 国产日韩欧美精品一区二区三区 | 四虎8848 | 午夜一级福利 | 天堂成人av | 国产偷视频 | 国产羞羞视频在线播放 | 国产九九热视频 | 精品性久久 | 精品中文字幕乱码一区二区 | 久久一区不卡中文字幕 | 亚洲免费午夜视频 | 亚洲视频精品在线 | 香蕉成人影院 | 五月婷婷视频在线观看 | 911国产视频|