四個“一體化”——構(gòu)建數(shù)智融合時代下的一站式大數(shù)據(jù)平臺
隨著智能化技術的飛速發(fā)展,尤其是以生成式AI為代表的技術快速應用,推動了數(shù)據(jù)與智能的深化融合,給數(shù)據(jù)基礎設施帶來了新的變革和挑戰(zhàn)。如何簡化日益復雜的系統(tǒng)架構(gòu),提高數(shù)據(jù)處理效率,降低開發(fā)運維成本,促進數(shù)據(jù)開放共享和創(chuàng)新應用,成為企業(yè)關注的核心問題。
一站式大數(shù)據(jù)平臺,旨在通過一個平臺即可滿足各類業(yè)務需求,成為數(shù)智融合時代下數(shù)據(jù)基礎設施的發(fā)展趨勢,并從四個維度向四個“一體化”方向演進:數(shù)據(jù)架構(gòu)-湖倉集一體化;數(shù)據(jù)處理-多模型一體化;數(shù)據(jù)分析-歷史與實時數(shù)據(jù)一體化;資源管理-多集群應用、資源和數(shù)據(jù)一體化。
數(shù)據(jù)架構(gòu):湖倉集一體化
過去,企業(yè)在建設數(shù)據(jù)平臺時通常使用傳統(tǒng)的Hadoop湖+MPP倉的混合架構(gòu),逐漸有部分企業(yè)開始使用類似Hudi/Iceberg的湖倉技術。這兩種技術架構(gòu)都存在一些局限性,在線分析能力較弱,無法滿足集市業(yè)務需求。因此企業(yè)往往需要再引入額外的分析查詢引擎,用混合架構(gòu)來滿足湖倉集業(yè)務需求。
混合架構(gòu)中,數(shù)據(jù)需要存儲在不同平臺里來提供服務,首先就造成了數(shù)據(jù)冗余和存儲資源占用。其次,數(shù)據(jù)需要跨平臺ETL流轉(zhuǎn),流轉(zhuǎn)開銷高,時效性較差。數(shù)據(jù)跨平臺流轉(zhuǎn)中還容易導致數(shù)據(jù)一致性問題,影響業(yè)務正確性。此外,多平臺的開發(fā)標準不一致,存在一定的技術門檻,權限管理復雜。
星環(huán) 科技 大數(shù)據(jù)基礎平臺TDH從2014年支持了事務表和存儲過程開始,形成了湖倉集一體雛形,在2023年TDH9.3版本中引入了湖倉集統(tǒng)一存儲格式Holodesk,只需一種存儲格式即可同時滿足ODS數(shù)據(jù)實時數(shù)據(jù)接入、數(shù)倉模型加工和高性能集市查詢分析等業(yè)務,不需要針對不同的業(yè)務場景使用不同的存儲引擎而構(gòu)建煙囪式混合架構(gòu)。在星環(huán)一體架構(gòu)下,湖倉集對用戶來說,僅僅是業(yè)務邏輯上的區(qū)分,底層使用統(tǒng)一的技術棧,真正實現(xiàn)湖倉集一體化。
新發(fā)布的TDH9.4在資源隔離、端到端性能、統(tǒng)一運維管理等方面升級,幫助用戶構(gòu)建真一體化、高性能、易運維的湖倉集一體化平臺。
* 資源隔離新架構(gòu),在同一份數(shù)據(jù)上跑批查詢混合負載互不影響。 一套集群一份數(shù)據(jù),基于Raft協(xié)議保障分布式一致性,在CPU、內(nèi)存、IO、網(wǎng)絡資源方面完全隔離,結(jié)合基于容器化的動態(tài)資源調(diào)整能力,保障不同的批量業(yè)務與查詢業(yè)務性能需求。存儲方面,針對湖倉集多種混合負載業(yè)務,支持分區(qū)級多級冷熱數(shù)據(jù)存儲,最大化利用存儲資源,降低總體存儲成本。
* 端到端性能10倍提升,全面降低TCO。 相比于Hudi+Clickhouse+Hbase的混合架構(gòu),TDH湖倉集同一份數(shù)據(jù),ETL時間節(jié)約95%,存儲空間節(jié)省3/4,批量入庫性能提升3倍,實時入庫性能提升5倍,批量加工和多表關聯(lián)分析性能提升5-10倍,統(tǒng)計性能提升3倍,帶小量聚合的查詢業(yè)務性能提升1.5倍。
* 湖倉集統(tǒng)一運維管理,大幅降低運維管理成本。 湖倉集統(tǒng)一的監(jiān)控導向UI,提供更細粒度的集群運行、資源使用、組件指標等監(jiān)測,提供界面化補丁管理、磁盤管理等。此外,TDH支持X86和ARM混合集群部署和統(tǒng)一管理,首個在10000節(jié)點X86/ARM混部集群下,通過信通院云原生湖倉一體專項評測。
* 支持 ?Python 生態(tài),高效支撐大模型應用。 基于統(tǒng)一的分布式計算引擎,提供分布式Python引擎,來幫助用戶更方便地用Python進行分布式數(shù)據(jù)處理。并提供POSIX接口,掛載分布式文件系統(tǒng)TDFS到本體磁盤,讓用戶可以像處理本地數(shù)據(jù)一樣處理海量AI訓練數(shù)據(jù),高效支撐數(shù)智融合時代下大模型應用和各類數(shù)據(jù)智能場景。
數(shù)據(jù)處理:多模型一體化
過去,不同的數(shù)據(jù)模型往往需要獨立的平臺來處理,而這些不同的產(chǎn)品在接口標準上不一致,開發(fā)者和業(yè)務分析人員需要掌握不同的語言。同樣,這些產(chǎn)品也使用了各自獨立的計算引擎和存儲,數(shù)據(jù)存儲在各自生態(tài)中難以互通,在業(yè)務上如果涉及到跨模型的混合業(yè)務,需要把數(shù)據(jù)從一個平臺導入到另一個平臺中,ETL流轉(zhuǎn)效率低,同時也難以保證數(shù)據(jù)的準確性、一致性和實效性。
多模數(shù)據(jù)庫旨在單個系統(tǒng)中集成了多個關系型和/或非關系型數(shù)據(jù)引擎 (例如,文檔、圖、鍵值、時序等),滿足業(yè)務對于結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理需求,實現(xiàn)數(shù)據(jù)的多模融合處理。通過使用單個系統(tǒng)來降低操作的復雜性,更好地支持不同場景下的多種類型數(shù)據(jù)處理。
隨著大語言模型的快速發(fā)展 ,對于多種模型數(shù)據(jù)的處理需求越來越高,同時由于其存在領域知識缺乏、知識時效性低、回答易幻覺、隱私數(shù)據(jù)不安全等局限性,需要通過檢索外置知識庫的方式來增強大模型能力。通過多種模型一體化處理的平臺,在增強大模型的同時,可以降低系統(tǒng)搭建、開發(fā)、運維等方面難度,因此多模數(shù)據(jù)庫成為大模型時代的剛需。
星環(huán)科技從2020年實現(xiàn)了多模型數(shù)據(jù)的統(tǒng)一處理技術 ,基于四層統(tǒng)一的架構(gòu)提供統(tǒng)一的接口層,統(tǒng)一的計算引擎層,統(tǒng)一的分布式存儲管理層和統(tǒng)一的資源管理層,并支持關系型、圖、時序、時空、向量、鍵值等11種數(shù)據(jù)模型,業(yè)內(nèi)首個通過了信通院《多模數(shù)據(jù)庫技術要求》評測。
TDH9.4在多模型能力進行了升級,向量存儲引擎Hippo發(fā)布了2.0版本 ,單機存儲容量提升20倍,結(jié)合分布式架構(gòu)可支持百億字的向量存儲,檢索性能提升10倍以上,并提供完整的企業(yè)級能力,包括冷熱災備、跨集群數(shù)據(jù)同步、生命周期管理等,幫助用戶更安全、便捷地支撐大模型應用。
圖存儲引擎StellarDB發(fā)布了5.1版本, 引入GPU作為計算資源,部份場景下如子圖查詢性能提升10倍以上,結(jié)合深度圖算法提供圖譜召回、圖譜推理等能力,提升大模型的準確度,幫助用戶構(gòu)建企業(yè)級知識庫系統(tǒng)。
基于TDH多模型統(tǒng)一技術架構(gòu),滿足大模型場景下多模態(tài)數(shù)據(jù)的統(tǒng)一存儲管理與服務,大幅簡化知識庫的知識存儲與服務層架構(gòu),降低開發(fā)與運維成本。通過將TDH作為大模型外置知識庫,可以檢索文本/圖片/音視頻轉(zhuǎn)化后的向量數(shù)據(jù)、圖數(shù)據(jù)、以及傳統(tǒng)關系型數(shù)據(jù)等,并進行聯(lián)合召回,可以極大增強大模型的準確率。
數(shù)據(jù)分析:實時與歷史數(shù)據(jù)一體化
隨著業(yè)務的快速發(fā)展以及企業(yè)內(nèi)部決策的要求不斷提高,用戶對數(shù)據(jù)實時性的要求越來越迫切。實時數(shù)據(jù)處理架構(gòu)Lambda和Kappa,在各自使用的場景都能解決一部分實時或近實時的用戶需求,但是隨著業(yè)務實時要求的提高,兩種架構(gòu)均存在一定的不足,主要體現(xiàn)在:
(1)Lambda架構(gòu)將實時和歷史數(shù)據(jù)分離,隨著歷史數(shù)據(jù)的積累,批量計算的性能會下降明顯;
(2)Kappa架構(gòu)通過流計算的方式實現(xiàn)了數(shù)據(jù)融合,但流與流之間的時間窗口難以精確控制,流與流存在數(shù)據(jù)關聯(lián)不上的問題。
星環(huán)科技ArgoDB 6.1版本中推出了數(shù)據(jù)增量計算能力,提出了業(yè)務實時計算新范式。在實時處理數(shù)據(jù)架構(gòu)上,解決了Lambda架構(gòu)中的實時與歷史數(shù)據(jù)的不融合問題;同時避免了Kappa架構(gòu)中的流與流計算窗口不可控問題。從數(shù)據(jù)的加載到數(shù)據(jù)的加工,保障了數(shù)據(jù)業(yè)務端到端的實時性能,極大地提升了業(yè)務分析的時效性。
ArgoDB6.1的增量計算技術,打破流表和物理表的使用壁壘,增量交由數(shù)據(jù)庫識別、關聯(lián)和分析:
* 大幅降低資源維護成本,窗口下沉到存儲,數(shù)據(jù)無中間狀態(tài),流狀態(tài)時間窗口維護成本從100%降至0(即“零”維護成本);
* 實時性能 & 數(shù)據(jù)準確性提升,減少計算數(shù)據(jù)量,為結(jié)果表實時提供最新的關聯(lián)計算值;(即數(shù)據(jù)“不丟”“不重”且“計算高效”);
* 增量數(shù)據(jù)可重復使用,原始數(shù)據(jù)落表,增量的數(shù)據(jù)可供下游使用,配置鏈路簡單且數(shù)據(jù)可重復使用。
基于ArgoDB 6.1增量數(shù)據(jù)計算能力,可在一個數(shù)據(jù)庫系統(tǒng)中實現(xiàn)多種實時場景,數(shù)據(jù)僅需在庫內(nèi)流轉(zhuǎn):
場景一(即席查詢,寫入即服務): 數(shù)據(jù)直接寫入ArgoDB,由ArgoDB提供OLAP 查詢和在線服務;
場景二(增量數(shù)據(jù)準實時加工): 在 ArgoDB 中進行ODS數(shù)據(jù)清洗,并在DWD數(shù)據(jù)明細層預加工后直接進行匯聚層加工,對接上層應用;
場景三(增量數(shù)據(jù)實時統(tǒng)計,事件驅(qū)動加工): DWD明細層預加工和DWS匯聚層預加工全部由ArgoDB增量計算完成,并提供給上層應用,幫助用構(gòu)建新一代的實時數(shù)據(jù)倉庫。
資源管理:多集群應用、資源和數(shù)據(jù)一體化
企業(yè)通常根據(jù)不同的業(yè)務系統(tǒng)構(gòu)建多個不同的大數(shù)據(jù)集群,多個集群的運維管理給企業(yè)帶來了很多困擾。不同的集群各自孤立,底層資源無法統(tǒng)一、無法均衡的調(diào)度和最大化利用,并且各個集群上的數(shù)據(jù)難以互通,當涉及跨集群數(shù)據(jù)調(diào)用時,需要在各個集群之間ETL,效率較低,也難以保證數(shù)據(jù)的準確性、一致性和實效性。當有新業(yè)務需要上線時,需要建設新的集群,進一步加劇上述問題。
多個大數(shù)據(jù)集群統(tǒng)一管理,能夠?qū)⒍嗉航y(tǒng)一納管,實現(xiàn)資源統(tǒng)一調(diào)度,數(shù)據(jù)統(tǒng)一管理,并能夠快速響應,滿足新業(yè)務上線需求。
星環(huán)科技數(shù)據(jù)云平臺TDC,在一個平臺上提供了數(shù)據(jù)PaaS、分析PaaS、應用PaaS服務,底層共享基礎設施資源,能夠?qū)崿F(xiàn)不同業(yè)務、不同環(huán)境下的多個集群統(tǒng)一納管,不僅提供星環(huán)科技的大數(shù)據(jù)與人工智能產(chǎn)品等產(chǎn)品服務,也能夠托管如Spark、Flink等開源生態(tài)產(chǎn)品。
TDC 5.0在多集群及應用統(tǒng)一納管基礎上,對跨集群資源均衡調(diào)度、自動彈性伸縮、數(shù)據(jù)共享等能力進一步升級,幫助用戶構(gòu)建一體化的大數(shù)據(jù)與智能平臺,降低企業(yè)多集群運維管理成本,最大化資源利用率,加速業(yè)務上線與創(chuàng)新。
跨集群資源均衡調(diào)度? 實現(xiàn)對多個集群底層資源的統(tǒng)一管理,當某個集群負載較大,需要擴展存儲或者計算資源時,能夠跨集群自動調(diào)用富余集群的資源,實現(xiàn)多個集群之間資源的均衡調(diào)度,提升所有集群的整體資源利用率。
跨集群自動彈性伸縮? 根據(jù)配置的基于時間周期、負載變化的自動彈性伸縮策略,對業(yè)務繁忙時間段和業(yè)務負載突增時,自動進行存儲和計算資源的擴縮容,滿足業(yè)務對資源的需求,保障業(yè)務性能的穩(wěn)定性。
跨集群數(shù)據(jù)共享?? 跨多個集群實現(xiàn)數(shù)據(jù)的共享,集群之間不需要做ETL,可以直接共享使用對方集群的存儲,進而實現(xiàn)No Copy的數(shù)據(jù)共享,避免數(shù)據(jù)復制帶來的存儲壓力和數(shù)據(jù)時延,以及不一致性問題。