大數據和人工智能如何改造金融業?
本文提出大數據和人工智能在金融領域的應用與影響,包括由此可能形成的金融科技新生態展望,特別討論了以Palantir金融業務、Wind資訊為代表的大數據公司的服務與價值。
通過實時分析大量多樣化且高速增長的數據,獲得預測性洞察,各類金融市場參與者以此來提高業務效率和安全性;新的金融科技生態體系將以數據價值為核心,以數據資源或數據提供為基礎,以大數據商業智能為核心價值的實現方式。
大數據產業全景與新趨勢
很多文獻中對大數據(Big Data)的定義不盡相同,但大數據4V特點是共識性的,即Volume:大量的數據;Variety:多樣化的數據;Velocity:對高速增長的數據進行實時分析;以及最核心的Value:產生價值。
通過大數據分析,可以建立用戶畫像(User Profile)及進一步構建知識圖譜(Knowledge Graph),前者描述實體(Entity)或概念(Concept)的性質,是對主體信息的標簽化,后者表示不同實體和/或概念之間的關系。眾多應用大數據分析產生了巨大價值的領域和具體場景,其中大部分都是以知識圖譜作為中間環節而實現的。
圖1,FirstMark Capital
圖1描繪截至2016年初的大數據產業全景,出自FirstMark Capital董事總經理Matt Turck的文章Is Big Data Still a Thing? (The 2016 Big Data Landscape)。
其中,整個產業被分為基礎設施(Infrastructure)、分析(Analytics)、應用(Applications)三個主要部分;
一些大公司則同時提供數據存儲和分析基礎設施和分析服務(Cross-Infrastructure/Analytics);還有很多開源(Open Source)框架或解決方案提供商,以及更底層的掌握數據源(Data Sources)并提供應用程序接口(APIs)的公司,還有孵化器和學校作為支持機構。
對于提供大數據分析服務的公司,Matt Turck先生提到,一個新的趨勢是它們越來越專注于結合AI技術來進行分析,以獲得預測性洞察。
他在文章中寫道:“大批新興的AI公司提供能夠自動識別如圖像這樣的復雜實體的產品,或者提供強大的預測性分析(A crop of new AI companies provide products that automate the identification of complex entities such as images or provide powerful predictive analytics)”。
人工智能如何與金融相關
我們從兩個相對應的角度來看AI,一是人工智能(Artificial Intelligence),二是增強智能(Augmented Intelligence),前者旨在用機器代替人類進行勞動,后者旨在讓機器輔助人類工作和生活;
同時還把對AI的研究分為兩部分,一是神經網絡(Neural Network),二是機器人(Robots),前者代替或輔助目前只有人類能做的腦力勞動,后者用機器代替或輔助人類進行體力勞動。由此,AI技術主流的課題或細分領域可以劃分為圖2中的四個象限:
圖2,愛就投研究
圖2左上方的圖像識別、語音識別、自然語言處理,都屬于機器學習(Machine Learning)范疇,可以簡單將其看作非結構化的圖像、語音和文本數據轉化為結構化數據的過程,這是連接大數據和人工智能的主要紐帶;
右上方的商業智能(BI)指的是一整套解決方案,整合已有的數據,提供報表等以輔助商業決策制定,這是與金融關系最為直接的AI技術細分領域;
右上方的另外兩個課題也與金融直接相關,例如智能投顧,既屬于商業智能范疇又是個人助理的一種,而智能合約是分布式賬本與AI的結合,本文不涉及。
金融科技(Fintech)的屬性是為金融業務提供技術服務的基礎設施,目的是用技術來提升金融效率,圖2下半部分的課題也不屬于本文討論的范疇。
大數據商業智能包括什么
商業智能(BI)概念從20世紀90年代開始流行,傳統的BI主要用小型機或服務器來處理結構化的數據,2011年底成熟起來的Hadoop平臺,實現了高效處理非結構化數據,開啟了大數據時代。
本文的“大數據商業智能”表述應用于金融領域的大數據和人工智能范疇內的技術,其具體應用又可以分為兩類,一是金融信息服務,二是交易服務;同時還可以從兩個層面來看這些應用,一是信息提供或數據提供,即輸入層,二是執行,即輸出層。由此,大數據商業智能主流的應用或細分領域可以歸入圖3中的四個象限:
圖3,愛就投研究
圖3上半部分的金融數據終端、金融搜索引擎、智能投顧,它們在數據和信息提供方面智能化程度依次升級:數據終端只提供對人類和機器易于分析的數據和信息;
搜索引擎基于知識圖譜上已有的數據關聯,實現聯想和屬性查找,從而減少信息中的噪聲,呈現更準確和更有價值的信息;
智能投顧進一步結合投資者的風險偏好,提供量身定制的投資組合建議。
圖3下半部分的自動/輔助研報生成和進行量化交易,都是通過執行層面的智能化幫助金融市場中各類參與者提高業務效率,例如,研報的自動生成是以自然語言理解,大數據分析,自然語言生成,這三個主要步驟代替初級研究員的資料整理和復制粘貼工作,從而提高相關機構的研究產出效率。
量化交易輔助在傳統商業智能時代就已經流行,機器學習和知識圖譜技術使交易策略模型所包含的數據維度和變量得到了極大擴展,如財經報道、政策文件、社交媒體上的文章與評論,都可以通過自然語言處理被轉化為結構化數據,納入策略模型的變量集合,在設計不同變量之間的關系時還應加入人工參與,以減少虛假關聯性對決策的影響。
以下討論Palantir Technologies和Wind資訊這兩家公司的產品和服務,以及它們所代表的兩類公司在新生態體系中的位置。
Palantir:最具代表性的大數據獨角獸
在整個大數據產業中,Palantir Technologies是提供應用于金融領域的大數據分析服務的代表公司,它的Palantir Metropolis基于知識圖譜做金融數據的大規模定量分析。這個產品目前最主要的客戶是對沖基金、銀行和金融監管機構。
Palantir名字出自《指環王》中的水晶球Palantír,寓意透過表象看真相。公司由Peter Thiel、Alex Karp、JoeLonsdale、Stephen Cohen和Nathan Gettings共同創立,2004年實際開始運作,現在的總部在硅谷Palo Alto。Peter Thiel是PayPal的創始人、Facebook第一位外部投資人、暢銷書《從0到1》作者。
Palantir自成立以來經歷了8輪融資,目前以200多億美元的估值位列全世界估值第五高的非上市公司,僅次于Uber、小米、滴滴和Airbnb;包括BlackRock、Morgan Stanley、Founders Fund、Tiger Global Management、Discovery Capital Management、嘉實基金、普思基金在內的很多知名機構參與了投資。
Palantir早期只為政府客戶服務,如美國的CIA、FBI、NSA等,2010年起開始提供企業服務,例如幫助華爾街的金融公司反欺詐和網絡攻擊,典型客戶如J.P.Morgan Chase、Bridgewater Associates,其產品在醫療、零售等領域也有所應用;截至2016年初,約75%的訂單來自非政府客戶。
除了傳言中的幫助CIA找到本·拉登(Osama bin Laden)的藏身之地,Palantir已被證實的功績包括幫助美國證券投資者保護公司(SIPC)發現了納斯達克前主席麥道夫(Bernie Madoff)的龐氏騙局(Ponzi Scheme)。
公司的CEO Alex Karp表示,Palantir只會用口碑推動業務、媒體和銷售,不會有市場、公關和銷售團隊,因為這可能讓公司偏離使命。
圖4,Palantir Technologies
圖4是Palantir的2大產品和形成的17種解決方案。其中,Gotham主要應用于國防、反恐、危機應對;Metropolis則偏重于金融服務。
這些解決方案中與金融關系較為直接的包括金融安全角度的反欺詐(Anti Fraud)、內部威脅(Insider Threat)、Palantir Verus(針對數據濫用問題)、危機應對(Crisis Response);輔助商業決策角度的資本市場(Capital Markets)、保險分析(Insurance Analytics)、案例管理(Case Management)、智能化決策(Intelligence);以及其它定制化解決方案(Custom Solutions)。
Palantir Metropolis技術解析
可以從后端平臺和前端應用程序兩個方面來看Metropolis,在后端,其整合多源的表格數據到連貫的模型中,并對模型執行復雜計算,同時共享和迭代分析產品;在前端,其提供一套集成的應用程序,讓用戶可以建立交互,包括自定義Metric、儀表盤、日期設置、瀏覽器、回歸和電子表格,總結如下表:
Palantir Metropolis平臺通過適配器、框架和接入其它系統的API,將不同來源的數據表示為統一的模型(Model),作為分析的基本構建塊;模型是源數據集的行和列(包括描述性元數據)轉化為表示實體的統一概念對象。任何用數據描述的現實世界對象都可以作為模型,Palantir Metropolis會在安裝時配置解決問題所需的模型類型。
Palantir Metropolis的分析語言是Hedgehog(HHLang),分析人員可以用它描述簡單的表達式和復雜的多模塊計算。HHLang的語法和Java類似,第一級要素包括模型、Metrics和文檔(Document);其定量分析庫涵蓋時間序列、回歸分析、統計和高級日期/時間處理。
“Metrics是Palantir Metropolis平臺執行計算的心臟(Metrics are the heart of computation in the Palantir Metropolis platform)”,公司官網寫道。平臺附帶的Metrics包括絕對變化和相對變化,移動平均線、導數、積分及各種其它基礎時間序列和數學操作,可以對模型進行合成、聚合、變換、比較計算。
在平臺內置的集成開發環境(IDE)中,還可以編寫復雜的自定義Metrics。IDE支持代碼補全,交互調試和模塊化代碼設計實踐。
在Palantir Metropolis前端應用程序中創建的分析產品,被存儲為可共享、關聯與重組分析的單元,稱為文檔。文檔不是靜態的成品,而是始終處于完善中,可以不斷迭代并作為新的分析的輸入;很多簡單的文檔鏈在一起構成復雜文檔,企業中的用戶可以共享文檔與協作。
Palantir Metropolis本質上是開放平臺,低級數據集成,自定義Metrics,自定義用戶界面,每一層都是可擴展的。
總之,Palantir走的是人機結合路線,用分析技術來提升人類的智慧和洞察力。在Metropolis中,簡單的模型被作為更復雜模型的構建塊,讓分析人員可以表達出任何想象的東西;交互式用戶界面整體展示所有集成的可用數據,并且實時更新。
例如,銀行想要避免抵押房產的不當處理、抵押房產套現行為,需要房價數據、非農勞動力供給和招聘狀況、零售業狀況、消費者的信用卡逾期情況等,這些來自分散的外部渠道的數據難以相互聯通,使用Palantir Metropolis就可以把這些數據整合在一起,從而發現關聯及進一步的趨勢和異常,實現預測性分析。
Wind資訊與中國金融信息服務業
中國金融信息服務業龍頭Wind資訊(萬得),在大數據產業全景中與Bloomberg(彭博)等公司同屬于金融和經濟(Financial&Economic Data)數據源和API提供商的代表。
Wind資訊的客戶已經覆蓋超過90%的國內金融機構,包括對沖基金、資產管理公司、證券公司、保險公司、銀行、研究機構和政府監管部門;70%由中國證監會批準的合格境外機構投資者(QFII),其數據還經常被中外媒體的文章及研究報告和學術論文所引用。
公司成立于1994年,是中國第一家金融財經電子信息公司,成立大約10年后開始推出終端軟件;其目前提供適配PC、智能手機、平板電腦的金融和經濟終端,以及廣泛齊全、準確、不間斷的金融數據服務,公司總部位于陸家嘴金融中心。
Wind資訊共經歷過6輪融資,以漢世紀、中信產業基金、高瓴資本為代表的多家知名機構參與了投資。這家公司的發展歷程和團隊雖然沒有Palantir那樣的浪漫主義色彩,但占據著金融數據源和機構投資者市場,這兩側的壓倒性競爭優勢。
Wind資訊的金融終端(Wind Financial Terminal)內容涵蓋股票、債券、期貨、外匯、基金、指數、投資組合、宏觀行業、新聞與研究報告,典型用戶是證券分析師、基金經理等專業金融人士;
Wind經濟終端(Wind Economic Terminal)整合中國和全球的宏觀和行業經濟數據,并配合指標計算和圖形功能,是經濟學家、策略分析師、行業研究員的數據分析工具;
Wind數據服務(Wind Datafeed Service)所呈現的包括歷史參考數據、實時行情數據和高頻行情數據,涵蓋股指期匯等品種下,包括基本資料、行情、報價、財務、權益、公司行動等類型的數據。
圖5,中證登,中金公司研究部
圖5是中金公司基于2016年6月末的持倉金額和對滲透率、ARPU值的假設,預測到2020年,中國金融信息服務市場的規模將達到約160億元,對應未來5年復合增速約21%。
這份報告引用賽迪咨詢的統計(以下都為約數):2015年國內這一市場(終端投資者信息增值服務產品)規模為61億元;
中金公司還測算了主要金融數據服務商此項業務的收入和市場份額:Wind資訊(~13億元/21%)、同花順(8.1億元/13%)、益盟操盤手(7.2億元/12%)、指南針(5.1億元/8%)、東方財富(2.5億元/4%)、大智慧(2.2億元/4%)。
其中,Wind資訊以服務機構客戶為主,并且壟斷著機構投資者市場,而另外幾家公司主要服務個人投資者,或者兼顧機構和個人;還沒有一家在個人投資者市場中占據壟斷地位。
圖6,Factset,Capital IQ,公司公告,中金公司研究部
圖6將彭博和湯森路透此項業務在2015年的收入,也納入到與國內主要金融數據服務商的收入對比中,顯示出國內2015年61億元的整體市場規模還不到彭博同期收入(621億元)的十分之一,說明中國金融信息服務業還處在發展早期,具有極其廣闊的增長空間。
在移動互聯網、互聯網金融和金融科技發展的背景下,用戶使用金融終端產品習慣的改變、高科技企業涉足金融服務所帶來的沖擊,尤其以Palantir為代表的提供金融解決方案的科技公司可能對金融信息服務業形成的改造,這些是這個細分金融行業重要的趨勢。
圖7,公司資料,中金公司研究部
圖7是彭博、湯森路透、Wind資訊(萬得)、東方財富等公司產品和服務的價格。可見,客單價的差異是造成目前國內和國外主要金融數據服務商收入差距的重要原因。
如果對比Wind資訊與Bloomberg(彭博)的產品和服務,除了Bloomberg同時提供軟件和硬件,而Wind資訊只有終端軟件,另一個重要的差異是Bloomberg的服務組合中包括更多基于分析的解決方案,例如ALPHA多資產組合投資分析和風險解決方案,Bloomberg企業版中的資金管理、財務、投資者關系方案等。
Wind資訊等國內公司在現有的金融數據提供基礎上,可以嘗試開發更多增值服務,以提高客單價和客戶定位。
展望新的金融科技生態體系
很多文獻中雖然對大數據分析的環節或步驟有不盡相同說法,但總體可以分為收集、處理、分析、展示;大數據產業價值鏈也基于此被分為這四個部分。
其中,數據收集和數據處理是通過人工和/或機器學習,將非結構化數據轉化為結構化數據;數據分析對主體做標簽化及構建進一步的知識圖譜;數據展示通過表格和圖形等,將上一步的結果呈現出來。
圖8,愛就投研究
圖8表示Wind資訊和Palantir Technologies所代表的兩類公司在產業價值鏈中的相對位置;縱軸為大數據商業智能產業價值鏈的主要部分,橫軸為其產品和服務的智能化程度。
Wind資訊收集和處理各個品種和類型的金融數據,但并不與其它非金融和經濟的指標數據做關聯,也就是不構建知識圖譜;Palantir則集成金融和非金融的多源數據,基于知識圖譜做數據分析和展示,從而可能幫助分析人員獲得更有價值的洞察。
大數據和人工智能的連接關系意味著大數據和這個時代的商業智能具有基本相同的產業價值鏈結構,不同之處是大數據商業智能產業價值鏈在數據處理和分析部分更加智能化,在展示環節專注于金融業務需求。
Palantir金融業務和Wind資訊具有高度互補性,它們所代表的兩類公司相互之間可以戰略合作,共享數據資源、分析技術和客戶市場,將為各自帶來新增長點和競爭優勢強化。
可以從垂直和水平兩個視角來看這兩類公司的互補性,垂直上,合作的雙方可以讓自身業務和市場沿大數據商業智能產業價值鏈進行延伸,從而獲得新增長點;
水平上,雙方以類組織經濟或組織經濟的形式,將數據提供、大數據分析,以及各自的客戶市場整合為一條內部價值鏈,實現以更低的成本產生更高的數據價值,從而強化自身相對于產業價值鏈各個部分的競爭對手的優勢。
通過這樣的合作或聯合,Wind資訊所代表的數據源和API提供商(金融信息服務公司),垂直上可以嘗試在現有數據提供的基礎上,增加更多數據分析和展示環節的業務,水平上可以讓其數據服務進一步智能化;
對Palantir來說,垂直上為自身增加了高質量金融數據資源的獲取渠道,可以優化模型和分析,水平上可以更低成本和更快速地獲取金融機構客戶。
Wind資訊在一年前已經有了類似的看法。2015年12月,Wind資訊董事長陸風出席了在浙江烏鎮舉行的第二屆世界互聯網大會,在“互聯網+”論壇子議題“金融信息服務:市場與發展”的討論中,他提出金融信息服務走向連接和智能時代,要把整個互聯網上所有連接的數據為金融行業服務所用。
陸風認為,一方面因為互聯網和大數據的發展,今天專業投資機構對數據的要求,不再限于金融和經濟領域,而是走向了全社會;另一方面因為機器學習和基于語義方面的技術進步,原來的數據可能是收集很齊全的結構化數據,例如交易所、統計局的數據,現在智能的分析要求更準確、更及時、更個性化的數據來進行建模。
陸風說:“通過我們的技術,通過我們的語義,通過我們的深度機器學習做出一些智能化的客戶所需求的東西,這是我們在產品上面怎么樣去創新,更好服務客戶的一些想法”。
如果從數據提供和數據價值兩個大方面來看本文的“金融科技新生態”,那么Wind資訊所代表的金融信息服務公司是新生態體系的基礎構成;Palantir Technologies所代表的大數據分析服務公司則是整個生態體系的核心價值構成。
由智能化程度(x軸)、基礎或核心價值(y軸)、產業價值鏈縱深(z軸)三個維度,新的金融科技生態體系中不同類別的參與者都可以歸入圖9其中的八個象限:
圖9,愛就投研究
圖9是圖8的擴展,描繪的是以大數據商業智能產業價值鏈為結構,實現數據價值的金融科技生態體系;不同于圖1的產業全景,圖9中只有這個生態體系中參與者的類別。
首先,產業價值鏈縱深的維度將所有參與者劃分為三層,最頂層是客戶,中間層是數據存儲和分析(大數據)基礎設施和分析服務,最底層是數據資源;
“客戶”是相對的概念,中間層的參與者也是最底層參與者的客戶,而最頂層的客戶是最有價值的數據分析結果的購買和使用者,包括政府,銀行、證券、保險、各類基金等金融機構,以及學術機構和媒體等。
進而,基礎或核心價值的維度將所有參與者分為這兩類,近處下方的長方體的兩層都是構成生態體系基礎的參與者,包括最底層以國家統計局為代表的政府機構、運營商、行業數據公司、物聯網傳感器、社交網絡等,以及中間層的基礎設施提供商;
遠處上方的長方體的兩層都是實現生態體系核心價值的參與者,包括中間層的分析服務提供商和最頂層的客戶。
最后,在智能化程度維度上,除了頂層客戶,每一層每一類的參與者被從左至右按照智能化程度從低到高排序,最底層從國家統計局到社交網絡,數據資源越來越非結構化且與金融不相關,對中間層參與者的智能化要求也越高;
中間層基礎構成的左邊是金融信息服務公司,不做知識圖譜分析,右邊是大數據基礎設施提供商;
中間層核心價值構成的左邊是傳統咨詢機構,如麥肯錫、波士頓咨詢,主要由人工基于準確的結構化數據做分析,右邊是以Palantir Metropolis為代表的通過人機結合提供大數據分析服務的產品。
(本文由愛就投TMT、Fintech研究員王思宇,在愛就投首席經濟學家于寧指導下完成。文章原題為“大數據商業智能與金融科技新生態展望——以Palantir金融業務、Wind資訊為案例分析”。)
【溫馨提示】思路網倡導尊重與保護知識產權。如發現本站文章存在版權問題,煩請提供版權疑問、身份證明、版權證明、聯系方式等發郵件至tougao@siilu.com,我們將及時處理。本站文章僅作分享交流用途,作者觀點不等同于思路網觀點。用戶與作者的任何交易與本站無關,請知悉。