天云大數據CEO雷濤:從BI到AI的演進路徑 數據推動規?;疉I能力-36大數據
2017年6月29日,在由數據猿主辦的金融科技 商業價值探索高峰論壇上,天云大數據CEO雷濤在主論壇上以“Fintech實踐:從BI到AI的演進路徑”為題發表了精彩演講。
天云大數據CEO雷濤在演講中表示,我們正在經歷一場從BI到AI的變化,數據驅動將對業務本身變革帶來挑戰,AI將推動從一個面向人去做決策的過程開始走向一個自動化實施的過程。
雷濤認為,目前大數據從對本身業務流程優化,到互金行業風險定價、營銷獲客的創新中,AI成為迫切需求。例如現金貸業務,一兩個項目經理可以做出放貸百億規模的產品,利用機器學習提供優化,這樣就可以為企業預警、撥備出幾千萬的資金風險。所以相對于傳統銀行應做出迅速反應,風險策略部生產模型的機制和數據挖掘工具都沒有辦法支撐現在大規模金融產品的生產。
雷濤在接受采訪時表示,天云將AI/Machine Learning機器學習技術構建在分布式計算框架上向金融客戶提供離線科研競爭能力,越來越多機器學習的方法快速被投入到生產流程里,所以對模型生產的要求,不再像一個簡單的作坊型的生產,需要實時生產數據的規?;纳a。例如最近某銀行要上線近百個模型,這個大規模的模型生產和數據,以及計算能力的捆綁,我們定位的方法就是AI平臺化,而且已經成功的實踐。我們在一家大型的股份制商業銀行,利用AI來替代傳統BI,銀行客戶把AI 平臺+數據產品的構建框架定義為流程標準,推薦給其他大型商業銀行,這些過程都是因為在基礎設施,找到規模化AI能力生產的方法。
以下內容為雷濤在數據猿主辦的金融科技商業價值探索高峰論壇演講實錄:
我們深刻感受到大數據不是今天做起來的,BI做了20年,在新技術領域里面,與AI相比BI有什么路線?我相信這些思考和內容,無論是對新進入者,也面臨怎么規模化生產模型,這是今天的挑戰。
我們更多的數據利用都是面向人的做決策,我們自己也看到參與一些BI的項目,當然也有一些新的靠科技的力量做一變局,比如說數據弧怎么替代中間表,把MDM的管理的模式顛覆,BI里面確實有一些局部的創新,整體結構上有數據驅動的這一波對于業務流程沖擊的變化更多的是由AI帶動的,從一個面向人去做決策的過程開始走向一個自動化實施的過程,就像淘寶購物的,直接嵌入到前端。在這個題材下想跟大家分享的第一個內容。
在過去幾十年里,計算機被廣泛用于完成自動化任務,后者是被清晰的規則和算法描述的,如今機器學習技術允許我們在難以精確描述規則的邊界內完成同樣的任務。
最傳統的BI階段里面,我們是由人定義出一個清晰的規則在決策引擎里跑,今天人工智能大家看到兩亮點的內容,比如阿爾法狗,都非常清晰簡單,圖象只有IGB在象素上面的填充,但是在后臺反饋出來非常豐富的語義環境,這些特征和內容很難被人類用簡單的清晰語言描述的時候,BI失效的前提下我們怎么樣用AI的方法提供更大規模的計算。
所以我會跟大家在這個前提下分享三個觀點,第一個就是離線抽樣to在線全量。這個特征也是很多銀行跟我們交流的時候,大家的第一印象人工智能是什么?就是能不能幫我做一個聊天機器人在客服,或者是人臉識別,局限在很窄場景的應用里面,我今天跟大家分享的是泛AI的概念,就是怎么樣利用很基礎的機器學習能力支撐企業流程的改造BI的升級。
這里面最重要的過程是數據資源的建立,,從IOE體系,數倉,再到SAS挖掘平臺,當你跑一些很前瞻性的,捕捉這些隱含變量非線性事實的時候數據已經被抽樣,很難去面向我們APP,微信這些技術營銷了?,F在比較漂亮的前端應用,智能頭部的項目,閃貸的項目,無疑反饋了一個事實即時性很大的一個挑戰,我們是要用到全量數據建模,不是用抽樣的方法去做統計了,所以說這個概念差距非常大的是在學習型的模型的輸出上。
第二個觀點是從靜態個體到動態關聯,也就是說我們在金融業務里面,我們現在已經面臨太多的挑戰是什么呢?數據維度不夠,或者是處理信息的方式方法太LOW了,我們傳統上只有一維的方式從頭讀到尾,二維數據標的格式,但是大量的信息結構里面,復雜的高維結構很難量化和處理,比如說循環擔保這個是給人民銀行做的項目,他提出一個致命的問題沒有辦法關聯。
基于的量化交易其實是在新的數據結構里面非常關鍵的,今年我們也做了金融基礎平臺,這些滿足的就是怎么樣找到一致的人,通過一個手機的MAC地址登陸了做白條業務可能沒有還錢,用同一部手機拿另外一個身份證申請的時候就會被系統通過強關聯性揭示出來,這些都是通過新的復雜的高維網絡找出來。不光是產品的定價,還有風險問題,比如說在信用卡,我們后面會講到,在孤立的進件的時候如何在反欺詐里面顯示出來。
機器非常容易的發現傳播,我們現在給互聯網公司投入C2C,你的客戶之外的客戶怎么到達接觸和管理他的行為?這張表實際上是我們通過營銷得到兩個數據,一個是有激勵的一個是沒有激勵的,獲取的客戶資源就在那里停止,另外一個右邊的是一個銷售,他通過網絡我們有效識別達人和少量的激勵以后不斷的擴張網絡。所以說可以看到網絡技術不僅在風險定價里面,在營銷里頭應用也非常顯著。
第三個觀點就是我們傳統的基于統計思路開始逐步的進入到大規模的學習階段,這個學習跟傳統小數據學習也有很多差異性的本質區別。
我們考慮的不是從豐富外部數據源的角度,而是如何用高維的手段已經有的信息提高識別率,這個時候我們使用的還是有兩個核心技術。第一個是有動態的發現技術是什么呢?我們早期做的風險種子平臺就是將圖譜的應用起來,這樣的構建是孤立的一個一個進件具備了高維化的在傳統金融屬性之外的特征,最短路徑的距離等等。把這些特征扔到學習平臺,這個學習平臺里面如果是使用傳統小數據的邏輯回歸,決策樹這些方法肯定是失效的,大家知道10萬個進件里面可能是幾百個騙子的出現,傳統的里面基本被定義成一個噪音丟棄掉了,現在深度學習可以通過路徑強化和強化學習將有效的,因為是有監督的學習樣本將有效的數據得到很好的保留。通過我們的平臺的跑,大家可以看到,像下面的數值提高了20%多的,其實不止,AOC曲線拉了0.2,其實已經翻了一倍以上,如果從純粹的孤立的樣本識別率上已經拉了一倍以上的內容。
所以說大家可以看到第三個觀點,我們所說的,在深度學習的今天帶來了一個特別大的變化,在算法層級的變化是在特征表達上,強調了在BI領域里面很難量化的規則,通過簡單數據的重復性大規模性,把更多的特征反饋在了后層的隱含層的變量上,所以說像圖象里面一些簡單的RGB形象,都可以豐富定義成后臺沒有辦法描述的規則,同樣在我們反欺詐的場景下,我們很難去量化規則的情況下都可以使用這些新的高維度的算法,我們不再依賴于豐富我們的信號源這個是很多互金的走的一個傳統BI的思路。
現在AI領域里面最成熟的是將答案交給機器,用一個有監督的訓練方式,通過大規模的持續的重復數據的輸入通過深度學習的層級網絡把這些隱含的我們無法定義的金融屬性特征表達出來。
最后講一下業務的融合,ABC就是從Algorithm Bigdata Cloud 三者有效的融合提交。大家不需要掌握太多的前沿知識范疇也可以去實驗深度學習。
PASS本身從去年已經出現了趨勢性的平臺,無論是谷歌,還是今年國內的幾個大型的BAT廠商也都開始出現了PASS化的平臺趨勢,我們現在已經在兩家大型的股份制銀行已經投入了AI的SAS平臺,去年也拿到了對AI平臺的認可,和科大訊飛拿到了榜單。
他們也找到一種方式,AI作為科技部門和業務部門怎么溝通的機制,他們開始規?;纳a模型了,無論是做了模型,他們的生產能力規模化了,也開始出了標準規范,構建平臺化的能力以后,跟業務交付是一個一個數據產品實現,數據產品的實現速度是非??斓目梢允且灾艿男螒B生產一個一個小規模的數據產品。
天云是作為一個工具化的廠商推動AI的實施,作為一種通用型的方法對流程進行改造,能夠以數據驅動的角度,替代以前傳統的基于經驗和規則的角度獲取,我們自己也相信,就像15年前移動互聯網出現的時候一樣,能夠以互聯網APP開發的成本降低,AI也是這樣,不是基于少數科學家的團隊駕馭,通過AI的PASS化,以前沒有用過AI的團隊也可以快速地進入這個領域,那么以前使用傳統SAS的這些數據挖掘平臺的團隊可以更高效規模化的使用,謝謝大家!
End.
轉載請注明來自36大數據(36dsj.com): 36大數據 ? 天云大數據CEO雷濤:從BI到AI的演進路徑 數據推動規?;疉I能力