51AntiFraud:淺談知識圖譜的構建與應用
知識圖譜是把所有不同種類的信息連接在一起而得到的一個關系網絡,它提供了從“關系”的角度去分析問題的能力,是關系最有效的表達方式,目前在營銷、交通、風控場景,知識圖譜均有應用。今天,我們從反欺詐的角度淺談知識圖譜的構建與應用。在互聯網金融行業,不少的欺詐案件會涉及到復雜的關系網絡,而知識圖譜可以幫助我們更有效的分析復雜關系中存在的特定的潛在風險,可以提高貸前信審和貸后監控的效率,對于金融風險的控制也有著極大的裨益。
知識圖譜的整體構建
我們通過將借款人的關鍵信息數據整合到知識圖譜中,逐步挖掘與這些信息有關聯的其他個人,形成關系網絡,從而進行分析和診斷。知識圖譜作為一種基于圖的數據結構,它由節點(實體)和邊(關系)組成,每個節點代表一個個體,每條邊為個體與個體之間的關系,把與借款人有關的所有數據都打通,構建包含多數據源的知識圖譜。在構建過程,我們需要通過節點定義,邊關系處理以及規則集搭建來實現圖譜的展示。
?
第一,定義業務節點。節點即為實體數據,如客戶的ID,身份證,手機號,設備,微信,微博,郵箱,QQ等等,一般用戶ID我們認為是業務的核心頂點。可以利用任意節點拓展用戶所有信息。同時可以建立雙節點關聯,實現節點之間的關系查詢。
?
第二,邊關系的處理。邊關系是用來描述兩節點間邊的屬性內容。例如在使用設備信息時,用戶可能有登錄、注冊、轉賬等不同的行為屬性,手機也有呼入呼出等不同的行為屬性,在處理邊關系時,我們加入屬性描述和構建能更加有效的識別用戶的行為軌跡和關聯關系。
第三,規則集搭建。有了節點和關系,我們已經構建了基礎的關系網絡,但這樣的網絡并不能直接將反欺詐所需要的核心業務信息展示使用,這時規則集的搭建就顯的格外重要。例如我們使用手機號聚集關聯,IP聚集關聯,公司聚集關聯,設備聚集關聯,通訊錄重合度聚集關聯等等,將節點與節點之間的關聯關系聚集,形成聚集關聯,直接用于查詢,快速定位案件性質。
完成如上數據整理工作后,結合neo4j的圖形數據庫,我們來看看最終的圖展示效果:
如上圖,我們發現該A客戶手機通訊錄中將好幾個手機號備注為XX客戶,而XX客戶同樣為申貸用戶且存在共性問題(如申貸時間差不多,使用設備重合,逾期…),且他們的通訊錄中將該A客戶備注為貸款中介,由此可定位A客戶很可能是中介,再結合其他可疑點定性中介欺詐,進而挖掘團伙。
?
我們利用圖譜的數據結構,構建反欺詐知識圖譜有效抵御個人信息造假,組團欺詐的風險。當然知識圖譜不僅在反欺詐調研中能幫助更好更快速的案件定性,在逾期催收中也起著重要的作用,比如很多逾期客戶失聯,通過知識圖譜的關聯可以幫助我們挖掘出更多潛在的新的聯系人,從而提高催收成功率。篇幅原因,文中的一些技術細節不做更多討論。
?
知識圖譜的廣泛應用
?
毫無疑問,知識圖譜的圖展示應用能非常有效快速定位用戶的關聯關系和識別團伙案件,除了基礎應用之外,我們可以繼續加入模糊匹配和消除歧義等技術應用來進一步完善圖譜的應用。同時基于圖算法我們還能進一步挖掘其中價值,例如通過不同人之間的緊密程度計算來分析用戶的風險等級并融入模型應用。同樣也正是基于圖計算的邏輯能完成用戶關系、偏好、行為軌跡等一系列的識別,在大數據時代,在合理采取用戶數據的前提下,相信圖譜會更加多的運用在醫療、保險、營銷等方方面面。
轉載請注明來自36大數據(36dsj.com): 36大數據 ? 51AntiFraud:淺談知識圖譜的構建與應用