前百度金融CRO王勁:十七年運通歲月沉淀,我的消費信貸風控觀
金融人手握大量數據、規則和算法,卻沒有讀懂真正的風險管理:
-
數據量越多、維度越全,就是更好的數據嗎?就能實現最好的風控效果嗎?
-
風險管理是一門尋求平衡點的科學,那么我們應該在什么問題上尋求平衡?只是風控尺度和業務增長之間的問題嗎?
-
一個卓越的風控模型,除了考慮算法、考慮數據,它到底還有多少細節是你錯失的?
-
……
王勁曾是百度金融的CRO,也在有著“風控黃埔軍校”之稱的美國運通工作了十七年。
次貸危機之后,美聯儲加強了對所有銀行機構的風險模型管理,而他在美國運通的最后五年,創建了運通的模型監管和驗證中心,對全公司上千個模型進行全面的管理——親身經歷過次貸危機的他,對風險管理有著獨到的洞察。
近日,雷鋒網《銀行業AI生態云峰會》就邀請到融慧金科CEO王勁,作為「數字化風控」賽道的科技專家,為大家帶來他在銀行智能信貸風控的管理理念和應用實踐。
以下為王勁的演講內容,雷鋒網 (公眾號:雷鋒網) AI金融評論作了不改變原意的編輯:
大家好,非常高興今天有機會跟大家在線上分享我在管理風險的二十多年中,所沉淀的一些知識和經驗,希望對大家有所幫助。
金融機構做好風險管理平衡的核心要素
近年來,隨著中國互聯網金融飛速發展,同時面臨著很多的難題和挑戰。
首先,如何定義風險的使命,風險管理人員的定位一定要準確。
對于風險的使命,我實際上是借用美國運通當時的CRO在二十多年前的一個定義——推 動有利潤的業務增長,同時提供卓越的客戶體驗,避免意外風險—— 整個描述并沒有表示要降低風險或者把風險降到零。
有利潤,意味著風險一定要在可控的范圍之內。
增長,風險不是限制業務的發展,而是要幫助業務做有利潤的增長。
卓越的 客戶體驗 。很多時候我們不是太關注,但是風險管理的每一個決策、每一個動作實際上是會影響到客戶體驗的。
避免 意外風險 。因為金融本身就是在運營風險,沒有風險是不可能的,我們并不懼怕 可預知 的風險。
比如我們判斷一個客戶的壞賬率是2%~3%,這個并不是風險——但如果最后的實際結果是5%~10%,這個情況就是意外風險。
所以,我們做風險管理,一定要每時每刻預判未來可能發生的事情并及早應對。例如壓力測試就是一個為了避免意外風險的風險管理動作。
風險管理最重要的就是對數據的把控, 思考數據的生命周期。首先要從對業務產品和客戶的選擇當中,決定需要什么樣的數據。
基于業務方向,我們要對內外部的數據進行各種盤點,比如從客戶那里收集什么樣的數據?在人行要拿什么樣的征信數據?需要用什么樣的第三方數據進行補充?為了服務客戶和達到業務目標,必須要有足夠好的數據幫助我們進行風險管理。
此外, 立下數據選擇的原則和條件。 因為在眾多的數據中,有合規的和不合規的,并且存在著強弱之分,如果沒有制定相應的原則和條件,在未來就會有很大的麻煩。
數據的分析和引入。我們要分析、評判市場上的各種數據源,再做引入,之后要對數據進行實時監控,以保證其質量和持續的效果,這就是數據戰略的一個閉環。
接下來跟大家分享一下, 選擇數據的條件 。
-
數據必須合規,必須要滿足國家和政府的要求且一定要有授權。
-
數據的全國人口覆蓋率要高,這是一個非常重要的要求。如果數據的覆蓋率不高,就會影響模型的識別度、穩定度等。
-
數據的新鮮度和時效性要高。要達到日更新至少是t+3,即今天的決策一定要達到3天之內的時效性。如果現在的決策數據是5天前的,那么現在這個模型決策的質量就會相應地打折扣。
-
數據的歷史長,可以回溯至12個月以上。因為很多的衍生變量會回溯歷史,如果沒有可回溯的歷史,那么也不會形成這些非常重要的變量。
同時,可回溯也讓我們能夠驗證一些歷史數據的效果,這個條件是非常重要的。
-
數據的穩定性好,我們會跨時間窗觀察數據的波動。如果數據波動性太大,那穩定性肯定是不好的。
數據戰略是一個相對長期的落地過程 , 在這個過程中,數據要達到怎樣的標準和維度 ?
-
覆蓋低到覆蓋高。
-
信息薄到信息厚。有些客戶可能有20個變量可以描述,那么可不可以將其演變成,平均有30~40個變量在描述客戶?這就是二者之間的關系。
-
質量低到質量高,不能用到一些垃圾數據。
-
弱相關到強相關。比如在剛開始的20個變量當中,可能有80%的弱變量;如果剩下的20%的強相關演變成30%的強相關變量,模型的決策就會更好。
-
高成本到低成本。
-
源集中到源分散。大家通常把自己的一些策略和模型,特別地依賴于某一兩個數據源,這實際上存在著非常大的操作風險。我們一定要在數據戰略中將其來源盡量地分散開來,當然也不是無限制的分散,而是要找到其中的平衡點。
引入數據之后,它的價值轉化分為哪些部分?
首先,是基礎的數據層,數據源包含了客戶提供的數據、征信數據、第三方數據等等。
數據層之上,是 工序#1的加工層 ,將對各種數據源進行衍生,否則原始數據就不會得到很好的利用。
在衍生變量這一層,要著眼于這些變量的 使用場景 。有些衍生變量與欺詐相關,有的與信用相關,有些則是與精準獲客相關。
工序#2是集成層 ,因為衍生變量可能是基于某個數據源而成,那么,模型和規則就會幫助我們把各個數據源的衍生變量進行再集成,使其成為一個子模型或者是一套規則。
工序#3是解決方案層 ,反欺詐的解決方案可能會有上百個規則,這上百個規則可能用到十個模型,相當于將各種各樣的材料修建成一所房子,最后輸出給持牌的金融機構。
從最底層的征信數據層到各種加工層,金融行業里的參與者承擔著不同的角色。當每個銀行和消金要進行自身轉換時,他們也需要承擔加工、集成和解決方案的角色。
如何做好風險管理中的平衡
很多人并不是特別理解,風險管理永遠是一個尋找平衡點的科學。除了要用到人工智能、非常多的數據、算法之外,實際上,很大一部分風險管理是在尋求平衡。
平衡點之一:風控和業務增長之間的平衡。
比如在產品人群額度的選擇上,我們可以操作高利率、低質人群、低額度。
雖然風險高,但是獲客成本低,業務量也會加大,這些大量有貸款需求的人,他們的風險是比較高的。
與此同時,也可以操作低利率、優質人群、高額度,這部分人群可能風險比較低,但是獲客成本高。
優質人群對信貸的需求相對較低,所以業務量也較少。大銀行吸引的是大批的優質人群,其他的小銀行和金融機構,可能在這方面的挑戰就相對大一些。
所以,在運營當中,要在高利率和低利率,優質人群和和低質人群,高額度還是低額度之間尋找平衡點。
平衡點之二:在風險管理的數據、模型以及策略中,如何平衡簡單和復雜。
這也是非常考驗人——簡單意味著準確度低,合規操作風險低,相應的成本也低。
而復雜,模型用到了非常多的變量,非常復雜的算法,那么準確度可能會相應提高,但是合規操作的風險也變高了,成本也會增加。
所以,如何在業務的初期、業務的增長期以及成熟期,找到其中的平衡點,是一個具有挑戰性的課題。
平衡點之三:“科學”和“藝術”之間的平衡。
比如在風險管理當中,我們會用到大量的數據,用科學的方法對數據進行回歸和分析,它的好處就是客觀的,而不是主觀的。
因為要基于數據過去的表現做策略和模型,其不利的地方就在于局限于數據的好壞,在一個混亂的P2P和payday loan的時代收集到的數據,我們要對其科學性進行質疑。
過去的數據并不能夠代表未來。過去的利率可能做到50%、甚至100%,但是監管加強之后,利率就得下調,這是對科學的一些挑戰。
“藝術”則依賴于實踐的經驗,宏觀的發展方向,包括監管、競爭環境以及社會行為。人們為什么要借貸?為什么還不上貸款?這些都是基于經驗所沉淀下來的一些東西。
其壞處在于局限于個人的經歷,如果CRO或者總經理在風險管理方面的經驗不夠,在決策上就會遇到一些問題。
所以,風險管理既不能夠完全的依靠數據科學,也不能夠完全依靠主觀經驗,關鍵在于找到其中的平衡點。
卓越風控模型建設的必備能力
在模型風險管理當中,現今的大數據以及互聯網金融時代是離不開模型的,在互聯網金融管理的原則方面,就是要充分的利用概率,而這個概率是通過模型實現的。
一個卓越的模型需要有哪些要求?
-
數據選擇 ,一定要考慮數據的覆蓋率、缺失率、新鮮度和穩定性。
-
衍生創新 ,一個模型的好壞與否,前兩點是非常重要的,如果衍生變量做得不是特別好,那么數據本身跟所要預測的東西的相關性就會比較弱。所以在衍生的過程當中,要增強其穩定性。
-
架構選擇 ,有了原料和衍生品之后,應該怎樣架構模型?用不用子模型,要不要做人群分割?這些因素將會影響最后模型的中長期的表現,以及維護的成本。
-
算法選擇 ,要用傳統的邏輯回歸,還是有一些簡單的決策樹,或者用機器學習神經網絡,需要對這些技術加以選擇。
-
監控迭代 ,每一個模型都有其對應的生命周期,所以我們一定要知道每一個模型什么時候失效,什么時候應該迭代,我們一定要打造一個能夠實時跟蹤的平臺,在衰退后又能夠快速的迭代。
-
y的定義和樣本的篩選。
雖然擁有了優質的原材料、數據、衍生變量,但是如果y的定義出現問題,是要將逾期30天定義成壞樣本,還是將60天的逾期定義為壞樣本?是否在其中增加額度的一些條件,而不是壞賬的金額條件。
樣本的選擇也是如此。歷史上的樣本可能是有波動的,如何選擇能夠帶來對未來預測的樣本,也是一個非常重要的因素。
評判的標準,除了辨別力之外,精準度要高、穩定性和復雜性要強以及可解釋性。
所以模型的建設不僅僅只是算法,也并非是對數據的選擇,而是一個非常復雜的提煉的過程。
-
舉例說明模型該如何架構?
第一個架構方式:比如有三個數據源,先將其集成到內部的數據庫里,再利用這些幾百至上千的數據,做出一個模型A。
第二個架構方式:基于每個數據源建立一個子模型,然后將這些子模型再集成為另外一個模型A。
這兩種都有各自的優劣勢。
第一種,識別率和精準度相對較高。因為它是基于相對底層的數據集成起來的,每一個子數據都有相應的權重,其精準度會相對高一些。
劣勢是穩定性弱,操作風險高。如果把這三個數據源的數據混雜在一起,那么一個數據源出了問題,就會影響模型A的迭代速度和效果。
第二個的優勢在于穩定性強,通過集成數據源一和數據源二,就會削弱一些波動,穩定性得到增強的同時,操作風險也比較低。
如果數據源三出了問題,將子模型一和二并列,雖然還是同一個模型,但是識別率和精準度會受到損傷。兩個不同的模型架構,將影響到未來的表現結果。
很多信貸公司都會遇到的課題就是,在不同的流量入口的條件下,每一個渠道的人群和風險特征是不相同的。
那么,是將每一個渠道做一個模型?還是將流量渠道1和2合并形成模型A,之后通過再流量渠道3形成模型C?
什么情況下可以合并呢?當某一個渠道的樣本很少,并且一和二的風險特征相近,同時某一個渠道的樣本也不充足時,合并會產生更好的效果。
那么, 該怎樣有效使用模型? 模型只是一個工具而已,定義模型就像一個溫度計,高燒定義在什么位置?低燒定義在哪個溫度點?在使用時一定要明確模型的優點和局限性,否則就會出問題。
優點是客觀的,能夠進行比較精準的排序,高效率地處理客戶,同時依靠統計技術調整業務、變動閾值,以影響通過率和壞賬結果。
局限性在于開發時間較長,過去的表現不能完全預測未來,所以一定要有“藝術”判斷的部分;模型也是對現實的簡化。
比如用戶不能還款的原因,有可能是失業、生病或者離婚,面對這些復雜的因素,模型是無法判斷每一個逾期的原因。
當模型用到了非常多的變量之后,透明度、穩定性、可解釋性都會受到挑戰。在強監管的金融環境里,都需要將這些因素考慮進去。
金融動態風險管理的核心關注點
風險管理會受到宏觀政策、國際環境、經濟周期、監管和競爭環境等因素的影響,所以要 增強動態管理的理念。
具體分為以下三個方面:
第一,實時了解客戶 ,其中包括時效性很高的征信信息、客戶信息、公開信息,以及第三方的信息,一定不能是非常陳舊的信息,那樣無法做到動態的風險管理。
第二,尋找風險和回報的平衡點 。風險管理就是要不斷地尋找平衡點,風險管理和業務的博弈,簡單和復雜的博弈,都需要不斷地進行調整。
最好基于利潤的角度,平衡風險和回報。例如投入和回報的比例,利率應該定在哪個點,才能得到恰當的回報。
風險管理一定不能只看到當今的風險,只參考當今的數據。
我們一定要從計量和定性的角度,判斷在壓力狀況下評估的這部分優勢人群和組合;如何判斷他們在壓力情況下的壞賬情況,是否會讓我們從賺錢到虧本,這些都是風險管理中非常重要的理念。
第三,經驗判斷 ,我們一定要利用經驗來補充科學,其中包含市場、競對、員工、監管學習新的思想和方法,例如在次貸危機當中,很多機構關張或受到重創,但也有很多機構變得非常成功。
例如當時的摩根,就是在次貸危機里相對成功的案例,但是美雷曼還有AIG保險公司都受到了重創,主要原因在于缺乏經驗的判斷和果斷的決策。
需要利用經驗來判斷現今的時事,哪些需要相信模型,哪些要繞過模型做決策,都是動態風險管理的理由。
最近兩三年,國家把金融環境梳理得非常干凈、健康,有利于國家經濟的正常發展。銀行、消金公司等持牌金融機構都要面臨合規治理。
怎樣利用技術手段,在達到國家要求的同時,提升金融合規的自動化、專業性、時效性、包容性、協調性? 需要做到以下四大方面:
第一,身份識別和控制, 如何做好KYC(Know Your Customer),明確用戶資產能力和還款能力。國家一直在強調要合理不能過度借貸給客戶,這些都是KYC的一部分。
第二,數據安全管理 ,數據安全包括隱私、來源、使用、保管、質量的保障。
第三,風險模型管理 ,在次貸危機之后,美聯儲加強了對所有銀行機構的風險模型的管理。我在美國運通的最后5年創建了運通的模型監管和驗證中心,對全公司的1000個模型進行全面的管理。
第四,自動化監控體系 ,如何實時監控業務、風險指標、數據、模型、穩定性、衰退情況,及時地預警和快速的應對,以對操作風險進行有效把控。
一家金融機構如果能在以上四個方面做到高效并加以完善,將會是非常不錯的一種狀態。
觀看回放丨雷鋒網·銀行業AI生態云峰會
掃碼關注公眾號“AI金融評論”(ID: aijinrongpinglun),加入專家直播群,觀看全部云峰會內容回放。
。