社交網(wǎng)絡(luò)數(shù)據(jù)征信的作用你猜有多大?
巨大的信貸市場(chǎng)需求與稀疏分離的數(shù)據(jù)造成了金融機(jī)構(gòu)征信與風(fēng)控上的困局。隨著互聯(lián)網(wǎng)與數(shù)字技術(shù)的發(fā)展,有條件的企業(yè)開(kāi)始了五花八門的征信服務(wù),而民間企業(yè)推舉最多的就是社交網(wǎng)絡(luò)大數(shù)據(jù)征信評(píng)價(jià)。社交征信應(yīng)運(yùn)而生自有其作用,但這個(gè)作用有多大呢?似乎也沒(méi)有達(dá)到大家所給予厚望的程度。
其作用大概只占5%-10%
業(yè)內(nèi)人士分析稱,目前來(lái)說(shuō),社交網(wǎng)絡(luò)數(shù)據(jù)作為弱變量數(shù)據(jù),其在大數(shù)據(jù)征信中的作用有限。國(guó)內(nèi)運(yùn)用人工智能與大數(shù)據(jù)做征信的初創(chuàng)企業(yè)星橋數(shù)據(jù)董事長(zhǎng)丁卓博士表示:“其實(shí),社交數(shù)據(jù)征信在做360度的用戶畫像刻畫中,其作用大概只占5%-10%。對(duì)于金融行業(yè)的評(píng)估來(lái)說(shuō),這些數(shù)據(jù)不能作為直接的評(píng)價(jià)參考。”
同時(shí)算話征信CEO蔣慶軍告訴雷鋒網(wǎng)
(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)
,海量的大數(shù)據(jù)中和個(gè)人信用表現(xiàn)即所謂的Y變量能關(guān)聯(lián)起來(lái)的實(shí)際數(shù)據(jù)是很薄弱的,這種關(guān)聯(lián)數(shù)據(jù)不容易獲得,建模的數(shù)據(jù)也是不夠的,當(dāng)然更不容易開(kāi)發(fā)出成熟的評(píng)估模型。
再者,社交網(wǎng)絡(luò)上的數(shù)據(jù)真實(shí)性有多高?我們作為社交網(wǎng)絡(luò)的主力軍用戶,深深知道朋友圈、微博、空間的狀態(tài)與評(píng)論互動(dòng)大部分實(shí)質(zhì)可歸結(jié)為感性的“秀炫曬”,那么機(jī)器根據(jù)預(yù)先設(shè)置的特征參考提取出信貸機(jī)構(gòu)希望獲取的數(shù)據(jù)之后,由此而形成結(jié)果就是對(duì)象的真實(shí)用戶畫像了?
去年8月,國(guó)外社交巨頭Facebook推出了涉足社交大數(shù)據(jù)征信的專利——當(dāng)一個(gè)用戶申請(qǐng)貸款的時(shí)候,貸款方會(huì)審查該用戶社交網(wǎng)絡(luò)好友的信用等級(jí)。只有這些好友的平均信用等級(jí)達(dá)到了最低的信用分要求,貸款方才會(huì)繼續(xù)處理貸款申請(qǐng)。否則的話,該申請(qǐng)即被拒絕。而在此之前,阿里巴巴旗下螞蟻金服推出的芝麻信用分也在使用人脈關(guān)系、消費(fèi)行為作為評(píng)估信用水平的依據(jù)。
國(guó)內(nèi),騰訊征信總經(jīng)理鄭浩劍日前也闡述了騰訊對(duì)于互聯(lián)網(wǎng)征信建設(shè)的探索,該公司主要依靠大數(shù)據(jù)與人工智能技術(shù),基于旗下微信、QQ等近十億用戶的社交數(shù)據(jù)來(lái)進(jìn)行征信工作,通過(guò)把結(jié)構(gòu)化數(shù)據(jù),文本分類,LBS數(shù)據(jù),社交網(wǎng)絡(luò)傳播擴(kuò)散等挖掘之后形成用戶畫像刻畫。
然而國(guó)際上似乎還有社交征信成功的案例。上述的例子中,F(xiàn)acebook的做法因其片面性被《大西洋月刊》評(píng)論稱“涉嫌貸款歧視”:有批評(píng)人士認(rèn)為,這項(xiàng)專利重現(xiàn)了歷史上著名的“貸款歧視”做法:“Facebook 想要以你的好友名單為理由拒絕貸款”。這在芝麻信用的人脈應(yīng)用中也是一樣的道理,但芝麻信用征集了消費(fèi)行為數(shù)據(jù)作為補(bǔ)充,或者其實(shí)是后者為主導(dǎo)。
至于騰訊,騰訊合法獲得的用戶數(shù)據(jù)大多數(shù)都是QQ及微信用戶的行為記錄,但這些行為記錄對(duì)于征信的利用價(jià)值卻很低。那么,為了達(dá)到評(píng)價(jià)個(gè)人的目的,騰訊也許不得不利用用戶的內(nèi)容數(shù)據(jù),而一旦涉及用戶的交流內(nèi)容記錄,那就有可能像Facebook那樣被認(rèn)為觸及到用戶隱私保護(hù)的法律問(wèn)題。
歸其原因:社交數(shù)據(jù)是弱變量弱相關(guān)
“實(shí)際上,對(duì)于根據(jù)社交數(shù)據(jù)分析出的結(jié)果,我們只能將其作為整個(gè)信用報(bào)告的補(bǔ)充,因?yàn)橄M(fèi)者在社交網(wǎng)絡(luò)上的關(guān)系只是松耦合,而不像是在企業(yè)機(jī)構(gòu)中形成的緊耦合關(guān)系,”丁卓解釋道,在企業(yè)中每個(gè)人的薪酬、流水等都是確信的,但在社交網(wǎng)絡(luò)上,內(nèi)容都是隨性的。“所以,社交網(wǎng)絡(luò)分析只能作為征信對(duì)象在基礎(chǔ)數(shù)據(jù)、深度數(shù)據(jù)以外的余信數(shù)據(jù)補(bǔ)充。”
在數(shù)據(jù)類型中,數(shù)據(jù)可以被分為強(qiáng)變量數(shù)據(jù),即信貸、信用卡、社保、工商等來(lái)源于傳統(tǒng)金融機(jī)構(gòu)和政府機(jī)構(gòu)的信息;和商品生產(chǎn)、流通、消費(fèi)等環(huán)節(jié)產(chǎn)生的中變量交易數(shù)據(jù),以及社交、游戲等弱變量數(shù)據(jù)。
“在14000個(gè)數(shù)據(jù)源、70萬(wàn)個(gè)來(lái)自于不同維度的數(shù)據(jù)變量中,我們結(jié)合金融機(jī)構(gòu)的業(yè)務(wù)邏輯,分析變量的相關(guān)性系數(shù),統(tǒng)計(jì)出其中從強(qiáng)到弱遞減的變量關(guān)系,而社交網(wǎng)絡(luò)數(shù)據(jù)明顯屬于弱相關(guān)變量。” 星橋數(shù)據(jù)的核心團(tuán)隊(duì)當(dāng)中,有12名計(jì)算機(jī)科學(xué)與金融學(xué)領(lǐng)域的博士,27名碩士,其首席數(shù)據(jù)科學(xué)家、肯塔基大學(xué)計(jì)算機(jī)博士林振民與團(tuán)隊(duì)一起,對(duì)數(shù)據(jù)變量的系數(shù)進(jìn)行了數(shù)年的研究。
最重要的是,NLP(自然語(yǔ)言處理)仍然是個(gè)世界級(jí)難題,Google、微軟也沒(méi)有很好的解決方案。所以,目前的機(jī)器學(xué)習(xí)對(duì)于社交數(shù)據(jù)的處理準(zhǔn)確度并沒(méi)有很高。如果有好的解決方案,意味著整個(gè)遷移學(xué)習(xí)、機(jī)器學(xué)習(xí)領(lǐng)域都會(huì)有一些質(zhì)的進(jìn)展,同樣,目前利用機(jī)器學(xué)習(xí)、人工智能進(jìn)行的大數(shù)據(jù)征信和風(fēng)控也會(huì)隨之獲得進(jìn)步。
大數(shù)據(jù)征信還需在強(qiáng)、 中變量著手
丁卓博士坦言,如今360度刻畫中,F(xiàn)ICO模型的作用仍占到50%左右,而剩下約45%的部分,則有賴于征信對(duì)象的交易行為數(shù)據(jù)來(lái)完成。丁卓介紹,傳統(tǒng)金融機(jī)構(gòu)對(duì)客戶的信用評(píng)級(jí)一般依靠FICO模型,但這套模型在信貸、信用卡、外匯、民間借貸等強(qiáng)變量金融交易數(shù)據(jù)的基礎(chǔ)上才適用,“在下沉到年輕用戶和小微企業(yè)等客戶的過(guò)程中,F(xiàn)ICO就有很多需要改善的地方。”
這也是星橋付出極大的代價(jià)去對(duì)接京東、阿里巴巴、百度等互聯(lián)網(wǎng)平臺(tái)數(shù)據(jù),打破數(shù)據(jù)隔離和信息孤島的原因。丁博士透露,在談判的過(guò)程中,能夠通過(guò)第三方中立機(jī)構(gòu)間接實(shí)現(xiàn)與其他大公司的數(shù)據(jù)資源共享,是他們彼此合作的支撐。“大數(shù)據(jù)的意義在于,能夠通過(guò)機(jī)器學(xué)習(xí)、語(yǔ)義分析等技術(shù),把海量數(shù)據(jù)的相關(guān)性計(jì)算出來(lái),連接起來(lái)進(jìn)行動(dòng)態(tài)分析。”
星橋的客戶包括工商銀行、招商銀行,據(jù)丁卓透露:“目前來(lái)說(shuō),銀行的信貸客戶以大型企業(yè)為主,但事實(shí)上他們也有獲取新客戶方面的擔(dān)憂。因?yàn)閺拈L(zhǎng)遠(yuǎn)可持續(xù)發(fā)展來(lái)看,他們也要獲取更多小微型企業(yè)(供應(yīng)鏈金融)以及年輕用戶群體(消費(fèi)金融)等的客戶。通過(guò)合作我們了解到,很多銀行也想開(kāi)展普惠金融業(yè)務(wù)。但由于對(duì)這部分客戶掌握的信息較少,他們不知道怎么做。他們不了解普惠金融的客戶群的特征,也不知道應(yīng)該如何判斷這部分客戶的信用評(píng)級(jí),因而不敢貿(mào)然開(kāi)展。”
所以,在科技推動(dòng)金融的發(fā)展背景下,適用于大型企業(yè)的FICO也需要有一個(gè)標(biāo)準(zhǔn)再適應(yīng)市場(chǎng)的過(guò)程。“面向年輕用戶和小微企業(yè)等建立更符合他們特征的模型,這是未來(lái)五年內(nèi),銀行與征信機(jī)構(gòu)必須要做的事情。”