0
| 本文作者: 溫曉樺 | 2017-02-01 08:51 |
Capital One目前是美國第八大銀行控股公司,有信用卡、房屋貸款、汽車貸款、銀行等金融產品。用信息技術來全面驅動公司業務發展,是Capital One公司的制勝法寶。
智能信貸服務商讀秒,主要為自然人提供的無抵押無擔保的個人短期小額信用貸款,利用大數據與機器學習,它把傳統銀行最快3天的授信業務做到10秒完成。該公司CEO周靜,曾在美國“金融黑幫”之Capital One任職8年,歷任產品、市場、風控高級經理。2006年,她回到中國進入渣打銀行,任渣打中國零售風險總監,至今有著近20年的跨國銀行風險經管經驗。
2015年1月26日,周靜加入PINTEC,帶領團隊開啟了打造一款智能信貸產品的征程——即如今“讀秒”的萌芽。歷經一年多時間,讀秒從最初的一款決策引擎產品,逐漸發展成為一套完整的智能信貸解決方案,產品團隊也發展成PINTEC旗下子公司。

天下武功唯快不破。讀秒技術負責人仲惟曉向雷鋒網介紹,讀秒至今已經接入了業內約40個數據源,通過API接口實時調取。數據接入之后,讀秒通過自建的欺詐、預估收入、預估負債比等多個模型(規則)對數據進行數十萬維度的清洗、挖掘,再通過平衡卡和決策引擎給出綜合決策。而且,所有決策是平行進行的。10秒完成授信決策的背后,既有前期日積月累的數據收集和清晰,也有最后時刻刀光劍影的模型計算。
一般人認為,大數據、機器學習技術如同一個黑箱,但事實上有跡可循。仲惟曉介紹,讀秒的合作伙伴會海量的裸體數據給到他們,但真正有用的數據維度——基于數據構建的分析維度,實際上是由自己去挖掘的。“并不是說把數據拿來,然后放在一個很神奇的機器學習模型里就能把結果預測出來。”
比如在前期用戶申請階段,會產生大量的用戶行為、交易數據,或者信用數據,這些數據能夠幫助決策機構了解“用戶是一個怎樣的人”,比如說看一個人的出行記錄,分析他的住所、行蹤、打的什么車、做什么航班以及艙位等等。而這些數據本身也需要挖掘的過程,雖然挖掘的過程與整個授信的過程是分離的。“有海量的數據之后,我們需要利用距離、分組等決策算法,從這些數據中篩選出業務適用的模型,規避風險。”仲惟曉接著舉例解釋背后的門道:
一個很簡單的例子,比如用戶在多平臺的借款的情況——以前我們覺得,一個客戶借款5次、8次或者10次,第三方數據源可能會提供。但是現在,我們更加會看,比如多平臺的借款頻率,在過去的90天,或者270天、360天中是怎么變化的,此外還有借款的次數和借款平臺數之間的關系。在這些裸體數據上面所建的就是所謂“維度”。
簡單來說,這是一個將非結構化數據結構化的過程。仲惟曉表示,不同用戶在不同平臺留存的數據看似獨立,其實它們之間也會形成網絡交織,比如通話記錄、交易對象等關系,“隨著用戶排量增加,留存的數據越來越多,現有模型才能得到進化,適用于更多場景。”大數據不是要找一個人,而是要找一群人。
而有前期臺后累積的功力,才有臺前10秒決策的速度。讀秒科學決策總監任然坦然稱:“其實建模型這個東西,大部分時間都花在挖掘數據上,把幾千個,幾百個數據跑出想要的維度,最后一氣呵成建成模型,這個很快,只是之前這個東西是需要大量時間的積累。而且很多時候是需要試錯的。就比如現在如果有一千個維度在跑的話,毫不夸張地說,我們會建大約十萬或二十萬個維度,去試哪些維度有用,哪些維度沒用,因為需要去理解數據。”

“前期的數據分析過程,相當于機器學習的過程,而接下來的案例應用中——從收到貸款申請到最后跑模型決策,相當于機器接受考試的環節。”仲惟曉說:
數據提供方提供的數據首先被我們指標化,即通過人工的方式把指標從數據特征中判斷出來,平均一個消費信貸申請會有上百個指標。但是因為成本問題,這些指標并不會全部用在機器學習當中,我們會先利用歷史經驗數據做一個泛化的計算,從計算中篩選出大約十幾個篩選度比較高的指標,然后這些指標的計算在線上實時進行。基本上每一條數據來了之后,我們每一個分布的節點會負責一定項的產品或者一定項數據的指標拆分。
這些拆分完成之后,它們會被壓到整個計算決策引擎里去跑模型,然后模型的數據成為是否給用戶提供授信的依據,這是指標之一。然后基于這個用戶的行為來才會對模型進行修正。
CEO周靜補充道:“每一個科目都有一個分數,然后科目都有不同的加權,但不一定每個科目加權都是同樣的比例。因為維度和比例,都是跟后期的逾期率是有關聯性的——如果關聯性大,比例可能就大一點;如果關聯性小,就小一點。”
全球個人信用風險評估體系的締造者,全球領先的預測分析和決策管理公司FICO的早期創始成員William Yao(姚志平)博士曾對雷鋒網表示,人的大腦擅長做單因子的分析,而擅長于綜合因子判斷的恰好是計算機。“它們沒有感情偏差,在幾十個、幾百個概念中做綜合判斷,只要給它數據,通過大量數據和權重,它都可以幫你計算出評分。美國幾乎各大銀行都在用機器學習做決策,這是機器學習一個很好的方面。”
快速、高效用的表現是機器決策引人探索和開拓的首要原因,而應用之后帶來的邊際效益就是它得到推崇和堅持的來源。以前獲一個貸款客戶成本很高,你要有網點,要有很多銷售人員,這都是成本。而如今,周靜稱,即使業務規模不斷壯大,團隊人員都不需要太多變化,可能只需要增加一些服務器。“每一次迭代我們的能量就會放開。每一次上量,邊際成本就降低,是一個復制性很強的模式。”
除了這些看得見的好處,調研環節大大縮短之后,也壓榨了欺詐黑產的發揮空間。周靜透露,根據以往碰到的欺詐現象,都是由中介第三方來包裝的。這些客戶可能人本身是真實的,但也許其本身的信用背景和收入并非真實,只是中介基于對整個審批流程了解的程度,而去做一套假的資料。所以從這個角度來講,大數據風控便直接切開了第三方,即便用戶造假,基于信息網絡的交叉比對也能為識別欺詐提供了一定程度的幫助。
“那智能信貸的技術壁壘在哪里?”
“技術壁壘有幾個,一是本身對金融產品的深度理解——不管是在什么形態當中,知道這個產品的本質盈利模式和分析點在哪里。與此同時,需要金融人員和科技人員緊密結合,基本上成一體地互相理解,從而把架構從零搭建起來。第三是數據的獲取、挖掘能力和建立維度的能力。最后是整個公司的運營——因為風險都是后知的,你可能找到很多客戶,也給了很多貸款,但是如果收不回來的話,也是不行的。所以本身它還是跟傳統金融很多地方類似,就是怎么樣可以長期地安全地運營一個信貸業務,這個不只是IT,還要對將來市場有一定的預測,包括整個獲客的來源是否穩定,獲客的人群本身是否可授信。總結起來是,風控、數據、貸后管理,最后就是整個客戶的周期。”
最后,周靜對雷鋒網表示,數據與技術驅動之下從獲客到決策,再到風控的整條完整的信貸產業鏈都做起來將是一個不可逆的趨勢,銀行不管是跟我們這樣的公司合作,還是自己做,都將發展這樣的模式。“如果能十秒鐘做一個決策,為什么還要回到那個消耗巨大人力和成本去走的三天的決策過程?不管是Fintech、傳統金融行業還是BAT,征信、風控公司也好,我不覺得這是一個只有幾家變得很尖端的趨勢,而是一定成為將來行業的常態。”
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。