0
| 本文作者: 張利 | 2017-06-05 09:37 |
到今年為止,大數據的概念已經火了7年,如今“落地應用”已經變身為大數據產業的核心,第三方全域數據服務商【友盟+】將今年定為“實現全面商業化”的一年,目前其直接服務客戶群依然是互聯網企業,“未來傳統企業客戶將是重要服務客群”,【友盟+】CDO李丹楓稱。
在2017年【友盟+】主辦的2017UBDC全域大數據峰會上,李丹楓與在場觀眾分享了【友盟+】的幾個應用案例。
在融360平臺推出了基于用戶互聯網和移動互聯網行為的風險控制分析模型,幾乎對于任何設備,我們就能找到這個設備的相關信息以及用戶在設備上的行為信息,并且最終效果為提高風控效果20%。這個項目充分證明了結合企業數據和【友盟+】數據探索具體應用落地的可能性。
我們與平安科技進行了合作,基于互聯網上的用戶行為數據,判斷哪些人有申請信用卡傾向、哪些有貸款傾向等,使用了該模型之后,廣告花費明顯降低。
【友盟+】與梨視頻合作,用我們的數據幫他們解決冷啟動的問題。
在廣告投放領域,機器能根據后臺大數據判斷哪些是企業的核心用戶、哪些與其客群相近,基于此進行廣告投放。
李丹楓稱,目前【友盟+】重點關注3個領域:互聯網應用、新零售和廣告營銷行業。“同時也會做一些摸索性的項目,對行業沒有太多限制。”
大數據火了多久,數據相關性弱、數據質量不高、數據處理過程復雜等問題就存在了多久,對此,雷鋒網采訪了李丹楓。

“數據已經成為一種資產”已是行業共識,而【友盟+】基于其提供的數據監測工具采集互聯網公開數據、APP端以及用戶行為數據,進行簡單清洗梳理后向企業提供數據資源。
據悉,目前有125萬個APP、680萬個網站用了【友盟+】的數據服務,每天可搜集的數據設備是14億。“中國網民數大概是7億多,一個人可能有多個設備,【友盟+】基本覆蓋了全網用戶。”李丹楓如是說。
雷鋒網:【友盟+】的數據屬于強相關還是弱相關?
李丹楓:營銷場景的數據在很多情況下是強相關性的,用戶在移動互聯網上耗費的時間很多,通過網上行為對人們興趣做判斷是很靠譜的,營銷場景的數據是強相關的數據。
對于風控場景,數據是分散的,最上面一層是借款、還款相關的數據,這部分數據屬于強相關但數據量比小,并非所有人都有借款還款的記錄;再下面是銀行卡、信用卡交易消費數據;再往下可能是一些社交數據;最后是用戶行為數據。用戶行為數據可能看起來與風控沒太大關系,但我們的優勢是數據體量大,覆蓋率高。另外,這些貌似不是強相關的數據往往會產生一些意想不到的附加效果,比如,一個人的互聯網和移動互聯網行為數據實際上對這個人是很好的描述,如果某用戶在金融領域有一些特定的行為,實際上在其他領域也會顯露出來。
我們開始做這個項目時,也是抱著試一試的心態,后來發現效果非常好。融360本身會集合各方面相關的數據做模型,我們發現在有些案例中【友盟+】的數據能排第二。
另外,用戶在互聯網、移動互聯網行為數據是很難造假的。金融數據可以造假,可能開始非常守信的用戶在貸款額提高時不還款,行為數據能真實反映情況,看似不相關的數據往往會產生意想不到的效果。
雷鋒網:目前,【友盟+】的興趣標簽、人口屬性標簽有多少類呢?
李丹楓:興趣標簽固定體系有400多類,但現在很多時候客戶會要求跟場景相關,客戶有某個需求可以定制標簽,這是自動化的生成流程。人口屬性標簽是性別、年齡、收入、是否有房、是否有車、是否有小孩兒等這些信息。
雷鋒網:定制標簽的過程是怎樣的?
李丹楓:標簽定制有兩種方式,一種人工一點,通過觀察客戶目標群體的屬性,判斷哪些屬性是突出屬性,進行標簽定制,這個過程基本是半機器半人工的狀態。另一種是自動化的:用戶直接上傳它的核心用戶數據,基于這些數據找出我們這里所有與其核心用戶相近的數據,比如對十幾億設備進行排序,排在最前面的是最相近的,排在最后的是不相近的,這是自動化的一個過程。
我們更希望客戶通過這個過程來進行人群定位、廣告投放,但這需要時間,因為企業一般很難明確地說出其目標人群特點,而模型是發現一些內在的聯系,有時候也是難以解釋的。
雷鋒網:您講到企業本身要提供一部分數據進行放大,如果企業沒有數據呢?
李丹楓:整個過程需要閉環,如果沒有數據,企業一般對其目標群體有大概的概念,我們可以先做投放,有一定客戶積累之后再放大,整個操作流程是很簡單的。
雷鋒網:形成標簽的過程是怎么的?
李丹楓:每天都有新數據進來,我們每天都會處理這些數據做標簽更新,有些標簽變化不會太大,對性別預測不會產生太大的變化,但不排除在一些場景下,性別標簽會變化。
比如一個男性用戶老婆懷孕,那他的行為轉變為一個女性行為了,這是用戶的行為性別。一個人的行為性別可以隨著其人生階段變化,在這個意義上,行為性別可能比真實性別更有意義。如果標簽體系中用戶的真實性別為男性,并且不知道其人生階段,那么,與母嬰、育兒相關的內容不會推送給他。一個用戶原來的行為性別是男性但現在看起來像女性,可能是他的人生階段發生變化。
還有興趣標簽,比如我是一個比較喜歡看金融類新聞的人,但我從來不點金融類新聞廣告,如果做效果類廣告標簽,我是沒有的,但如果做品牌廣告我是有標簽的,根據不同應用場景每一個標簽會有不同的設置。所以一個400維的標簽,在同一個設備不同場景下,可能變成800維或1200維。
數據收集上來后的第一步工作就是做基礎標簽。一般來說我們很少會直接使用原始數據,因為原始數據一是體量大,二是占有的空間大,而且不同的業務用到的數據往往都要經過標簽生產的過程。所以,基礎標簽肯定要生成的,場景標簽、高級標簽是按需求來做的。我們平時做的工作是建立自動化或半自動化的體系讓效率更高。比如我們最開始做風控的時候,我們做一個模型可能需要一個多月兩個月,現在可能一個星期就把做出來了。我們是在工具層把它體系搭建好,這樣如果場景來了我們就可以高效地生成。
雷鋒網:數據的質量是怎么把關的呢?收集上來的數據如何判斷這個數據好還是不好?
李丹楓:首先是原始數據收集,我們第一步做的事情其實很簡單,就是通過常識判斷數據是不是合理。如果發現一個人一天的行為很多,那判斷這可能是機器而不是人,在這個層面上,通過一些規則或統計模型刪除一部分。在互聯網和移動互聯網上,這種假的人或機器還挺多的,所以第一步會篩掉不是真實的人的信息,而這些信息本身對開發者也是有幫助的。比如做渠道質量判斷,通過這個過程可以判斷哪些渠道是垃圾設備,后續就不太用這些渠道。
第二可能需要一個應用場景用以驗證。比如廣告投放場景中,用了我們的標簽后,發現結果沒改善,或者改善不明顯。我們就會回過頭來看標簽生產過程是不是有問題,再往后推數據會不會有問題,應用場景越多,數據質量檢驗的方式越多。
我們認為在某個場景中應該有效果但實際沒有的,往往會去追究其原因。實際上,這個過程能幫助我們把數據質量不斷做好,有時候會發現這是系統性的原因,系統修好后,數據質量問題就解決了。
整個過程有兩層,一層是統計級別,第二層是在應用級別做質量把控。
雷鋒網:多少天沒效果就會懷疑數據質量問題?
李丹楓:比如投放,一般投放幾天到一星期,幾天到一星期沒有效果,我們判斷是模型的原因是數據的原因,這個跟場景相關。比如風控周期會長,一般30天逾期、90天逾期,今天貸了款可能6個月之后才用還,我需要等6個月才能發現這個問題。當然我們做這個模型時,會有一些歷史的數據,用歷史的數據來檢驗,如果發現歷史數據一點效果沒有可能就會有問題。
雷鋒網:打通PC、移動和線下數據,目前是怎樣一種狀況?
李丹楓:現在有兩種方式:一種是通過阿里強ID體系打通的,它會判斷一個人有哪幾臺設備;但在很多場景下,我們不能直接輸出基于阿里數據的結果,那我們就會用算法打通,這聽起來很高大上,原理是很簡單的,比如兩個設備經常在同一個IP出現,那屬于同一個人的概率非常大。當然我們的模型沒有這么簡單,我們還會采集一些其他的行為信息。
我們最大的好處是我們有阿里強賬號體系,訓練模型時數據量是非常大的,如果有大量數據,可能并不需要特別厲害的數據科學家,不需要特別高精尖的算法,就能把整個系統弄好。
我們現在是會用算法把PC、移動包括線下的數據打通。我們平臺的打通是有一定概率的,我們說兩個設備背后有一個人,意思是有 70%或80%的可能性。畢竟沒有一個算法是完美的,通過算法的方式只能提供一個概率。
雷鋒網:概率大概是多少?
李丹楓:你給我兩個ID,我會告訴你這兩個ID可能是一個設備的可能性為90%或70%。用戶在不同的場景下,對精準的要求不同,比如有的用戶認為概率在90%以上才會認為是同一設備;而有的認為70%就可以接受了。
模型產出一個連續的分數,但用戶在具體使用時,會基于分數判斷操作點,當然我們會輔助他們。根本問題在于你要求精確度高還是覆蓋率大,這兩者是相矛盾的。
對于大數據服務商而言,數據有效性將直接影響到大數據的應用水平,從數據源到分析樣本的采集過程需要大量技術支撐和人工干預。據悉,在數據融合與處理相關的領域,主要解決包含兩個方面的問題:一是數據標準化與有效性整理;二是面向過程(具體目的)的數據處理與粗提取。
雷鋒網:應用于不同行業時,技術遷移容易嗎?
李丹楓:技術是分層的。收集數據后,會基于事實標記最底層的興趣標簽、人口屬性標簽。其中人口屬性標簽可能是通過人群預測的,通過標注的數據,訓練一個模式,基于這個模型去判斷其它不知道某些標簽的用戶。總體來說,底層標簽基于事實和預測,其上會有對標簽的深加工,對特定營銷場景定制的標簽,客戶也會對我們提一些需求進行標簽定制。再往上是真正的深度加工,比如建立風控模型,需要建立一些目標函數,這也是基于底層的興趣標簽和屬性標簽的。
所以,我們其實并不需要做遷移,因為我們的技術是一層層,已經把整個架構都搭好了。如果要應用于某個復雜的應用場景中,只需要基于相應的場景數據訓練模型即可。
雷鋒網:您剛才說半機器半人工,機器做什么?人工做什么?
李丹楓:上文說的場景中,機器更多做的是“人群畫像”的工作,數據拿來之后,打上人群屬性標簽、興趣標簽,然后進行匹配,將這群客戶人群與整體人群做比較。拿性別來說,整體上男女比例是1:1,如果這個群體男女比例是3:1,那么,男性是人群里比較顯著的特征。
機器做的事情,第一是計算做匹配自動畫像;第二找出最顯著的特征,至于是不是用顯著特征作為目標畫像,這需要人和機器結合。人群放大環節,希望人力介入之后能越來越少。
雷鋒網:【友盟+】DIP平臺內部集成了哪些智能化的數據管理方式呢?
李丹楓:首先,我們現在不把自己叫DMP平臺,而叫DIP平臺,很大的目的是和DMP區分。DMP平臺會使人自然聯想到廣告營銷場景,但廣告營銷場景只是我們業務的一部分,我們涉及的場景包括金融風控、推薦、營銷等。
關于智能算法,風控模型算一個,原來我們做風控模型時,需要一到兩個月。現在做風控,如果客戶數據質量好,模型一兩周就可以上線了。我們已經建好一個建模體系,只要把輸入輸出告訴我,基本上可以自動化生成一個模型。
另外人群放大背后也是一個算法。按理說,現在很多DMP平臺中都應該有人群放大的功能。我們的好處是數據體量非常大,人群放大有兩個要點:一是能不能夠找到非常相似的人?搜集一個人的行為數據越多,描述越豐富,相似性越好;二是覆蓋量的問題,我們每天有14億設備,池子大得很,客戶想找多少的人可以找多少的人,而且這么大的池子里,同樣相似度找到人的數量更多。
還有我們的推薦引擎也具智能功能,我們不是一個數據管理平臺,是一個數據智能平臺。
落地應用相關
據悉,目前【友盟+】的業務由三大產品線和一個智能數據平臺組成。所謂三大產品線分別是:U-Dplus一站式數據管理運營平臺、U-ADplus全鏈路營銷解決方案和基于大數據 & 智能感知技術的整套線下數據服務解決方案U-Oplus;智能數據平臺U-DIP是3大產品后面的大腦。
雷鋒網:企業數據分析用excel比較多,用這些分析工具較少,您怎么看?
李丹楓:其中有很多因素,第一是很多企業在做事的時候并沒有意識到數據能夠帶來什么好處,所以很多場景里他們并沒有采集數據。但實際上如果你采集了這些數據,之后可能做到運營更高效、更精準。
我舉個例子,為什么電商運營這么高效,而實體店中,大家都不太能說清楚顧客的狀況是怎樣的,活動促銷也沒有具體的數據指導。我們的產品U-Oplus能收集進店人的信息。
大家都說新零售的核心是人,但如果你對顧客知道的少之又少,怎么能夠精細化運營?U-Oplus能通過感知方式去探測進店人的移動設備。
感知到移動設備有這幾個好處:一是實現點對點連接,即一個人多次進入店鋪能確認其是一個人,而原來的紅外設備會認定是多個人,不僅如此,還能知道客戶的停留時長,甚至可以與后臺數據打通,基于后臺更豐富的標簽體系,對運營做出更多的指導。
目前,我們面對的還是非常簡單、非常表面的數據,任何一個企業都能產生大量的數據。主要看這個企業第一有沒有收集數據的意識;第二有沒有分析數據的能力;第三是如何結合數據和智能解決方案提升效率、降低成本,這些實際是企業發展需要著重強調的能力。
數據量少時用excel處理很高效,但數據搜集上了之后,我們就有很多想象空間、運營空間。
雷鋒網:如今,【友盟+】的客戶主要是大公司嗎?
李丹楓:移動端的客戶大、小企業都有,像今日頭條、墨跡天氣等。企業類客戶主要面向大企業,因為大企業可能會對數據精細化運營有較多需求,它也有足夠大的場景,有能力來配合我們把這個事情做好。我們希望漸漸把智能化做到標準產品里面,讓小企業也能享受到這個產品。畢竟我們服務企業端的,應該說從今年年初剛剛開始。
我們的計劃是通過標準化的工具服務小企業,目前,已經把DIP平臺放到所有工具后面,會把這些能力不斷往工具里輸送,也是使我們工具和其他的工具區分的一個重要的因素。
我們的決策是帶著后臺大數據的,希望最后提供給客戶的是整個一套產品體系,用戶可以根據其需求像拼樂高一樣拼接起來。我們現在實際上已經把執行端拼接進去了,U-Dplus已經包括執行。接下來把更多智能功能推送到平臺中去,這個平臺小企業是可以使用的。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。