0
雷鋒網(wǎng)按:本文為「范式大學系列課程」第 3 篇文章:年薪百萬的機器學習專家,為什么不產(chǎn)生價值?

Part 1
一個朋友的企業(yè),他們招聘了 2 名機器學習方向的數(shù)據(jù)科學家,加起來年薪百萬。
但一段時間的蜜月期后,他們發(fā)現(xiàn)機器學習專家沒有給公司帶來實際價值。高管們不知道他們具體做了什么,業(yè)務人員每周都給他們提出預測需求,卻很少能在短時間得到回應。
不到一年,公司和機器學習專家們就不歡而散了。
Part 2
巧合的是,從他們公司離職的機器學習專家是我的朋友。
當我問他這個問題時,他說自己每天都忙得不可開交,卻得不到公司其他人的理解。他和我描述了自己的工作過程。
他花了很多時間搭建了機器學習需要的計算環(huán)境。
他花了很多時間做建模前的數(shù)據(jù)清洗和處理。
他花了很多時間做模型選擇和參數(shù)調(diào)整,以得到更好的結果。
他花了很多時間做實時預測的功能,為了達到毫秒級的延遲花費了大量心血。
……
實際上,要完成一個機器學習的模型要做很多事情。團隊人數(shù)本來就少,事情又多,他的興趣只能集中在模型本身上了。
至于這些模型對應的業(yè)務問題,例如怎么定義問題,確定哪個指標?雖然也重要,但他覺得這些主要是業(yè)務人員去解決的。
(估計業(yè)務人員也覺得,這是屬于機器學習專家解決的事情)
Part 3
實際上,這個問題不是個例,大部分公司在引入機器學習專家后,都會面臨這樣的疑問。
來自 MIT 的機器學習研究員 Kalyan Veeramachaneni 曾經(jīng)做過一次調(diào)查,在一個 150 個機器學習愛好者的小組中,他詢問說:“你們有多少人建立過機器學習的模型?”大約有 1/3 的人舉手。而當他進一步問:“有多少人使用這個模型產(chǎn)生價值并衡量它?”結果沒有一個人舉手。
換句話說,機器學習專家們把 90% 的時間都放在了數(shù)據(jù)準備、處理、特征工程、建模、調(diào)參上,而背后的業(yè)務問題和商業(yè)問題, 很多時候沒有納入嚴格的考慮。
但是要讓數(shù)據(jù)產(chǎn)生真正的價值,就要把數(shù)據(jù)和商業(yè)價值聯(lián)系起來,這至少要花費 50% 以上的精力。
Part 4
相比之下,更為理想的局面是建立機器學習工程和商業(yè)價值之間的平衡。一般來說有 5 個原則:
1.從最簡單的模型開始
邏輯回歸或者那些基于隨機森林、決策樹的模型,就足以解決大部分的問題。所以你的重點,應該放在縮短數(shù)據(jù)采集和模型建立的時間。
2.探索更多問題
相比于通過一個難以置信的模型探索一個業(yè)務問題,你應該探索數(shù)十個問題,然后為每個問題都創(chuàng)造一個相對簡單的預測模型,并評估模型背后的商業(yè)價值。
3.用全部的數(shù)據(jù)和特征訓練模型
過去機器學習的能力不夠,很多時候是依靠人力篩選出樣本數(shù)據(jù)和特征進行模型訓練。但隨著計算資源越來越便宜,人力成本越來越高,你應該用全部的數(shù)據(jù)和特征訓練模型,以得到更好的效果。
4.業(yè)務驅(qū)動模型
讓機器學習專家和業(yè)務人員有更多的配合。實際上,很多想法都來自于業(yè)務部門的設想,機器學習專家和他們一起探索出對公司有價值的解決方案。
5.專注于自動化
為了更快地獲得第一個模型,縮短探索問題的速度,公司要自動執(zhí)行通常由手動完成的任務。我們發(fā)現(xiàn)在不同的數(shù)據(jù)問題中,背后都應用了類似的數(shù)據(jù)處理技術,無論是在數(shù)據(jù)清洗、準備階段,還是在數(shù)據(jù)建模階段,亦或是在模型上線階段。
Part 5
這 5 個原則說的是,如果說機器學習是一場戰(zhàn)役,過去強調(diào)的是戰(zhàn)士的能力和經(jīng)驗,現(xiàn)在則更為強調(diào)軍火的選擇。
就像在伊拉克戰(zhàn)爭中,美國部隊強調(diào)的是每平方公里的彈藥投放量,最終投放了 60 億顆彈藥。雖然是一個不太恰當?shù)谋扔鳎菣C器學習未來的趨勢就是大規(guī)模機器學習平臺的出現(xiàn),通過大規(guī)模計算解決具體的業(yè)務問題。大規(guī)模機器學習平臺,就是企業(yè)未來最重要的軍火。
所以對于機器學習專家來說,他也許不能一個人就把事情做完,但是給他工具就可以了。
Part 6
在我的介紹下,那位機器學習專家又回到了那家公司,1 個人,1 個月,完成了過去 1 年都沒完成的工作。
參考資料:
Why You’re Not Getting Value from Your Data Science
Data has no value if it lacks a purpose
The Missing Link in Why You're Not Getting Value From Your Data Science
「范式大學」由第四范式發(fā)起,致力于成為“數(shù)據(jù)科學家”的黃埔軍校。「范式大學系列課程」會和大家推薦戴文淵、楊強、陳雨強等機器學習領域頂尖從業(yè)人士的最新分享,以及由第四范式產(chǎn)品團隊推薦和整理的機器學習材料。
雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。