<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能開發(fā)者 正文
      發(fā)私信給奕欣
      發(fā)送

      1

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      本文作者: 奕欣 2018-03-06 15:14
      導(dǎo)語:在WSDM 2018上,阿里集團(tuán) AliOS 算法團(tuán)隊(duì)獲得 WSDM Cup 挑戰(zhàn)賽第二名的成績

      雷鋒網(wǎng) AI 科技評(píng)論按:在 2 月份舉行的第 11 屆網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國際會(huì)議(WSDM 2018)上,阿里集團(tuán) AliOS 算法團(tuán)隊(duì)獲得 WSDM Cup 挑戰(zhàn)賽第二名的成績,這是中國企業(yè)首次在該賽事上取得的最高名次。

      WSDM 被譽(yù)為信息檢索領(lǐng)域最頂級(jí)的會(huì)議之一,會(huì)議的關(guān)注點(diǎn)為搜索、數(shù)據(jù)檢索、數(shù)據(jù)挖掘、算法設(shè)計(jì)、算法分析、經(jīng)濟(jì)影響方面的實(shí)際且嚴(yán)謹(jǐn)?shù)难芯浚约皩?duì)準(zhǔn)確率和運(yùn)行速度的深入實(shí)驗(yàn)探究。今年已經(jīng)是 WSDM 的第十一屆會(huì)議。

      本次 WSDM Cup 有來自全球 575 支隊(duì)伍參賽。會(huì)議共收到論文投稿 514 篇,接受論文 84 篇,接受率約 16%。

      此次比賽出題方是一家名為 KKBOX 的流媒體音樂公司,賽題內(nèi)容是預(yù)測(cè) 3 月訂閱到期的用戶中,哪些會(huì)流失。為解決該題,阿里巴巴使用了兩層 Stacking Model,第一層采用邏輯回歸、隨機(jī)森林、XGBoost 算法,第二層又采用 XGBoost 算法把第一層的結(jié)果融合。流失用戶預(yù)測(cè),對(duì)有會(huì)員體系的業(yè)務(wù)場(chǎng)景都可以使用,其中會(huì)員付費(fèi)為主要收入的業(yè)務(wù)就更為關(guān)鍵,比如像 Apple Music、蝦米音樂。多層 Stacking Model 由 AliOS 神燈研發(fā),極大提升了分類預(yù)測(cè)的準(zhǔn)確率,已廣泛應(yīng)用于 AliOS 多項(xiàng)業(yè)務(wù)中。

      以下為阿里集團(tuán)的論文解讀。

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      1. 介紹

      KKBOX 是亞洲一家音樂流媒體公司,其業(yè)務(wù)模式與 Spotify 和 Apple Music 類似。對(duì)于音樂流媒體業(yè)務(wù)來說,付費(fèi)會(huì)員非常重要,不僅直接影響訂閱收入,還會(huì)間接影響廣告收入。

      本次比賽的目標(biāo)是利用 KKBOX 真實(shí)的用戶行為數(shù)據(jù),預(yù)測(cè)會(huì)員是否會(huì)流失。比賽中我們面臨了很多挑戰(zhàn),如正負(fù)樣本不均衡、臟數(shù)據(jù)等問題。我們采取了一些列措施來解決這些問題,比如建立數(shù)據(jù)清洗和交叉驗(yàn)證機(jī)制,使用 Stacking Model 來提升準(zhǔn)確率。

      2. 問題定義

      本次比賽的目標(biāo)是預(yù)測(cè)當(dāng)月會(huì)員到期的用戶中哪些會(huì)流失。這里「流失」的定義是會(huì)員到期后 30 天內(nèi)沒有續(xù)費(fèi)。

      本次比賽的結(jié)果采用 Log Loss 進(jìn)行評(píng)估,Log Loss 的計(jì)算公式如下:

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      公式中,N 表示測(cè)試樣本數(shù),表示測(cè)試樣本最終是否流失(1 表示流失,0 表示沒有流失),為模型預(yù)測(cè)用戶是否會(huì)流失的概率(取值 0-1)。

      3. 方法

      考慮到模型的數(shù)據(jù)量和開發(fā)效率,我們采用了阿里云的 DataWorks 作為開發(fā)平臺(tái)。

      3.1 數(shù)據(jù)預(yù)處理

      比賽提供了三份數(shù)據(jù),分別是用戶的訂單明細(xì)、聽歌日志和人口統(tǒng)計(jì)學(xué)信息。見下表:

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      臟數(shù)據(jù)問題例如年齡數(shù)值小于 0 或者大于 100,注冊(cè)時(shí)間和支付金額中的極端異常值。我們處理臟數(shù)據(jù)的方式包括根據(jù)分布將異常值轉(zhuǎn)換為合理取值,刪除無法解釋且不包含重要信息的數(shù)據(jù)。

      訓(xùn)練樣本中,is_churn 是樣本的 label,訓(xùn)練樣本取自 2017 年 2 月和 3 月訂閱到期的用戶。訓(xùn)練數(shù)據(jù)的正負(fù)樣本極不均衡,以 2 月份訂閱到期的訓(xùn)練樣本為例,在總共 992931 條數(shù)據(jù)中,is_churn = 1 的樣本只有 63471,占比 6.4%。

      傳統(tǒng)的分類算法比如決策樹和邏輯回歸都是對(duì)正負(fù)樣本比例有要求。我們使用欠采樣的方式對(duì)訓(xùn)練樣本進(jìn)行了處理,分別嘗試了 1:3,1:5,1:8 的正負(fù)樣本配比,在最終模型中,我們根據(jù)交叉驗(yàn)證的結(jié)果選擇了最優(yōu)配比。

      3.2 特征工程

      特征工程階段,我們從計(jì)算邏輯、時(shí)間窗、額外條件三個(gè)維度將數(shù)據(jù)進(jìn)行組合。如下圖,右邊特征列表中 last_7_auto_tran_cnt 表示最近 7 天(時(shí)間窗)自動(dòng)完成的(額外條件)訂單筆數(shù)(計(jì)算邏輯)。特征組合完成后,我們對(duì)特征還要一系列的處理,如 log 轉(zhuǎn)換、one-hot 編碼。

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      我們通過交叉驗(yàn)證來測(cè)試特征的有效性。在交叉驗(yàn)證中我們發(fā)現(xiàn),最有效的特征包括:1. 最近 60 或 90 天自動(dòng)完成的訂單筆數(shù) 2. 最近一筆交易是否被取消或自動(dòng)完成 3. 賬號(hào)注冊(cè)的方式。最終,我們提取了 300 多個(gè)特征,并根據(jù)交叉驗(yàn)證的結(jié)果留下了 204 個(gè)特征。

      3.3 模型

      我們使用了一個(gè)兩階段模型來預(yù)測(cè)最終的流失情況。如下圖,在第一階段,提取出的特征會(huì)輸入邏輯回歸、隨機(jī)森林、XGBoost 三個(gè)模型,而第一階段模型的輸出會(huì)被當(dāng)做第二階段的特征,最終組成一個(gè) Stacking Model。

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      如下圖,我們采用了 5-fold stacking 策略。

      在第一階段,將訓(xùn)練數(shù)據(jù)均勻地分成 5 份,使用「留一法」訓(xùn)練 5 個(gè)邏輯回歸模型,用這 5 個(gè)模型分別去預(yù)測(cè)剩下的一份訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),將 5 份預(yù)測(cè)的訓(xùn)練數(shù)據(jù)合并,可以得到一份新的訓(xùn)練數(shù)據(jù) NewTrainingData,將 5 份預(yù)測(cè)的測(cè)試數(shù)據(jù)采用均值法合并,得到一份新的測(cè)試數(shù)據(jù) NewTestData。用同樣的方法再分別訓(xùn)練隨機(jī)森林和 XGBoost,新的訓(xùn)練和測(cè)試數(shù)據(jù)上,就可以得到 3 個(gè)模型的分?jǐn)?shù)。

      第二階段,將上一階段的 NewTraningData 作為訓(xùn)練數(shù)據(jù),NewTestData 作為測(cè)試數(shù)據(jù),重新訓(xùn)練一個(gè) XGBoost 模型,得到最終的預(yù)測(cè)分?jǐn)?shù)。這種方法可以避免過擬合,學(xué)習(xí)出特征之間組合的信息,還能提高預(yù)測(cè)的準(zhǔn)確率。

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      3.4 模型評(píng)估

      交叉驗(yàn)證不僅可以做特征篩選,在模型階段,還給調(diào)參、Stacking Model 策略的調(diào)整提供依據(jù)。下圖可以看到我們每一步的優(yōu)化帶來的提升,最初的 LR 模型可以得到 0.2106 的分?jǐn)?shù),XGBoost 和特征提取技術(shù)可以把分?jǐn)?shù)提升到 0.1151,最終 Stacking Model 和調(diào)參讓我們得到 0.0934 的分?jǐn)?shù)。

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      4. 結(jié)論

      本文我們介紹了在參加 WSDM Cup 2018 中所做的實(shí)踐,最終我們獲得了第二名的成績。對(duì)幾個(gè)關(guān)鍵的優(yōu)化技術(shù)在文中做了闡述,如數(shù)據(jù)預(yù)處理階段的欠采樣、特征提取方式、Stacking Model。通過分析和測(cè)試,我們發(fā)現(xiàn)這些方法都可以提升預(yù)測(cè)的準(zhǔn)確率,后續(xù)我們還將測(cè)試更多的超參數(shù),并引入深度學(xué)習(xí)進(jìn)行優(yōu)化。

      論文原文地址:

      https://wsdm-cup-2018.kkbox.events/pdf/7_A_Practical_Pipeline_with_Stacking_Models_for_KKBOXs_Churn_Prediction_Challenge.pdf


      現(xiàn)在關(guān)注“雷鋒網(wǎng)”微信公眾號(hào)(leiphone-sz),回復(fù)關(guān)鍵詞【2018】,隨機(jī)抽送價(jià)值 3999 元的參會(huì)門票 3 張

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 一本色道无码不卡在线观看| 国产在线观看人成激情视频| www.成人网| 国产精品毛片完整版视频| 亚洲国产成人精品无码区蜜柚| 18禁免费无码无遮挡不卡网站| 熟女一区二区中文字幕| aaaaa级少妇高潮大片免费看| 天天综合天天色| 国产精品自产拍在线观看中文 | 亚洲精品影视| 日本在线999| 极品粉嫩嫩模大尺度无码视频| 永久在线观看免费视频| 7777久久亚洲中文字幕蜜桃| 久久老司机视频| 日日噜噜噜夜夜爽爽狠狠视频| 亚洲精品一区二区三区在线观看| 亚洲精品v欧洲精品v日韩精品| 瑜伽裤国产一区二区三区| 色偷偷综合网,欧美日韩| 91福利区| 阜阳市| 久久99精品久久久久久琪琪| 韩国三级大全久久网站| 五月天天天综合精品无码| 亚洲熟妇丰满xxxxx| 蜜臀AV一区二区三区有限公司| 日韩女同一区二区三区久久| 蜜桃av无码免费看永久| 新乐市| 久久久中文| 国产成人精品无码专区| 中文字幕人妻无码一区二区三区| 久久久精品2019中文字幕之3| 黄色V国产| 97se亚洲精品一区| 亚洲日韩第三页| 大香蕉一区| 人妻少妇无码精品| 亚洲无码性爱视频在线观看|