<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發(fā)者 正文
      發(fā)私信給汪思穎
      發(fā)送

      1

      看阿里 AliOS 神燈團隊在推薦系統(tǒng)上的獨門秘籍

      本文作者: 汪思穎 編輯:郭奕欣 2018-04-12 09:51
      導語:神燈項目團隊主要負責 AliOS 端上智能與服務的算法研發(fā),攻克方向是推薦領域。他們希望能像阿拉丁神燈一樣,讓用戶通過其服務獲得滿足。
      開發(fā)
      企業(yè):阿里巴巴
      操作:專訪
      內容:專訪阿里 AliOS 神燈團隊

      阿拉丁神燈的故事想必大家都聽過,對著神燈許下心愿,你的愿望就會實現。而今天,在阿里 AliOS 有一支神燈團隊,他們希望能像阿拉丁神燈一樣,讓用戶通過其服務獲得滿足。團隊成員王智楠對雷鋒網 AI 研習社說道,「我們希望讓客戶擁有一種想要什么服務就能得到什么服務的感覺,這是取名『神燈』的初衷。」

      神燈項目團隊主要負責 AliOS 端上智能與服務的算法研發(fā),攻克方向是推薦領域。項目組共有八名成員,大家的背景也很多元,涉及統(tǒng)計、廣告、NLP,甚至還有心理學。

      看阿里 AliOS 神燈團隊在推薦系統(tǒng)上的獨門秘籍

      目前,他們的算法主要應用于車機智能推薦系統(tǒng),例如幫助客戶預測線路、推薦周邊街道、關聯(lián)附近的停車場、介紹好吃的餐廳等。

      其中,他們自研的多層 Stacking Model 極大提升了分類預測的準確率,已廣泛應用于 AliOS 多項業(yè)務。值得一提的是,年初在 WSDM Cup 2018 挑戰(zhàn)賽上,得益于這一模型,AliOS 神燈團隊小組在比賽中表現優(yōu)異,團隊成員王智楠也受邀在會議 Workshop 上做了主題分享。

      WSDM 被譽為信息檢索領域最頂級的會議之一,會議的關注點為搜索、數據檢索、數據挖掘、算法設計、算法分析、經濟影響方面的實際且嚴謹的研究,以及對準確率和運行速度的深入實驗探究。每屆 WSDM 都會像 KDD 一樣,舉辦一個數據挖掘類比賽。今年的比賽的出題方是流媒體音樂公司 KKBOX(與 Spotify、Apple Music 等類似),共有兩個任務,一是用戶流失預測,二是音樂個性化推薦,阿里團隊在前一個任務上一舉奪得亞軍。

      雷鋒網 AI 研習社以此次比賽為契機,與王智楠展開討論,了解到阿里神燈團隊獲勝的獨門秘籍、經驗教訓以及多層 Stacking Model 的相關信息。

      WSDM Cup 挑戰(zhàn)賽

      在 KKBOX 的用戶流失預測任務中,參賽者需要根據主辦方提供的數據,預測 2017 年 3 月訂閱到期的用戶中,哪些會流失。

      談及參加此次比賽的原因,王智楠對 AI 研習社說道,「算法團隊需要經常關注數據挖掘類比賽,獲取最新信息。得知這一比賽時,恰好神燈團隊在做音樂推薦項目,我們就想拿 KKBOX 的數據練練手。另外,我此前參加過 WSDM 2017,對此次會議也有一定了解。」

      這次比賽是一個比較典型的二分類問題。王智楠表示,二分類問題中,他們主要考慮兩個方面:

      • 一是特征,希望能將更多的信息融入進來;

      • 二是模型,在單模型上,業(yè)內用的都差不多,這一階段重點考慮融合。

      主辦方提供的數據有如下三類:

      • 訂單數據。2017 年 3 月之前兩年的訂單交易信息,包括用戶 id、付款方式、購買的會員周期、價格、時間、是否是自動續(xù)訂等。

      • 用戶聽歌日志。2017 年 3 月之前兩年的用戶聽歌日志,包括用戶 id,日期,聽歌數量、時長等。

      • 用戶人口統(tǒng)計學信息。截止 2017 年 3 月的用戶信息,包括所在城市、年齡、性別、注冊時間等。

      在數據預處理階段,他們主要碰到兩類問題,一是臟數據,二是正負樣本比例不均衡。

      • 針對臟數據問題,例如年齡數值小于 0 或者大于 100,注冊時間和支付金額中的極端異常值,他們處理的方式有根據分布將異常值轉換為合理取值,刪除無法解釋且不包含重要信息的數據等。

      • 對正負樣本分布不均衡的問題,他們使用欠采樣的方式對訓練樣本進行處理,分別嘗試了 1:3,1:5,1:8 的正負樣本配比,在最終模型中,根據交叉驗證的結果選擇了最優(yōu)配比。

      在特征工程階段,他們做了很多數據分析工作,比如統(tǒng)計用戶的注冊方式、注冊渠道,每個渠道的注冊人數,是否過濾掉特別小的渠道等。

      針對出題方給的三份數據,神燈團隊起初對每份數據都進行了分析,大概一周之后,發(fā)現除了訂單數據,聽歌日志和用戶人口統(tǒng)計學信息起的作用很小,這時候他們進行了策略上的調整——把聽歌日志和用戶人口統(tǒng)計學信息放在一邊,集中精力處理訂單數據。直到比賽的最后階段,他們也沒有特別花時間研究另外兩個數據。

      最終,他們使用兩層 Stacking Model,第一層采用邏輯回歸、隨機森林、XGBoost 算法,第二層又采用 XGBoost 算法把第一層的結果融合,在最后取得第二名。

      在此次比賽中,他們也有一套方法論:「我們內部有一個稱為 MVM(minimum variable model)——最簡可用模型的策略,即先上線一個最小的模型,之后通過每次提交結果獲得反饋,再不斷修改原來的模型。」

      目前,AliOS 神燈團隊已經在利用深度學習做推薦系統(tǒng),但在比賽中并沒有使用這一方法,王智楠表示,這次的場景不太適合利用深度學習,更加適合傳統(tǒng)特征工程的構造方式。他說道,「比賽時,主辦方提供的數據都是經過加工的數據,比如用戶聽歌日志,主辦方已經把這個數據整理到某人每天聽了多少歌的粒度,這種細粒化的數據導致不太適合用深度學習方法解決。而我們平時利用深度學習做推薦可以從最原始的數據開始,將這些數據直接輸入到模型里,得到一個處理過的向量值。」

      細節(jié)分享

      比賽并非一帆風順,王智楠表示,中途出現了戲劇性的情況:比賽開始沒多久,由于出題方的失誤——在驗證數據階段沒有對用戶的結果進行隨機打斷,導致很多選手的比賽得分接近于滿分。「期間中斷了大概兩到三周,后來主辦方又公布了一批新的數據,大家得以重回到比賽中。」因為這一問題,他們之后再重新修改模型時,狀態(tài)不如之前,因此花了一段時間進行調整與追趕。

      此外,分析了冠軍和其他選手的方案,他總結出兩方面的教訓。

      • 第一是時間管控與模型調試。王智楠表示,他們在最后兩周留的時間太緊張了,導致沒有足夠的時間調整線上模型超參。「其他參賽團隊可能會這么嘗試——每周把參數上調一個點,然后觀察線上分數的變化情況。此外,如果我們能夠在前面階段將速度放快,就可以為比賽后期預留更多時間,把參數調的更好一點。」

      • 第二是特征處理和數據分析。他在這里重點提到冠軍的方案。王智楠對雷鋒網 AI 研習社說道,從模型上對比他們與冠軍的方案,神燈團隊更占優(yōu)勢,但冠軍在特征工程上做得比他們更加細致。他以日期為例,對于這一參數,他們會將其轉化成一個數值來構造特征,但冠軍還會把日期轉化成 one-hot 特征。「有一些日期,比如是否月底,其實還是具有一些信息量的,但是當時我們沒有考慮到這個問題。不單是這次比賽,在做其他比賽和業(yè)務的時候,也需要這么細致的考慮。」

      他們團隊主要是進行推薦算法的設計,之前也有相關的經驗積累,那么,在工作中的算法是否能直接應用于此次比賽呢?

      王智楠表示,參加比賽和實際業(yè)務場景還是存在極大差異。「比賽時可以不用考慮計算成本、線上服務,效率問題。但在實際場景下,如果模型做得太過復雜,后臺計算就會特別復雜,時間可能會特別長,用戶體驗就不那么美好了。例如用戶想要一個推薦服務,請求之后,1 秒鐘都沒有回復,這就存在極大問題。」

      多層 Stacking Model

      其實除了此次比賽,AliOS 的推薦算法團隊還在多項國際大賽上獲得優(yōu)勝,例如 2015 ACM RecSys Challenge 亞軍,2016 ACM RecSys Challenge 冠軍,2016 KDD CUP Phase1 第二名。此外,他們團隊在阿里天池的天貓推薦大賽、LBS 推薦大賽等多個內部賽上都曾獲得獎項。

      而這次比賽中使用的多層 Stacking model,也是源于 2016 年 KDD Cup。當時在比賽中為了提升效果,他們不斷搜集資料,研究出這一模型。后來,他們嘗試在線上使用這一方法,發(fā)現提升顯著,于是有了這一模型的完備方案以及大規(guī)模應用。

      他坦誠表示,雖然這一模型可以極大提升預測準確率,但目前也存在一個問題——線上消耗資源量比較大。「以前可能只用訓練一個模型,但現在用兩層 Stacking Model 就要多訓練 4 個模型。」不過相較該模型帶來的優(yōu)勢,資源的消耗相對來說變得不那么重要:「對于一些場景,比如廣告場景,雖然資源消耗多,但性價比相對來說比較高。」

      目前,他們也在研究如何用最少的資源來訓練模型。

      談到該算法的實際應用,王智楠說道,現在主要還是集中在 AliOS 系統(tǒng)互聯(lián)網汽車的音樂推薦上。目前,上汽集團大概有 50 萬輛互聯(lián)網汽車上裝載 AliOS 系統(tǒng),這些用戶能優(yōu)先體驗到推薦算法帶來的便利。

      相關文章:

      阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

      雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

      看阿里 AliOS 神燈團隊在推薦系統(tǒng)上的獨門秘籍

      分享:
      相關文章

      編輯

      關注AI學術,例如論文
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 兴安盟| av东京热一区二区三区| 在线观看潮喷失禁大喷水无码| 电影久久久久久| 国产又黄又爽又色的免费| 上司人妻互换中文字幕| 久久精品亚洲| 国产成人a亚洲精品久久久久| 扒开粉嫩的小缝隙喷白浆视频| 久操视频在线免费观看| 成人国产精品秘片多多| 久久久精品人妻一区二区三区| 欧美性色黄大片| 啪啪电影| 久久亚洲精品无码va白人极品| 久久国产精品波多野结衣| 中文字幕一区二区三区日韩精品| 污污污www精品国产网站| 五月婷婷丁香色| 精品久久久无码人妻中文字幕 | 久久精品国产77777蜜臀| 国产情侣激情在线对白| 中国亚州女人69内射少妇| 国产精品乱码人妻一区二区三区| 国产成人精品综合在线观看| 欧美成人www免费全部网站| 国产成人综合在线观看不卡| 南漳县| 边添小泬边狠狠躁视频| 国产精品伦子伦免费视频| 久久精品女人天堂av| 极品熟女精品| 无码中文字幕网| 风流老熟女一区二区三区| 国产91丝袜在线播放动漫| 国产首页一区二区不卡| 国产综合久久久久鬼色| 中文字幕久久久久人妻中出| 国产精品国产三级国产午| 亚洲蜜桃v妇女| 久久精品国产亚洲av天海翼 |