0
近日,推薦系統領域的 RecSys 2020 挑戰賽賽題公布,競賽主題為「Twitter 參與率預測及內容推薦」。
而競賽數據集正是由 Twitter 提供的約 2 億條公眾推文(說不定就你和特朗普就在同一個樣本里);競賽前三名將從高到低獲得依次為:$ 15000、$ 10000、$ 5000 的高額獎金。
作為目前推薦系統領域影響力最大的賽事之一,RecSys 挑戰賽是推薦系統領域的頂頂級學術會議 RecSys 的一部分。就本次 RecSys 2020 競賽的細節,雷鋒網 AI 源創評論將詳情整理編譯如下。

RecSys 作為推薦系統領域的頂會,一直以來都非常重視利用不同算法,去解決實際的推薦問題。
而建立于頂會之上的 RecSys 挑戰賽,更是不少開發者將其喻為推薦算法的「奧運會」。每一屆都有各大名企團隊與推薦算法佼佼者參與其中,進行激烈的角逐。
競賽自舉辦以來,主題涵蓋了:音樂喜好推薦、情景感知推薦、視頻網站推薦等各類生活化場景,并且在解決這些問題上取得了不錯的成果。

推薦系統案例
目前,隨著深度學習研究的進一步深入,推薦系統也得到了更快的發展,不僅成為了學界的研究熱點,同時也獲得了業界的廣泛關注。
正如文章開頭提到,本屆 RecSys 2020 挑戰賽主題選擇了「Twitter 參與率預測及內容推薦」,因此比賽內容也集中在動態環境中的推文參與度預測的現實世界任務上。
Twitter 上發布了各種各樣世界上正在發生的事情。無論是時下熱點和突發新聞,還是娛樂八卦到體育、政治和日常瑣事,在 Twitter 上,大量文字、圖片等數據實現了全球共享。
用戶在平臺上發布并參與被稱為「推文」的內容,并以「贊」、「回復」、「轉發」和「帶評論轉發」的形式展現出用戶的觀點。

Propagate 和 Filter 提出的四種數據類型及其在傳播中的應用
而隨著 top-K 推薦方法的發展與成熟,RecSys 2020 挑戰賽目標是根據異構輸入數據,預測一組推文針對目標用戶的不同類型的參與(如贊,回復,轉發和帶有評論的轉發)的概率。
旨在以新穎的評估算法,進行大規模地 Twitter 參與率預測,并通過最大的真實世界數據集來預測用戶參與度,鼓勵新推薦方法的開發,從而推動推薦系統的最新技術發展。
同時,作為這項挑戰數據集提供方兼贊助商的 Twitter,也給出了令人心動的獎金,大賽前三名將獲得以下獎勵:
冠軍:$ 15000
季軍:$ 10000
亞軍:$ 5000
在該挑戰賽中,RecSys 計劃將發布 3 個數據集,包括:訓練集、測試集、驗證集。其中,訓練集是通過在 1 周內對積極互動數據進行二次抽樣而獲得,測試集和驗證集則是從下周數據開始采樣。
該數據集包括 Twitter 將發布的大約 2 億條公眾推文的大型公共數據集,這些數據均通過在約 2 周內進行二次抽樣獲得。
其中包含了:參與功能,用戶功能和推特功能,例如:公眾互動(如「贊」、「回復」、「轉發」和「帶評論轉發」),以及從公眾追蹤圖中取樣的 1 億個隨機否定的偽否定詞。

值得注意的是,這一挑戰的一個難點是有關數據保護和隱私的最新法規。涉及到用戶的隱私,挑戰數據集將是合規的:如果用戶從Twitter刪除Tweet或他們的數據,則將立即更新數據集。
數據集將每天進行更新,以確保符合 GDPR 規定;同時,相應的指標也會在排行榜上進行更新。因此,對于數據集中的每個更改,提交的評估都將重新進行,并且排行榜將使用重新計算的指標進行更新。
更多數據集包含可公開獲得的數據功能信息,在 Twitter Developer 文檔(https://developer.twitter.com/ )中進行了更詳細的描述。

參賽者提交結果后,將在平臺上最新 Tweet 類型數據生成的保留測試集上進行評估,評估指標將包括曲線下的精確召回面積(PR-AUC)和交叉熵損失。
目前,RecSys 2020 挑戰賽官網最新時間安排如下:
2020 年 3 月 2 日——數據集發布和 RecSys 挑戰開始(訓練集和驗證集已發布)
2020 年 6 月 1 日——測試數據集發布
2020 年 6 月 7 日——RecSys 挑戰賽結束
2020 年 6 月 15 日——最終排行榜公布和獲獎者 RecSys Challenge Workshop 的論文提交
2020 年 9 月 22 日至 26 日——舉辦研討會(作為巴西里約熱內盧舉行的 ACM RecSys 的一部分)

大賽官網:
http://www.recsyschallenge.com/2020/#participation數據集下載地址:
http://recsys-twitter.com/data/show-downloadsGitHub 地址:
雷鋒網 AI 源創評論 雷鋒網 雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。