Kaggle 商品銷量預測季軍方案出爐，應對時間序列問題有何妙招

本文作者：汪思穎

2018-03-19 09:53

導語：從 1675 支團隊中脫穎而出的方案

雷鋒網(wǎng) AI 研習社消息，Kaggle 上 Corporación Favorita 主辦的商品銷量預測比賽于兩個月前落下帷幕，此次比賽的獎金池共計三萬美元，吸引到 1675 支隊伍參賽。

近日，Private Leaderboard 上的亞軍 SoLucky 團隊在 arxiv 上發(fā)表了一篇論文，闡述了其獲勝方案，雷鋒網(wǎng) AI 研習社對論文內(nèi)容進行編譯整理如下：

作者參加了在 Kaggle 上舉辦的 Corporacion Favorita Grocery Sales Forecasting 銷量預測比賽，并取得了第二名的成績。

這場比賽是基于時間序列數(shù)據(jù)的基礎機器學習問題，論文中闡明了總體分析和解決方案。

作者的方法基于空洞卷積神經(jīng)網(wǎng)絡（dilated convolutional neural network）并進行了改善，來對時間序列進行預測。利用這種技術，在 n 個示例批次中不斷迭代，能夠快速和準確地對大量時間序列數(shù)據(jù)進行處理。

比賽背景

Kaggle 等競賽平臺舉辦的時間序列比賽目前已經(jīng)成為機器學習流行賽事，這些競賽有助于推進機器學習頂尖技術的發(fā)展，將其用于實際領域。

時間序列是不太為人所知的分析領域。由于數(shù)據(jù)存在著季節(jié)性、動態(tài)性和周期性的特征，數(shù)據(jù)序列是非線性的，并存在噪聲，因此很難準確進行識別和預測。

神經(jīng)網(wǎng)絡在近幾年的熱度急劇增長，這使人們對預測有了截然不同的理解。硬件的進步使得我們能夠在一定時間內(nèi)利用深度神經(jīng)網(wǎng)絡解決問題。目前，深度學習是一個可行的解決方案，利用這項技術，近年來研究者們在基準數(shù)據(jù)集的分類精度上打破了很多記錄。

作者在本文中討論了解決 Corporacion Favorita Grocery Sales Forecasting 商品銷量預測問題的方法，描述并分析了將卷積神經(jīng)網(wǎng)絡應用于時間序列數(shù)據(jù)。

數(shù)據(jù)集描述

數(shù)據(jù)被分為兩部分——訓練數(shù)據(jù)和測試數(shù)據(jù)。訓練數(shù)據(jù)用于模型訓練，測試數(shù)據(jù)被分為幾部分，分別用于在公共和私人的排行榜上進行模型的準確性評估。這場比賽中，Corporacion Favorita 提供 125,497,040 個訓練觀察值和 3370,464 個測試觀察值。

數(shù)據(jù)集由按日銷售額、商店編號、商品編號和促銷信息組成。此外，主辦方還提供交易信息、石油價格、商店信息和假期。

該競賽使用 NWRMSLE（標準化加權均方根對數(shù)誤差）作為評價指標。

Kaggle 商品銷量預測季軍方案出爐，應對時間序列問題有何妙招

問題定義

實體店中的采購和銷售需要保持平衡。稍微將銷售預測過量，店里就會積存許多貨物，要是積壓了不易儲存的商品會更加糟糕。而要是將銷量預測過低，設想一下，當顧客把錢都付了，卻發(fā)現(xiàn)沒貨，那這家店的口碑將會急劇下降。

此外，隨著零售商增加新的門店，那里的顧客又可能存在獨特的需求，比如他們想要新的產(chǎn)品，口味隨季節(jié)而變化，那問題將變得更加復雜，產(chǎn)品市場如何真的很難預知。

在這次比賽中，主辦方希望參賽者建立一個更準確的預測產(chǎn)品銷量的模型。作者的目標是建立一個可能應用于實際，并具有最高準確度的銷量預測模型。

主要存在如下三種挑戰(zhàn)：

噪聲數(shù)據(jù)：盡管組織者盡力準備并提供了大量數(shù)據(jù)，但其中存在有噪聲標簽的數(shù)據(jù)。有些數(shù)據(jù)（石油價格、假期、交易）與目標沒有關聯(lián)，在之后根本不會使用。
不可見數(shù)據(jù)：有這樣一種情況，在測試集中出現(xiàn)了不可見的數(shù)據(jù)。由于存在這類不可見的商店/商品數(shù)據(jù)，模型的行為將不可預測。原因如下：訓練集中不包括銷售額為 0 的記錄，但是測試集包含所有的商店/商品組合（不管商店此前是否銷售該商品）。最后，作者假設這些不可見的組合只是零銷售額數(shù)據(jù)，用 0 來進行替換。
準確度：因為這個實驗是嚴格按照比賽規(guī)則進行的，作者嘗試了所有可能用來提高預測準確度的方法。

可選方案

下面的這些架構基于神經(jīng)網(wǎng)絡，但在這個比賽中，最終結果不如作者最后使用的 WaveNet 模型，但他們相信這種架構可以提供一種完全不同的方法來解決問題，產(chǎn)生出一些有趣的洞見，甚至在其他比賽中超越 WaveNet。

循環(huán)神經(jīng)網(wǎng)絡

循環(huán)神經(jīng)網(wǎng)絡（RNN）可以將當前節(jié)點的輸出作為下一個節(jié)點的輸入，可以如下描述：相較于其他深度學習算法，RNN 已經(jīng)被廣泛用于預測時間序列問題，并被定位為預測此類數(shù)據(jù)數(shù)組問題的最先進的方法。

這些網(wǎng)絡的效率可以通過重復的連接來解釋，這些連接允許網(wǎng)絡訪問以前的時間序列值的整個歷史。

可以將 RNN 看成同一個網(wǎng)絡的多個副本，每個副本會傳遞消息給后續(xù)副本。由于自身屬性，RNN 與序列和列表密切相關。在過去的幾年中，將 RNN 應用于時間序列預測問題上已經(jīng)取得了驚人的成果。

其中具有象征意義的是 LSTMs，這是一種非常特殊的 RNN，在許多任務上，它比標準 RNN 的表現(xiàn)要好得多。

GRU 架構也可以作為解決當前問題的方法，它們與 LSTMs 相似，結構更簡。

作者的方法

基于 WaveNet CNN 網(wǎng)絡并做了一些額外的擴展和修改。

近年來，深度學習技術的發(fā)展促使研究人員探索出各種時間序列預測方法，其中就有 WaveNet。WaveNet 是一個生成模型，這意味著模型可以針對一些條件輸入生成實值數(shù)據(jù)（real-valued data）序列。

該架構背后的核心思想是空洞因果卷積（dilated causal convolutions）。由于沒有循環(huán)連接和跳躍步驟，空洞卷積訓練起來比 RNN 要快。

目前，因果卷積存在的問題之一是：為了增大感受野，需要用到多層卷積或者或很多大濾波器。

空洞卷積不存在這些問題，它使用上采樣濾波器代替特征映射（feature maps）。換句話說，空洞卷積允許只增加核的視野在層間維持特征映射的大小，另外，可以用更少的參數(shù)捕獲輸入的全局視圖。

為了能夠產(chǎn)生 16 天的預測值，作者對模型進行了修改。因為訓練使用的是下一步預測值，錯誤會持續(xù)累積。為了解決這個問題，他們使用 sequence to sequence 方法，編碼器和解碼器不會共享參數(shù)。解碼器將會在產(chǎn)生長序列時處理累積的噪聲。這里還用了亞當優(yōu)化器更新網(wǎng)絡權重。數(shù)據(jù)是通過小批次產(chǎn)生的，隨機采樣 128 個序列。

由于整個數(shù)據(jù)集大約包含 17 萬序列 x 365 天，所以在每次訓練迭代中都能向模型輸入不同的數(shù)據(jù)。考慮到這一點，該模型能很好地處理過擬合問題。

在訓練過程中，學習率衰減系數(shù)設置為 0.0005。作者將過去 16 天的訓練數(shù)據(jù)做成一個集合，并將其用于驗證。銷售量的變化和促銷信息可以用來生成的季度和年度模型。

在最后若干個上千或上萬的的小批次中，模型會稍微出現(xiàn)過擬合，所以結果會有一點波動。

為了解決過擬合問題，平滑短期波動，著重于長期的動態(tài)性和周期性趨勢，作者用到移動平均法（Moving average）。在 5000 次小批量迭代之后，模型開始預測，之后每過 2000 次迭代產(chǎn)生預測。在特定的迭代之后，如下圖所示，5 個模型的平均性能優(yōu)于單個模型。為了將模型準確性進一步提高，最終，作者使用指數(shù)移動平均法（exponential moving average），利用局部交叉驗證（local cross-validation）計算出平滑因子（smooth factor）。

Kaggle 商品銷量預測季軍方案出爐，應對時間序列問題有何妙招

該模型有很好的捕獲時間序列數(shù)據(jù)規(guī)律的能力，因此很多特性都沒有被使用。其中一些是單位產(chǎn)品銷售額和促銷信息。

總結

企業(yè)面臨一個明顯的問題——市場是不可預測的。任何銷售預測，無論你的分析條件多么嚴謹，都可能是完全錯誤的。如果市場狀況保持相對不變，一種可靠的預測方法就是使用歷史數(shù)據(jù)。作者的經(jīng)驗表明，卷積神經(jīng)網(wǎng)絡非常善于處理歷史數(shù)據(jù)，捕捉季節(jié)性的趨勢、周期和無規(guī)律的趨勢，如下圖所示。

Kaggle 商品銷量預測季軍方案出爐，應對時間序列問題有何妙招