<label id="jgr5k"></label>

<legend id="jgr5k"><track id="jgr5k"></track></legend>

^{<sub id="jgr5k"></sub>}

<u id="jgr5k"></u>

久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线

<dfn id="cilni"><fieldset id="cilni"><thead id="cilni"></thead></fieldset></dfn><abbr id="cilni"></abbr>

<bdo id="cilni"></bdo>

<table id="cilni"></table>

<nobr id="cilni"></nobr>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能開發者正文

發私信給汪思穎

發送

3

Kaggle機器學習之模型融合（stacking）心得

本文作者：汪思穎

2017-09-29 19:22

導語：本文適用于被stacking折磨的死去活來的新手

雷鋒網 AI科技評論按，本文作者吉他手，雷鋒網 AI科技評論獲其授權發布。

此文道出了本人學習Stacking入門級應用的心路歷程。

在學習過程中感謝@貝爾塔的模型融合方法，以及如何在 Kaggle 首戰中進入前 10%這篇文章（作者是章凌豪）。對于兩位提供的信息，感激不盡。同時還有Kaggle上一些關于ensemble的文章和代碼，比如這篇（https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python）。

本文適用于被stacking折磨的死去活來的新手，在網上為數不多的stacking內容里，我已經假設你早已經看過了上述所提到的那幾篇有用的文章了。但是，看完之后內心還是臥槽的。我希望下面的內容能成為，你在學習stacking的曲折道路上的一個小火把，給你提供一些微弱的光亮。

本文以Kaggle的Titanic（泰坦尼克預測）入門比賽來講解stacking的應用（兩層！）。

數據的行數：train.csv有890行，也就是890個人，test.csv有418行（418個人）。

而數據的列數就看你保留了多少個feature了，因人而異。我自己的train保留了 7+1（1是預測列）。

在網上為數不多的stacking內容里，相信你早看過了這張圖： Kaggle機器學習之模型融合（stacking）心得

這張圖，如果你能一下子就能看懂，那就OK。

如果一下子看不懂，就麻煩了，在接下來的一段時間內，你就會臥槽臥槽地持續懵逼......

因為這張圖極具‘誤導性’。（注意！我沒說這圖是錯的，盡管它就是錯的！！！但是在網上為數不多教學里有張無碼圖就不錯啦，感恩吧，我這個小弱雞）。

我把圖改了一下：

Kaggle機器學習之模型融合（stacking）心得對于每一輪的 5-fold，Model 1都要做滿5次的訓練和預測。

Titanic 栗子：

Train Data有890行。(請對應圖中的上層部分）

每1次的fold，都會生成 713行小train， 178行小test。我們用Model 1來訓練 713行的小train，然后預測 178行小test。預測的結果是長度為 178 的預測值。

這樣的動作走5次！長度為178 的預測值 X 5 = 890 預測值，剛好和Train data長度吻合。這個890預測值是Model 1產生的，我們先存著，因為，一會讓它將是第二層模型的訓練來源。

重點：這一步產生的預測值我們可以轉成 890 X 1 （890 行，1列），記作 P1 (大寫P)

接著說 Test Data 有 418 行。(請對應圖中的下層部分，對對對，綠綠的那些框框）

每1次的fold，713行小train訓練出來的Model 1要去預測我們全部的Test Data（全部！因為Test Data沒有加入5-fold，所以每次都是全部！）。此時，Model 1的預測結果是長度為418的預測值。

這樣的動作走5次！我們可以得到一個 5 X 418 的預測值矩陣。然后我們根據行來就平均值，最后得到一個 1 X 418 的平均預測值。

重點：這一步產生的預測值我們可以轉成 418 X 1 （418行，1列），記作 p1 (小寫p)

走到這里，你的第一層的Model 1完成了它的使命。

第一層還會有其他Model的，比如Model 2，同樣的走一遍，我們有可以得到 890 X 1 (P2) 和 418 X 1 (p2) 列預測值。

這樣吧，假設你第一層有3個模型，這樣你就會得到：

來自5-fold的預測值矩陣 890 X 3，（P1，P2， P3）和來自Test Data預測值矩陣 418 X 3，（p1, p2, p3）。

-----------------------------------------

到第二層了..................

來自5-fold的預測值矩陣 890 X 3 作為你的Train Data，訓練第二層的模型
來自Test Data預測值矩陣 418 X 3 就是你的Test Data，用訓練好的模型來預測他們吧。

---------------------------------------

最后，放出一張Python的Code，在網上為數不多的stacking內容里，這個幾行的code你也早就看過了吧，我之前一直卡在這里，現在加上一點點注解，希望對你有幫助：

Kaggle機器學習之模型融合（stacking）心得

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

9人收藏

分享：

相關文章

汪思穎

編輯

關注AI學術，例如論文

發私信

當月熱門文章

最新文章

熱門搜索

360 智能駕駛 NLP iPhone5 比亞迪新能源蘋果發布會沃爾沃傅盛信息安全聯通

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

主站蜘蛛池模板：久久无码中文字幕免费影院蜜桃| 牛牛在线视频| 欧美顶级裸体met自慰| 亚洲美女高潮久久久久久久| 国产精品偷伦视频免费观看了| 日本女V片| 狠狠婷婷综合久久久久久| 日本另类αv欧美另类aⅴ| 亚洲性线免费观看视频成熟| 日日碰狠狠添天天爽五月婷| 在线视频a| 欧美日激情日韩精品嗯| 极品午夜剧场| 国内精品久久久久伊人aⅴ| 欧美亚洲一区二区三区在线| 国产91特黄特色A级毛片| 欧美日韩在线第一页免费观看| 天堂在线观看av一区二区三区| 国产精品成人一区无码| 广东省| 国产v亚洲v天堂无码久久久| 欧美乱色| 国产高清一区二区三区视频 | 最新国产在线拍揄自揄视频| av在线自偷自拍| 影音先锋女人av鲁色资源网小说| 韩国无码av片在线观看| 国语自产少妇精品视频蜜桃| 日韩毛片在线视频x| 完整在线视频免费黄片| 91丨日韩丨精品丨乱码| 日韩秘无码一区二区三区| 成年午夜无码av片在线观看| 欧美视频在线第一页| 午夜成人无码福利免费视频| 梓潼县| 成全世界免费高清观看| 亚洲脚交| 人人妻人人爽人人澡av| 超碰51| 裸身美女无遮挡永久免费视频|