<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能開發(fā)者 正文
      發(fā)私信給AI研習(xí)社-譯站
      發(fā)送

      0

      機器學(xué)習(xí)算法的新女王——XGBoost

      本文作者: AI研習(xí)社-譯站 2020-08-13 17:21
      導(dǎo)語:遲暮的女王已經(jīng)退場,取而代之的是活力滿滿的新女王——XGBoost(Exterme Gradient Boosting,極限梯度提升)。

      字幕組雙語原文:機器學(xué)習(xí)最優(yōu)算法:XGBoost

      英語原文:XGBoost Algorithm: Long May She Reign!

      翻譯:雷鋒字幕組(yhfwww

      仍然記得15年前參加工作的第一天,剛完成研究生學(xué)業(yè)的我,加入了一家全球投資銀行擔(dān)任分析師。那天我不停地拉直領(lǐng)帶,努力回憶起學(xué)過的所有東西,懷疑自己是否足夠勝任工作。察覺到我的焦慮,老板微笑著說:

      “別擔(dān)心!你只需要知道回歸模型就行了!”

      我當(dāng)時在想,“我知道這個!”。我知道回歸模型、線性回歸和邏輯回歸。老板的說法是對的,在任期內(nèi)我僅僅建立了基于回歸的統(tǒng)計模型。在那個時候,回歸建模是預(yù)測分析無可爭議的女王。15年后,回歸建模的時代已經(jīng)結(jié)束。遲暮的女王已經(jīng)退場,取而代之的是名字時髦、活力滿滿的新女王XGBoost(Exterme Gradient Boosting,極限梯度提升)。

      什么是XGBoost?

      XGBoost是基于決策樹的集成機器學(xué)習(xí)算法,使用了梯度提升框架。在涉及非結(jié)構(gòu)化數(shù)據(jù)(圖像、文本等)的預(yù)測問題中,人工神經(jīng)網(wǎng)絡(luò)往往優(yōu)于所有其他算法或框架。然而,當(dāng)涉及到中小型結(jié)構(gòu)化/表格數(shù)據(jù)時,基于決策樹的算法被認為是目前同類中最好的。請參閱下表了解這些年來基于樹的算法的發(fā)展。機器學(xué)習(xí)算法的新女王——XGBoost  基于決策樹的XGBoost算法演化

      XGBoost算法是華盛頓大學(xué)的一個研究項目。陳天奇和Carlos Guestrin在2016年的SIGGDD大會上發(fā)的的論文,讓機器學(xué)習(xí)世界如火如荼。自引入以來,該算法不僅贏得了眾多的Kaggle競賽,而且還被認為是若干前沿行業(yè)應(yīng)用的驅(qū)動力。因此,有一個強大的數(shù)據(jù)科學(xué)家社區(qū)為XGBoost開源項目做出貢獻,GitHub上有大約350個貢獻者和~3600個提交者。該算法有以下特點:

      1. 應(yīng)用范圍廣泛:可用于解決回歸、分類、排名和用戶自定義預(yù)測問題。

      2. 可移植性:在Windows、Linux和os x上運行平穩(wěn)。

      3. 語言:支持所有主流的編程語言,包括C++、Python、R、java、Scala和Julia。

      4. 云集成:支持AWS、Azure和Yarn集群,與Flink、Spark和其他生態(tài)系統(tǒng)配合良好。

      如何建立對XGBoost的直覺認識?

      決策樹,在其最簡單的形式,是易于可視化和相當(dāng)可解釋的算法,但為下一代基于樹的算法建立直覺可能有點棘手。下面是一個簡單的類比,可以更好地理解基于樹的算法的發(fā)展。機器學(xué)習(xí)算法的新女王——XGBoost  

      照片來Unsplash的rawpixel

      想象一下,你是一個招聘經(jīng)理,面試幾位資歷優(yōu)秀的應(yīng)聘者?;跇涞乃惴ㄟM化的每一步都可以看作是面試過程的一個版本。

      1. 決策樹:每個招聘經(jīng)理都有一套標(biāo)準(zhǔn),比如教育水平、工作年限、面試表現(xiàn)。決策樹類似于招聘經(jīng)理根據(jù)自己的標(biāo)準(zhǔn)面試應(yīng)聘者。

      2. Bagging:現(xiàn)在想象一下,不是一個面試官,而是一個面試小組,每個面試官都有投票權(quán)。Bagging聚合包括通過民主投票過程將所有面試官的意見結(jié)合起來,以最終做出決定。

      3. 隨機森林:這是一種基于Bagging的算法,有一個關(guān)鍵的區(qū)別,其中只有一個子集的特征是隨機選擇的。換言之,每個面試官只會對面試者進行一些隨機選擇的資格測試(例如,測試編程技能的技術(shù)面試和評估非技術(shù)技能的行為面試)。

      4.  Boosting:這是一種替代方法,每個面試官都會根據(jù)前一位面試官的反饋來改變評估標(biāo)準(zhǔn)。這通過部署一個更動態(tài)的評估過程來“提升Boosts”面試過程的效率。

      5. 梯度提升:通過梯度下降算法將誤差最小化的一種特例,例如,戰(zhàn)略咨詢公司利用案例面試來淘汰不合格的候選人。

      6. XGBoost:可以把XGBoost看作是對“steroids”的梯度增強(它被稱為“極致梯度增強”是有原因的!)。它是軟硬件優(yōu)化技術(shù)的完美結(jié)合,可以在最短的時間內(nèi)使用較少的計算資源獲得優(yōu)異的結(jié)果。

      為什么XGBoost表現(xiàn)如此出色?

      XGBoost和Gradient Boosting Machines(GBMs)都是集成樹方法,它們采用梯度下降結(jié)構(gòu)來提高弱學(xué)習(xí)者(CARTs)的學(xué)習(xí)能力。然而,XGBoost通過系統(tǒng)優(yōu)化和算法增強改進了基本GBM框架。機器學(xué)習(xí)算法的新女王——XGBoost  

      XGBoost如何優(yōu)化標(biāo)準(zhǔn)GBM算法

      1. 并行化:XGBoost使用并行化實現(xiàn)序列樹的構(gòu)建過程。這是可能的,因為用于構(gòu)建基本學(xué)習(xí)器的循環(huán)具有可互換性;外部循環(huán)枚舉樹的葉節(jié)點,第二個內(nèi)部循環(huán)計算特征。這是可能的,因為用于構(gòu)建基本學(xué)習(xí)器的循環(huán)具有可互換性;外部循環(huán)枚舉樹的葉節(jié)點,第二個內(nèi)部循環(huán)計算特征。這種循環(huán)嵌套限制了并行化,因為沒有完成內(nèi)部循環(huán)(對這兩個循環(huán)的計算要求更高),外部循環(huán)就無法啟動。因此,為了改進運行時,循環(huán)的順序是通過初始化來交換的,通過對所有實例的全局掃描和使用并行線程進行排序。此開關(guān)通過抵消計算中的任何并行化開銷來提高算法性能。

      2. 樹修剪:GBM框架中的樹分裂停止準(zhǔn)則本質(zhì)上是貪婪的,它依賴于分裂點的負損失準(zhǔn)則。XGBoost使用指定的“max_depth”參數(shù),而不是先使用條件,然后開始向后修剪樹。這種“深度優(yōu)先”方法顯著提高了計算性能。

      3. 硬件優(yōu)化:此算法旨在有效利用硬件資源。這是通過緩存感知來實現(xiàn)的,通過在每個線程中分配內(nèi)部緩沖區(qū)來存儲梯度統(tǒng)計信息。進一步的增強,如“內(nèi)核外”計算優(yōu)化可用磁盤空間,同時處理不適合內(nèi)存的大數(shù)據(jù)幀。

      算法增強:

      1. 正則化:它通過L1脊線L2正則化來懲罰更復(fù)雜的模型,以防止過度擬合。

      2. 稀疏性意識:XGBoost通過根據(jù)訓(xùn)練損失自動“學(xué)習(xí)”最佳缺失值,自然地允許輸入稀疏特征,并更有效地處理數(shù)據(jù)中不同類型的稀疏模式。

      3. 加權(quán)分位數(shù)草圖:XGBoost采用分布式加權(quán)分位數(shù)草圖算法,有效地找到加權(quán)數(shù)據(jù)集之間的最佳分割點。

      4. 交叉驗證:該算法在每次迭代中都帶有內(nèi)置的交叉驗證方法,不需要顯式地對該搜索進行編程,也不必指定一次運行中所需的確切的提升迭代次數(shù)。

      證據(jù)在哪里?

      我們使用scikitlearn的“Make_nuclassification”數(shù)據(jù)包創(chuàng)建了一個隨機樣本,其中有100萬個數(shù)據(jù)點,有20個特征(2個是信息性的,2個是冗余的)。我們測試了一些算法,如Logistic回歸、隨機森林、標(biāo)準(zhǔn)梯度提升和XGBoost。機器學(xué)習(xí)算法的新女王——XGBoost

      XGBoost與使用SKLearn的Make_Classification 數(shù)據(jù)集的其他ML算法的比較

      如上圖所示,與其他算法相比,XGBoost模型具有最佳的預(yù)測性能和處理時間組合。其他嚴格的基準(zhǔn)研究也產(chǎn)生了類似的結(jié)果。難怪XGBoost在最近的數(shù)據(jù)科學(xué)競賽中被廣泛使用。

      “如有疑問,請使用XGBoost”——Owen Zhang

      所以我們應(yīng)該一直使用XGBoost嗎?

      說到機器學(xué)習(xí)(甚至是生活),沒有免費的午餐。作為數(shù)據(jù)科學(xué)家,我們必須測試手頭數(shù)據(jù)的所有可能的算法,以確定冠軍算法。此外,選擇正確的算法是不夠的。我們還必須通過調(diào)整超參數(shù)來為數(shù)據(jù)集選擇正確的算法配置。此外,在選擇獲勝算法時還有其他一些考慮因素,例如計算復(fù)雜度、可解釋性和易于實現(xiàn)。這正是機器學(xué)習(xí)開始從科學(xué)走向藝術(shù)的起點,但老實說,這就是奇跡發(fā)生的地方!

      未來會怎樣?

      機器學(xué)習(xí)是一個非常活躍的研究領(lǐng)域,已經(jīng)有幾種可行的XGBoost替代方案。微軟研究院最近發(fā)布了LightGBM框架來增強梯度,顯示出巨大的潛力。Yandex Technology開發(fā)的CatBoost已經(jīng)取得了令人印象深刻的基準(zhǔn)測試結(jié)果。在預(yù)測性能、靈活性、可解釋性和實用性方面,我們有一個比XGBoost更好的模型框架是遲早的事。然而,直到有一個強大的挑戰(zhàn)者出現(xiàn),XGBoost將繼續(xù)統(tǒng)治機器學(xué)習(xí)世界!

      【封面圖片來源:網(wǎng)站名Unsplash,所有者: Jared Subia】


      雷鋒字幕組是由AI愛好者組成的志愿者翻譯團隊;團隊成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營、IT咨詢?nèi)?、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

      了解字幕組請聯(lián)系微信:tlacttlact

      轉(zhuǎn)載請聯(lián)系字幕組微信并注明出處:雷鋒字幕組

      雷鋒網(wǎng)雷鋒網(wǎng)

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

      機器學(xué)習(xí)算法的新女王——XGBoost

      分享:
      相關(guān)文章

      知情人士

      AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 巴彦淖尔市| 91国内精品久久精品一本| 妓院一钑片免看黄大片| 97超碰人妻| 装睡被陌生人摸出水好爽| 免费无码中文字幕A级毛片| A片入口| 风流少妇一区二区三区91| 无码专区视频精品老司机| 被黑人各种姿势猛烈进出到抽搐| 日韩人妻无码一区二区三区99| 宁陵县| 国产日韩一区二区三区在线观看| www.91大神在线观看| 精品人妻国产| 蜜臂久久99精品久久久久宅男| 中文国产成人精品久久水| 亚洲欧美日韩高清一区二区三区| 亚洲av日韩在线资源| 人妻在卧室被老板疯狂进入| 湖南省| 红桃视频成人传媒| 91在现观看| 国产成人无码av在线影院| jizz日本版| 中文字幕不卡av| 熟女综合网| 亚洲日本色| 国内视频自拍| 99精品久久99久久久久| 国产精品无遮挡猛进猛出 | 国自产拍偷拍精品啪啪模特| 国产AV影院| 欧美va天堂在线电影| 在线无码| 久久精品夜夜夜夜夜久久| 女18一成人免费A级毛片| 天天燥日日燥| 免费无码一区二区三区蜜桃大| 日韩精品 在线 国产 丝袜| 艳妇荡女欲乱双飞两中年熟妇 |