<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給MrBear
      發送

      0

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      本文作者: MrBear 編輯:楊曉凡 2018-04-24 19:11
      導語:有無窮無盡的計算資源并不一定可以為所欲為。但知識蒸餾似乎可以幫你盡量突破分布式隨機梯度下降的瓶頸!

      雷鋒網 AI 科技評論按:Hinton 團隊最近發表了一篇關于「在線蒸餾」的新論文。論文里講了什么呢?

      我們為什么需要在線蒸餾?

      近年來,隨著深度學習技術的蓬勃發展,我們日常生活的每個角落都充滿了「人工智能」的影子,并由此催生了許多新的業態、以人工智能應用為核心產品的初創公司也如雨后春筍般在科技行業中嶄露頭角。是的,這也許是人工智能(特別是深度學習)最好的時代。

      然而,深度學習作為當今人工智能領域皇冠上最璀璨的明珠,如果要想將其推向工業級的應用,則往往需要可望而不可及的強大算力!而這種算力則是由價格高昂的硬件、龐大而復雜的分布式計算環境、精妙高效的算法作為支撐的。可想而知,除了 Google、Amazon、阿里巴巴、百度等掌握強大計算資源的科技巨頭外,想獲得這樣的計算資源對于小型企業或者個人用戶可謂是天方夜譚。實際上,在很多普通的高等院校和科研單位中,擁有像 Titan X 或 GTX 1080 Ti 這樣的民用顯卡已經是很奢侈的事情。更重要的是,由于基礎架構的限制(分布式計算節點的通信、同步、任務調度等問題)、對模型進行優化求解的障礙、集成學習環境下各模型的貢獻缺乏好的決策,使得盲目的堆砌計算資源也可能觸碰到模型性能的天花板(例如:分布式隨機梯度下降(distrtibuted SGD))。

      為此,「深度學習泰斗」Geoffrey E.Hinton 近年來在知識蒸餾(或者「暗知識提取」)方面做了一系列工作,試圖通過這種從高計算能力要求、同時也具有高表現的模型中提取出一些隱含的知識,并且將其作為先驗,通過設計新的網絡結構和目標函數將這種知識「傳授」給規模較小的深度學習網絡,實現對網絡模型的壓縮,以顯著縮小的網絡規模和計算需求展現出盡量高的模型表現。最近,為了將這種思想部署在分布式環境中,用以突破如今常常被使用的分布式 SGD(同步和異步形式)的瓶頸,Hinton 團隊又發布了名為LARGE SCALE DISTRIBUTED NEURAL NETWORK TRAINING THROUGH ONLINE DISTILLATION」(通過在線蒸餾的神經網絡大規模分布式訓練)的論文。在筆者看來,Hinton 的這一系列工作進一步降低了深度學習模型應用的門檻,之前的研究對深度學習模型在移動終端上的部署、這篇論文對提高大規模計算集群上的模型表現和計算效率都有深遠意義。

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      論文地址:https://arxiv.org/abs/1804.03235 

      知識蒸餾的前世今生

      要想理解「在線蒸餾」的概念,我們有必要回顧一下 Hinton 從 2014 年開始對 dark knowledge extraction(暗知識提取) 和 knowledge distillation(知識蒸餾)的相關工作,甚至更早的 Caruana et.al 所做的模型壓縮的工作。

      為了提升神經網絡模型的性能,Caruana 等人早在 2006 年(那時深度學習還沒有大火)就提出了一種壓縮大規模復雜網絡的方法。由于集成學習在傳統的機器學習領域大獲成功,許多深度學習研究人員很自然地想要利用集成學習的思想,將大量的模型聚合到一個神經網絡中,通過暴力的訓練,為不同的模型賦予不同的權值,對這些模型的輸出進行加權平均得到最終的結果,以便充分利用它們各自對于不同的任務所具有的優勢。然而,這種暴力的訓練過程和臃腫的網絡結構需要消耗巨大的計算資源、造成額外的能源消耗。Caruana 等人提出了 MUNGE 的數據增強算法,將大規模模型學習到的函數壓縮進規模更小、訓練更便捷的模型中。 

      受此啟發,時隔 8 年后,當深度學習迎來春天、人們沉醉于大規模深度學習網絡帶來的人工智能在計算機視覺、自然語言處理等方面的成功應用的時候,宗師 Hinton 則認為,是時候回過頭來看看 Caruana 的文章,思考如何將這些「丑陋的」大規模的模型壓縮到小而快的模型中去。

      由此,Hinton 提出了「dark knowledge」的概念。在他看來,這種被稱為「暗知識」的東西才是深度學習本質上學到的知識(或許這也是尋求深度學習可解釋性的一種途徑)。Dark knowledge,顧名思義,就是隱藏在深度學習表面上所展現出來的網絡結構、節點之間的連接權重、網絡的輸出這些看得到的數據之下的知識。如果能夠找到一種途徑,使得我們能夠獲取這種知識,并且將其包裝成一種先驗概率,遷移到更小的模型中去,是否能夠提升小模型的性能呢?事實上,筆者認為,這也可以看作是在遷移學習的框架下,將大規模網絡視作信息充分的 source domain,將小規模網絡視作需要大規模網絡補充信息的 target domain,而我們提取到的 dark knowledge 則是兩個任務之間的 common knowledge。

      然而,該從哪里下手,獲取這種知識呢?Hinton 敏銳地觀察到:我們在絕大多數的預測任務的深度學習網絡中,都會使用 softmax layer 為大量的標簽分配概率分布。然而這種處理方式存在一個負作用:與正確標簽相比,模型為所有的誤標簽都分配了很小的概率;然而實際上對于不同的錯誤標簽,其被分配的概率仍然可能存在數個量級的懸殊差距。例如:在圖片分類問題中,我們要將圖片分成貓、狗、老虎三類。在一次訓練中,我們給三類分配的概率分別為 [0.0010, 0.0001, 0.9989],從而最終得到 [0,0,1] 的 one-hot 編碼作為分類結果(即 hard-target),我們認為圖片所代表的是一只老虎。然而,softmax 函數輸出的概率往往包含著類別之間潛在的相關性。在這個例子中,我們可以看到,圖片可能是貓的概率比圖片是狗的概率更接近圖片是老虎的概率,這說明貓和老虎之間存在的內在聯系更加強大。類似地,Hinton 也舉例說:在識別一輛寶馬汽車的圖片時,分類器將該圖片識別為清潔車的概率是很小的,然而這種概率比起將其識別為胡蘿卜的可能是會大出很多。由于在宏觀上由于這些概率都很小,這一部分的知識很容易在訓練過程中淹沒,這無疑是浪費了重要的可以用于將大規模網絡的知識遷移到小規模網絡中去的寶貴先驗概率。

      為了充分利用這種類類別之間的相關性,我們需要通過某種方式去改變概率分布,使其更加平緩。而 Hinton 僅僅對我們經常使用的 softmax 函數進行了一點點修改,就達到了這一目標,他究竟是怎么做的呢?

      事實上,如下面的公式所示,Hinton 向 softmax 函數添加了一點「佐料」——參數「T, 溫度」(如今 T 已經成為了許多深度學習模型的標配,例如在生成文本的 RNN 中提高 T 可以增加生成文本的多樣性):


      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      其中,z 為每一個類別輸入的 logit。式中 T=1 時,退化成傳統的 softmax;T無窮大時,結果趨近于 1/C,即所有類別上的概率趨近于相等。T>1 時,我們就能獲得 soft target label。通過提高 T,softmax層的映射曲線更加平緩,因而實例的概率映射將更為集中,便使得目標更加地「soft」。

      有了這個 distillation 的內核,Hinton 按照以下的步驟對大規模網絡進行「蒸餾」:

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      知識蒸餾示意圖(圖片來自網絡:https://www.zhihu.com/question/50519680,本圖作者YJango)

        1. 訓練大模型:先用 hard target(類似于 [0,0,1] 的 one-hot 編碼)的樣本訓練。

        2. 計算 soft target:利用訓練好的大模型來計算 soft target 。也就是大模型「軟化后」再經過 softmax 的輸出。

        3. 重新創建一個小的網絡,該網絡最后有兩個 loss,一個是 hard loss,即傳統的 softmax loss,使用 one-hot label;另外一個是 soft loss,即 T>1 的 softmax loss,使用我們第二步保存下來的 soft target label。

      整體的 loss 如下式:

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      其中

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器為第二步輸出的 soft label。

      用「軟化」訓練集訓練小模型。訓練小模型時 T 不變仍然較大,訓練完之后 T 改為1。


        4. 預測時,將訓練好的小模型按常規方式使用。

      現在我們可以把 Hinton 的方法和下圖所示的最初 knowledge distillation 的由來作個對比。

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      可見,本質上這相當于對數據進行了增強(augmentation),加入了類別之間的關聯性的先驗信息。將大規模網絡學習到的這種關系包裝在數據中,用這種更強的數據來訓練小規模的模型,充分考慮到了類間的距離和類內的方差信息。從而提升了小規模模型的性能,達到了「蒸餾」的效果。與直接使用預訓練模型的結構和權重相比,這是一種相對更「高級」的知識遷移的方式。

      在線蒸餾?新瓶裝舊酒?

      時間的車輪一眨眼就駛向了 2018 年,隨著移動終端上的深度學習等應用的出現,網絡模型壓縮成為了一個廣受關注的領域,大量的研究者在 Hinton 的啟發下,退出了 distillation 的諸多變形,進行了深入的優化。Hinton 則一如既往地嘗試開拓更多新的深度學習范式;當然也可能是谷歌的計算資源太過充足所以遇到了別人沒有機會遇到的問題(給跪),Hinton 開始嘗試在大規模分布式計算環境下使用「在線蒸餾(online distillation)」方法。這是由于目前的分布式 SGD 方法遇到了瓶頸。而本地的「蒸餾」算法也因其對數據管道的計算操作過于復雜而暴露出越來越多的問題。

      具體而言,在分布式 SGD 中,由于邊際效益遞減的規律,增加參與訓練的機器數量而獲得的計算效率的提升漸漸變小,直到毫無效果。另一方面,他們也想使用集成的深度學習模型提高預測的準確率。為了在不增加測試時間成本的情況下獲得與集成學習同等的收益,他們對一個 n 路集成模型進行蒸餾(distill),得到一個單一模型,這包括兩個階段:

      • 使用 M 機器來訓練分布式 SGD 的 n 路集成模型,然后使用 M 機器(T 不變)來訓練 student 網絡(小規模網絡),這個小規模網絡會模擬這個 n 路集成模型。

      • 通過在訓練過程中使用更多機器,蒸餾會增加訓練時間和計算復雜度,以換取接近更大的 teacher 集成模型的質量改進。

      Hinton 他們將這種在線的蒸餾方式稱為「codistillation」:即分布式環境中的每個節點之間都可以互為 teacher 和 student,并且互相提取內在的知識,用以提升其它節點的模型性能,具體的算法如下:

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      如算法 1 中所示,為了突破分布式 SGD 的瓶頸,Hinton 他們利用蒸餾算法提高了模型的訓練效率。使用蒸餾方法更新一個網絡的參數只需要對其他網絡的預測結果,這些網絡可以利用其他網絡權重的副本進行本地計算。

      值得注意的是,即使教師模型和學生模型是同一神經網絡的兩個實例,蒸餾也有好處,只要它們有足夠的區別(比如,不同的初始化、以不同的順序接收輸入樣本;可以參見論文第 3 節的經驗證據)。這也說明這種「在線蒸餾」的方法是具有很強的普適性的。

      Hinton 他們在這個工作中將蒸餾技術和分布式 SGD 相結合,從而使一個分布式 SGD 的工作組內的各個節點能夠交換檢查點(checkpoint)保存的網絡信息,利用這種信息作為蒸餾出來的知識,通過「老師-學生」的訓練,加速學生網絡的訓練。在這個過程中,學生節點和老師結點的角色是互換的,因此,各個網絡互相促,進從而實現共同的蒸餾。

      其實,就算「在線蒸餾」是新瓶裝舊酒,那也是一個非常恰當的,閃閃發光的新瓶子。它利用蒸餾技術,降低了分布式 SGD 的通信開銷,成功提高了預測的準確率,提升模型的計算性能!

      結語

      筆者通過這篇文章和大家一起回顧了知識蒸餾的相關知識,并且粗淺地了解了 Hinton 在這個領域所做的最新工作。我們可以看到,Hinton 作為一代宗師,每次都能夠以超過常人的眼光發現研究的新方向,并且提出簡單、美、效果卓越的解決方案,這與他對自然、對生物的神經系統、對生活、對所面臨的問題的犀利的觀察是密不可分的。這激勵著所有的人工智能研究者開拓視野、放飛心靈,充滿創造力地去探索新的未知領域。雷鋒網 AI 科技評論這樣的學術媒體也會不斷地把最新的學術研究進展介紹給大家。

      論文地址:https://arxiv.org/abs/1804.03235 ,雷鋒網 AI 科技評論報道

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

      分享:
      相關文章

      知情人士

      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 蜜臀av一区二区国产精品| 伊人网狼人| 国产精品lululu在线观看| 国产精品久久国产精麻豆99网站| 德州市| 国产精品免费无遮挡无码永久视频| 青青草乱人| 国产肉丝袜在线观看| 亚洲精品日本久久一区二区三区| 日本免费有码中文字幕| 曰本丰满熟妇xxxx性| 日韩OL丝袜无码AV啪啪| 蜜桃av一卡二卡三卡| 亚洲成人色情| 日韩 无码 偷拍 中文字幕 | 亚洲无码性爱视频在线观看| 国产精品自在在线午夜免费| 容城县| 国产伦精品一区二区三区| 亚洲精品日韩中文字幕| 黑河市| 亚洲乱码日产精品bd| 中文人妻无码一区二区三区在线 | 久久久久人妻精品区一| 一本加勒比HEZYO熟女| 亚洲成vr人片在线观看天堂无码| 国产91丝袜在线播放动漫| 久久久综合九色合综| 免费午夜无码片在线观看影院| 亚洲天堂中文字幕| 亚洲欧洲日产国无高清码图片| 99精品视频手机在线观看| 国产欧美精品aaaaaa片| 亚洲精品乱码久久久久久中文字幕| 中文日韩在线一区二区| 亚洲爽图| 西西大胆午夜人体视频| 日韩欧美的偷拍?一区二区| 免费人成年激情视频在线观看| 日本精品一区二区三区四区| 免费AV网站|