<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給圖普科技
      發送

      0

      噪聲預測的無監督學習——通往信息最大化的未來

      本文作者: 圖普科技 編輯:谷磊 2017-05-26 12:50
      導語:NAT的表征學習原則可以理解為尋找InfoMax表征,即最大化地保留了輸入數據的信息的有限熵的表征。

      雷鋒網按:本文由圖普科技編譯自《Unsupervised Learning by Predicting Noise: an Information Maximization View》,雷鋒網獨家首發。

      這個標題是來自一篇近期在互聯網上流傳甚廣的論文——Bojanowski 和Joulin的《 Unsupervised Learning by Predicting Noise》 (2017)

      Bojanowski and Joulin在論文中介紹了一種叫做“噪聲目標法”(NAT)的方法。它通過將數據映射到隨機采樣的噪聲向量,進行表征學習。這個方法看似簡單,實際上功能非常強大,甚至還有超乎常理。

      在這篇文章中,我把這個算法重新解讀為“一個信息最大化的工具”。如果你愿意從我的這個角度來考慮這個算法,你就不難理解“噪聲目標法”了。

      本文內容摘要

      1、本文從informax(信息最大化)算法入手,解釋如何最大程度地保留輸入數據信息,進而學習最優的密集表征。

      2、把表征限制在一個單位范圍內,對于informax算法框架十分有利,本文闡明了其中的原因。

      3、一個分布均勻的確定性表征是否存在,以及informax算法標準是否達到了最大化,問題的答案非常明顯。因此,如果我們相信這樣的解決方法是確實存在的,那么我們完全可以直接尋找接近均勻分布的確定性映射。

      4、“噪聲目標法”(NAT)就是尋找一個在單位范圍的邊緣是均勻分布的確定性映射。具體來說就是,從統一樣本中,盡量縮小實際操作的“地球移動距離”(EMD)。

      5、Bojanowski和Joulin在他們的論文中提到了隨機使用“匈牙利算法”來更新分配矩陣,在本文的最后,我也對此作了簡單的闡述。 

      通過信息最大化進行表征的學習

      假設我們現在將要學習來自于一些 pX分布的數據 xn的一個密集表征。通常情況下,表征可以用一個隨機變量zn表示,這個變量作經過了一些參數分布條件噪聲預測的無監督學習——通往信息最大化的未來的采樣。

      xn~pX

      zn~pZ|X=xn

      在變化的自編碼器中,這個參數分布條件噪聲預測的無監督學習——通往信息最大化的未來會被稱為“編碼器”或者是“識別模型”,又或者是“攤銷變化后端”。不過重要的是,我們現在是跟“編碼器”進行一對一工作,無需明確地指示出一個生成的分布噪聲預測的無監督學習——通往信息最大化的未來

      “信息最大化”原則的意思是一個好的表征的信息熵是密集分布的,同時還要保留輸入X中盡可能多的信息。這一目標可以正式表達為:

      噪聲預測的無監督學習——通往信息最大化的未來

      噪聲預測的無監督學習——通往信息最大化的未來表示“互信息”,噪聲預測的無監督學習——通往信息最大化的未來表示“申農熵”。

      我還引入了下面的符號分布:

      噪聲預測的無監督學習——通往信息最大化的未來

      在實際中,這些“最優化問題”有可能是以各種不恰當的方式呈現的,所以這些問題本身也是存在問題的。

      1、一般情況下,邊緣的熵是很難估測的。我們需要采取一種比較智能的方式來限制噪聲預測的無監督學習——通往信息最大化的未來,不需要對熵進行實際的計算。

      2、如果一個表征具有確定性和可逆性,那么“互信息”在連續的空間內就是無限循環的,而這些最優化問題就會變得毫無意義。所以,為了使這些最優化問題變得有意義,我們需要確保那些病態的可逆行為永遠都不會出現。

      為了解決以上問題,我們可以作以下的改變:

      1、首先,運用勒貝格有限測度,把Z的定義域限制在的噪聲預測的無監督學習——通往信息最大化的未來子集范圍內,這樣一來,微分熵噪聲預測的無監督學習——通往信息最大化的未來在這個定義域內就會始終受到均勻分布的熵的約束。為了與論文內容一致,我們可以把表征定義域限制在歐幾里得單位噪聲預測的無監督學習——通往信息最大化的未來的范圍內。

      2、第二,嘗試把噪聲預測的無監督學習——通往信息最大化的未來和多噪聲表征噪聲預測的無監督學習——通往信息最大化的未來噪聲預測的無監督學習——通往信息最大化的未來表示噪聲)之間的信息最大化。我將假定噪聲預測的無監督學習——通往信息最大化的未來遵循了一種球狀的分布規則,而這個添加的噪聲在實際操作中,從任何給定的范圍噪聲預測的無監督學習——通往信息最大化的未來內,設定了一個噪聲預測的無監督學習——通往信息最大化的未來預測的上限(或者是設定了表征可逆性的上限);從而也框定了“互信息”,把它限制在一個有限值內。那么我們的最優化問題就變成了:

      噪聲預測的無監督學習——通往信息最大化的未來

      這個損失函數生成了一種直觀的感受:你可能正以一種非常隨機的方式,把你的輸入Xn在單位范圍內映射為Zn,但是這樣做,原始數據點Xn就會很容易從Zn的噪聲版——噪聲預測的無監督學習——通往信息最大化的未來恢復。換句話來說,我們是在尋找一個在某種程度上能夠抵擋加性噪聲的表征。

      確定和統一的表征

      我們能很輕易地指出是否存在至少一個表征pZ|X;θ,這個表征具備以下兩種特質:

      第一,ZnXn的確定性函數;第二,噪聲預測的無監督學習——通往信息最大化的未來是在單位范圍內的均勻分布。

      如果具備了以上特征,那么這個噪聲預測的無監督學習——通往信息最大化的未來就是信息最大化目標中的全局最優點。

      但值得關注的是,這個確定性的表征也許并不是獨一無二的,可能會存在很多很多好的表征,尤其是當噪聲預測的無監督學習——通往信息最大化的未來時。

      再看這樣的案例:假設X是一個標準的多元高斯,表征Z是X的一個正常的正交投影。例如,針對一些正交轉換A來說:

      噪聲預測的無監督學習——通往信息最大化的未來

      Z在單位范圍內將會具備均勻分布,而這也是一個確定性的映射。因此,Z是一個信息最大化的表征,它對任何同樣正交映射A都十分有利。

      所以,如果我們假設只存在至少一個確定的、統一Px的表征,那么尋找確定的、能夠把數據映射為大致均勻分布的表征就意義非凡了。

      這才是“噪聲目標法”(NAT)的目的所在

      為達到一個在表征空間里均勻的分布,NAT采用的方法是使“地球移動距離”(EMD)最小化。首先,我們根據已有的數據點,隨機畫了盡可能多的均勻分布,我們把這些均勻分布看作Cn。然后,我們試著把每個Cn與一個數據點配對,直到Cn和對應的表征噪聲預測的無監督學習——通往信息最大化的未來之間的“均方距離”達到最小值。一旦配對成功,已配對的表征和噪聲向量之間的“均方距離”就能被視為測量分布均勻性的度量單位。確實,這是對“瓦瑟斯坦距離”(Pz分布和均勻分布之間的距離)的一種經驗性估測。

      信息最大化的表征就一定是好的表征嗎?

      過去的幾天,我做了太多這種類型的講話——什么是一個好的表征?無監督的表征學習究竟是什么意思?對于InfoMax表征,你同樣可以提出這樣的問題:這是找到一個好表征的最佳指導原則嗎?

      還不夠。對于新手,你可以以任意的方式轉換你的表征,只要你的轉換是可逆的,那么“互信息”就應該是相同的。所以你可以在可逆的條件下對你的表征做任何轉換,無需考慮InfoMax的目標。因此,InfoMax標準不能單獨找到你轉換過的表征。

      更有可能出現的是,我們在操作經驗中所看到的那些成功案例都是ConvNets與InfoMax原則聯合使用的結果。我們僅在ConvNet比較容易展示的表征中,對信息進行最大化操作。

      本文總結

      NAT的表征學習原則可以理解為尋找InfoMax表征,即最大化地保留了輸入數據的信息的有限熵的表征。在“卷積神經網絡范例”中也存在類似的信息最大化的解讀,它根據數據點的噪聲版本來估測這個數據點的指數。在開始的時候,你肯定會認為這些算法很奇怪,甚至是超乎常理的,但是如果我們把這些算法重新理解為信息最大化工具,我們就會對他們有所改觀。反正至少我對他們是有了更深的認識和理解的。

      特別內容:一些關于EMD隨機版本的小提示

      以這種文字的方式實施EMD度量的難處在于,你需要找到一個最優的分配方案,分配好兩個實操經驗上的分布和尺度噪聲預測的無監督學習——通往信息最大化的未來。那么為了回避這個難題,作者提出了一個“最優分配矩陣”的任意更新升級,即所有的配對一次只進行一小批更新升級。

      我并不指望這個“最優分配矩陣”能有多有用,但是值得一提的是,這一矩陣使這個算法很容易陷入局部的最小值。假設表征噪聲預測的無監督學習——通往信息最大化的未來的參數是固定的,我們變化、更新的只是其中的分配。我們來看下面圖形中的解讀:

      噪聲預測的無監督學習——通往信息最大化的未來

      在這個2D的球狀單位(圓圈)上的X1,X2,X3分別是三個數據點,這些數據點之間距離相等。是三個可能的噪聲分配,三者之間也是距離相等。C1,C2,C3很明顯,其中的最優分配就是把X1與C1配對,X2與C2配對,X3與C3配對。

      假設,我們當前的映射是次優的,如圖中藍色箭頭指示的;而且我們現在只能在尺寸2的minibatch上更新分配。在尺寸2的minibatch上,我們的分配只有兩種可能性:第一,保持原來的分配不變;第二,把所有的點都互換,就像圖中紅色箭頭指示的。在上圖這個例子中,保持原來的分配(藍色箭頭)比互換所有的點(紅色箭頭)更可行。因此,minibatch的更新將會使minibatch算法陷入這個局部的最小值。

      但是這并不意味著這個方法沒有用。當噪聲預測的無監督學習——通往信息最大化的未來也同時被更新了的情況下,這個方法確實能讓算法擺脫這個局部最小值。其次,batch的尺寸越大,就約難找到這樣的局部最小值,那么算法也就越不會陷入最小值。

      我們可以轉換一種思維方式,把這個任意的“匈牙利算法”的局部最小值看作是一個圖表。每一個節點代表一個分配矩陣狀態(一個分配排列),每一條邊對應一個基于minibatch的有效更新。一個局部最小值就是一個節點,這個最小值節點與其周邊的N!節點相比成本較低。

      如果我們把原本大小為B的minibatch擴大到一個總樣本的尺寸N,那么我們就會在圖中得到一個N!節點,而每個節點都會超出額度,達到噪聲預測的無監督學習——通往信息最大化的未來。那么任意兩個節點連接的概率就是噪聲預測的無監督學習——通往信息最大化的未來。Batch的B尺寸越大,我們這個圖表就會變得越緊密,局部最小值也就不存在了。

      雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知

      噪聲預測的無監督學習——通往信息最大化的未來

      分享:
      相關文章

      專欄作者

      基于圖像識別技術多維度解讀圖片和視頻
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲乱人伦中文字幕无码| 国产大片黄在线观看私人影院| 一区二区三区四区在线不卡高清| 最新A片| 中文字幕在线v| 精品久久久久久国产牛牛| 中文字幕日韩精品一区二区三区| 乱子轮熟睡1区| 忻城县| 国产绿帽在线视频看| 一级欧美牲交大片免费观看| 日韩成人综合| 成熟丰满熟妇高潮xxxxx视频| 欧产日产国产精品精品| 熟妇啊轻点灬大ji巴太粗最新视频| 亚洲人成在线免费观看| 国外少妇视频网站| 免费人成年激情视频在线观看| 中文字幕日韩精品无码内射| 又大又粗又硬又爽黄毛少妇 | 性xxxx欧美老妇506070| 国产色a在线观看| 美女秘密91| 国产v精品成人免费视频71pao| 成人1区2区| 特黄特色的大片观看免费视频| 狠狠色噜噜狠狠狠狠2021| 99r精品在线| 无码人妻一区二区三区一| 乱女伦露脸对白在线播放| 奇米777四色影视在线看| 国产无遮挡又黄又爽又色| 欧美色网| 最近中文字幕免费mv在线视频| 熟女91| 国产午夜视频在线观看| 91视频精品| 两个人的视频高清在线观看免费| 最新国产AV最新国产在钱 | 国精无码欧精品亚洲一区| 亚洲日本中文字幕天天更新|