<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給AI研習社-譯站
      發送

      0

      機器學習中的數學意義

      本文作者: AI研習社-譯站 2020-10-13 10:59
      導語:避免報告超出統計學意義的數字結果。

      機器學習中的數學意義

      字幕組雙語原文:機器學習中的數學意義

      英語原文:Digit Significance in Machine Learning

      翻譯:雷鋒字幕組聽風1996


      機器學習中的用于聲稱性能的指標標準很少被討論。由于在這個問題上似乎沒有一個明確的、廣泛的共識,因此我認為提供我一直在倡導并盡可能遵循的標準可能會很有趣。它源于這個簡單的前提,這是我的科學老師從中學開始就灌輸給我的:

      科學報告的一般規則是,您寫下的每個數字都應為“ 真”的,因為“ 真”的定義是什么。    

      讓我們來研究一下這對測試性能等統計量意味著什么。當你在科學出版物中寫下以下陳述時:

      測試準確率為52.34%。你所表達的是,據你所知,你的模型在從測試分布中提取的未見數據上成功的概率在0.52335和0.52345之間。

      這是一個非常強有力的聲明。  

      考慮你的測試集是從正確的測試分布中抽取的N個樣本IID組成的。成功率可以表示為一個二項式變量,其平均概率p由樣本平均值估計:p ? s / N

      其標準差為:σ=√p(1-p)。

      其中當p=0.5時,其上限為0.5。

      在正態近似下,估計量的標準差為:δ=σ/√N。

      這個精度估計上的誤差δ 是這樣的,在最壞的情況下,有約50%的精度

      機器學習中的數學意義

      換句話說,為了保證上述報告中例子52.34%的準確率,你的測試集的大小至少應該在30M樣本的數量級上!這種粗略的分析很容易轉化為除了準確率以外的任何可計算的數量,盡管不能轉化為像似然率或困惑度這樣的連續數字。

      下面是一些常見的機器學習數據集的說明。

      在ImageNet上可以合理地報告多少位數的精度?準確率在80%左右,測試集是15萬張圖片:

      √(0.8*0.2/150000) = 0.103%

      這意味著你幾乎可以報告XX.X%的數字,而實際上每個人都是這樣做的。

      MNIST呢,準確率在99%:

      √(0.99*0.01/10000) = 0.099%

      噗,也報個XX.X%就OK了!

      然而,最值得注意的是,在大多數情況下,性能數據并不是單獨呈現的,而是用來比較同一測試集上的多種方法。在這種情況下,實驗之間的抽樣方差會被抵消,即使在樣本量較小的情況下,它們之間的準確度差異也可能在統計學上很顯著。估計圖方差的一個簡單方法是執行bootstrap重采樣。更嚴格、通常更嚴格的檢驗包括進行配對差異檢驗或更普遍的方差分析。 

      報告超出其內在精度的數字可能很具有極大的吸引力,因為在與基線進行比較的情況下,或者當人們認為測試集是一成不變的情況下,同時也不是從測試分布中抽取的樣本時,性能數字往往更加重要。當在生產中部署模型時,這種做法會讓人感到驚訝,并且固定的測試集假設突然消失了,還有一些無關緊要的改進。更普遍的是,這種做法會直接導致對測試集進行過擬合。

      那么,在我們的領域中數字為“真”意味著什么?好吧,這確實很復雜。對于工程師而言,很容易辯稱不應該報告的尺寸超出公差。或者對于物理學家來說,物理量不應超過測量誤差。對于機器學習從業者,我們不僅要應對測試集的采樣不確定性,而且還要應對獨立訓練運行,訓練數據的不同初始化和改組下的模型不確定性。  

      按照這個標準,在機器學習中很難確定哪些數字是 "真 "的。解決辦法當然是盡可能地報告其置信區間。置信區間是一種更精細的報告不確定性的方式,可以考慮到所有隨機性的來源,以及除簡單方差之外的顯著性檢驗。它們的存在也向你的讀者發出信號,表明你已經考慮過你所報告的內容的意義,而不僅僅是你的代碼所得到的數字。用置信區間表示的數字可能會被報告得超出其名義上的精度,不過要注意的是,你現在必須考慮用多少位數來報告不確定性,正如這篇博文所解釋的那樣。一路走來都是烏龜。

      數字少了,雜亂無章的東西就少了,科學性就強了。

      避免報告超出統計學意義的數字結果,除非你為它們提供一個明確的置信區間。這理所當然地被認為是科學上的不良行為,尤其是在沒有進行配對顯著性測試的情況下,用來論證一個數字比另一個數字好的時候。僅憑這一點就經常有論文被拒絕。一個良好的習慣是對報告中帶有大量數字的準確率數字始終持懷疑態度。還記得3000萬、30萬和30萬的經驗法則對最壞情況下作為“嗅覺測試”的統計顯著性所需樣本數量的限制嗎?它會讓你避免追逐統計上的“幽靈”。 

      (感謝為本文早期版本提供寶貴意見的一些同事)


      雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關于人工智能技術領域的行業轉變與技術創新的見解。

      團隊成員有大數據專家,算法工程師,圖像處理工程師,產品經理,產品運營,IT咨詢人,在校師生;志愿者們來自IBM,AVL,Adobe,阿里,百度等知名企業,北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內外高校研究所。

      如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

      機器學習中的數學意義

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      機器學習中的數學意義

      分享:
      相關文章

      知情人士

      AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 成人三级精品| 欧美一本大道香蕉综合视频| 久久熟| 苍井空亚洲精品AA片在线播放| 黄平县| 美腿丝袜亚洲综合第一页| 好吊色欧美一区二区三区四区| 97碰碰碰人妻视频无码| 无码吃奶揉捏奶头高潮视频| 伊人久久精品久久亚洲一区| 国产精品久久久国产盗摄| 日本一区二区久久精品亚洲中文无| 日韩无码人妻中文高清| 国产免费永久精品无码| 成人免费看片又大又黄| 亚洲免费的福利片| 人妻少妇久久精品电影| 国产一区韩国主播| 中文字幕亚洲精品乱码在线看| 国产天美传媒性色av| 民勤县| 7m精品福利视频导航| 小黄片入口| 疯狂三人交性欧美| 91热爆| 天天躁日日躁夜夜爽| 99麻豆| 亚洲av无码牛牛影视在线二区 | 远安县| 正在播放的国产A一片| 乱色熟女综合一区二区三区| 国产乱人伦av在线a麻豆| 2020国产欧洲精品网站| 91熟女视频| 亚洲av综合色一区二区| 亚洲日韩每日更新| 亚洲伊人网站| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交| 石台县| 99久久精品国产一区二区蜜芽| 军人全身脱精光自慰|