<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給AI研習社
      發送

      0

      2017 知乎看山杯從入門到第二

      本文作者: AI研習社 編輯:賈智龍 2017-09-06 17:23
      導語:第二名也是很強的!

      雷鋒網按:本文原作者MagicBubble,原載于知乎專欄人工智障的深度瞎學之路。雷鋒網已獲得作者授權。

      利用一個暑假的時間,做了研究生生涯中的第一個正式比賽,最終排名第二,有些小遺憾,但收獲更多的是成長和經驗。我們之前沒有參加過機器學習和文本相關的比賽,只是學過一些理論基礎知識,沒有付諸過實踐,看過的幾篇論文也多虧前輩的分享(一個是用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和實踐,另一個是 brightmart 的 text_classification,里面用 Keras 實現了很多文本分類的模型)。這些為我們的入門打下了良好的基礎,在比賽過程中也是反復研讀和實踐,在此感謝兩位前輩的無私分享。

      先放一波鏈接:

      下面對在這次比賽中用到的方法和收獲的經驗,做一個簡單的總結和分享。

      用單模型探索數據的極限

      1. 任務

      • 典型的文本多標簽分類問題,根據用戶在知乎上發布的問題標題及描述,判斷它屬于哪幾個話題

      • 訓練數據給出了 300 萬問題及其話題的綁定關系,話題標簽共有 1999 個,有父子關系,構成有向無環圖

      • 要求對未標注的數據預測其最有可能綁定的 Top5 話題標簽

      • 評測采用準確率與召回率的調和平均,準確率的計算按照位置加權,越靠前的分數越高(具體見評測方案

      2017 知乎看山杯從入門到第二

      2. 數據

      比賽提供的數據是 300 萬問題和話題的標題(下稱 title)及描述(下稱 desc),分別有對應的字序列(下稱 char)和詞序列(下稱 word),全部是以 id 的形式給出。這意味著我們是看不到原始文本的,所以對于 badcase 的分析也很困難,但好在其數據量夠大(2 億多詞,4 億多字),還是可以用深度學習來做。知乎官方也提供了訓練好的 embedding(維度 256),字級別和詞級別的都有,但是是分開訓練,不屬于同一個語義向量空間。

      2017 知乎看山杯從入門到第二

      坊間常說:數據和特征決定了機器學習的上限,而模型和算法知識逼近這個上限而已。對于深度學習,因為不存在特征工程,所以數據處理就至關重要了。而良好且合理的數據處理離不開系統詳細的數據分析,要知道數據是什么樣,數據怎么分布,才能更好地選擇模型和訓練方式。

      2.1 數據分析

      這里主要是對問題的 title 和 desc 做長度分析,更為詳細的分析見數據分析

      首先是問題 title 的字詞長度分布:

      2017 知乎看山杯從入門到第二

      其次是問題 desc 的字詞長度分布:

      2017 知乎看山杯從入門到第二

      2.2 預處理

      • 隨機 shuffle 后以 9:1 的比例劃分線下驗證集和訓練集,防止數據周期的影響

      • 對于 embedding 矩陣中未出現的詞,添加,并用 - 0.25~0.25 初始化,千萬不能扔掉,這樣會破壞前后的語義關系

      • 對于 title 和 desc,分別根據其平均長度 * 2,做截斷和補齊至長度一致,便于 batch 輸入網絡訓練

      2017 知乎看山杯從入門到第二

      3. 模型

      參照 brightmart 的 github 開源,我們嘗試了前 5 種模型,分別是 FastTextTextCNN、TextRNN、RCNNHAN

      其中,HAN 的原始論文中用的是詞和句子兩層 Attention,而數據中是看不出句子的,所以這個方法我只用了一層 word,效果不好。而 RCNN 因為同時用到了 RNN 和 CNN 的思想,所以整個網絡的訓練時間很長,且其效果與單獨的 RNN 和 CNN 差不多,因此后期沒有使用此模型。最終用到的模型有:

      • FastText:通過 Average 抽象出概括性語義信息

      • TextCNN:仿照 n-gram 捕捉局部語義信息

      • TextRNN:提取序列語義信息

      2017 知乎看山杯從入門到第二

      3.1 單模型 Score

      因為沒有花很多時間在單模型調參訓練上,所以最終單 Model 的分數普遍偏低,約比別的隊伍低 0.5~1 個百分點。

      2017 知乎看山杯從入門到第二

      3.2 核心思路

      這是我們這次參賽的一大亮點和創新點,就是成功地在深度學習上應用了一種類似于 AdaBoost 的做法,通過訓練多層來不斷修復前面層的偏差。我們在分析數據的時候發現,一個模型的輸出是具有類別傾向性的,所以在某些類別上可能全對,而在某些類別上可能全錯,所以我們針對這種偏差做了一些改進,通過人為地定義偏差的計算方式,指導下一層模型更多關注那些錯的多的類,從而達到整體效果的提升。

      2017 知乎看山杯從入門到第二

      通過用這種方法,單模型 Score 有了質的飛躍,平均提升都在 1.5 個百分點(FastText 因模型過于簡單,提升空間有限),而 10 層的 RNN 則更是在用全部訓練集 finetune 之后,分數直接從 0.413 飆升到 0.42978,可謂真是用單模型探索數據的極限了。

      2017 知乎看山杯從入門到第二

      這種方法的優勢在于,一般只要不斷加深訓練層數,效果就會提升,但缺點卻在于它抹平了模型的差異性,對于模型融合效果不友好。

      3.3 模型融合

      模型融合依靠差異性,而我們模型的差異性在前面已經近乎被抹平,所以又另尋他路,用了另外兩個方法:

      • 改變輸入,從 word 改成 char,雖然 char 的單模型效果不好,但總體融合卻能提升很多

      • 人為定義不同的偏差計算方式

      最終模型主要是 5 個 10 層模型的概率加權融合,分數在 0.43506。

      4. 結束語

      這次比賽收獲很大,總結起來就是:

      • 數據預處理很重要

      • 模型不一定是最主要的,要多嘗試其他方法,更不能無腦訓模型,尤其是對于深度學習這種 “黑盒子”

      • 比賽心態要放平,要抱著學習的心態

      最后,還是要感謝知乎等組織舉辦的這次比賽,也感謝北郵模式識別實驗室的大力支持!

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      2017 知乎看山杯從入門到第二

      分享:
      相關文章

      編輯

      聚焦數據科學,連接 AI 開發者。更多精彩內容,請訪問:yanxishe.com
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 2021久久精品国产99国产精品| 国产免费又黄又爽又色毛| 国精产品一品二品国精在线观看 | 洗澡被公强奷30分钟视频| 1024免费看| 猫咪AV成人永久网站在线观看| 熟女视频一区二区在线观看| 美女成人网站| 97av在线| 久久综合激情网| 久久精品国产亚洲AⅤ无码| 精品国产一卡| 亚洲综合精品一区二区三区| 国内综合精品午夜久久资源| 国产婷婷综合在线视频| 亚洲不卡| 人妻无码中文久久久久专区| 蜜臀av午夜精品福利| 欧美一区二区日韩国产| 特级aaaaaaaaa毛片免费视频| 国产高清精品在线91| 豆国产97在线 | 亚洲| 精品人伦一区二区三区潘金莲| 国产在线不卡精品网站| 最新亚洲春色av无码专区| 鲁鲁AV| 国产精品成人网| 女人被做到高潮视频| 国产熟女精品视频| 国产欧美一区二区三区在线| 内射夜晚在线观看| 538AV| 无码成a毛片免费| 国产一区二区亚洲一区二区三区| 国产一区二区精品网站看黄| 亚洲精中文字幕二区三区| 精品人妻伦九区久久aaa片69| 国产自国产自愉自愉免费24区 | 少妇人妻偷人精品视蜜桃| 桂东县| 国产精品欧美亚洲韩国日本久久|