<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      AI+ 正文
      發私信給AI研習社
      發送

      0

      mathor 大佬聊賽事:處理「微博立場檢測」賽事,數據比模型重要

      本文作者: AI研習社 2020-03-25 10:50
      導語:AI研習社競賽專區大佬專訪。

      坐鎮大佬:

      mathor:武漢某高校軟件工程大四學生(數學家是我理想)

      AI 研習社 ID:@mathor

      (個人主頁鏈接:https://www.yanxishe.com/center/myPage/5148812


      「微博立場檢測」賽事鏈接:https://god.yanxishe.com/44 

      mathor 大佬聊賽事:處理「微博立場檢測」賽事,數據比模型重要

      AI 研習社:簡單介紹一下你的個人背景,讓我們更了解你唄。

      mathor:我現在就讀于武漢一所普通高校,大四,今年 6 月份畢業,然后參加了 20 年的研究生入學考試。我的本科是軟件工程專業。

      AI 研習社:之前參加過類似的比賽嗎?

      mathor:這已經是我第二次參賽。第一次參賽是在 19 年暑假,那是一場高校大數據挑戰賽,賽題是廣告點擊預測。那一場賽題比較簡單,尤其數據字段較少,不需要運用很復雜的特征工程,非常適合當時的我。

      AI 研習社:比起其他 NLP 賽事,你認為“微博立場檢測”有何不同之處?它是怎么影響你的答題思路的?

      mathor:首先,“微博立場檢測”賽事的字段較少,意味著我們不需要做復雜的特征工程,對新手較友好。

      其次,數據量少,所以只需要普通的 cpu 就能跑。

      最后,正因為數據量較少,所以許多大佬慣用的深度學習方法,如 bert、lstm 等,使用后效果可能不是很好。反而是對模型了解較少,但是非常擅長處理數據的同學,會有更好的成績。

      AI 研習社:所以說你在上周五的 PPT 里著重強調了“數據清洗”的作用,這一塊方便細談一下嗎?

      mathor:這次比賽的數據都是中文的,相比英文而言,中文數據的清洗過程更復雜。

      首先你得分詞,這里就會面臨很多問題,比如不同分詞工具的效果不一致,而且不存在分詞 100% 正確的工具。

      其次,分完詞后,你還將面臨各種亂七八糟的字符,如網址、驗證碼、表情和中文標點符號,這些實際上沒什么意義,如果可以過濾掉這些,肯定會對結果產生很大的影響。

      假設現在有一個非常干凈的數據樣本,隨便帶入一個機器學習的模型,得出的結果不一定比非常亂的樣本帶入深度學習模型的效果差。

      AI 研習社:所以你采取了“pkuseg分詞+fasttext”的方案。

      mathor:采取 fasttext 的原因是它非常簡單,隨便調一下就能用,這樣我可以把更多精力集中在數據處理上。(mathor 大佬參賽baseline:https://god.yanxishe.com/codeplan/detail/72

      AI 研習社:你的 PPT 里還提到一點,就是要善用分詞工具的語料庫,這一塊又是基于什么考量呢?

      mathor:像我前面說過的,不存在 100% 分詞正確的分詞工具,所以應該要想盡辦法提高分詞的準確度。

      假設分詞不正確,后面的過濾可能就會出現問題——比方說很多同學會過濾掉長度等于 1 的字符,但是如果一開始分詞的時候就不準確,結果過濾的時候把一些重要的信息過濾掉了,對結果肯定有影響。

      而各種語料庫就是為了幫助提升分詞的準確性。

      AI 研習社:在數據處理這塊,你比較推薦哪些學習材料?

      mathor:我基本上很少保存資料,都是需要用到的時候才 Google ,查不到了再來問人。

      以下這個表情包我個人覺得非常經典(笑)。

      mathor 大佬聊賽事:處理「微博立場檢測」賽事,數據比模型重要

      AI 研習社:你的 AI 基礎知識也是自學的吧?有沒有什么較好的網站或課程推薦?

      mathor:龍曲良老師的 pytorch 課程。

      AI 研習社:據了解,你還擁有自己的個人博客,可以向我們介紹一下嗎?

      mathor:我的個人博客網址是 https://wmathor.com/ ,里頭主要更新自然語言處理、算法等技術方面的內容,少量寫一些個人感悟之類的。

      AI 研習社:你覺得寫個人博客對你最大的影響是什么?

      mathor:學習完了,要是不及時做筆記,最后會忘記的(笑)。

      AI 研習社:還有哪些關于“微博立場檢測”的關鍵信息,是我的問題沒問出來,你認為有必要跟大家強調的?

      mathor:現在比較流行集成模型,有時間的大佬可以嘗試建立多個模型,然后做個簡單的投票,或者stacking之類的,或許有奇效。畢竟那么多比賽,那么多人都在用。

      這是模型方面,數據處理方面我就不多說了,已經快要接觸到我的方法的核心了 (笑)。

      AI 研習社:最后一個問題,你認為什么是“打比賽的正確姿勢”?

      mathor:不要隨便提交代碼,因為每天提交的次數有限;

      同時不要過分相信驗證集的分數,很可能不準,所以一定要有自己預判分數的方法,什么方法都行;

      然后就是,不會的就及時上網查,原理不懂不要緊,最重要的是要能快速使用。


      「微博立場檢測」賽事鏈接:https://god.yanxishe.com/44

      mathor 大佬聊賽事:處理「微博立場檢測」賽事,數據比模型重要

      雷鋒網 雷鋒網 雷鋒網 

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      分享:
      相關文章

      編輯

      聚焦數據科學,連接 AI 開發者。更多精彩內容,請訪問:yanxishe.com
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 峨眉山市| 欧美色色色| 女人的精水喷出来视频| 人妻少妇精品中文字幕av| 人妻av中文系列| 五月av综合av国产av | 国内精品少妇在线播放| 欧美成人h精品网站| 色欧美片视频在线观看| 精品香蕉在线视频| 成人亚洲精品一区二区三区嫩花 | 色妺妺视频网| 国产一区二区三区在线影院| 色婷婷7777| 国产成人精品综合| 男人和女人做爽爽视频| 精品国产一区二区三区四区阿崩 | 中国免费看的片| 色婷婷色| 逊克县| 91在线观看免费高清| 小金县| 激,情四虎欧美视频图片| 精品综合久久久久久8888| 自拍亚洲欧美精品| 一本一道久久综合狠狠老| 欧美精品在线视频| AV资源站| a片地址| 亚洲AV永久中文无码精品综合| 久久精品丝袜高跟鞋| 宣化县| 色婷婷六月亚洲婷婷丁香| 毛色444综合网| 少妇极品熟妇人妻专区视频| 图们市| 国产大屁股视频免费区| 野花社区在线观看视频| 九九国产精品无码免费视频| 国产成人a∨激情视频厨房| 亚洲国产成人精品无码区蜜柚|