<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給NLP日月星辰
      發送

      0

      SQuAD,斯坦福在自然語言處理的野心

      本文作者: NLP日月星辰 2016-09-07 18:35
      導語:SQuAD會不會成為自然語言處理的ImageNet

      真英雄,成名于少林寺武俠大會;好算法,驗證在斯坦福公開數據。

      武俠小說中一個公平且有影響力的平臺,可以讓俠之大者脫穎而出,科研也是,一個優秀的公開數據集可以讓好算法脫穎而出,并同時讓那些靠吹的算法身敗名裂。本文將詳細敘述今年目前為止自然語言處理界最重量級的數據集 SQuad。

      1. SQuAD是什么?

      SQuAD 是斯坦福大學于2016年推出的數據集,一個閱讀理解數據集,給定一篇文章,準備相應問題,需要算法給出問題的答案。此數據集所有文章選自維基百科,數據集的量為當今其他數據集(例如,WikiQA)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章數據集的貢獻者為斯坦福Percy Liang等人,Percy Liang是自然語言處理界的一位全才,在Semantic Parsing, QA, Optimization等多個領域都有重要貢獻。

      SQuAD,斯坦福在自然語言處理的野心

      當前的公開數據集對比如下,MCTest,Algebra和Science是現在的三個公開的閱讀理解數據集,我們可以看到Squad在數量上遠遠超過這三個數據集,這使得在這個數據集上訓練大規模復雜算法成為可能。同時,相比于WikiQA和TrecQA這兩個著名問答數據集,Squad也在數量上遠遠超過。而CNN Mail和CBT雖然大,但是這兩個數據集都是挖空猜詞的數據集,并不是真正意義上的問答。

      2. 追趕ImageNet ,發力自動問答領域

      這個數據集文章展現了著斯坦福做一個自然語言處理的ImageNet的野心,他很可能成為自然語言學術界未來至少一年內最流行的數據集。模型在這個數據集上做出好成績,可以讓自己的文章加分不少,被頂會錄取的幾率大大增加。如果讀者想發頂會,且目前沒有明確的研究方向,那么刷這個數據集是一條很好的道路。

      于此同時,這個數據集也會為工業界做出貢獻。之所以說會為工業界做出貢獻,因為自然語言處理的研究風氣和圖像相比差一些,任務較多,且沒有在paper里面附帶代碼的行業規則,導致很多工作無法重現,甚至有些人會連實驗都不做,直接往圖和表里面填數造一篇文章。而這個數據集學習了Imagenet,不給測試集,這樣你就沒法作弊,把代碼交上來,我來給你跑,之后把測試集合上的水平評測出來,這樣大家都公平,誰也別吹牛,誰也別作弊。此種環境有利于真正大貢獻的工作得以浮現,例如Residual Network在去年席卷圖像領域,在一個公平的環境下,以比其他對手好很多的效果呈現在了世人的面前。而SQuAD則是斯坦福在自然語言處理上,意圖構建一個類似“ImageNet”的測試集合,分數實時在leaderboard上顯示

      這就讓這個數據集有如下優勢

      1. 測試出真正的好算法。尤其對于工業界,這個數據集是十分值得關注的,因為他可以告訴大家現在各個算法在“閱讀理解”或者說“自動問答”這個任務上的排名。我們可以光看分數排名,就知道世界上哪個算法最好,不會再懷疑是作者做假了還是實現的不對


      2. 提供一個閱讀理解的大規模數據集。由于之前的閱讀理解數據集規模太小或者十分簡單,用一個普通的深度學習算法就可以刷到90%度,所以并不能很好的體現不同算法優劣。

      縱使SQuAD不會像ImageNet有那么大的影響力,但絕對也會在接下來的幾年內對自動問答領域產生深遠的影響,并且是各大巨頭在自動問答這個領域上的兵家必爭之地(IBM已經開始了)。

      3. 如何構建 SQuad數據集?

      接下來,讓我們詳細介紹這個數據集的構建(此數據集已經被EMNLP2016會議收錄 https://arxiv.org/pdf/1606.05250.pdf),我們先感受一下這個數據集精美的界面。

      SQuAD,斯坦福在自然語言處理的野心

      從圖中我們可以看到,在驗證集合和測試集合的水平。其中測試集合需要你提交一個可以運行的程序。最后一名和第一名分別是作者做的baseline以及人來回答能達到的水平,我們可以看到雖然只發布一個月,新加坡一些大學和IBM公司已經在這個任務上進行了嘗試。 下圖就是這個數據集的一個樣例,首先給定一篇文章,然后開始問問題,第一個問題“什么造成了降雨”答案是重力造成的。問題十分有難度,需要推理,不過答案仍然在文中出現過。

      SQuAD,斯坦福在自然語言處理的野心

      數據集的具體構建如下

      1. 文章是隨機sample的wiki百科,一共有536篇wiki被選中。而每篇wiki,會被切成段落,最終生成了23215個自然段。之后就對這23215個自然段進行閱讀理解,或者說自動問答。

      2. 之后斯坦福,利用眾包的方式,進行了給定文章,提問題并給答案的人工標注。他們將這兩萬多個段落給不同人,要求對每個段落提五個問題。

      SQuAD,斯坦福在自然語言處理的野心

      3. 讓另一些人對提的這個問題用文中最短的片段給予答案,如果不會或者答案沒有在文章中出現可以不給。之后經過他們的驗證,人們所提的問題在問題類型分布上足夠多樣,并且有很多需要推理的問題,也就意味著這個集合十分有難度。如下圖所示,作者列出了該數據集答案的類別分布,我們可以看到 日期,人名,地點,數字等都被囊括,且比例相當。

      SQuAD,斯坦福在自然語言處理的野心

      4. 這個數據集的評測標準有兩個,第一:F1,第二:EM。EM是完全匹配的縮寫,必須機器給出的和人給出的一樣才算正確。哪怕有一個字母不一樣,也會算錯。而F1是將答案的短語切成詞,和人的答案一起算recall,Precision和F1,即如果你match了一些詞但不全對,仍然算分。

      5. 為了這個數據集,他們還做了一個baseline,是通過提特征,用LR算法將特征組合,最終達到了40.4的em和51的f1。而現在IBM和新加坡管理大學利用深度學習模型,均突破了這個算法。可以想見,在不遠的將來會有更多人對閱讀理解發起挑戰,自然語言的英雄也必將誕生。甚至會有算法超過人的準確度。

      自動問答超越人類,你準備好了?

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      SQuAD,斯坦福在自然語言處理的野心

      分享:
      相關文章

      知情人士

      北京航空航天大學在讀博士生,研究方向為 自然語言處理,深度學習。
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 欧美亚洲一区二区三区| 午夜天堂一区人妻| 欧美精品在线观看| 成人A级片| 国内自拍视频在线观看| 国产精品毛片久久久久久久| 看全黄大色黄大片视频| 免费A片国产毛无码A片| 亚洲色鬼| 亚洲精品国产AV| 亚洲综合激情另类小说区| 三级九九| 国产av永久无码天堂影院| 竹山县| 少妇无码太爽了在线播放| 一区二区三区AV波多野结衣| 最新国产在线拍揄自揄视频| 久久久免费精品re6| 日日躁狠狠躁狠狠爱 | 亚洲国产成人久久77| 国产精品乱码人妻一区二区三区 | 中文字幕少妇人妻| 免费看视频的网站| 偷窥国产亚洲免费视频| 国产成人精品男人的天堂| 一二三四视频社区3在线高清| 日本免费一区二区三区在线播放| 91爱爱网| 精品乱码一区二区三四区视频| 色秘?乱码一码二码三码熟女| 国产精品一区二区毛卡片| 国产免费永久精品无码| 亚洲老熟女@TubeumTv| 国产亚洲精品??码| 99久热在线精品视频| 欧美老熟妇乱子伦视频| 国产a∨精品一区二区三区不卡 | 亚洲区视频在线观看| 精品国产自在久久现线拍| 夜福利导航| 影音先锋中文字幕无码|