<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給楊曉凡
      發送

      0

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      本文作者: 楊曉凡 2017-09-20 18:46
      導語:文本分類有哪些主要方法,應用中有哪些思路?

      雷鋒網 AI 科技評論按:自然語言處理(NLP)一直是人工智能領域的重要話題,而人類語言的復雜性也給NLP布下了重重困難等待解決。隨著深度學習(Deep Learning)的熱潮來臨,有許多新方法來到了NLP領域,給相關任務帶來了更多優秀成果,也給大家帶來了更多應用和想象的空間。

      近期,雷鋒網 AI 研習社就邀請到了達觀數據的張健為大家分享了一些NLP方面的知識和案例。

      分享主題:達觀數據 NLP 技術的應用實踐和案例分析 

      分享人:張健,達觀數據聯合創始人,文本挖掘組總負責人,包括文本審核系統的架構設計、開發和日常維護升級,文本挖掘功能開發。復旦大學計算機軟件與理論碩士,曾在盛大創新院負責相關推薦模塊,在盛大文學數據中心負責任務調度平臺系統和集群維護管理,數據平臺維護管理和開發智能審核系統。對大數據技術、機器學習算法有較深入的理解和實踐經驗。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      此次分享中,張健按照NLP概述、文本分類的傳統方法、深度學習在文本分類中的應用和案例介紹四個板塊,結合在達觀數據的系統設計和應用經驗,分享了他的見解。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      達觀數據是一家專注于文本挖掘和搜索推薦技術服務的企業,總部位于上海浦東軟件園。達觀的NLP挖掘系統的設計思路是,用戶直接接觸的到的最終功能,他們稱為是篇章級應用,可以處理整段的文本,提供的功能包括文本自動分類、情感分析、自動文本標簽、違禁詞匯和垃圾評論識別等。在下方支持編章級應用的是短串級應用,更底層一些,在詞組、短句的層面上提供結構分析和變形、詞位置分析、近義詞替換等功能。最底層、最小粒度的是詞匯級應用,比如中文分詞、詞粒度分析、調性標柱等等。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      文本挖掘的任務可以分成四類:

      • 同步的序列到序列,特點是輸入文本的每一個位置都有對應的輸出

      • 異步序列到序列,輸入和輸出可以不完全對應

      • 序列到類別,給文本加上標簽

      • 類別到序列,根據給定的標簽生成文本

      然后張健依次介紹了序列到序列任務中幾種問題的常見解決方案。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      在序列標注/命名實體識別問題中,每個詞都會有各自的標簽;選用的詞匯標簽體系越復雜,標注精度就越高,但同時訓練也就越慢。所以需要根據人力、時間等成本選擇合適的標簽體系。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      英文不需要分詞,但是多了詞形還原和詞根提取的問題。在這里,張健推薦WordNet來幫助解決相關問題。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      接下來進入了今天講解的重點,就是文本分類。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      傳統機器學習方法做文本分類會需要文檔建模、文本語意、特征抽取、特征向量賦權等步驟。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      具體到分類器的設計,常用的四種思路為樸素貝葉斯分類器、支持向量機分類器、KNN方法和決策樹方法。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      然后還可以聚合多個分類器來提高準確率。最簡單的想法是用多個模型分別預測然后投票,實際的聚合方法是另外訓練一個分類器,模仿多個分類器組合后的結果。這里需要原來的幾個分類器效果不能太接近,而且不能有太差的。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      在有了深度學習以后,文本分類又有了很多效果出色的新方法。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      首先可以用CNN做文本分類,它不需要人工特征,而對詞序包含的信息提取能力更強。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      在基礎的CNN之上,可以在其中不同的層使用不同的思路,衍生出來RNN+CNN、DCNN(動態池化,更適合不同長度的文本)、Very Deep Network等等。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      常用的方法還有RNN和LSTM,適合變長序列的建模。序列過長的時候,一般的RNN因為容量的問題會丟失信息、誤差增大,它的變種LSTM中通過三個門之間的信息保留和更新,更好地解決了長距離依賴的問題。雙向LSTM同時有正向和反向的部分,可以同時捕獲上文和下文的信息,表現也比單向的更好。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      然后就是近期風靡的注意力模型,是編碼解碼器的升級版本。Encoder-Decoder模型的問題是,輸入中的每個詞都對輸出有同樣程度的影響。但實際語言中往往不是這樣的,注意力模型就可以對輸入中的不同詞賦予不同的權重,讓對語意影響程度更高的詞語對輸出有更高的影響力,從而在輸出中更好地體現了輸入的關鍵信息。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      張健最后結合達觀數據的業務介紹了一些NLP的應用案例。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      比如結合定制行業專業語料、垂直語意模型、離線統計、語意拓展等等方法進行新聞分類,結合無監督預訓練+持續Fune Tuning的訓練方法,不僅可以分為新聞、財經、科技、體育、娛樂、汽車等大類,財經中股票、基金、外匯,體育中NBA、英超、中超等細分類別也可以分得出來。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      第二個案例是垃圾信息識別。現在許多廣告信息都會用特殊字符(火星文)嘗試騙過識別系統,就需要對變形詞做識別還原,方法包括去除特殊符號、同音和繁簡變換、偏旁拆分等。還可以先用語言模型識別文字,發現語意不通順、胡言亂語的,就很有可能是故意規避關鍵字檢查的垃圾信息。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      第三個案例是情感分析。簡單的方法可以根據直接表達感情的關鍵詞做判斷,還可以做特征工程然后用機器學習的方法識別語句模式,以及用深度學習的方法得到更好的信息提取效果。

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      最后張健還分享了一個他們的文本挖掘系統的使用鏈接,感興趣的讀者可以嘗試一下他們系統不同層次的豐富功能。

      本次分享的視頻錄像可以點此觀看

      更多精彩分享請繼續關注雷鋒網!

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      學術青年分享會:達觀數據張健分享文本分類方法和應用案例 | 分享總結

      分享:
      相關文章

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产无套白浆一区二区| 久久精品人妻无码白浆| 1769国内精品视频在线播放| 日本免费有码中文字幕| www插插插无码免费视频网站| 亚洲无码丝袜| 天天做天天添无码区亚洲| 香蕉亚洲欧洲在线一区| 无码综合天天久久综合网色吧影院| 欧美又大又色又爽aaaa片| 成人精品一区二区三区中文字幕 | 骚虎在线永久视频免费观看| 久久综合激情网| 毛片内射久久久一区| 国产精品一区二区久久岳| 亚洲国产精品无码一区二区三区| 熟妇人妻系列av无码一区二区 | 亚洲嫩模一区二区三区| 国产亚洲精品AA片在线播放天| 久久精品国产精品亚洲色婷婷| 试看做受1分钟小视频| 亚洲欧洲美洲无码精品va| 欧美阿V| 忘忧草社区在线www| 国产VA在线观看| 亚洲?欧美?中文?字幕| 中文字幕高清在线观看| 毛片大全真人在线| 97久久精品人人做人人爽| 午夜电影在线观看| 女被男啪到哭的视频网站| 色吊丝2277sds中文字幕| 国产av一区二区三区天堂综合网 | 国产精品无码mv在线观看| 在线免费观看黄色国产| 日韩亚洲欧美中文高清| 亚洲黄色性视频| 999国内精品视频免费| 天天做天天爱夜夜爽导航| 无码gogo大胆啪啪艺术| 怡红院一区二区三区在线|