<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給楊曉凡
      發送

      1

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      本文作者: 楊曉凡 2017-08-18 11:37
      導語:結合RNN和CNN特點的conv-RNN,在語義任務中取得了優秀的表現

      雷鋒網 AI 科技評論按:2017年8月13-17日,第23屆國際知識發現與數據挖掘大會(KDD)在加拿大哈利法克斯召開。KDD的英文全稱是Knowledge Discovery and Data Mining,即知識發現與數據挖掘,由美國計算機協會ACM下的數據挖掘分會舉辦,是國際數據挖掘領域的頂級會議。 KDD 2017共吸引全世界1144篇論文投遞,收錄216篇,包括清華、中科院、阿里在內的中國大陸學術界和工業界共被收錄25篇。

      在 KDD 2017全球論文投稿中,阿里集團和螞蟻金服共有5篇論文被大會收錄,本次被收錄論文涵蓋深度學習、大規模圖計算、商品智能排序等多個研究領域,基于真實的業務場景或數據樣本,文中部分方法結論已經在業務中運用。

      比如「A Hybrid Framework for Text Modeling with Convolutional RNN」這篇論文就是對深度學習語義建模的研究,文中提出了一種新的文本語義編碼算法conv-RNN,該模型在參考了較為常用的文本語義編碼模型循環神經網絡與卷積神經網絡的同時,進行了進一步的文本語義編碼優化,實現更為精準的文本分類和問答匹配。論文中的成果已應用于阿里智能音響“天貓精靈”。下文為這篇論文的解讀,作者為論文作者王成龍、姜飛俊、楊紅霞。

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      語義編碼的意義

      自然語言這一被人類發明的信號系統,通常被我們歸為一種“非結構化數據”。其原因在于,自然語言文本是由一堆符號(token)順序拼接而成的不定長序列,很難直接轉變為計算機所能理解的數值型數據,因而無法直接進行進一步的計算處理。語義編碼的目標即在于如何對這種符號序列進行數值化編碼,以便于進一步地提取和應用其中所蘊含的豐富信息。語義編碼是所有自然語言處理(Natural Language Processing,NLP)工作的“第一步“,同時也很大程度地決定了后續應用的效果。

      傳統的文本編碼方式通常將其當作離散型數據,即將每個單詞(符號)作為一個獨立的離散型數值,如Bag-of-Words (BOW)、TF-IDF等。但是這類方法忽略了單詞與單詞之間的語義關聯性,同時也難以對單詞的順序及上下文依賴信息進行有效編碼。近幾年,深度學習技術被廣泛的應用于NLP領域,并在眾多算法命題上取得了突破。其本質在于,深度神經網絡在特征提取(語義編碼)上具有極大的優勢。

      已有方法的瓶頸

      當前,較為常用的文本語義編碼模型包括循環神經網絡(Recurrent Neural Network,RNN)以及卷積神經網絡(Convolution Neural Network,CNN)。

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      圖1:循環神經網絡 RNN

      循環神經網絡是應用最為廣泛的序列數據神經網絡建模方法。相對于傳統的前向神經網絡,循環神經網絡的主要特點在于,在每個時刻,其輸出不僅要依賴于當前時刻的輸入,還要考慮上一時刻的模型“狀態”。通過對歷史狀態的依賴,RNN模型能夠有效的表征文本數據的上下文依存信息。但是,RNN的“宏偉目標”——有效管理任意跨度的信息傳遞——往往使得其難以有效的訓練,進而也限制了其在具體應用中的效果。

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      圖2:卷積神經網絡 CNN

      另一被廣泛應用的語義編碼模型是CNN模型。傳統的CNN建模通常用于解決圖像的特征提取。但近年來,眾多學者嘗試將其應用到文本處理領域。CNN的模型結構來源于對人類視覺神經信號處理機制的模擬。與文本數據不同的是,圖像數據通常被看做一個二維數據結構,而相應的CNN模型也更適于提取其中的“局部”特征。但與圖像數據相似的是,文本數據中的上下文依賴通常可以被簡化為一種“局部”信息,即傳統NLP領域中的N-gram語言模型:文本中一個詞的具體含義,通常只和上文有限距離內的幾個詞相關。因此,CNN中的“局部卷積“信息處理機制同樣可以應用于文本數據中,用于提取文本中的N-gram特征。但是,與圖像信息不同的是,文本數據中的上下文依賴關系有可能會經歷一個很長的跨度。而CNN只能對固定范圍內的局部依存關系進行建模。因此,CNN語義編碼方法也存在一定的缺陷。

      Conv-RNN

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      圖3:論文中提出的 Convolutional RNN

      近期,我們團隊與數據技術及產品部兄弟團隊共同投稿一篇KDD文章,其中提出了一種新的文本語義編碼算法conv-RNN(如圖3所示)。該模型在參考了循環神經網絡與卷積神經網絡的同時,進行了進一步的文本語義編碼優化。conv-RNN不僅保留了RNN模型對不定長跨度的上下文依賴的編碼能力,還利用了CNN模型中常用的最大池化機制,用以更加簡潔地從文本數據所蘊含的豐富信息中抽離出不同的信息表征。此外,在conv-RNN的基礎上,我們還提出了一種新的智能問答(answer selection)模型以及文本分類(sentence classification)模型。為了充分驗證所提出的模型的效果,我們分別選取了智能問答及文本分類領域的一批標準數據集,與當前業界的最新成果進行了對比驗證。

      智能問答

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      圖4:基于 conv-RNN 的問答匹配模型

      智能問答是當前比較火的一個NLP應用領域,也被認為是NLP研究最有可能于近期實現商業化落地的一個領域。在conv-RNN語義編碼算法基礎之上,我們進一步提出了一種新的問答匹配模型。此外,在該模型中,我們還引入了一種“權值共享”機制以及attention方法,用以進一步提升question-answer匹配效果。

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      表1:問答匹配測試結果

      我們選用了微軟發布的 WikiQA 數據集以及 IBM 發布的 InsuranceQA 數據集用來對比所提出的模型與業界現有的頂尖方法,以驗證該模型的有效性。由結果可知,在WikiQA數據集上,conv-RNN擊敗了所有現有的頂尖方法,并且在MAP(mean average precision)和MRR(mean reciprocal rank)兩個指標上均取得了較大的提升。在InsuranceQA數據集上,conv-RNN在dev和test2兩個測試集上均取得了較大的提升,僅在test1上略低于AP-BILSTM。

      文本分類

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      圖5:基于 conv-RNN 的文本分類模型

      在conv-RNN的基礎上,我們進一步提出了一種新的文本分類模型(如圖5所示)。為了驗證該模型的有效性,我們選取了業界常用的5個標準的分類數據集:Movie Review(MR);Stanford Sentiment Treebank-1(SST-1);Stanford Sentiment Treebank-2(SST-2);Subj;IMDB。由對比結果可知,conv-RNN在前4個數據集上均超越了各類業內頂級的方法。

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      表2:文本分類任務測試結果

      總結

      語義編碼技術是所有NLP工作的基礎,也是當前NLP技術進一步發展的主要“瓶頸”所在。我們在語義理解以及更上層的智能問答、多輪人機交互方向已經有了一定的技術積累,后續還會繼續在這一方向發力,以期能夠盡快做出為大眾服務的人工智能產品。

      論文地址:http://www.kdd.org/kdd2017/papers/view/a-hybrid-framework-for-text-modeling-with-convolutional-rnn 

      相關文章:

      精準投放、動態定價、更多成交,阿里的新優化算法幫廣大淘寶賣家解決廣告投放的難題

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      已經進駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

      分享:
      相關文章

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 精品无码三级在线观看视频| 浦城县| 国产一级精品毛片基地| 无码专区—va亚洲v天堂| 日韩吃奶摸下aa片免费观看| 三级国产三级在线| 免费裸体无遮挡黄网站免费看| 久久精品国产一区二区蜜芽| 国产亚洲精品??码| 国产精品制度丝袜电影| 美姑县| 欧美丰满熟妇xxxx| 亚洲av无码一区二区乱子仑| 中文字幕亚洲中文字幕无码码| 女人被狂躁c到高潮喷水电影| 日韩亚洲中文图片小说| 欧美人妻精品| 粉嫩导航| 国产三区二区| 欧美X0X0| 久久国产av影片| 国内精品伊人久久久久777 | 产精品视频在线观看免费| 视频一区二区三区刚刚碰| 欧美猛少妇色xxxxx| 国产丝袜视频一区二区三区| 把腿张开ji巴cao死你h| 日本一区二区三区在线 |观看| 91人人干| 97欧美精品系列一区二区| 91中文字幕一区二区| 一本色道久久综合亚洲精品| 在线 | 一区二区三区| 产综合无码一区| 小泽玛利亚av无码专区| 噜噜噜综合亚洲| 亚洲综合香蕉| 农村欧美丰满熟妇xxxx| 8050午夜二级无码中文字幕| 国产绿帽在线视频看| 日本道久久|