1
| 本文作者: 李尊 | 2016-07-18 17:01 |
微軟研究院在IJCAI2016的Tutorial上講述了自己將深度學習、深度神經網絡應用于不同場景的情況,之前第二部分提到了深度學習在統計機器翻譯和會話中的應用,本文為第三部分—選中自然語言處理任務的連續表達。
聯合編譯:Blake、章敏、陳圳

選中自然語言處理任務的連續表達
l 針對信息檢索和個人排序的深度語義相似模型(DSSM)
l 在連續語義自然語言處理任務環境中進行深度強化學習
l 針對字幕與視覺問題回答的多元語義學習&推理

對自然語言學習連續語義表達,例如:從原始語句到一個抽象語義矢量

在許多自然語言處理任務中Sent2Vec非常重要,它可以處理包括網頁搜索、廣告選取、文本排序、在線推薦、機器翻譯、知識架構、問題回答、個性化推薦、圖片搜索、圖標注釋等問題。

監督問題:
雖然
l 需要學習的文本語義是隱藏的
l 且沒有明確的目標學習模型
l 另外不知如何反向傳播?
但是幸運的是
l 我們一般知道倆個文本是否“相似”
l 這就是語義表達學習的信號

深度架構語義模型
深度架構語義模型/深度語義相似模型,將整個句子轉換成連續語義空間。例如:句子變成矢量
DSSM基于字符(非詞匯)建立實為了其可拓展性和普適性
DSSM被訓練來優化相似驅動對象

在字符級別進行編碼,即詞匯散列。

在字符級別建立的DSSM,將任意詞匯分解成一系列相關字符,傾向于處理大規模自然語言任務。

DSSM:一個相似驅動Sent2Vec模型
初始化:神經網絡使用隨機權重進行初始化

訓練:在語義矢量之間計算余弦相似度

運行時間

訓練目標:基于余弦相似度的損失
使用網頁搜索作為示例:
查詢q與一系列文檔D
目標:給定查詢后點擊文檔的可能性

在DSSM中使用卷曲神經網絡
在卷曲層對本地文本進行建模
在匯聚層對全局文本進行建模

模型在卷曲層捕捉本地本文相關詞的意義,并學習了每個本地文本相關詞的嵌入矢量。

CDSSM:在最大匯聚層發生了什么?
將本地主題聚集起來形成全局化
識別最大聚集層的主要詞匯/短語
在最大聚集層獲得最活躍的神經元詞匯

針對學習檢索的DSSM,訓練數據組搜索記錄中的語義相關文本組。

實驗設定

卷曲深度語義模型取得最佳結果。


語義匹配示例

卷積DSSM:
在卷積隱層一個接一個就行編碼
隱層在最后一個詞匯對整句進行語義編碼
通過余弦相似驅動目標來訓練模型


使用長短期記憶(LSTM)結果:
LSTM比常規RNN學得快得多
LSTM能有效代表使用矢量句子的語義信息

DSSM與Seq2Seq對比

給出一個特別用戶的文章跨度代表利益實體,并尋找實體的補充文件。

學習DSSM的語境實體次序

從網頁瀏覽日志提取標簽對,超鏈接指向維基百科P`時,P`中的H的錨文本,環境詞匯,文本

語境實體搜索——實驗設置:
1.訓練/驗證數據是維基頁面中18M的用戶點擊量
2.評估數據:首先采樣10k的網頁文件作為源文件,然后使用文檔中被命名的實體作為查詢;第三保留100個返回文件作為目標文件,最后手動標記是否每一個目標文件都可以完好的描述實體。其中總共有870k標簽對。

語境實體搜索的結果

一些相關的工作:
深度CNN文本輸入(文章中主要的分級任務)
序列到序列的學習;段落矢量(學習段落的矢量)
遞歸NN(樹狀結構如分解)
張量積代表(樹狀代表)
樹狀結構LSTM網絡(樹狀結構LSTM)


強化學習的模型——包括環境狀態設置S;行動設置A,以及狀態之間的轉換規則;狀態轉換的即時獎勵規則和代理觀察規則。

Q-learning用于學習RL的政策(代理在給定的當前狀態選擇行動時必須遵循的規則)。其目的是找到MDP的最優政策,方法是:學習一個行動-價值函數,a.k.a。Q-函數:用于計算在訓練收斂之后的狀態上,所采取行動的期待效用。

最近的成就:深度Q網絡在玩五個Atari游戲時,達到了人類級別的性能。其中使用了卷積神經網絡計算Q(s,a),并利用大的行動空間,忽略小的行動空間。

最近的成就(續):機器人AlphaGO打敗了世界圍棋冠軍。它與深度Q網絡設置類似,忽略小的行動空間,它的模型中建立了兩個CNNs網絡(policy網絡和value網絡)。

語言理解的強化學習:以文本串的形式描述狀態和行動,代理通過文本串做出相應正確的行動(正確指最大化長期獎勵)。然后,環境狀態轉換到新的狀態,代理也得到即時獎勵。

行動空間和狀態空間都非常的巨大,而且行動的特征由無界神經語言描述確定。

在NLP任務中,行動空間的特征由神經語言決定,它是離散的且近乎于無邊界。我們提出了深度強化相關網絡,將狀態和空間都規劃到連續的空間中,其中Q-函數是狀態矢量和行為矢量的相關函數。

學習連續空間的視覺化,圖2表示了:嵌入狀態矢量和相關行動矢量后200,400,600訓練片段的文本PCA項目。狀態指:當你向前移動時。你周圍的人臉上露出了恐怖的表情,并逃離街道。行動1(好的選擇):向上看,行動2(不好的選擇):無視他人的警告繼續前進。

DRRN和DQN在兩個文本游戲上的測試結果(學習曲線)

表展示了聚集后Q函數的示例值,且DRNN很好的概括了無法看見的行為。


人類學習處理文本,圖像和聯合的信息。


圖像側卷積網絡實現過程

語言側卷積網絡實現過程




圖像說明,通過深度學習模式檢測圖像中的關鍵概念,MELE從圖像檢測中產生解釋。檢測單詞后,對其進行重新排列組成句子。


CaptionBot示例

說明到回答問題的過程


堆積注意模式推理工程:問題模式,圖像模式,多水平注意模式,回答預測器。

SAN圖像模式


SAN中問題模式





回答示例

總結:
本部分主要介紹通過DSSM學習Sent2Vec,在連續空間內對NLP任務進行強化學習以及視覺語言聯合表達學習等概念。具體包括:
通過DSSM學習Sent2Vec:
DSSM把整個句子放在連續的空間內
基于特征字符級別建立DSSM
DSSM直接優化目標函數的語義相似度
在連續空間內對NLP任務進行強化學習:
使用深度神經網絡把狀態和行動(無邊界NL決定)放入連續語義空間
在連續語義空間計算Q函數
視覺語言聯合表達學習:
圖像解釋——CaptopnBot示例
視覺問題回答——關鍵在于推理
PS : 本文由雷鋒網獨家編譯,未經許可拒絕轉載!
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。