0
| 本文作者: 木子 | 2018-07-02 15:37 |
近日,騰訊在醫(yī)療AI領(lǐng)域的學(xué)術(shù)研究獲得實質(zhì)性進(jìn)展,旗下醫(yī)療AI實驗室共有3篇論文分別被KDD 2018、SIGIR 2018 、COLING 2018三個國際頂尖學(xué)術(shù)會議收錄,論文的主要研究方向為醫(yī)療知識圖譜中實體關(guān)系的發(fā)現(xiàn)和應(yīng)用。
在醫(yī)療領(lǐng)域,專業(yè)知識和病人信息均存儲在復(fù)雜多樣的文本中,如醫(yī)療文獻(xiàn)、臨床病例等。文本數(shù)據(jù)中的多重表達(dá)形式和噪聲給基于文本數(shù)據(jù)的AI醫(yī)療服務(wù)帶來挑戰(zhàn)和困難。知識圖譜能夠以結(jié)構(gòu)化的形式存儲醫(yī)學(xué)中實體以及實體間的關(guān)系,能將信息表達(dá)成更容易被計算機處理的形式。騰訊醫(yī)療AI實驗室利用知識圖譜及其相關(guān)技術(shù),如自然語言處理、知識抽取、信息檢索、知識表示與推理等,從醫(yī)療文獻(xiàn)、醫(yī)學(xué)指南和臨床病歷中挖掘隱含的醫(yī)學(xué)知識,將大數(shù)據(jù)轉(zhuǎn)化為知識圖譜,使得知識查詢和更重要的形式化推理變得可行,有醫(yī)學(xué)依據(jù),輔助臨床決策,賦能基于人工智能的醫(yī)療產(chǎn)品。
此次騰訊醫(yī)療AI實驗室研究成果入選的三大學(xué)術(shù)會議分別是:SIGKDD,數(shù)據(jù)挖掘研究領(lǐng)域的頂級國際會議;SIGIR, 信息檢索領(lǐng)域的頂級國際會議;COLING,自然語言處理領(lǐng)域的重要國際會議。
騰訊醫(yī)療AI實驗室負(fù)責(zé)人范偉介紹,“醫(yī)療知識圖譜是推動人工智能應(yīng)用于醫(yī)療領(lǐng)域的核心驅(qū)動力之一,如何更好地利用自然語言處理、知識抽取等相關(guān)技術(shù),從形式多樣、信息雜亂的各種醫(yī)療數(shù)據(jù)中,抽取結(jié)構(gòu)化的醫(yī)療知識,結(jié)構(gòu)化存儲實體的詳細(xì)屬性以及實體之間的關(guān)系,我們在不斷優(yōu)化提出問題并嘗試給出新的解決思路和研究方法。”
以下為收錄的三篇論文概要:
1. 入選KDD 2018:基于生成模型的醫(yī)療實體關(guān)系抽取(On the Generative Discovery of Structured Medical Knowledge)
研究成果:創(chuàng)造性地從生成模型的角度研究醫(yī)療實體關(guān)系,減少了對語料數(shù)據(jù)和專家標(biāo)注的需求
在醫(yī)療知識圖譜中,實體三元組以結(jié)構(gòu)化的形式描述了醫(yī)學(xué)領(lǐng)域中實體間的各種關(guān)系。為了獲得醫(yī)療領(lǐng)域?qū)嶓w三元組,現(xiàn)有方法大多需要搜集大量語料,或過多依賴于專家的標(biāo)注。如圖1所示,本文提出的算法 CRVAE (Conditional Relationship Variational Autoencoder)利用已標(biāo)注的實體三元組在自然語言表述上的共性和差異,對多種醫(yī)療實體關(guān)系類內(nèi)的數(shù)據(jù)分布進(jìn)行聯(lián)合編碼,進(jìn)而從生成模型的角度去發(fā)現(xiàn)未被標(biāo)注的關(guān)系實體三元組。該方法減輕了傳統(tǒng)判別模型對于外部資源的過度依賴,并且不依賴于醫(yī)療實體關(guān)系類間的差異進(jìn)行建模。
實驗表明,算法CRVAE不僅能夠在外部資源有限的條件下,以92.91%的支持度生成屬于某個特定醫(yī)療關(guān)系的實體三元組,其生成的結(jié)果擁有77.17%的準(zhǔn)確率且生成結(jié)果中有61.93%的樣本未曾出現(xiàn)在訓(xùn)練數(shù)據(jù)中。
在未來,我們將嘗試?yán)蒙赡P瓦M(jìn)行不同粒度、不同醫(yī)療子領(lǐng)域的無監(jiān)督知識發(fā)現(xiàn)。同時,我們也期待將生成模型作為一種有效的數(shù)據(jù)增強方式,賦予醫(yī)療領(lǐng)域更多人工智能的應(yīng)用。

圖1 CRVAE模型架構(gòu)圖示
2. 入選SIGIR 2018:具有知識感知能力的答案排序模型(Knowledge-aware Attentive Neural Network for Ranking Question Answer Pairs)
研究成果:證明了利用知識圖譜可顯著提高問答系統(tǒng)的性能
在基于人工智能的醫(yī)療產(chǎn)品中,對話系統(tǒng)作為最終呈現(xiàn)形式有著廣泛的應(yīng)用。答案排序是對話系統(tǒng)中的重要部分,最近受到越來越多的關(guān)注。然而,已有相關(guān)工作在除關(guān)注上下文之外,對起著重要作用的背景知識卻關(guān)注很少。對此,本文提出了KABLSTM(Knowledge-aware Attentive Bidirectional Long Short-Term Memory),這是一種具有知識感知能力的雙向長短記憶模型,它利用知識圖譜引入的背景知識來豐富問答的表征學(xué)習(xí)。
如圖2所示,本文開發(fā)了一個知識交互式學(xué)習(xí)架構(gòu),其核心是一個上下文引導(dǎo)的注意力神經(jīng)網(wǎng)絡(luò),可將知識圖譜中的背景知識嵌入整合到句子表示中;最后結(jié)合知識型注意力機制模塊,對問題和答案中的各個部分進(jìn)行有效的相互關(guān)聯(lián)。在WikiQA 和TREC QA 數(shù)據(jù)集上的實驗結(jié)果證明了該方法具有一定有效性。在此工作中,利用知識圖譜來輔助問題和答案的表示學(xué)習(xí)。在后續(xù)的工作中,我們將研究利用知識圖譜進(jìn)行直接推理,來幫助醫(yī)療問答系統(tǒng)。

圖2 KABLSTM模型架構(gòu)圖示
3. 入選COLING 2018:基于遠(yuǎn)程監(jiān)督具有協(xié)同消噪能力的實體關(guān)系抽取模型(Cooperative Denoising for Distantly Supervised Relation Extraction)
研究成果:創(chuàng)造性地提出能夠減少數(shù)據(jù)噪聲對實體關(guān)系抽取性能影響的方法
在知識圖譜的構(gòu)建過程中,遠(yuǎn)程監(jiān)督(Distant Supervision)能夠減少對標(biāo)注數(shù)據(jù)的需求,因此適合從非結(jié)構(gòu)化文本中進(jìn)行關(guān)系抽取。然而,該方法有可能受到訓(xùn)練數(shù)據(jù)噪音過大的影響,性能受到限制。為解決這個問題,本文提出了一種協(xié)同消噪的模型CORD (COopeRative Denoising framework),該方法由兩個神經(jīng)網(wǎng)絡(luò)和一個協(xié)同模塊組成,如圖 3 所示,兩個神經(jīng)網(wǎng)絡(luò)分別在文本語料庫和知識圖譜領(lǐng)域進(jìn)行學(xué)習(xí),再通過一個自適應(yīng)的雙向蒸餾模塊(adaptive bi-directional knowledge distillation)完成它們間的相互學(xué)習(xí),達(dá)到消除噪聲的目的。實驗表明,該方法在噪聲較大的數(shù)據(jù)上有較明顯的效果提升。
在醫(yī)療領(lǐng)域,醫(yī)療文本、醫(yī)療影像等不同模態(tài)、不同來源的數(shù)據(jù)包含著互補的豐富信息。在后續(xù)研究工作中,我們將利用多模態(tài)、多源數(shù)據(jù)進(jìn)行更加可靠的去噪和醫(yī)療知識提取。 
圖3 CORD模型架構(gòu)圖示
醫(yī)療知識圖譜作為人工智能應(yīng)用于醫(yī)療領(lǐng)域的前沿課題,對推動“AI+醫(yī)療”的發(fā)展有著重要意義,將為醫(yī)療行業(yè)的發(fā)展帶來新的契機。當(dāng)前,騰訊在“AI+醫(yī)療”領(lǐng)域的學(xué)術(shù)研究在穩(wěn)步前進(jìn)并獲得國際學(xué)術(shù)界的認(rèn)可,有利于更好的推動“AI+醫(yī)療”產(chǎn)學(xué)研結(jié)合,加速醫(yī)療AI應(yīng)用落地,為醫(yī)療賦予AI動能。
騰訊醫(yī)療AI實驗室是騰訊醫(yī)療專為醫(yī)療領(lǐng)域打造的人工智能實驗室,采用美國-中國雙中心模式,目前在硅谷、北京、深圳設(shè)立了三個分支。主要研究方向包括:通過研發(fā)臨床輔助決策支持系統(tǒng)向各級醫(yī)務(wù)工作者提供服務(wù),以提高醫(yī)生用戶在醫(yī)學(xué)科研、患者診療、疾病防控等方面的工作效率;通過研發(fā)基于無可穿戴傳感器純視頻分析技術(shù)的運動障礙性疾病評測系統(tǒng),可用于帕金森病的日常評測、腦癱患者術(shù)前步態(tài)評測等方面,實現(xiàn)自助評測,以提高醫(yī)生工作效率,減低患者評測成本;通過研發(fā)醫(yī)學(xué)知識引擎,構(gòu)建權(quán)威全面的醫(yī)學(xué)知識庫,并提供對外知識庫查詢等平臺化服務(wù),降低醫(yī)療人工智能輔助決策類產(chǎn)品的技術(shù)門檻,通過知識共享的方式與合作伙伴共同打造醫(yī)療AI的技術(shù)和服務(wù)生態(tài)圈。實驗室的目標(biāo)是通過世界領(lǐng)先的AI技術(shù),構(gòu)建良好的技術(shù)生態(tài),服務(wù)于醫(yī)患雙方,提高工作效率、優(yōu)化就醫(yī)體驗,緩解醫(yī)療資源分布不均等問題,同時著重落實分級診療國策。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。