<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      業界 正文
      發私信給嘉嘉
      發送

      0

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      本文作者: 嘉嘉 2022-09-22 18:21 專題:IEEE X ATEC科技思享會
      導語:“AI驅動下的醫學變革—從生命科學到醫療管理”獨立TALK。

      IEEE x ATEC

      IEEE x ATEC科技思享會是由專業技術學會IEEE與前沿科技探索社區ATEC聯合主辦的技術沙龍。邀請行業專家學者分享前沿探索和技術實踐,助力數字化發展。

      隨AI技術的不斷深入發展,醫學人工智能應用如雨后春筍般迅速涌現,在醫療領域遍地開花。AI具有智能化、自動化的特點,能夠通過強大算力解鎖復雜數據、處理海量數據,在醫學變革過程中發揮著無與倫比的重要作用。IEEE x ATEC科技思享會第三期會議特邀四位嘉賓圍繞“AI驅動下的醫學變革—從生命科學到醫療管理”獨立TALK。

      以下是復旦大學教授/博導、上海市數據科學重點實驗室副主任、ATEC科技精英賽高級咨詢委員會專家熊贇的演講《醫療大數據:由淺入深、由繁至簡》。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      演講嘉賓 | 熊 贇

      復旦大學教授/博導

      上海市數據科學重點實驗室副主任

      ATEC科技精英賽高級咨詢委員會專家

      《醫療大數據:由淺入深、由繁至簡》

      大家好,我是復旦大學的熊贇,感謝IEEE x ATEC科技思享會,非常高興能夠與大家分享醫療大數據的相關研究進展。

      今天,我將從以下幾個方面來進行介紹:首先我將介紹醫療數據的來源、類型和特點,然后重點介紹醫療大數據挖掘分析技術和開放互聯技術的相關工作。

      一、醫療大數據

      我們都知道數據已成為一種新的生產要素。醫療健康關乎民生福祉。習總書記指出,要加快“互聯網+醫療健康”發展。醫療數據的價值發現及其在藥物研發、輔助診斷等方面都起到了非常重要的作用。數字醫療為實現優質醫療資源共享、解決醫療資源分配不均和就醫成本高等問題提供了可行的方案。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      醫療數據類型多樣,常見的有患者的就醫記錄(包括患者的基本信息、就醫診斷、用藥等信息),也有以非結構化文本形式存在的電子病歷及其診斷報告,還有醫學影像、醫療試紙以及文獻等各類數據。我們對這些數據進行分析,從中挖掘其價值,要針對這些不同數據的特點,從不同角度來看醫療數據并研究其相應算法。我們有單一來源的數據處理方式,多來源數據的處理方式,也有結構化、非結構化和多模態、多源異質數據的處理方式。

      大數據的內涵包括了用數據解決問題和解決數據的問題。

      前面我們分析了醫療大數據可以用到的各種數據類型,下面我們來看一下醫療大數據的問題和挑戰。

      醫療大數據包括了數據類型繁雜、數據質量較差、數據孤島眾多、數據安全薄弱和數據應用尚淺等問題。這些問題在其它領域里面也有共性。這也是我們之所以能夠將現有的一些數據挖掘機器學習(例如自然語言處理、圖像視覺處理等方法)引入的一個基礎。但醫療領域對數據質量和分析結果的有效性的要求更高,因此,我們需要對這些共性技術加以改進。

      對于類型繁雜的數據,我們需要采用多模態的數據融合技術,例如我們要將醫療影像和醫療報告文本的數據不同模態下進行對齊。對于數據質量差的,我們需要有專門的醫療數據規范化的技術,例如利用電子病歷文本與ICD編碼對齊這樣的規范化的技術。醫療數據的高敏感、高隱私的要求和我們在做醫療智能分析時對數據全面特征的需求,兩者之間存在著矛盾,這就需要我們要有更為有效的共享互聯機制和技術支撐。

      為此,我們針對上述研究開展了工作,研制了一系列的醫療數據智能分析和開放互聯技術。

      二、挖掘分析:由淺入深

      下面我們就其中的大數據挖掘分析技術和開放互聯技術展開重點介紹。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      在分析挖掘方面,我們的研究工作是由淺入深發展的。首先我們在醫療大數據挖掘方面,包括了從單一來源的就醫數據的簡單挖掘到基于深度學習的特征表示,從結構化到非結構化和跨模態數據的深度學習方法在醫療影像和文本方面的分析,以及多源多模態的組學數據分析。

      下面我們將進行展開介紹。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      我們可以從一些患者的就醫記錄中看到患者的基本信息和用藥記錄等信息。我們可以使用最基礎的訓練模式,挖掘頻繁模式挖掘算法,來得到患者的用藥模式。例如上圖中的三個患者,他們都有使用前面三種藥物??梢钥吹饺N藥物之間存在著一定的用藥關聯。這種直觀的方式可以帶來一定的輔助診斷作用,但醫療實際場景下不同的用藥順序也反映了患者的疾病狀態。比如先用某一種藥和后用某一種藥,治療疾病的原理可能是不一樣的。另外,用藥的劑量也反映了該病人癥狀的治療方案。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      因此我們使用不同的方法,包括考慮統計頻次的方式、考慮順序的方式和考慮劑量的方式,得到的用藥模式也是不一樣的。

      可以對于某一種用藥以及其他相關用藥進行展現?;颊叩挠盟幪攸c反映了患者本身的特征,有助于對患者個性化的精準治療。例如有相似用藥模式的患者,他們更為相似,可以作為診斷的參考。但我們也發現這種簡單的(參考)對反映用戶特征方面仍然是有限和不足的。

      隨著深度學習技術的引入,可以利用患者更多的數據進行刻畫,捕獲更多的信息。比如剛剛只考慮了藥物的順序,但是藥物用藥之間的時間間隔以及前一狀態對后一狀態的影響等信息并沒有考慮到。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      為了能夠更好地刻畫這些多元復雜的因素,我們將患者行為進行一個圖的建模,構建成一個二部圖。這個節點分別是患者和用藥。邊上記錄了豐富的交互行為,即在什么條件下、什么時間使用了某一種藥物或藥物的劑量以及藥物的具體情況等等?,F在我們的問題就轉化為,得到圖中的每一個患者節點的特征向量來刻畫用戶的特征,用于下游任務。比如對用戶的相似性識別或者對用戶分類,對于每一個節點都可以用深度學習模型得到一個特征向量。如果兩個患者的特征向量相似,那認為這兩個患者是足夠相似的。

      之所以采用圖的建模,是因為首先能夠更好的捕獲時序依賴性,即建模了多個時間間的依賴關系。比如對于一個用戶來說,他在每個不同的時間段、不同的時間點使用了藥物。那可以知道他服用A藥物以后可能還會服用B藥物。因此深度學習的建模主要是能夠最大化的用藥共現概率,當用戶來使用A這個藥物時他會使用的下一個藥物是什么的。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      并且還能建模單個事件在不同條件下發生的概率及條件鄰近性,例如患者在什么時候來使用這個藥物。即我們的模型要能夠最大化患者和用藥,在某一個條件下面最大的概率。

      我們再來看一下非結構化和跨模態數據方面的相關技術進展。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      傳統的基礎文本分析方法可以用在醫療文本上。例如對于電子病歷,進行特征抽取,然后得到它具有較多共性的文檔,形成共性文模板。這種方法可以采用比較簡單的SimHash來提取文本的特征。但可以看到這對于醫療本身的語義特征的提取是非常有限的。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      因此,如果能夠利用醫療領域中的結構化信息對文本進行規范化,那么可以更好的理解醫療文本。

      以ICD編碼為例,即這個醫療文本主要是以文本的非結構化的信息展示。但是每一個文本都會標注一定的ICD編碼。因此可以實現給一個醫療文本,能夠得到它對應的ICD編碼。這其實是一個多標簽的分類問題。我們采用的方式是對文本中的詞進行嵌入表示學習。

      然后引入圖深度學習的方法。對于需要建模的ICD編碼的層次關系進行圖的表示。我們利用圖卷積的方式得到每一個圖的節點特征表示。在這種方式的支撐下,能夠比原有的淺層模型或者沒有加入圖的模型得到有效提升。但在這個過程當中,對于文本的這個特征仍然是用通用領域的一個卷積模型來實現的。這里面也可以采用像BERT這樣的預訓練模型。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      由于通用領域包含的醫療生物信息知識比較少,因此在通用領域上的預訓練模型,比如BERT或者GPT,可能它不能夠更好的學習到生物醫學領域的知識,因而出現了一些專門利用生物醫學語料庫進行訓練得到生物醫療領域專門的預訓練模型。

      我們所做的工作是在現有基礎上,對醫學文本預訓練模型考慮到中文情景當中中文漢字各個部件之間的語義關系,再進行提取。比如每一個漢字,特別是對于疾病里面的一些漢字,它的部件其實體現了一定的語義特征。我們將每一個漢字拆成更小的圖的形式,然后利用圖的深度學習模型來得到各個部件的語義特征,再和通用領域的BERT進行結合,最終得到一個更好的反映醫學文本特征的領域的預訓練模型。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      除了單一模態數據分析外,多模態的數據融合分析也可以做到更多的價值挖掘工作。例如除了傳統影像中進行疾病檢測之外,其實醫學報告的生成也成為了當前的熱點,即如何能夠更好地利用文本數據,這個思想其實是來源于圖像視覺領域里面通用領域的思想。它對于一個圖片來說,不僅可以得到里面有哪些具體的物件,還能夠生成一段相應的文本,即看圖說話。

      在醫療影像領域里面存在哪些更多的挑戰呢?首先在醫療文本領域,文本報告描述的長度相對而言總是比較長的。對于一段比較長的文字,就會有一個常依賴的問題。另外要得到的異常區域比較小,挖掘、描述異常是一個挑戰。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      因此我們將主題的注意力機制,還有門控單元等技術、深度學習的技術應用到醫療影像文本報告的生成。我們的模型得到了更好的表述異常的描述句子。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      我們也發現了另一個問題,即所能夠獲得的有些疾病的樣本量可能是比較少的。因此提出了一個Few-shot GAN的方法,讓我們能夠生成更多的少見疾病的樣本,并且還利用了疾病圖卷積來建模疾病之間的內在關聯性。即對于疾病的標簽之間的關聯性也進行了建模。這樣對于一些少的疾病和其他相對更多的疾病之間的關聯,可以有助于增強我們對疾病、少見疾病的語義的表示,進一步提高文本生成的有效性。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      對于更多源復雜的數據而言,異質網絡技術的發展對于組學數據利用起到了非常積極有效的作用。例如,可以構成一個上圖這樣的網絡,在這個網絡里面既有基因這種數據類型,又有疾病這種數據類型,甚至還有它對應的藥物化合物以及這個化合物可能產生的副作用等信息。節點和節點之間,互相又有不同類型的關系。

      通過這樣的方式,如果要研究兩個基因之間的相關性,不僅可以知道基因和基因之間是因為疾病相似,還是因為他們都是同一個疾病的靶向基因,亦或者是因為他們可能對于某一個藥物的治療都有非常重要的作用??梢圆捎卯愘|網絡里面的語義路徑的方式。比如從上圖可以看到,對于兩個圓形的節點(基因節點),它可以是經過了如三角形(疾?。┻@樣的一個語義路徑,也可以是經過了方形(化合物)這樣的一個語義路徑。在這種情況下,可以得到更多的語義關系。

      我們把這個問題簡化一下。例如要去識別和一些miRNA相似的miRNA,可以通過這樣的一個異質圖譜,然后來考慮它不同的原路徑。比如這兩個miRNA之間是通過基因相似,還是通過疾病相似。

      【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?【復旦大學熊贇分享】如何在數據開放同時確保數據稀缺性不喪失和隱私不泄露?

      基于上述工作,可以進一步融合多源和多模態的數據來研究基于知識圖譜的醫學影像報告生成的任務。

      前面提到醫學影像和報告生成時,我們利用了醫學影像的圖像以及醫療文本。我們知道醫療文本或影像的一些標簽和醫療領域的知識圖譜之間也有相對應的關系,所以也可以把醫療知識圖譜引入進來進行學習,可以得到更好的醫療影像文本報告。

      但這里面還有一個挑戰,也是我們正在研究的問題,即可能會有不同領域的知識圖譜。在醫學領域里面可能有來自于不同機構的多種知識圖譜,需要對醫學知識圖譜進行對齊,這也是一個醫療領域知識規范化、質量處理的問題。

      三、開放互聯:由繁至簡

      從上面的研究內容可以看出,多種類型的醫療大數據目前已經有了相應的方法、應用和優化,并且已經顯現出非常好的成效,但是醫療數據的來源本身也要考慮到安全性問題。

      醫療數據的共享互聯是一個開放的難題,我們就這方面的技術也開展了一些探索。以下是我們要探索的第三部分,開放互聯。

      因為開放技術的發展,使得瑣碎的數據獲取流程變得更加方便簡單。我們原來要獲得相應的醫療數據需要經過非常復雜的申請流程才能使用數據,并且在使用過程當中,大部分情況下對醫療數據的訪問可能也是非常有限的。我們提出了一種數據自治的開放模式。這種模式是我們將數據封裝在數據盒中,然后用戶通過以數據盒為訪問單位的形式來訪問數據。數據擁有者有一個更自主制定哪些數據可被訪問的方式。

      此外,為了能對數據訪問方式進行約束,我們在數據盒里面也提供了一個數據使用行為的檢測功能。于是,對這些數據的使用者而言,可能他所需要的操作只是利用數據的一些統計信息,而不能夠讀取每條數據。在行為監測方面,我們就會加以限定。這種方式激發了數據擁有者更好、更方便地開放數據。對用戶而言,以數據盒的方式進行使用也是非常方便的。從而,我們能夠在數據開放的基礎上保護數據的權益。并且在這里面我們還使用了區塊鏈的方式對每一個使用過數據的用戶行為加以記錄,可以用于我們的追蹤。

      同時我們也會考慮,對于數據擁有者來說,提供數據的便利,即提供數據互聯的接口。例如多個數據擁有方有多個系統,可以利用軟件接口化技術實現數據的鏈接,即給出配置要求,從相應的系統里面連接接口,將數據與平臺進行一個銜接。

      在這個過程當中,數據使用者會受到數據互聯平臺的管控。比如說哪些使用行為是允許的、哪些使用行為是不允許的,我們會對這些日志進行記錄。另外如果要使用這些數據進行智能分析時,會為這些數據分配相應的容器,即它能夠使用哪些算力,然后它就可以對這些數據進行算法訓練。

      我們有機結合了數據、算力和方法三方面的優勢。這樣可以讓數據擁有者的提供方更好地把他的數據貢獻共享出來。數據管控方主要是保護數據的安全性;人工智能算法的研究機構或企業更關注于其研發的方法如何來進行分析和研究。所以通過上述方式,能夠高效地按需提供實時的、高質的、互通的數據。目前已經形成了醫療大數據的互聯互通系列技術,構建了醫療人工智能算法的訓練實驗場。

      四、總結與展望

      最后是總結。我們看到了淺層的醫療數據資源的利用已經產生了巨大價值,還有更多更新的技術可以進一步推動醫療大數據的利用和發展。因此還需要探索更深層次的一些數據資源的利用開發方法。當前,元宇宙技術在醫療行業的探索也得到了非常大的關注,這對醫療數據的分析和利用也提出了一些新挑戰。

      希望能夠通過對醫療大數據更深入的分析和對互聯技術更深的探索,更好地支持醫療健康數字化行業的發展,賦能未來的醫療,轉變醫療服務模式,助推全面的健康,筑牢健康的基石。以上是我的分享,謝謝大家。


      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 欧美日韩在线视频一区| 久久人妻少妇嫩草av蜜桃| 99r免费视频| 亚州Av无码| 国产精品夜夜爽7777777| 成人国产精品一区二区网站公司| 日本强伦片中文字幕免费看| www.色色色.com| 男人的天堂在线视频| 亚洲国产欧美在线人成大黄瓜| 被黑人各种姿势猛烈进出到抽搐| 国产精品18久久久| 欧美偷拍视频| 欧美精品v国产精品v日韩精品 | 日本中文字幕乱码免费| 久久天天躁夜夜躁狠狠ds005| 女人爽到高潮免费视频大全 | 天天躁日日躁AAAAⅩXXX| 国产国语一级毛片| 中文岛国精品亚洲一区| 无码精品a∨在线观看中文| 亚洲av无码成人影院一区| 日韩精品无码一区二区三区av| 日韩无毛| 中文国产成人精品久久不卡| 国产V在线| 国产成人av| 久久99九九精品久久久久蜜桃| 久久精品av一区二区免费| 92国产福利午夜757小视频| 国产精品国产AV片国产| 日本精品一区二区三区四区| 天天碰天天狠天天透澡| 熟女视频一区二区在线观看| 国产女同疯狂摩擦奶6| 色妞www精品免费视频| 久久久久久久久久8888| 甈你V| 亚洲天堂视频在线观看| 好吊色妇女免费视频免费| 日韩精品久久久肉伦网站|