0

雷鋒網AI掘金志《未來醫療大講堂——醫學影像專題》第四期總結文:一個只給醫療AI從業者、影像科醫生、名校師生、CFDA工作人員看的系列課程。
注:90分鐘的視頻信息量巨大,文章僅為冰山一角,強烈建議觀看完整版視頻(含57頁PPT),請點擊鏈接:http://www.mooc.ai/open/course/384

一、數據篇(17頁PPT)
1.醫學影像數據資產盤點
2.標注工具——脫敏:大框架、小技巧
3.標注工具第一類——PC+文件夾處理
4.標注工具第二類——專用IT系統和工具:客戶端系統與網站系統
5.第三方標注工具LabelImg
6.自建工具
7.標注工具開發心得
8.標注工具第三類——專用工具+AI輔助標注
二、算法篇(31頁PPT)
1.關于數據分割比例
2.遷移學習
3.框架選型:Pytorch、Caffe、TensorFlow、MXnet
4.目標檢測用于面部皮膚疾病分析
數據脫敏及預處理、皮膚疾病檢測
5.目標檢測用于宮頸基液細胞分析
基于深度學習+GBDT的Two Stage模型
multi CPU+multi GPU宮頸病理三分類系統
6.3D目標檢測用于肺結節CT分析:
數據處理、肺結節預測框架、Faster RCNN框架、Online hard Example mining、Loss 函數、框架選擇、我們的模型框架、FROC效果提升、模型網絡結構(150層+,Unet+Resnet)、分類器與融合
三、算力篇(9頁PPT)
1.架構選型決策:品牌 VS DIY
Intel CPU+Nvidia GPU
Power CPU+Nvidia GPU
Intel CPU
Intel +ASIC
Intel +FPGA
2、選型決策:云VS自建
亞馬遜云、美團云、阿里云
3.算力優化:CPU GPU 寬帶優化、CUDA
吳博從數據、算法和算力三個層面,詳細介紹了自己在AI醫學影像落地方面的實戰經驗和心得。
他指出,醫療數據的價值評估與鉆石類似,可以從數據質量、同分布來源的影像數據尺寸和數據標注程度這三大維度來考核。沒有經過標注的數據就像未經加工的原石,無法體現其價值,因此數據標注是AI醫學影像落地過程中至關重要的一環。
吳博對數據標注工具進行了分類,并分享了自己在開發數據標注工具方面的心得。他指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標注調整等需求。
數據層面,企業能做的決策不多,只能“看菜吃飯”,但在算力層面,企業有很多的選擇,比如選擇什么樣的框架,選擇品牌設備還是DIY設備,選擇云服務還是自建機房等。在課程的最后部分,吳博詳細介紹了許多選型決策和算力優化方面的技巧。

吳博,宜遠智能CEO
學術背景:吳博先后在清華大學、香港浸會大學求學,并在英國利茲大學完成博士后,師從計算機視覺專家唐遠炎教授等人。與此同時,他也在ICML/ACL等頂級會議發表多篇人工智能論文。
工業界經驗:2017年創立醫療AI公司:宜遠智能,該公司集結了20多名人工智能博士以及眾多海內外醫學顧問,為醫療健康領域提供AI增強解決方案,并與多家知名醫院達成合作,并推出成型產品。
創立宜遠智能之前,吳博曾在愛立信大數據研究院任職。還主導過百億級虛擬品電商、數字貨幣系統的業務及數據架構建設與運營。
2017年成果:吳博領導的宜遠智能團隊在醫學影像領域,取得以下成績:
1.阿里天池醫療AI大賽GPU環節國內最佳;開源系統榮獲大賽人氣獎。
2.面部皮膚診斷分析API、SDK已經進入商業化,并在2017年世界互聯網大會展出。
3.宮頸基液細胞學診斷AI在權威評測中,超出醫生水平。
以下圖文為雷鋒網AI掘金志節選的吳博課程部分內容:
醫療人工智能建立在海量數據的基礎之上,但優質的醫療數據十分稀缺,其價值隨之凸顯。如何準確評估數據的價值,是醫生和投資人非常關心的話題,對此業內尚未形成共識。
吳博認為,醫療數據可以類比為鉆石。鉆石的價值評估對應著顏色、凈度、切工和克拉這四個維度,醫療數據也可如此類比。
顏色越純、凈度越高的鉆石,價值也就越高。對于醫學影像數據來說,它的價值也取決于其干凈、規范、清晰和標準化的程度。如果是從膠片、PACS系統和診斷報告中翻拍而來的數據,必然會包含一些雜質,其價值將大打折扣。吳博指出,高質量的數據需要是Raw Data,比如mhd格式的DICOM影像和openslide病理圖像。
鉆石單顆克拉數越高,價值也就越大。吳博認為,鉆石的克拉數可類比同分布來源的影像數據尺寸。所謂同分布來源的影像數據,對CT來說就是來自同一設備的,參數和曝光強度都相同的影像數據;對病理圖像來說,則指采用同一染色方法和色度、同一掃描儀及倍數,以及相同存儲格式的影像數據。
雖然AI企業的最終目標是開發出一套通用性強的算法,能通吃各種數據;但作為數據資產方,同分布同來源的影像數據規模越大,其價值就越高。
有些醫院雖然擁有大量數據,但它們來自不同的科室,格式也不盡相同,這種數據的價值是要打一些折扣的。

鉆石成為商品前需要經過切割等加工,醫療數據同樣要經過標注等處理才能釋放其價值。鉆石的切割工藝分為許多個層級,醫療影像數據的標注亦是如此。從基礎的類別標注到類別+病灶方框標注,再到類別+像素級勾畫,標注的精細度逐級提升,數據的價值亦水漲船高。
工欲善其事,必先利其器。要想對醫療影像數據進行精細化的標注,首先得有好的標注工具。
吳博將標注工具劃分成了三大類別,他將最基礎的一類稱作“pc+文件夾處理”,即讓醫生在pc和工作站上對數據進行分揀。對于醫生來說,專業的數據標注軟件有一定的學習成本,原始的分揀處理減少了學習成本,而且往往行之有效,還具有不受網絡影響、安全性較高等優點。不足之處則在于,對后期的數據清洗要求更高,而且過程繁雜,十分消耗人工物力。

更高階的有專用IT系統和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 標準標注工具 labelImg為代表的第三方工具雖然功能強大,但在通用性和靈活性方面還有所欠缺,因此企業經常不得不開發一些自建工具。
宜遠智能在開發數據標注工具方面積累了許多心得。吳博指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標注調整等需求。
尤其是在醫學影像領域,標注的數據大多為圖片,天然具備便于展示的優點,因此可以本著方便易用的原則采用H5的canvas來設計標注工具,同時結合css3的變換,滿足圖像縮放、標注的需求。標注人員只需打開瀏覽器即可標注,無需復雜軟件部署。
鑒于有些標注圖片太大(比如一例CT數據多達幾十甚至上百兆,一例病理數據有可能多達1G),網絡傳輸效率低下,有時候需要對標注數據做本地處理。小的項目可以采用數據本地化的方式,使用fiddler等代理軟件將網絡圖片請求代理到本地。大的項目則可以做內網的分布式部署,將標注系統部署在內網服務器上,由標注人員在內網進行標注。
基于這些自建工具,標注人員可以根據需求選擇本地標注或在線標注,操作集中于鼠標,交互非常友好。標注人員可根據不同標注需求繪制點/線/框,無需復雜設置,打開瀏覽器即可標注,也可以清楚看到哪些已標哪些未標。

隨著技術發展,數據標注本身也呈現出了AI化的趨勢。比如基于以往的標注,可以通過AI模型對數據進行預處理,然后由標注人員在此基礎上做一些校正。




(算法篇 共有31頁信息量極大的PPT)
吳博認為,算力優化本質上是跟預算做斗爭,因為任何一家企業的預算和資源都是有限的,必須做很多的決策,要有所取舍。
數據層面,企業能做的決策不多,只能“看菜吃飯”,有多少數據就做多大的事。但在算力層面,企業有很多的選擇,比如選擇什么樣的框架,選擇品牌設備還是DIY設備,選擇云服務還是自建機房等。

就框架而言,Intel CPU + Nvidia GPU的框架是目前為止的首選,特別是在需要做模型訓練的情況下。但企業也可以根據自身需求選擇其他框架,比如IBM體系的Power CPU + Nvidia GPU框架,性能也很優異,在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持,構成比較高端解決方案。
而且為了追趕Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持計劃。對于研發團隊來說,加入它們的foundation獲得算力上的支持是個不錯的選擇。而且Power和浪潮的合作非常緊密,這意味著它的國產化將不成問題。
此外,還有Intel CPU、Intel + ASIC、FPGA等多種框架,它們各有優缺點,企業可以視自身情況作出選擇。
……
雷鋒網AI掘金志線上直播結束后,學員從不同維度提出了18個問題,吳博對多數問題進行了耐心解答。
問題:
1.多疾病分類的時候,針對嚴重不均衡的數據,除了過采樣以外,還有沒有算法層面的突破?嚴重不均衡的數據集合會不會造成分類時baseline不穩定?
2.如何對多模態數據進行有效利用?
3.針對組織器官數據有哪些標注工具?
4.模型迭代標注調整是什么意思?
5.今天講的細胞學、病理、肺結節等,有做成產品用到醫院的嗎?
6.病理圖片的顏色千差萬別,如何做預處理?
7.液基細胞學用語義分割做的分割效果如何?
……
本文僅展示了部分內容和10頁PPT,剩下的精彩內容和47頁PPT,歡迎點擊鏈接:http://www.mooc.ai/open/course/384
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。