宜遠智能CEO吳博：醫學影像的數據標注、算法方法與算力優化

本文作者：劉偉

2017-12-28 19:37

導語：《未來醫療大講堂——醫學影像專題》第四期總結文。

雷鋒網AI掘金志《未來醫療大講堂——醫學影像專題》第四期總結文：一個只給醫療AI從業者、影像科醫生、名校師生、CFDA工作人員看的系列課程。

注：90分鐘的視頻信息量巨大，文章僅為冰山一角，強烈建議觀看完整版視頻（含57頁PPT），請點擊鏈接：http://www.mooc.ai/open/course/384

宜遠智能CEO吳博：醫學影像的數據標注、算法方法與算力優化

一、數據篇（17頁PPT）

1.醫學影像數據資產盤點

2.標注工具——脫敏：大框架、小技巧

3.標注工具第一類——PC+文件夾處理

4.標注工具第二類——專用IT系統和工具：客戶端系統與網站系統

5.第三方標注工具LabelImg

6.自建工具

7.標注工具開發心得

8.標注工具第三類——專用工具+AI輔助標注

二、算法篇（31頁PPT）

1.關于數據分割比例

2.遷移學習

3.框架選型：Pytorch、Caffe、TensorFlow、MXnet

4.目標檢測用于面部皮膚疾病分析

數據脫敏及預處理、皮膚疾病檢測

5.目標檢測用于宮頸基液細胞分析

基于深度學習+GBDT的Two Stage模型

multi CPU+multi GPU宮頸病理三分類系統

6.3D目標檢測用于肺結節CT分析：

數據處理、肺結節預測框架、Faster RCNN框架、Online hard Example mining、Loss 函數、框架選擇、我們的模型框架、FROC效果提升、模型網絡結構（150層+，Unet+Resnet）、分類器與融合

三、算力篇（9頁PPT）

1.架構選型決策：品牌 VS DIY

Intel CPU+Nvidia GPU
Power CPU+Nvidia GPU
Intel CPU
Intel +ASIC
Intel +FPGA

2、選型決策：云VS自建

亞馬遜云、美團云、阿里云

3.算力優化：CPU GPU 寬帶優化、CUDA

吳博從數據、算法和算力三個層面，詳細介紹了自己在AI醫學影像落地方面的實戰經驗和心得。

他指出，醫療數據的價值評估與鉆石類似，可以從數據質量、同分布來源的影像數據尺寸和數據標注程度這三大維度來考核。沒有經過標注的數據就像未經加工的原石，無法體現其價值，因此數據標注是AI醫學影像落地過程中至關重要的一環。

吳博對數據標注工具進行了分類，并分享了自己在開發數據標注工具方面的心得。他指出，通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核，以及模型迭代標注調整等需求。

數據層面，企業能做的決策不多，只能“看菜吃飯”，但在算力層面，企業有很多的選擇，比如選擇什么樣的框架，選擇品牌設備還是DIY設備，選擇云服務還是自建機房等。在課程的最后部分，吳博詳細介紹了許多選型決策和算力優化方面的技巧。

嘉賓介紹：

宜遠智能CEO吳博：醫學影像的數據標注、算法方法與算力優化

吳博，宜遠智能CEO

學術背景：吳博先后在清華大學、香港浸會大學求學，并在英國利茲大學完成博士后，師從計算機視覺專家唐遠炎教授等人。與此同時，他也在ICML/ACL等頂級會議發表多篇人工智能論文。

工業界經驗：2017年創立醫療AI公司：宜遠智能，該公司集結了20多名人工智能博士以及眾多海內外醫學顧問，為醫療健康領域提供AI增強解決方案，并與多家知名醫院達成合作，并推出成型產品。

創立宜遠智能之前，吳博曾在愛立信大數據研究院任職。還主導過百億級虛擬品電商、數字貨幣系統的業務及數據架構建設與運營。

2017年成果：吳博領導的宜遠智能團隊在醫學影像領域，取得以下成績：

1.阿里天池醫療AI大賽GPU環節國內最佳；開源系統榮獲大賽人氣獎。

2.面部皮膚診斷分析API、SDK已經進入商業化，并在2017年世界互聯網大會展出。

3.宮頸基液細胞學診斷AI在權威評測中，超出醫生水平。

以下圖文為雷鋒網AI掘金志節選的吳博課程部分內容：

一、數據篇

如何評估數據價值？

醫療人工智能建立在海量數據的基礎之上，但優質的醫療數據十分稀缺，其價值隨之凸顯。如何準確評估數據的價值，是醫生和投資人非常關心的話題，對此業內尚未形成共識。

吳博認為，醫療數據可以類比為鉆石。鉆石的價值評估對應著顏色、凈度、切工和克拉這四個維度，醫療數據也可如此類比。

顏色越純、凈度越高的鉆石，價值也就越高。對于醫學影像數據來說，它的價值也取決于其干凈、規范、清晰和標準化的程度。如果是從膠片、PACS系統和診斷報告中翻拍而來的數據，必然會包含一些雜質，其價值將大打折扣。吳博指出，高質量的數據需要是Raw Data，比如mhd格式的DICOM影像和openslide病理圖像。

鉆石單顆克拉數越高，價值也就越大。吳博認為，鉆石的克拉數可類比同分布來源的影像數據尺寸。所謂同分布來源的影像數據，對CT來說就是來自同一設備的，參數和曝光強度都相同的影像數據；對病理圖像來說，則指采用同一染色方法和色度、同一掃描儀及倍數，以及相同存儲格式的影像數據。

雖然AI企業的最終目標是開發出一套通用性強的算法，能通吃各種數據；但作為數據資產方，同分布同來源的影像數據規模越大，其價值就越高。

有些醫院雖然擁有大量數據，但它們來自不同的科室，格式也不盡相同，這種數據的價值是要打一些折扣的。

宜遠智能CEO吳博：醫學影像的數據標注、算法方法與算力優化

鉆石成為商品前需要經過切割等加工，醫療數據同樣要經過標注等處理才能釋放其價值。鉆石的切割工藝分為許多個層級，醫療影像數據的標注亦是如此。從基礎的類別標注到類別+病灶方框標注，再到類別+像素級勾畫，標注的精細度逐級提升，數據的價值亦水漲船高。

如何選擇數據標注工具？

工欲善其事，必先利其器。要想對醫療影像數據進行精細化的標注，首先得有好的標注工具。

吳博將標注工具劃分成了三大類別，他將最基礎的一類稱作“pc+文件夾處理”，即讓醫生在pc和工作站上對數據進行分揀。對于醫生來說，專業的數據標注軟件有一定的學習成本，原始的分揀處理減少了學習成本，而且往往行之有效，還具有不受網絡影響、安全性較高等優點。不足之處則在于，對后期的數據清洗要求更高，而且過程繁雜，十分消耗人工物力。

宜遠智能CEO吳博：醫學影像的數據標注、算法方法與算力優化

更高階的有專用IT系統和工具，包含第三方工具和自建工具。以MIT 的 Pascal VOC 標準標注工具 labelImg為代表的第三方工具雖然功能強大，但在通用性和靈活性方面還有所欠缺，因此企業經常不得不開發一些自建工具。

宜遠智能在開發數據標注工具方面積累了許多心得。吳博指出，通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核，以及模型迭代標注調整等需求。

尤其是在醫學影像領域，標注的數據大多為圖片，天然具備便于展示的優點，因此可以本著方便易用的原則采用H5的canvas來設計標注工具，同時結合css3的變換，滿足圖像縮放、標注的需求。標注人員只需打開瀏覽器即可標注，無需復雜軟件部署。

鑒于有些標注圖片太大（比如一例CT數據多達幾十甚至上百兆，一例病理數據有可能多達1G），網絡傳輸效率低下，有時候需要對標注數據做本地處理。小的項目可以采用數據本地化的方式，使用fiddler等代理軟件將網絡圖片請求代理到本地。大的項目則可以做內網的分布式部署，將標注系統部署在內網服務器上，由標注人員在內網進行標注。

基于這些自建工具，標注人員可以根據需求選擇本地標注或在線標注，操作集中于鼠標，交互非常友好。標注人員可根據不同標注需求繪制點/線/框，無需復雜設置，打開瀏覽器即可標注，也可以清楚看到哪些已標哪些未標。

宜遠智能CEO吳博：醫學影像的數據標注、算法方法與算力優化

隨著技術發展，數據標注本身也呈現出了AI化的趨勢。比如基于以往的標注，可以通過AI模型對數據進行預處理，然后由標注人員在此基礎上做一些校正。

二、算法篇

（算法篇共有31頁信息量極大的PPT）

三、算力篇

吳博認為，算力優化本質上是跟預算做斗爭，因為任何一家企業的預算和資源都是有限的，必須做很多的決策，要有所取舍。

數據層面，企業能做的決策不多，只能“看菜吃飯”，有多少數據就做多大的事。但在算力層面，企業有很多的選擇，比如選擇什么樣的框架，選擇品牌設備還是DIY設備，選擇云服務還是自建機房等。

宜遠智能CEO吳博：醫學影像的數據標注、算法方法與算力優化

就框架而言，Intel CPU + Nvidia GPU的框架是目前為止的首選，特別是在需要做模型訓練的情況下。但企業也可以根據自身需求選擇其他框架，比如IBM體系的Power CPU + Nvidia GPU框架，性能也很優異，在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持，構成比較高端解決方案。

而且為了追趕Intel CPU + Nvidia GPU的框架，Power CPU + Nvidia GPU提供了很多扶持計劃。對于研發團隊來說，加入它們的foundation獲得算力上的支持是個不錯的選擇。而且Power和浪潮的合作非常緊密，這意味著它的國產化將不成問題。

此外，還有Intel CPU、Intel + ASIC、FPGA等多種框架，它們各有優缺點，企業可以視自身情況作出選擇。

……