韓國(guó)科研團(tuán)隊(duì)：超90%的醫(yī)學(xué)影像AI論文未在臨床環(huán)境進(jìn)行嚴(yán)格驗(yàn)證

本文作者：李雨晨

2019-03-15 18:45

導(dǎo)語(yǔ)：幾乎所有在研究期間發(fā)表的醫(yī)學(xué)影像AI算法性能的評(píng)估實(shí)驗(yàn)，都是為驗(yàn)證技術(shù)概念的可行性而設(shè)計(jì)，沒(méi)有對(duì)AI算法在實(shí)際臨床環(huán)境下的性能進(jìn)行嚴(yán)格驗(yàn)證。

雷鋒網(wǎng)消息，近年來(lái)，人工智能在醫(yī)學(xué)中的應(yīng)用令人興奮，但當(dāng)前的一個(gè)問(wèn)題是人工智能算法缺乏適當(dāng)?shù)呐R床驗(yàn)證。近日，韓國(guó)泰安郡衛(wèi)生中心的Dong Wook Kim和蔚山大學(xué)醫(yī)學(xué)院放射學(xué)研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park（通訊作者）等幾位醫(yī)學(xué)博士發(fā)表了一篇論文，來(lái)評(píng)估AI算法性能研究實(shí)驗(yàn)的設(shè)計(jì)特征，這些AI算法基于醫(yī)學(xué)影像來(lái)提供診斷決策。

研究團(tuán)隊(duì)通過(guò)檢索PubMed MEDLINE和Embase數(shù)據(jù)庫(kù)，以確定2018年1月1日至2018年8月17日期間發(fā)表的原始研究論文，評(píng)估所選擇的文章有以下幾個(gè)條件：

1、該研究是否使用外部驗(yàn)證而不是內(nèi)部驗(yàn)證，并且在外部驗(yàn)證的情況下，是否收集驗(yàn)證數(shù)據(jù)
2、是否使用診斷隊(duì)列設(shè)計(jì)而不是診斷病例對(duì)照設(shè)計(jì)
3、是否來(lái)自多個(gè)機(jī)構(gòu)
4、是否以前瞻性的方式

這些是在現(xiàn)實(shí)世界中用于臨床驗(yàn)證AI性能的基本方法學(xué)特征。

確定了符合上述標(biāo)準(zhǔn)的研究后，研究團(tuán)隊(duì)將出版期刊分為醫(yī)學(xué)期刊和非醫(yī)學(xué)期刊。然后，比較醫(yī)學(xué)和非醫(yī)學(xué)期刊之間的結(jié)果。在516項(xiàng)符合條件的已發(fā)表研究中，只有6％（31項(xiàng)研究）進(jìn)行了外部驗(yàn)證。31項(xiàng)研究均未采用所有三種實(shí)驗(yàn)設(shè)計(jì)條件：診斷隊(duì)列設(shè)計(jì)，包含多個(gè)機(jī)構(gòu)，以及用于外部驗(yàn)證的前瞻性數(shù)據(jù)收集。醫(yī)學(xué)和非醫(yī)學(xué)期刊之間沒(méi)有顯著差異。

研究團(tuán)隊(duì)得出的結(jié)論是：幾乎所有在研究期間發(fā)表的醫(yī)學(xué)影像AI算法性能的評(píng)估實(shí)驗(yàn)，都是為驗(yàn)證技術(shù)概念的可行性而設(shè)計(jì)，沒(méi)有對(duì)AI算法在實(shí)際臨床環(huán)境下的性能進(jìn)行嚴(yán)格驗(yàn)證。

引言

由于深度學(xué)習(xí)技術(shù)的進(jìn)步，人工智能（AI）在醫(yī)學(xué)中的應(yīng)用引起了很多關(guān)注。值得注意的是，人們對(duì)使用AI進(jìn)行各種醫(yī)學(xué)影像的診斷分析非常感興趣，主要是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)，一種被稱為“計(jì)算機(jī)視覺(jué)”的深度學(xué)習(xí)技術(shù)。與任何其他醫(yī)療設(shè)備或技術(shù)一樣，通過(guò)充分設(shè)計(jì)的研究確保患者的利益和安全，同時(shí)避免任何無(wú)意的危害，在臨床實(shí)踐中采用AI算法進(jìn)行全面臨床驗(yàn)證的重要性不容小覷。

值得注意的是，在本研究中使用術(shù)語(yǔ)“驗(yàn)證”來(lái)表示確認(rèn)，就像在醫(yī)學(xué)領(lǐng)域中使用的那樣，而不是在機(jī)器學(xué)習(xí)領(lǐng)域中用作技術(shù)術(shù)語(yǔ)“算法調(diào)整”的意思。

AI技術(shù)的臨床驗(yàn)證可以在不同的水平上進(jìn)行：診斷性能，對(duì)患者結(jié)果的影響以及考慮 cost-benefit 和 cost-effectiveness 的社會(huì)效能（societal efficacy）。正確評(píng)估使用深度學(xué)習(xí)分析醫(yī)學(xué)圖像的高維AI算法的真實(shí)臨床性能需要適當(dāng)設(shè)計(jì)的外部驗(yàn)證。建議外部驗(yàn)證使用重新招募的患者或提供訓(xùn)練數(shù)據(jù)的機(jī)構(gòu)以外的其他機(jī)構(gòu)收集的足夠大小的數(shù)據(jù)集，以充分代表AI所應(yīng)用的現(xiàn)實(shí)臨床環(huán)境中的目標(biāo)患者表現(xiàn)譜（即患者人口統(tǒng)計(jì)學(xué)和疾病狀態(tài)的所有相關(guān)變化）。

此外，使用來(lái)自多個(gè)外部機(jī)構(gòu)的數(shù)據(jù)對(duì)驗(yàn)證非常重要，以驗(yàn)證算法的泛化能力，應(yīng)對(duì)各種醫(yī)院系統(tǒng)的預(yù)期變異性。復(fù)雜的數(shù)學(xué)/統(tǒng)計(jì)AI模型，例如分析醫(yī)學(xué)影像的深度學(xué)習(xí)算法，需要大量的數(shù)據(jù)用于算法訓(xùn)練；制作和注釋這種量綱的醫(yī)學(xué)影像數(shù)據(jù)資源尤其緊張和困難。因此，開(kāi)發(fā)此類AI算法的個(gè)體可能依賴于任何可用的數(shù)據(jù)（方法上稱為便利病例 - 對(duì)照數(shù)據(jù) convenience case-control data），盡管這些可能易于發(fā)生選擇偏倚和人為疾病流行（artificial disease prevalence），并且可能不能很好地代表實(shí)際臨床設(shè)置。由于AI算法的性能很大程度上取決于其訓(xùn)練數(shù)據(jù)，因此存在真正的風(fēng)險(xiǎn)，即AI算法在實(shí)際操作中可能表現(xiàn)不佳，并且在一個(gè)機(jī)構(gòu)訓(xùn)練的算法在應(yīng)用于另一個(gè)機(jī)構(gòu)的數(shù)據(jù)時(shí)提供不準(zhǔn)確的結(jié)論。

盡管人工智能在醫(yī)學(xué)中的應(yīng)用令人興奮，但人工智能算法缺乏適當(dāng)?shù)呐R床驗(yàn)證似乎是當(dāng)前的一個(gè)問(wèn)題，這種現(xiàn)象被稱為“數(shù)字例外論”（digital exceptionalism）。例如，計(jì)算機(jī)科學(xué)家通常會(huì)在“測(cè)試”數(shù)據(jù)集上評(píng)估AI算法的性能；然而，這些通常是原始數(shù)據(jù)集的隨機(jī)子樣本，因此，不可能對(duì)臨床表現(xiàn)進(jìn)行充分的外部驗(yàn)證。據(jù)我們所知，顯示這一顯著問(wèn)題確切程度的具體數(shù)據(jù)很少。

本研究旨在評(píng)估最近發(fā)表的研究的實(shí)驗(yàn)設(shè)計(jì)，這些研究報(bào)告了分析醫(yī)學(xué)影像的AI算法的性能，并確定研究設(shè)計(jì)是否適合于驗(yàn)證AI算法在實(shí)際臨床中的表現(xiàn)。本研究中提到的研究實(shí)驗(yàn)設(shè)計(jì)對(duì)于驗(yàn)證AI的真實(shí)臨床表現(xiàn)至關(guān)重要，但對(duì)于驗(yàn)證概念技術(shù)可行性研究而言則過(guò)多。由于并非每項(xiàng)關(guān)于使用AI進(jìn)行醫(yī)學(xué)診斷的研究都是為了驗(yàn)證實(shí)際的臨床表現(xiàn)，本研究的目的并不是直截了當(dāng)?shù)嘏袛嘁寻l(fā)表研究的方法學(xué)適用性。

材料和方法

文獻(xiàn)檢索與篩選

我們對(duì)PubMed MEDLINE和Embase數(shù)據(jù)庫(kù)進(jìn)行了全面搜索，以確定調(diào)查AI算法性能的原始研究文章，該算法通過(guò)分析醫(yī)學(xué)影像來(lái)提供診斷決策（例如診斷或發(fā)現(xiàn)特定疾病，又或者是提供信息以根據(jù)特定疾病將患者分類為亞組疾病狀態(tài)、亞型、嚴(yán)重程度、階段、治療反應(yīng)、預(yù)后和風(fēng)險(xiǎn)）。我們使用以下搜索查詢: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我們將檢索時(shí)間限制為2018年，以獲得及時(shí)的結(jié)果（文獻(xiàn)檢索更新至2018年8月17日）。印刷出版物和電子出版物都包括在內(nèi)。

在刪除兩個(gè)數(shù)據(jù)庫(kù)之間的重疊之后，由兩名獨(dú)立評(píng)審員篩選文章的資格。在一次會(huì)議上重新評(píng)估了任何程度模糊或在兩位審稿人之間產(chǎn)生意見(jiàn)分歧的文章，并邀請(qǐng)了第三位審稿人來(lái)達(dá)成一致。案例報(bào)告、評(píng)論文章、社論、信件、評(píng)論和會(huì)議摘要/程序被排除在外。我們的檢索僅限于人類類別和英語(yǔ)語(yǔ)言的研究。

我們將醫(yī)學(xué)圖像定義為放射圖像和其他醫(yī)學(xué)圖像（例如，內(nèi)窺鏡圖像，病理圖像和皮膚圖像），并且沒(méi)有考慮任何在時(shí)間上繪制一維數(shù)據(jù)的線條圖，例如，心電圖和A超。研究調(diào)查了結(jié)合醫(yī)學(xué)圖像和其他類型臨床數(shù)據(jù)的AI算法。沒(méi)有考慮除直接診斷決策之外的圖像相關(guān)任務(wù)的AI算法，例如圖像分割，定量測(cè)量和圖像采集/重建的增強(qiáng)。

數(shù)據(jù)提取

兩位評(píng)審員通過(guò)以下標(biāo)準(zhǔn)評(píng)估了符合條件的文章的全文：

1、該研究是否使用外部驗(yàn)證而不是內(nèi)部驗(yàn)證，并且在外部驗(yàn)證的情況下，是否收集驗(yàn)證數(shù)據(jù)
2、是否使用診斷隊(duì)列設(shè)計(jì)而不是診斷病例對(duì)照設(shè)計(jì)
3、是否來(lái)自多個(gè)機(jī)構(gòu)
4、是否以前瞻性的方式

這些是在實(shí)際操作中推薦用于AI性能臨床驗(yàn)證的基本方法學(xué)特征。這些問(wèn)題中得到更多“是”的答案，則算法性能的實(shí)際應(yīng)用越普遍。如果一項(xiàng)研究以多種方式驗(yàn)證其AI性能，那么如果至少有一項(xiàng)分析使用了這些設(shè)計(jì)條件，則該研究對(duì)上述每個(gè)問(wèn)題都會(huì)為“是”。我們寬泛地定義了“外部”，包括訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)來(lái)自不同機(jī)構(gòu)，以及從同一機(jī)構(gòu)但在不同時(shí)間收集訓(xùn)練和驗(yàn)證數(shù)據(jù)的情況，即使后者在嚴(yán)格意義上不被視為外部驗(yàn)證。

對(duì)于在同一機(jī)構(gòu)收集訓(xùn)練和驗(yàn)證數(shù)據(jù)集的研究，如果驗(yàn)證數(shù)據(jù)集的臨床設(shè)置和患者資格標(biāo)準(zhǔn)與訓(xùn)練數(shù)據(jù)集分開(kāi)指定，則驗(yàn)證數(shù)據(jù)僅被視為外部數(shù)據(jù)。這是為了確保驗(yàn)證數(shù)據(jù)不僅僅是原始大數(shù)據(jù)集的分割子樣本，因?yàn)檫@會(huì)產(chǎn)生一種內(nèi)部驗(yàn)證。診斷性隊(duì)列設(shè)計(jì)指該研究首先定義臨床環(huán)境和患者資格標(biāo)準(zhǔn)，然后連續(xù)或隨機(jī)招募患者以進(jìn)行特定診斷程序，例如AI算法應(yīng)用。相反，診斷病例對(duì)照設(shè)計(jì)將分別收集疾病陽(yáng)性和疾病陰性受試者。診斷病例對(duì)照設(shè)計(jì)容易出現(xiàn)疾病譜偏倚，這可能導(dǎo)致對(duì)診斷性能的夸大估計(jì)和非自然流行，從而產(chǎn)生診斷性能的不確定性。

另外，我們注意到每篇文章的主題領(lǐng)域（例如，放射學(xué)，病理學(xué)和眼科學(xué)）并將出版期刊分類為醫(yī)學(xué)或非醫(yī)學(xué)期刊組。這些期刊主要根據(jù)期刊引用報(bào)告（JCR）2017版本類別進(jìn)行分類。對(duì)于未包括在JCR數(shù)據(jù)庫(kù)中的期刊，如果期刊的范圍/目標(biāo)包括任何醫(yī)學(xué)領(lǐng)域或主編是醫(yī)生，我們會(huì)提及期刊網(wǎng)站并將其歸類為醫(yī)學(xué)。對(duì)于任何程度模糊或在兩位獨(dú)立評(píng)審員之間產(chǎn)生意見(jiàn)分歧的文章都在包括第三位評(píng)審員在內(nèi)的共識(shí)會(huì)議上重新評(píng)估。

結(jié)果測(cè)量和統(tǒng)計(jì)分析

我們計(jì)算了進(jìn)行外部驗(yàn)證的研究百分比。對(duì)于報(bào)告外部驗(yàn)證結(jié)果的研究，確定了涉及診斷隊(duì)列的實(shí)驗(yàn)設(shè)計(jì)，包含多個(gè)機(jī)構(gòu)以及外部驗(yàn)證的前瞻性數(shù)據(jù)收集的研究比例。使用Fisher精確檢驗(yàn)對(duì)醫(yī)學(xué)和非醫(yī)學(xué)期刊的結(jié)果進(jìn)行了比較。 p <0.05被認(rèn)為是顯著的。

結(jié)果

在去除PubMed MEDLINE和Embase之間的重疊后最初收集的2748篇文章中，最終有516篇文章符合條件（圖1，表1）。

韓國(guó)科研團(tuán)隊(duì)：超90%的醫(yī)學(xué)影像AI論文未在臨床環(huán)境進(jìn)行嚴(yán)格驗(yàn)證

表2列出了具有每種實(shí)驗(yàn)設(shè)計(jì)的文章的比例，包括醫(yī)學(xué)和非醫(yī)學(xué)期刊的分類。只有6％（516個(gè)中的31個(gè)）進(jìn)行了外部驗(yàn)證。所有外部驗(yàn)證研究均未采用所有三種實(shí)驗(yàn)設(shè)計(jì)，即診斷隊(duì)列設(shè)計(jì)，包含多個(gè)機(jī)構(gòu)和前瞻性數(shù)據(jù)收集。醫(yī)學(xué)和非醫(yī)學(xué)期刊之間沒(méi)有顯著差異（表2）。

韓國(guó)科研團(tuán)隊(duì)：超90%的醫(yī)學(xué)影像AI論文未在臨床環(huán)境進(jìn)行嚴(yán)格驗(yàn)證

討論

我們的研究結(jié)果顯示，最近發(fā)表的研究報(bào)告了用于醫(yī)學(xué)影像診斷分析的AI算法的性能，但沒(méi)有嚴(yán)格驗(yàn)證AI算法臨床性能的設(shè)計(jì)特征，這證實(shí)了主要期刊最近提出的擔(dān)憂。我們的研究沒(méi)有考慮人工智能研究的各種詳細(xì)的方法學(xué)質(zhì)量測(cè)量，而只是評(píng)估了主要的宏觀研究。因此，AI算法臨床驗(yàn)證的不足程度可能更為顯著。

然而，應(yīng)該指出的是，這些結(jié)果并不一定意味著已發(fā)表的研究各種方法設(shè)計(jì)不充分。本研究中使用的四個(gè)標(biāo)準(zhǔn)是旨在評(píng)估AI算法在實(shí)際臨床表現(xiàn)的基本要求。對(duì)于僅僅研究技術(shù)可行性的研究來(lái)說(shuō)，這些要求將是過(guò)度的。讀者和研究者都應(yīng)該區(qū)分概念驗(yàn)證技術(shù)可行性研究和驗(yàn)證AI臨床表現(xiàn)的研究，并且應(yīng)該避免錯(cuò)誤地考慮不符合上述標(biāo)準(zhǔn)的研究結(jié)果作為臨床驗(yàn)證的合理證據(jù)。

最近發(fā)表了一些相關(guān)的方法指南。我們懷疑在本研究中分析的大多數(shù)研究可能是在這些方法指南可用之前構(gòu)思或執(zhí)行的。因此，旨在評(píng)估醫(yī)學(xué)AI算法的臨床性能研究的實(shí)驗(yàn)設(shè)計(jì)可能在未來(lái)得到改善。

在我們的研究中沒(méi)有直接解決但值得一提的另一個(gè)問(wèn)題是：關(guān)于先驗(yàn)分析計(jì)劃的透明度以及在驗(yàn)證AI算法的臨床性能的研究中的所有結(jié)果的完整公布。

由于人工智能算法的表現(xiàn)可能因機(jī)構(gòu)不同而有差別，一些研究人員或贊助商可能會(huì)傾向于選擇性地報(bào)告有利的結(jié)果，這會(huì)導(dǎo)致漏報(bào)不利的結(jié)果。前瞻性登記研究包括先驗(yàn)分析計(jì)劃，類似于干預(yù)臨床試驗(yàn)的登記（例如，在https://clinicaltrials.gov），將有助于提高這些研究的透明度。已經(jīng)提出了診斷測(cè)試準(zhǔn)確性研究的前瞻性登記，其中包括用于驗(yàn)證AI性能的研究。學(xué)術(shù)期刊采用這一政策有助于提高驗(yàn)證AI算法臨床表現(xiàn)的研究報(bào)告的透明度。

我們目前的研究有一些局限性。

首先，研究數(shù)據(jù)的時(shí)效性很重要，因?yàn)槿斯ぶ悄苁且粋€(gè)快速發(fā)展的領(lǐng)域，許多新研究正在發(fā)表，我們研究結(jié)果的有效期可能很短。但是我們希望很快醫(yī)學(xué)AI臨床表現(xiàn)的研究設(shè)計(jì)取得實(shí)質(zhì)性進(jìn)展。盡管如此迅速的變化，我們的研究仍然是有意義的基線，可以進(jìn)行比較以確定未來(lái)是否有任何改進(jìn)，因?yàn)檫@里分析的大多數(shù)已發(fā)表的研究可能早于最近發(fā)布的相關(guān)方法指南。

其次，雖然本研究?jī)H評(píng)估了AI診斷性能的研究報(bào)告，但AI的臨床驗(yàn)證延伸到評(píng)估AI對(duì)患者預(yù)后的影響。然而，據(jù)我們所知，關(guān)于AI應(yīng)用如何影響患者預(yù)后的研究很少，并且系統(tǒng)地審查已發(fā)表的研究是不可行的。

文章由雷鋒網(wǎng)AI掘金志學(xué)術(shù)組編譯，點(diǎn)擊可查看原文雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

李雨晨

新智駕主編

專注蔚小理等造車(chē)新勢(shì)力的原創(chuàng)報(bào)道 |微信：Gru1993

發(fā)私信

當(dāng)月熱門(mén)文章