AI又一突破!10種癡呆症類型同時診斷,將人類醫生準確率提高26%

撰文 | 馬雪薇

前言

癡呆症目前是全球人口第七大死因,也是造成全球老年人能力喪失和依賴他人的主要原因之一。準確診斷癡呆症有利於老年人晚年的身體健康,並減輕他們的家庭負擔。

如今,由波士頓大學研究團隊及其合作者開發的一個人工智能(AI)工具,有望幫助我們(同時)診斷 10 種不同類型的癡呆症,將神經科醫生的準確率提高了 26% 以上。

相關研究論文以“AI-based differential diagnosis of dementia etiologies on multimodal data”爲題,已在線發表在科學期刊Nature Medicine上。

“我們的生成式 AI 工具能夠利用常規收集的臨牀數據進行癡呆症的鑑別診斷,展示了其作爲阿爾茨海默病及相關癡呆症可擴展診斷工具的潛力,”該論文的通訊作者、波士頓大學 Chobanian & Avedisian 醫學院醫學副教授 Vijaya B. Kolachalama 博士說道。

“全球範圍內神經學專家不足,而需要他們幫助的患者數量正在迅速增長。這種不匹配給醫療系統帶來了巨大壓力。研究團隊認爲 AI 可以通過早期識別這些疾病並協助醫生更有效地管理患者,防止疾病惡化來提供幫助。”

研究團隊希望,隨着未來 20年癡呆症病例數量預計將翻倍,這個 AI 工具可以提供準確的鑑別診斷,並支持對癡呆症增加的針對性治療需求。

臨牀醫生診斷準確率提高26%

根據世界衛生組織(WHO)所給的數據,目前全世界有超過 5500 萬人患癡呆症,且每年全世界會新增一千萬癡呆症病例,但不同形式的癡呆和症狀的重疊可能會使診斷變得複雜,從而不能提供有效治療。

因此,準確診斷癡呆症對於制定針對性強、個性化的管理策略至關重要。然而,現有的診斷工具的獲取受限,而神經學家、神經心理學家的短缺問題進一步加劇了這一挑戰。

鑑於此,研究團隊開發了一個多模態機器學習(ML)框架,該框架使用常規收集的臨牀數據(比如人口信息、患者和家庭級別的病史、用藥情況、神經和神經心理學檢查評分以及 MRI 掃描等神經影像數據)準確識別導致癡呆症的具體病理。

圖 | 病因分類術語表

利用從各種隊列獲取的多模態數據,研究團隊的模型採用嚴格的方法進行鑑別診斷癡呆症。它將個體分配到十三個診斷類別之一或多個,這些類別是通過神經病學家團隊的共識定義的。這種實用的分類方法旨在考慮臨牀管理路徑,從而反映現實世界的場景。例如,研究團隊將路易體癡呆和帕金森病癡呆歸類爲 LBD 綜合類別。這種分類基於理解這些疾病的護理通常遵循類似的路徑,通常由多學科的運動障礙專家團隊監督。

圖 | 九個獨立的數據集

本研究使用了九個獨立的數據集,包括 ADNI、NACC、NIFD、PPMI、OASIS、LBDSU、4RTNI和 FHS。NACC、NIFD、PPMI、OASIS、LBDSU 和 4RTNI 的數據用於模型訓練。ADNI、FHS以及 NACC 中的一個保留集的數據用於模型測試。在這項研究中,多模態 ML 框架使用來自九個不同全球數據集的五萬多人的數據進行訓練。

圖 | 數據、模型架構和建模策略。a,癡呆症鑑別診斷模型使用了多種數據模態開發,包括個體級別的人口統計、健康史、神經測試、身體/神經檢查和多序列MRI掃描。這些數據源在可用時從九個獨立數據集中彙總。對於模型訓練,研究團隊合併了 NACC、AIBL、PPMI、NIFD、LBDSU、OASIS 和 4RTNI 的數據。研究團隊使用 NACC 數據集的一個子集進行內部測試。對於外部驗證,研究團隊利用了 ADNI 和 FHS 隊列。b,Transformer 作爲模型的架構。每個特徵通過模態特定的嵌入(emb.)策略處理成固定長度的向量,並作爲輸入提供給 transformer。線性層用於將 transformer 與輸出預測層連接。c,隨機選擇 NACC 測試數據集的一個子集進行比較分析,比較神經科醫生在 AI 模型輔助下的表現與未使用 AI 輔助時的表現。同樣,研究團隊對神經放射科醫生進行比較評估,他們獲得了 NACC 測試隊列中隨機選擇的確診癡呆症病例樣本,以評估 AI 增強對其診斷表現的影響。在這些評估中,模型和臨牀醫生可以訪問相同的多模態數據。最後,研究團隊通過比較 NACC、ADNI 和 FHS 隊列中可用的生物標誌物檔案和病理等級來評估模型的預測結果。

圖 | 區分認知狀態的模型性能

模型能夠有效地區分正常認知、輕度認知障礙和癡呆,實現了微平均 AUROC 爲 0.94,表明其預測能力非常強。模型對不同年齡、性別和種族的個體都具有一致性,說明其泛化能力良好。模型在處理缺失數據方面表現出色,即使數據不完整,也能保持可靠的預測結果。

圖 | 區分癡呆病因的模型性能

模型能夠區分 10 種不同的癡呆病因,包括阿爾茨海默病、血管性癡呆、路易體癡呆等,實現了微平均 AUROC 爲 0.96,表明其在病因診斷方面的準確性很高。模型在處理混合型癡呆(即多種病因並存)方面表現出色,平均 AUROC 爲 0.78,說明其能夠識別複雜的病因組合。模型與生物標誌物檢測結果一致,並通過屍檢結果驗證了其與不同蛋白質病的關係,進一步證實了模型的可靠性和準確性。

圖 | 提高臨牀醫生診斷效率的模型性能

在隨機選擇的 100 例案例中,使用 AI 模型輔助神經科醫生評估的 AUROC 比單獨使用神經科醫生評估的 AUROC 高出 26.25%,表明模型能夠提高臨牀醫生診斷癡呆症的準確性。模型預測結果與神經科醫生和神經放射科醫生的評估結果具有高度一致性,表明模型能夠提供可靠的輔助診斷信息。

不足與展望

研究數據主要來自白人人羣,缺乏對其他種族和族裔的代表性。這可能導致模型在處理不同人羣時出現偏差。數據集中包含了大量的 AD 病例,這可能使模型偏向於識別 AD 亞型,而忽略了其他癡呆亞型的特徵。

雖然模型可以識別不同的癡呆亞型,但它並沒有充分考慮 AD 病理的異質性。未來研究需要更深入地分析不同 AD 亞型的特徵,並評估模型在這些亞型上的表現。

模型將輕度、中度和重度癡呆合併爲一個類別,這可能無法完全反映特定醫療環境中對疾病階段的細緻評估。未來研究可以考慮將疾病階段作爲一個額外的維度,以提高模型的精確度。

模型訓練數據可能反映了不同臨牀醫生之間診斷決策的主觀性和差異性,這可能會影響模型的準確性。未來研究需要收集更一致和標準化的診斷數據,以進一步提高模型的可靠性。

未來,研究團隊表示,可以嘗試收集更多來自不同種族和族裔、不同臨牀環境的患者數據,以提高模型的泛化能力;通過改進模型架構,開發能夠更好地處理 AD 病理異質性的模型,例如結合更復雜的神經網絡結構或更精細的特徵提取方法;將 AI 模型與其他技術,如腦電圖、基因檢測等相結合,以獲得更全面的患者信息,進一步提高診斷的準確性;此外,還可以進行長期隨訪研究,跟蹤患者的疾病進展和治療效果,評估模型的預測能力,並驗證其在臨牀實踐中的價值。