AI看病竟比醫生強?哈佛、斯坦福等聯合評估o1-preview,診斷準確率高達近80%

新智元報道

編輯:KingHZ

【新智元導讀】o1-preview在醫療診斷中遠超人類,賽博看病指日可待?

「根據(關於)OpenAI的最新論文,o1-preview在推理任務上遠遠優於醫生,甚至天壤之別。AI對143項困難的NEJM CPC診斷結果分別爲約80%到30%。現在相信你的醫生而不諮詢人工智能模型是危險的。」

Deedy的言論引來百萬圍觀。

事實究竟如何?

在解決複雜的信息學、數學和工程問題以及醫療問答方面,o1-preview模型顯示出優於 GPT-4 的能力。

醫療決策遠非問答,o1-preview在醫學上是否已全面超越人類?

哈佛、斯坦福、微軟等機構的多名醫學、AI專家聯手,在醫學推理任務中評估了OpenAI的o1-preview。

結果顯示,模型在鑑別診斷、診斷臨牀推理和管理推理方面,已經超越人類;建議使用更好和更有意義的評估策略,跟上自動化系統在醫療推理基準上的進步。

文章推測要使用大語言模型輔助醫生, 需要集成AI系統的臨牀試驗和勞動力(再)訓練。

論文鏈接:https://www.arxiv.org/abs/2412.10849

AI輔助診斷工具評估

在醫學頂刊《JAMA》、《JAMA·內科》和《NPJ·數字醫學》,有論文已指出大語言模型已在診斷基準測試中超越了人類,包括醫科學生、住院醫師和主治醫師。

此次,針對鑑別診斷生成、推理報告、概率推理和管理推理任務, 聯合團隊評估了o1-preview的臨牀多步推理能力。

與醫生、已有的大語言模型相比, o1-preview在鑑別診斷以及診斷和管理推理的質量都有明顯提高。

鑑別診斷

自20世紀50年代以來,評估鑑別診斷生成器的首要標準是《新英格蘭醫學雜誌》(NEJM)發表的臨牀病理學會議(CPCs)病例。這是也是評估o1-preview的第一個基準。

兩位醫生同時評估o1-preview的鑑別診斷質量,且在143個案例中有120個結果一致。

o1-preview在鑑別診斷中準確率高達78.3%(見圖1)。

圖1:鑑別診斷(DDx)生成器和大語言模型在鑑別診斷的正確率條形圖,按年份排序

圖1中的o1-preview的數據是基於在《新英格蘭醫學雜誌》(NEJM)發表的臨牀病理學會議(CPCs)病例。其他大語言模型或DDx生成器的數據是從文獻中獲得的。

o1-preview的建議的首次診斷的正確率爲52%。

o1-preview在預訓練截止日期前的準確率爲79.8%,之後爲73.5%, 沒有顯著差異。

表1展示了o1-preview可以解決而ChatGPT4無法解決的複雜案例。

表1:o1-preview正確診斷出GPT-4無法解決的三個複雜病例

表1中Bond Score的範圍是從0到5, 其中5分表示鑑別診斷列表中包含了正確的目標診斷, 而0分表示鑑別診斷列表中沒有接近目標的選項。

o1-preview在88.6%的病例中得出了準確或非常接近準確的診斷結果,而GPT-4只有72.9%(見圖 2A)。

兩名醫生根據CPC中描述的患者實際治療情況,對o1-preview提出的檢查計劃進行了評分, 總計132例,其中113例兩人的評分一致。

在87.5%的病例中,o1-preview選擇了正確的檢查項目,另有11%的病例中,兩位醫生認爲所選的檢查方案是有用的,只有1.5%的病例認爲是沒用的(圖 3)。相關例子見表2。

圖3:o1-preview在預測下一步應進行的診斷測試方面的性能

在實驗中兩名醫生使用「無用(unhelpful)」、「有用(helpful)」和「完全正確(exactly right)」的李克特量表對預測結果進行了測量。

並從全部病例中剔除了7個病例,因爲這些病例要求進行下一次檢查是不合理的。

表2:o1-preview 建議的測試計劃與案例中使用的測試計劃對比示例(左右滑動查看)

表2中案例得分爲2分,表明測試比較好,與案例計劃幾乎完全相同。1分表示所建議的診斷本來是有幫助的,或者可以通過病例中沒有使用的測試得出診斷結果。0分表示所建議的診斷方法沒有幫助。

NEJM Healer診斷案例

爲評估臨牀推理, NEJM Healer案例專門設計了虛擬患者遭遇。

兩位醫生分別評估o1-preview的臨牀推理質量,在80個案例中,有79個案例達成了一致(約佔99%)。

在80個案例中,o1-preview在78個案例中達到了完美的R-IDEA評分, 其表現遠超GPT-4、主治醫師和住院醫師,如圖4A所示。

圖4:圖A表示在20個NEJM Healer案例中,根據回答者分層的312個R-IDEA評分分佈。圖B表示初診報告( initial triage presentation)中包含的不能遺漏診斷的比例的箱線圖

圖B中的總樣本量爲70,其中包括來自主治醫師、GPT-4和o1-preview的18個回答,以及來自住院醫師的16個回答。

o1-preview在初診報告( initial triage presentation)中識別“不能錯過”的診斷的比例見圖4B,包含「不能錯過」的診斷的中位數比例爲0.92,與GPT-4、主治醫師或住院醫師沒有顯著差異。

灰質管理案例

在真實案例基礎上,25位醫生專家利用共識方法開發了5個臨牀實例(clinical vignettes)。

測試中先將臨牀實例呈現給模型,然後向其提出關於下一步管理的一系列問題。

兩位醫生對o1-preview的五個案例的迴應進行了評分,一致性相當大。

o1-preview每個案例的中位數評分爲86%(圖5A),優於GPT-4、使用GPT-4的醫生和使用傳統資源的醫生。

圖5:圖A表示大語言模型和醫生的管理推理得分的標準化箱線圖。圖B表示模型和醫生診斷推理得分的標準化箱線圖

圖A共包括五個案例。 o1-preview爲每個案例生成一個響應,GPT-4爲每個案例生成五個響應,使用GPT-4的醫生總有176個響應,使用傳統資源的醫生總有199個響應。

使用混合效應模型估計,o1-preview比單獨的GPT-4高出41.6%,比使用GPT-4的醫生高出42.5%,比使用傳統資源的醫生高出49.0%。

標誌性診斷案例

兩位內科醫生對o1-preview在六個診斷推理案例中的回答進行了評分,評價結果較爲一致。o1-preview的中位數評分爲97% (圖5B)。

與歷史控制數據相比,比GPT-4的得分爲92%,使用GPT-4的醫師得分爲76% ,而使用傳統資源的醫師爲74%。

使用混合效應模型估計,o1-preview與GPT-4相比表現相當(高出4.4%),比使用GPT-4的醫師高18.6%,比使用傳統資源的醫師高20.2%。

診斷概率推理案例

在診斷概率推理中, 總使用了五個初級保健主題的案例。

以科學參考概率(scientific reference probabilities)爲基準,比較了o1-preview,GPT-4和人類的概率推理能力。

其中人類由553名具有全國代表性的醫療從業者組成, 包括290名住院醫師、202名主治醫師和61名護士或醫生助理。

如圖6和表3所示,在概率推理方面, 無論在測試前還是在測試後o1-preview與GPT-4表現差不多。

只有冠狀動脈疾病的壓力測試中,o1-preview的預測密度比模型和人類更接近參考範圍。

研究的侷限性

此研究也有四處主要的侷限性。 首先,o1-preview有囉嗦的傾向,可能會在試驗中取得更高得分。

其次,目前的研究只反映了模型性能, 但現實中離不開人機交互。人機交互對開發臨牀決策輔助工具至關重要, 下一步應該確定大語言模型(比如o1-preview)能否增強人機交互。

但人類與計算機之間的交互或許是不可預測的,甚至表現良好的模型與人類交互中可能出現退化。

第三,研究只考察了臨牀推理的五個方面;但已經發現了幾十個其他任務,它們可能對實際的臨牀護理有更大影響。

第四,研究案例集中在內科,但並不代表更廣泛的醫療實踐,包括多個亞專業,這些專業需要各種技能,如外科決策。研究也沒有考慮診斷、患者特徵或就醫地點的差異。

參考資料:

https://arxiv.org/pdf/2412.10849

https://x.com/deedydas/status/1869049071346102729