醫療保健中的生成式AI:這是我們的海明威時刻嗎
文:城主
這是一位頂級醫療專家對數字醫療發展的討論和AI進入醫療保健領域的預測。他將這個時期稱爲“海明威時刻”,意指一種逐漸然後突然的變化,類似於海明威在《太陽祭壇升起》中描述的人物破產的方式。他認爲,醫療保健領域的數字化轉型將是這樣的過程,儘管起步較晚,但未來幾年將會有驚人的變化。
講座來自加州大學舊金山分校醫學系主任、暢銷書《數字醫生:醫學計算機時代黎明的希望、炒作和傷害》的作者鮑勃·瓦赫特(Bob Wachter),他討論了醫療保健的數字化發展——從大約 15 年前開始廣泛引入電子健康記錄開始。他將描述將塑造生成式人工智能工具(如 GPT-4 和 Gemini)實施的當前背景,並分析(正如他在最近的一篇 JAMA 文章中所做的那樣)爲什麼未來幾年爲真正的數字化轉型奠定了基礎。
視頻完整版分享:
醫學博士 Robert M. Wachter 是加州大學舊金山分校醫學系的教授兼系主任。鮑勃寫了300篇文章和六本書,在1996年創造了“住院醫生”一詞。他是醫院醫學學會的前任主席,美國內科醫學委員會的前任主席,以及美國國家醫學院的當選成員。2015年,《現代醫療保健》雜誌將他評爲美國最具影響力的醫生高管。
總結一下講座的主要內容:
Bob Wachter是多個委員會的董事會成員,爲很多數字和人工智能領域的公司提供建議。儘管醫療保健領域的數字化轉型過程中存在許多挑戰,但Bob看到了新的人工智能,特別是大語言模型和基礎模型的潛力。
Bob回顧了過去十到十五年醫療保健領域的數字化轉型,特別是電子健康記錄的應用。雖然電子健康記錄的應用帶來了許多便利,但也帶來了一些未預料到的問題,如文檔負擔和電子收件箱的問題。Bob認爲,解決這些問題需要技術的改進和組織的演變,需要以全新的方式利用技術完成工作。
Bob引用了諾貝爾經濟學獎得主羅伯特·索洛的話:“除了生產力統計數據之外,你隨處都可以看到計算機時代。” 這是一個生產力悖論。儘管電子健康記錄提供了一些優勢,但並未帶來顯著的生產力提升。這可能是因爲電子病歷的質量不佳,以及我們還未重新構思這項工作的方式。然而,歷史表明,每個行業的生產力悖論總會自行解決,平均時間在2到10年之間。醫療保健行業的複雜性可能會使這個過程延長到10到20年。
新的人工智能技術,如生成式AI和GPT-4,可能會推動這一趨勢。這些技術是否能夠解決現有技術無法解決的問題,以及當前的醫療保健生態系統是否有某些方面可以促進互補創新或繞過對它們的需求,是需要回答的兩個關鍵問題。
儘管人工智能在醫療保健領域的應用並非新現象,但其在過去幾年中的技術進步令人印象深刻。然而,這些技術也存在一些問題,如幻覺問題,即機器試圖找到問題的答案並有彌補問題的傾向。儘管如此,越來越多的證據表明,這些技術非常好,將產生有意義的變化,並且我們可以開始在醫療保健用例中推出它們,並深思熟慮、負責任和安全地進行。
Bob討論了GPT-4在真實組織背景下的應用,包括通過醫學委員會審查、法律委員會審查,甚至在解決《新英格蘭雜誌》CPC案件上表現得比專家更好。同時談到了一項尚未經過同行評審的研究,該研究使用了一個名爲“AIME”的人工智能系統,該系統可以提供對話、診斷和治療建議。研究結果顯示,無論是從專家對臨牀醫學的看法,還是從患者的反應來看,人工智能的表現都優於醫生。
最後,Bob討論了生成式人工智能可能帶來的問題,包括數據質量、黑箱問題、道德問題和差異、數字鴻溝、隱私和安全問題,以及去技能化和自動化的自滿。儘管存在這些問題,但Bob認爲生成式人工智能已經爲醫療保健做好了準備。
Bob提到了一些即將出現的技術,如數字抄寫程序和風險預測工具。他強調了預見到可預測問題的重要性,如偏見、幻覺和自動化自滿,以及應對不可預測的問題。最後,Bob提到了他們部門的一些新職位,如臨牀信息學和數字化轉型部門負責人,首席健康人工智能官等。他認爲這些新職位是臨牀操作中需要進行的治理變革的一個例子。
=以下是本城根據講座內容重新整理的書面全文版=
主持人:
各位下午好,歡迎參加醫學大查房。今天,我有幸向大家介紹一位傑出的演講者,他就是我們的醫學主席,鮑勃·瓦赫特博士。他來此是爲了探討醫療保健領域的生成人工智能。這是否是我們的海明威時刻?你很快就會明白這個表述的含義。如今,人工智能和ChatGPT-4無處不在,不僅頻繁出現在頭條新聞中,也已經融入我們的電子健康記錄中。我們將討論其變革潛力。
瓦赫特博士是這個領域的一位傑出專家,他在這個領域擁有豐富的專業知識。他是《數字醫生:醫學計算機時代黎明時的希望、炒作和危害》一書的作者,這本書詳細追蹤了電子健康記錄的演變及其採用或缺乏的情況,從嬰兒時期一直到現在。他已經在全國乃至全世界的醫學大查房、院系講座、大學講座中發表了這個演講的一個版本。你可能已經讀過他最近在《JAMA》上發表的關於這個主題的文章,探討人工智能的前景,以及它如何影響我們的臨牀領域、研究領域和教育領域。
瓦赫特博士的簡歷非常豐富,我們需要整整一個小時才能讀完。他是我們醫學系的系主任,也是一位教授。他創造了“住院醫生”和“住院醫學”一詞,使加州大學舊金山分校因此而聞名於世。他的研究重點實際上集中在電子健康記錄、技術以及從EHR的採用到現代的醫學數字化轉型的興起。他是我們所有人的導師和贊助者,我們很高興今天能向他學習。非常感謝你,鮑勃。
Bob:
站在麥克風的這一邊,感覺很有趣,也很不同。因此,我期待與您討論我認爲未來十年醫療保健領域發生的最有趣和最重要的事情。那麼讓我繼續討論吧。我把這個標題定爲“這是我們的海明威時刻嗎?”你可能想知道我在說什麼,我稍後會解釋。
我是多個委員會的董事會成員併爲其提供建議,其中包括一些數字和人工智能領域的公司。我今天不會談論他們的任何產品,儘管我與他們的合作幫助我瞭解了這個世界的這一地區。
海明威在1926年寫的《太陽祭壇升起》中,我正在討論其中一個角色破產了。那麼問題來了,一個人怎麼會破產呢?他的一名角色問道。答案有兩種:逐漸的,然後突然的。如果你看看醫學的數字化轉型,你不得不說它是漸進的,坎坷不平,充其量是不確定的。如果你想一下通過亞馬遜購買產品、通過Netflix獲得娛樂、預訂飛機、計劃旅行、處理財務的方式的轉變,我們在數字遊戲方面已經很晚了。事實上,幾乎所有其他行業都經歷了廣泛的數字化轉型。醫療保健確實起步很晚。但我想說,這是我們的海明威時刻。在這個時刻,過去幾年發生的所有事情顯然都是漸進的,但轉變會有些突然。我並不是說下週會突然發生。在接下來的幾年裡,您將會以令人驚歎的方式看到數字化轉型的產品。
所以我將在大約45分鐘內討論電子健康記錄以及我們對數字化轉型的瞭解,我想留出至少10分鐘的時間進行討論。答案是這比看起來要困難得多。它比我們任何人想象的都要坎坷得多,這就是爲什麼我花了一年的時間來寫一本關於它的書。我認爲這非常困難。然後我會花大部分時間談論新的人工智能,我會把它放在生成人工智能的範疇下,談論大語言模型和基礎模型。談論它的方式有很多,但我認爲就我們的目的而言,一年半前剛剛以ChatGPT的形式出現的新人工智能,現在還有很多其他版本。以及一些機遇和挑戰是什麼。這是我們的海明威時刻嗎?我已經給了你最終的答案,我認爲是的。
正如Lakshmi提到的,大約一個月前,我與Eric Brynjolfsson在《JAMA》上寫了一篇關於此問題的文章,我將在今天的演講中多次提到他。埃裡克在斯坦福大學。他是那裡的經濟學教授,而且是這個國家、世界上真正的領先思想家之一,在行業的數字化轉型中,醫療保健並非如此。所以這是一次很好的合作。
因此,讓我們回顧一下我過去在這裡談論過的事情,但我認爲這是一個值得回顧的事情以及我們要討論的事情的基礎,醫學的數字化轉型真正開始於大約10到15年前的電子健康記錄。現在,人們有時會來問我,爲什麼醫療保健如此害怕技術?爲什麼你們是這樣的勒德分子?顯然,這是完全錯誤的。前往放射科或電生理學實驗室(手術室)。我們熱愛科技。數十年來,我們一直非常愉快且良好地使用它。但這些都是解決單一問題的技術,其焦點非常狹窄,唯一需要學習如何使用它們的人是一小羣專家。因此,當我談論數字化轉型時,我指的是我們工作和思考工作的整個方式,以及擁有數字化基礎的方式。事實上,這一切從15年前就開始了。
這是電子健康記錄採用的曲線對於非聯邦急症護理醫院,醫生辦公室採用電子健康記錄的曲線大致如下。你看,這件事的主要信息還不到15年前,即2008年,不到十分之一的美國醫院擁有電子健康記錄,這意味着他們完成了他們的工作。對於年輕人來說,很難想象這就是工作的方式,但我們在紙上潦草寫下,我們使用傳真機,我們使用便利貼。這就是我們記錄患者情況、獲取數據和移動數據的方式以及我們分析它的方式。實際上在大約五年內,到2015年左右,以前只有不到十分之一的醫院擁有電子健康記錄,現在只有不到十分之一的醫院沒有。這是一個了不起的轉變。這是怎麼發生的?你可能會問,之所以會發生這樣的事,是因爲聯邦政府投入了300億美元作爲2008年刺激計劃的一部分,政府向醫生和醫院提供了獎勵金,基本上是鼓勵他們採用電子健康記錄,如果不這樣做則進行處罰。所以這是加州大學舊金山分校首次採用電子健康記錄的時代,我們是很好的夥伴。幾乎美國的每家醫院和幾乎每家醫生辦公室採用電子健康記錄。現在,這就是那個時代的我。我想,孩子,這會很棒。我的iPhone非常棒。我喜歡開放式桌子。我喜歡在線預訂機票。我喜歡在亞馬遜上買東西。那麼,當我們從存儲信息、通過傳真機在紙傳輸信息到在這些數字機器中記錄有關患者的所有數據時,可能會出現什麼問題呢?
所以我要談一點,我只會展示兩到三張幻燈片,它們實際上是我寫的一本300頁書的摘要,但基本上一些未預料到的事情確實出了問題。我現在花一些時間這樣做的原因是我認爲值得讓我們的大腦集中精力事實上,數字化轉型比看起來更困難。這項技術可能看起來很酷。它可能看起來非常簡單,但我們並不能很好地預測技術與工作相結合時出現的一些問題,我想這就是電子健康記錄在我們身上發生的事情。這是一張您可能熟悉的幻燈片。這是一個七歲的女孩,幾年前去看醫生,她是一位藝術家。她用蠟筆畫了這幅去看醫生的回憶。你看,在中間,她旁邊有一個女孩,她的媽媽,在角落裡她姐姐旁邊。而在那遙遠的角落,回到病人正在打字的地方是醫生。這是她對與醫生互動的記憶。
我確信,這對你們來說非常熟悉,尤其是那些從事門診護理的人。我認爲這是一幅壯觀的圖畫。女孩做錯了一件事,有人發現嗎?醫生的臉上露出了笑容。那部分是不對的。我不知道有哪個醫生會因爲成爲一名昂貴的數據錄入員而感到高興,這是我們所有人的感受,隨着電子健康記錄的推出。這部分是軟件的錯,但部分原因是現在突然醫院可能會說,我希望你記錄這件事或那件事,因爲我們需要它來生成更好的賬單或用於我們的質量衡量...出於一百個不同的原因。突然間,醫生們覺得他們的任務是完成計算機可以讓他們做的所有這些事情。當然,當他們在紙上亂寫亂畫時,這一切都是不可能的。這是一個意想不到的後果的另一個部分,我們所有的門診服務提供者都跪下了,我們正在非常努力地努力改善。
這是電子健康記錄收件箱。你看,這些是來自加州大學舊金山分校的數據,A.J.我們臨牀信息學和數字化轉型部門的Holmgren已成爲該領域研究的全國領導者。你看,從2016年開始,電子收件箱消息的數量上漲了很多很多倍因此,門診醫生平均每天要接診病人八、九或十個小時,然後還要花幾個小時處理電子郵件收件箱消息。我們誰都沒有預料到這一點。我不認識任何人,我也沒有看到任何關於這方面的文章。在事情發生之前,它就爆炸了。當然,如果你仔細想想,你會發現這是完全合乎邏輯和自然的。
我們爲患者提供了一個患者門戶,非常棒。我們給了他們很多他們通常不理解的信息。他們得到實驗室結果、X光檢查結果、心電圖,最終得到醫生的證明他們想預約與醫生討論此事。下一次預約是兩個月後,有一個小有用的按鈕,上面寫着向您的醫療團隊發送消息,而且是免費的。回想起來,這是一個愚蠢的時刻。當然,他們會那麼做。事實上,他們也確實這麼做了。接下來我們知道的是醫生,大多數人都在門診,跪着呼救,因爲這是一個巨大的負擔。
我們基本上所做的是創造和數字化,當我們處於紙質世界時這是不可能的,創造了24X7、365天聯繫醫生的渠道沒有考慮一下這個的商業模式是什麼?對此的組織勞動力模型是什麼?你瞧,它不起作用。所以只是兩個例子,我認爲文檔負擔和電子收件箱就是兩個例子--我們沒有人預料到的數字化後果,這真的很有意義。對於患者及其臨牀醫生來說,這都是負面的。我從這個情況就可以看出,事情已經完全偏離了正軌。這是我幾年前在亞利桑那州看到的一則急診醫師招聘廣告。亞利桑那綜合醫院即將在大峽谷州開業,這是一家小型的精品綜合醫院。當我想到綜合醫院時,我會想到縣城的醫院,它並不是一家精品綜合醫院,但這家醫院卻是。這是他們在廣告中的描述。他們有急診室,因爲如果你正在招聘急診室的醫生,你應該有一個急診室。他們還有放射科室,兩個手術室,一個小型的設施,16個住院病房,這些都是廣告的一部分,用粗體字顯示,顯然是他們的主要賣點。他們沒有電子病歷系統。這就是他們試圖推銷的工作,告訴醫生,你可以來這裡,仍然可以在紙上隨意寫寫畫畫。
顯然,我們犯了一些錯誤,我將花一兩分鐘的時間來談談數字化轉型前10到15年對我來說的教訓,我認爲這實際上是電子健康記錄時代。在這裡,我將引用JAMA文章的合著者Eric Brynjolfsson,他在1993年在麻省理工學院時撰寫的一篇名爲《信息技術的生產力悖論》的文章。生產力悖論是指一項技術進入一個行業,而他當時研究的行業是製造業、金融服務業和華爾街交易櫃檯。計算機的出現讓每個人都關注起了計算機的神奇功能。每個人都在關注蘋果和微軟在做什麼。他們認爲,這將是一件偉大的事情。它將使工作變得更容易、更好、更有效。然而,他們發現,在一個又一個的案例中,一個又一個的行業,兩年過去了,五年過去了,有時甚至十年過去了,他們卻看不到任何承諾的生產率提高。他們都對出了什麼問題感到困惑。
我認爲,諾貝爾經濟學獎得主羅伯特·索洛在1986年寫的這句話很好地解釋了這一點:“除了生產力統計數據之外,你隨處都可以看到計算機時代。”這意味着我走進工廠,到處都是計算機,但我們並沒有看到任何承諾的收益。這是爲什麼呢?這些計算機看起來非常靈活,能夠完成我們希望它們能夠完成的一些奇特的事情。事實證明,這是一個又一個行業的可預見的發現,隨後埃裡克和其他研究人員試圖瞭解其背後的原因以及如何解決它。
事實證明,在解決生產力悖論之前,其背後有兩件事需要解決。我把它比作一個保險箱。你需要兩把鑰匙。一是技術需要改進,1.0版本的表現並不盡如人意。直到他們收到了大量的用戶反饋和大量的迭代週期,你才使用了32.4版本。你已經使技術變得更好,因此獲得了一些優勢。但當我在寫書時研究這個問題時,我發現最有趣的令人驚訝的,但我認爲令人大開眼界的發現並不是最重要的。最重要的不是技術變得更好。這是組織的演變,利用技術以完全不同的方式完成工作。布林約爾鬆和其他人談論的是引用、引用、重新想象作品,或者有時他們寫下所謂的互補創新。你必須創新組織自己的方式、管理自己的方式以及人們思考工作的方式。據報道或研究,絕對沒有哪個行業在實施新技術的第一天就做到了這一點。當你做了一段時間之後,你就開始摸不着頭腦爲什麼沒有實現優勢,人們開始說,也許我們應該考慮以不同的方式組織自己。這不是一件自然的事。這對於人類來說是非常困難的。我非常確信,過去50年來唯一能夠在技術真正出現之前就預見到技術的用途的人就是史蒂夫·喬布斯。我們其他凡人無法做到這一點。我們必須引入技術,然後我們說,哦,這很有趣。我沒有意識到發生了這種事。我們可能需要考慮以不同的方式組織自己。
我認爲,如果你看看電子健康記錄時代,你會說它只是在堅持生產力悖論。從某些方面來說,這是預期的結果。這些機器顯然已經提供了一些真正的優勢,但並沒有在生產力方面帶來令人印象深刻的改進。如果有的話,那就是有點相反。這可能是因爲兩個電子病歷都不是那麼好,還因爲我們還沒有重新構思這項工作。我們傾向於將這些東西放在現有的工作流程、勞動力和文化中。這就是解決生產力悖論所需要的。現在,在你對此感到過於沮喪之前,你應該知道,所研究的每個行業的生產力悖論總是變得更好。它總是會自行解決,但平均時間在2到10年之間,並且由於您知道的很多原因,醫療保健比其他行業要困難得多。所以我們可能談論的是10到20年。問題部分在於新的人工智能是否會推動這一趨勢。所以讓我們轉向,這就是我想說的關於背景和歷史的全部內容,醫療保健領域的數字化轉型。我將用剩下的時間來談論新的人工智能,無論是生成式AI和GPT-4以及其他形式、Gemini、谷歌的產品還是其他產品。他們是否會繞過或縮短這段生產力悖論時期,我認爲在醫療保健數字化轉型方面我們仍處於中間狀態?對我來說,使用伯恩希奧森模型有兩個問題需要回答。一是現在的技術是否足夠強大,它可以以現有技術無法解決的方式解決重要問題,並且不需要組織變革嗎?第二個問題是,當前的醫療保健生態系統是否有某些方面可以促進互補創新或繞過對它們的需求?因此,我認爲這是我在思考時思考的兩個問題,這項新技術是否會比我們在電子健康記錄中看到的更快地發展並更快地實現成果和效益,並且比其他行業的技術更快地實現?
所以現在當我們轉向更多地談論人工智能時,讓我坦白一下。我在觀衆中看到一些人是真正的現場觀衆,而且可能更多是在網上,真正的人工智能專家。他們瞭解它的運作方式。他們瞭解數學。我不。我知道要成爲人工智能專家並開發新工具,你必須能夠計算出這些方程,也許是這個,也許是那個。我的大腦不是這樣工作的。這些事我都無能爲力。我對人工智能的看法,我認爲這足以滿足大多數普通用戶的目的,是有一些數學知識,然後奇蹟就發生了,然後後端有一些數學。我就是這麼想的。我認爲這可能就是您需要知道的全部內容。我希望到目前爲止,你們中的大多數人都已經使用過這些新的人工智能技術。如果你還沒有,我想你應該這樣做。我認爲我們都必須學習如何有效地使用這些東西。我現在可以告訴你,當我像以前那樣進行Google搜索時,我現在在Google上進行GPT-4或Gemini搜索。我現在每天都會使用這些工具,每天很多次,因爲我認爲它們與我們以前的工具相比是進步的。但我正處於奇蹟狀態。我正在使用奇蹟。我知道其中包含了很多東西,我對此表示讚賞。我認爲你不需要很好地理解這一點,就可以認真思考它在你的工作中可能扮演的角色。
現在,我們中的一些人將人工智能視爲醫療保健領域的一種新穎的現象。我想向你澄清這不是真的。人們對人工智能抱有很大的熱情,這是三、四十年前的事情。這是我在醫學院和住院醫師實習的時候。有很多初創公司。還有醫療保健人工智能初創公司。有一些學術研究小組正在研究人工智能。他們犯了一個非常非常嚴重的戰略錯誤。他們說,我們擁有這項新技術,可以取代人腦的功能。我們應該關注什麼問題?您認爲他們關注的問題是什麼?有什麼猜測嗎?診斷,當然,他們專注於診斷。這就是醫生所做的。這是最有趣的問題,可能也是醫生所做的最重要的事情。因此他們專注於診斷。造成如此戰略性錯誤的原因是診斷是迄今爲止最難正確的事情。
考慮一下醫療保健系統的混亂和患者的安排,或者計算出手術室中的流程或發送事先授權。難道只有一千件事比診斷更容易嗎?他們專注於最難的一個,但他們沒有做對。現在,做對意味着你在95%或更多的時間裡做對了。如果你有50%的時間都做對了,那就沒什麼幫助了。這就好像如果你有一個拼寫檢查器在50%的時間內正確,你就不會使用它。所以它很快就給出了答案,有時非常聰明,有時又非常愚蠢。我認爲在這部漫畫中,它被捕捉得很好,脈搏加快,出汗,呼吸淺弱。當這個傢伙的背上掛着一支箭時,電腦告訴我你得了膽結石。這些人工智能系統給出的反應實在是太荒謬了。人們認識他們並瞭解他們,而新臨牀醫學則表示,這毫無意義。這對我的工作沒有幫助。此外,請記住,這是前電子健康記錄時代。
因此,要使用這些東西,我必須先寫筆記,然後進入計算機並輸入所有這些數據,這是一個巨大的時間消耗。所以這些公司都倒閉了。學術團體大多解散,這導致了一個有時被稱爲醫療保健領域人工智能冬天的時期。所以實際上從1980年到2010年左右,有一段時間,人工智能開始在其他行業獲得一些關注。想想Visa對您的信用卡賬單做了什麼,以預測您的支出。人工智能已經嵌入到許多其他行業,但在醫療保健領域,這幾乎是不可能的。
如果你是一位年輕的院士,2005年我就說想做AI,我和其他導師會對你說,那不是一個好地方。現在,2010年左右冬天開始解凍,當IBM Watson橫空出世並擊敗Jeopardy冠軍時。如果你觀看這些比賽,你會情不自禁地說,好吧,現在黃金時段已經準備好了。在醫學領域,沃森大張旗鼓地推出了“沃森健康”,很多關於華生醫生的文章,也都熄火了。大約三年前,IBM的Watson健康部門基本上被出售爲零部件。冬天就這樣繼續着。
那麼問題來了,現在不同了嗎?我認爲答案是肯定的。原因是技術已經有了巨大的進步,就在過去的幾年裡。對於我們這些玩過GPT-3的人來說,當它問世時,我想對於我們大多數人來說,這讓我們大開眼界。這與我們之前見過的任何事情都不同。它能夠進行對話,能夠看似理解正在發生的事情,並且越來越像人類一樣思考,而無需先前版本所需的大量編程和算法,這確實令人印象深刻。
在我開始詳細描述其美妙之處之前,我想先向你們介紹一些主要的問題。你們可能已經聽說過很多關於這個領域的信息,但這只是幻覺。我將用一個例子來說明,這個例子可能有些人已經從莎拉·默裡那裡聽說過。我想莎拉大約一年前在這裡的演講中可能已經提到過這個例子,那是在我們的首屆人工智能大賽中。莎拉做了一件非常聰明的事情,她使用了GPT-3.5,並要求其事先書面授權。因此,如果你是一名門診醫生,除了你的電子健康記錄收件箱之外,這就是你生活中的困擾。它正在向保險公司申請書面授權,要求他們允許使用藥物或支付MRI或PET掃描或任何此類檢查的費用。莎拉說,"GPT-3.5,你能爲我寫一份向保險公司申請Pixaban處方的預授權申請嗎?" Pixaban是一種針對失眠患者的強效抗凝劑。然而,對於那些不懂臨牀的人來說,這看起來很奇怪。因爲對於失眠患者使用強效血液稀釋劑沒有臨牀依據。但是,GPT-3.5非常樂於助人地編寫了這份預授權申請。
然後,莎拉讀到了這篇文章,她覺得這篇文章非常有說服力,以至於她實際上進行了PubMed搜索,看看她是否錯過了這篇關於使用抗凝劑治療失眠的新文獻。然而,沒有這樣的研究。這是幻覺。這是編造出來的。這些機器非常受歡迎。他們試圖找到你問題的答案,並且他們有這種彌補問題的傾向。我會在幾分鐘後回到這個問題,因爲這是一個實際上已經改進的領域。
這是山姆·奧爾特曼(Sam Altman),他現在是OpenAI的首席執行官,非常有名,然後三個月前被解僱了一天半,然後又被重新僱用。這是他現在發佈的一條推文,一年多前,我認爲這很好地抓住了這個問題。ChatGPT非常有限,但在某些方面足夠好,足以給人一種偉大的誤導性印象。現在依賴它來做任何重要的事情都是錯誤的。我認爲在醫療保健領域,我們所做的事情很重要。這是進展的預覽。在穩健性和真實性方面我們還有很多工作要做。因此,該領域大公司的首席執行官表示,不要那麼快,讓我們確保我們深思熟慮地處理這件事,特別是在像我們工作的高風險領域。
然而,我認爲,越來越多的證據表明這些東西非常好,將產生有意義的變化,並且我們可以開始在醫療保健用例中推出它們,並深思熟慮、負責任和安全地進行。讓我舉幾個例子。這就是我,我有一個熟人有這個問題,我們正在努力尋找針對這個特殊困難診斷的最佳治療方法。所以我問了GPT-4,所以下一個版本,對於一個有過terp的65歲男性來說,首選策略是什麼?我沒說清楚terp是什麼意思。中度帕金森病患者,現在患有前列腺癌,格里森評分爲8,並且沒有轉移性疾病的證據。我們一直在進行的諮詢,有時是路邊諮詢。這不是前列腺癌的最佳治療方法,甚至不是格里森評分爲某某人的前列腺癌的最佳治療方法,對於患有兩種合併症或某種程度(在本例中爲帕金森病)的人來說,前列腺癌的最佳治療方法可能會影響您之前的治療方法。太有趣了,太複雜了。
這就是GPT-4所說的,我不會把整件事讀給你聽,但它說,手術可以有效,但考慮到患者既往接受過terp治療且可能出現手術併發症和副作用,這可能不是首選。此外,帕金森氏症會使術後恢復變得複雜。確實如此,它沒有閱讀任何教科書章節。沒有人寫過關於這一特殊臨牀情況的教科書章節。它整合了大量的信息,根據該患者的情況,以下是我對手術的看法。這是我對輻射的看法。它可以提供良好的癌症控制。先前的治療方案可能不會排除輻射,但需要權衡與輻射相關的特定副作用。我不知道。事實證明,如果你之前有過terp,那麼放療實際上風險更大,因爲您已經清除了前列腺牀,並且可能會產生更多的放療副作用。當你使用放射治療時,你還需要使用雄激素剝奪療法,它對此進行了一些討論。它最終放下了自己的觀點並表示,我建議採用放射和激素療法,而不是手術。
我認爲這很有趣,因爲我已經與許多外科醫生和放射腫瘤學家交談過,我的感覺是,在這種特殊情況下,手術會更好。其原因主要是雄激素剝奪療法常常使人感到相當虛弱。如果你已經患有神經系統疾病,情況可能會更糟。所以我回到GPT-4並說,你認爲激素會加劇帕金森病的虛弱嗎?正如一位深思熟慮、富有同理心的同事所說,你提出了一個有效的觀點。然後它接着說,它有很多副作用。其中包括疲勞、肌肉質量下降和骨密度下降。它們可以影響個人的整體實力。現在,我剛剛回去並在上週提出了相同的用例,但它並沒有給我最終的答案。它做了我認爲更合適的事情,這就是這三者各自的風險和收益。這很複雜,您應該諮詢醫生。所以我認爲這是對的。六個月後,該公司進一步認識到,錯誤地降低鎳價並不是正確的選擇。這是另一個例子,說明在短短六個月的時間裡,情況已經有了多大的改善。
作爲挑戰的一部分,你對GPT有何看法,無論如何,部分基於你三個月前或六個月前聽到的事情。它正在以驚人的速度發生變化,並且幾乎全部朝着積極的方向發展。當然,這對於FDA來說是一個巨大的挑戰,因爲它試圖找出如何監管這一點?如果你批准了一種治療肺纖維化的新藥物,看看傑夫,這將是你10年後使用的藥物。但如果你被要求批准人工智能用於前列腺癌的診斷或治療建議,當你完成審批流程時,它已經比你必須查看的系統更好了。它的發展如此之快,以至於產生了很多問題。
莎拉又來了。你記得,這是她提出使用抗凝劑治療失眠的事先授權請求的三個月後。三個月後,她重新登錄,現在不是GPT-3.5,而是GPT-4。它說,對不起,但這裡似乎存在重大誤解。沒有科學依據或臨牀證據表明阿哌沙班對此用途有效或合適。因此,我起草這樣的請求是不道德和不合適的。那只是三個月後的事了。因此,如果你對幻覺的印象以及我們不準備在醫療保健中採用這一技術的原因,這太可怕了,基於將莎拉視爲阿哌沙班的例子,這不再是系統中的缺陷。還有其他缺陷。它仍然時不時地產生幻覺,但已經比六個月前好多了。
現在,三個月前,我會說,這也是我現在做這個演講的部分原因,我會說絕對沒有實證研究表明這些東西在真實組織的背景下發揮作用。有大量的研究,而且還在不斷髮展,表明它可以通過醫學委員會的審查。它可以通過法律委員會。它幾乎比任何SAT考試的孩子都做得更好。甚至一個月前發表的一項研究表明,它可以比《新英格蘭雜誌》專家帶來的更好地解決《新英格蘭雜誌》CPC案件。所以做了很多令人印象深刻的派對技巧,但沒有真正的證據。我認爲根據我在電子健康記錄方面的經驗,我真正想要的是證據,證明你把它放到一個真實的工作場所,有真實的人員、文化、治理、資金和激勵措施,它實際上會兌現承諾。在過去的三個月裡,出現了許多研究,其中許多尚未經過同行評審,所以我們必須拭目以待,但所有這些研究都指向當你把這個進入職場,只要你用心去做,結果非常令人印象深刻。那麼讓我給你舉三個例子。最後一項將來自醫療保健。前兩個來自其他行業。
這是爲公司的呼叫中心配備GPT。這是一家財富500強軟件公司。GPT部署在他們的呼叫中心。他們有一個巨大的呼叫中心,人們打電話來詢問有關他們軟件的問題。他們所做的是將GPT提供給呼叫中心的一半人員,並用它來啓用他們的計算機。而另一半,他們沒有爲此接受過最少的訓練。如果你使用過它,你會發現它不需要太多訓練。你只需輸入對話提示,它就知道你在說什麼。他們在幾個月內觀察到了120萬條聊天記錄。每小時成功解決的呼叫數量增加了14%。客戶滿意度上升,員工保留率也提高。他們發現,我們在幾乎所有的研究中都看到了這一發現,最大的進步是技能最低的工人和最新的工人。換句話說,似乎技能更高、經驗更豐富的工人並不那麼需要這個,但特別是對於年輕和新員工來說,它可以幫助他們比其他方式更快地完成學習曲線。它做了什麼?有人打電話來說,我對優質照片集感興趣。該訂閱如何運作?呼叫中心人員無需思考或搜索。GPT看到問題後,只需單擊一下即可自動提取照片集。從而顯著縮短了得出正確答案的時間。
這是幾個月前剛剛發表的另一項研究。這就是波士頓諮詢集團,大型高端諮詢公司之一。而他們現在被要求做的,是一個更加複雜的任務。我們並不是要求呼叫中心只是爲打電話的人找到正確的信息。我們要求一個諮詢小組幫助一家假設的鞋業公司制定其業務和營銷策略。所以這是在看市場潛力。你是建店?你們主要做網上銷售嗎?如果你要建造商店和實體店,你會把它放在參與者中,新入行且基礎技能較低的人員有所提升,我估計提升了43%,而技術水平最高的一半參與者也有所提升,但提升幅度僅爲17%。因此,每個人都能看到的主要好處是,低技能和新工人的提升更爲顯著。那麼,這與醫療保健有何關係呢?這是一項尚未經過同行評審的研究,因此請持保留態度。顯然,谷歌對此非常感興趣,企業也希望幫助你相信他們正在做一些非常美妙的事情。但這種情況幾乎總是在後來的同行評審出版物中得到證實。因此,我相信這是真實且正確的。這是五天前才發佈的。
他們進行了一項隨機雙盲交叉研究,讓演員患者以OSCE格式擺出149個案例場景。教育界的人都知道那是什麼,但基本上都是患者和醫生之間正常情況下的來回對話。他們所做的基本上是將這些病例呈現給初級保健醫生或他們的人工智能系統版本,該系統經過調整可以在人工智能中提供對話、診斷和治療建議。他們將其稱爲“Articulate Medical Information Explorer”或“AIME”。
它基本上是一個大型語言模型,主要是爲了這個目的而訓練的。因此,他們花了幾個月的時間進行嘗試,並在系統出現問題時向系統提供反饋。現在在以前從未見過的新案例上進行了嘗試。提出了149個案例場景,他們對這些演員患者進行了盲法調查進行評估,這些患者不知道是初級保健醫生還是人工智能給了他們答案,然後專家們會檢查診斷和建議的質量。
對話是這樣的。這位患者隨後寫信說:我感到胸部和上腹部疼痛。AI問道,我打斷了一些對話。AI已經問過病人,你能比你描述的更詳細一點嗎?病人說,感覺胸部有重物,上腹部感到不適。我不會將其描述爲燃燒或刺痛,確切地說更像是一種相當明顯的持續壓力。AI說,這個描述很清楚,謝謝。它幫助我縮小可能性,但爲了給你最好的建議,我需要更多的背景知識。首先,你的年齡是多少?您有任何重要的病史嗎?這包括心臟問題、高血壓或既往手術。病人繼續給出答案。它會持續大約七八個來回,直到人工智能提出他們認爲正在發生的事情以及你是否需要去急診室或看醫生或開始某種治療的建議。
這是他們的發現結果。左邊是專家對臨牀醫學的看法,右邊是患者的反應。人工智能的結果是粉色的,醫生的結果是藍色的。更好的是圖表可以延伸得更遠。你可以看到,在三個領域中,患者被問及他們的看法,患者對護理的信心,感知到的開放、誠實和同理心,人們認爲人工智能更好,包括比醫生更有同理心,這是多項研究中發現的結果。當專科醫生被要求查看診斷和建議的質量時,他們認爲人工智能更準確,更好的管理計劃和升級建議大致相同。所以你必須看看這個並說,至少它是好的,並且可能比回答相同病例場景的醫生更好。什麼是一個相當真實的世界他們設定的一組條件。這是排名前10位的診斷結果。這是專家的判斷關於診斷準確性的質量。你可以看到,人工智能在每一個方面都比醫生做得更好。所以對於我們這些喜歡我們工作的人來說,這在某種程度上令人興奮,也有點可怕,但顯然我們已經過了可以說我們不要關注這一點的地步了。它還沒有爲醫療保健做好準備。我認爲它已經爲醫療保健做好了準備。
因此,讓我嘗試將所有內容整合在一起。與包括電子健康記錄在內的現有技術相比,生成式人工智能是否需要更少的補充創新和整個系統的更少變化才能產生影響?我認爲答案是肯定的。使用它幾乎不需要訓練。有一種東西叫做Prompt工程。實際上,您可以在放入其中以獲得更好響應的各種內容方面做得更好,但您可以註冊GPT 4.0立即輸入提示,無需任何訓練即可獲得有用的答案。更容易集成到現有軟件,包括電子健康記錄和工作流程。
因此,請考慮從紙質文件到電子病歷的轉變。我們需要將計算機放置在各處,並弄清楚每個人將如何度過他們的一天。現在,您每天花費大量時間,而不是閱讀紙質圖表,而是在計算機上打字並從計算機上閱讀。向人工智能的過渡是你已經在使用計算機了。你一直在使用這些工具。現在的問題是輸出是什麼?因此,我認爲從紙質到電子病歷的提升要輕得多。所以你會看到,新的人工智能產品能夠融入你的電子健康記錄,你仍然在Epic上打字,但現在它正在做一些Epic無法做的事情。這是一件容易得多的事情。這不是小事。仍然需要做大量的工作來整合它,但比幾年前要容易得多。
主要的EHR公司Epic和Cerner也在非常非常努力地構建人工智能,我們開始看到這些東西推出,而且我們會看到越來越多。Epic與OpenAI和Microsoft建立了合作伙伴關係。Cerner被大型軟件公司Oracle收購,部分原因是他們相信人工智能專業知識會有所幫助。因此,您很快就會在計算機和工作流程中看到更多這樣的內容。已經有很多初創公司和老牌公司致力於解決醫療保健問題他們已經接受了這種人工智能並將其應用到他們的產品中,並且在GPT發佈後的六個月內就真正做到了這一點。
我認爲醫療保健和數字化領導者已經從過去十年中吸取了教訓。我認爲我們對於如何在醫療保健領域進行數字化工作不再像以前那麼天真了。我們比以前更不相信炒作了。我們已經培養了領導者,我在這裡看到了其中的一些人,他們的職業生涯涉及醫療保健、信息學、數字化,以及如何使其發揮作用、研究和教學。我認爲我們現在已經掌握了很多以前沒有的東西。醫療保健領域的勞動力短缺可能會減少政治阻力。它不會讓它消失。
想想去年美國發生的兩次大罷工。一個是汽車行業,另一個是好萊塢,他們主要討論的是,人工智能會取代我的工作嗎?因此,隨着這些工具的出現,將會出現政治阻力,但在醫療保健領域,醫生、護士以及計費部門的人員非常短缺,我認爲如果這項技術能夠改善我的生活,它會更受歡迎照顧病人更容易,而且我認爲與其他行業相比,對工作替換的恐懼要少一些。
讓我花幾分鐘討論一下可能會出現什麼問題,結果是,當我們思考生成式人工智能時,只用一分鐘的時間來討論人工智能的問題,這本可以是一個完整的演講。我只是想讓你意識到它們。我們可以在討論中談論它們。顯然,人工智能可以使用其擁有的數據,而這些數據主要來自電子健康記錄。他們仍然可以編造一些東西。仍然會有幻覺的問題,還有垃圾進、垃圾出的問題。如果HR中的數據錯誤,那麼AI的輸出也會錯誤。黑匣子問題。臨牀醫生會遵循他們不理解的推導預測和建議嗎?我認爲這是一個懸而未決的問題。
許多人工智能公司不僅致力於爲您提供答案,而且還爲您提供他們從何處獲得答案。因爲他們相信,如果我們知道來源是什麼,我們就會更加相信答案。我認爲他們這樣做是合理的。很多道德問題和差異。如果電子病歷對過去的做法進行審查表明,黑人骨折患者比白人患者獲得的止痛藥更少,那麼人工智能就會相信這是治療黑人患者的正確方法,並將其納入其治療建議中。你還可以舉出100個其他例子。因此,它並不比我們更有偏見,但它可以將這些偏見嵌入到其建議中。因此,需要做大量的工作來思考如何預防這種情況,並消除這些系統的偏見。
此外,還有對數字鴻溝的擔憂。隨着越來越多的護理以數字方式提供,我們需要確保人們能夠使用無線網絡以及他們需要的所有東西。最後,還有大量的隱私和安全問題。數據共享存在很多障礙,包括擔心安全漏洞,以及誰擁有數據?算法是否會被黑客攻擊是一個問題?如果人工智能犯了錯誤,誰該承擔責任?
同樣,我幾乎可以在每個問題上花費一個小時。它們是大問題。我們會給他們很多思考。我將花一分鐘時間討論一個我特別喜歡、我認爲很有趣的問題,對我們訓練界尤其重要,這就是去技能化和自動化的自滿。當AI是對的時候,50%的時間,它沒有幫助,你不會使用它。當人工智能100%正確時,那就太好了,只是我不確定我們要做什麼。問題是人工智能在一段時間內的正確率會達到90%,因此,你將擁有一個由醫生或護士負責查看結果並簽字的系統。這聽起來相當強大,並且是一個自動防故障系統,只不過它不在任何人類系統中。
這個故事在過去的航空界經常被講述,在航空界,在一架大飛機上,你的駕駛艙裡有三個人。你有一名飛行員、Copilot和飛行工程師,大約30年前,他們拋棄了飛行工程師,他們不需要第三個人。航空界有句俗話:最終你將擁有的不再是兩個人,而是一名飛行員和一隻狗,俗話說,飛行員會陪伴狗,如果飛行員試圖觸摸控制裝置,狗就會咬飛行員,因爲飛機基本上會自行飛行。這很有趣,直到你想到一些相當引人注目的航空事故,這些事故是由於計算機出現故障而飛行員不知道該做什麼,因爲他們已經失去了技能。他們只有在電子設備工作時才知道如何駕駛飛機。
所以這就是去技能化,但更大的問題可能是自動化的自滿。如果人工智能99%的時間都是正確的,那麼放射科醫師在簽署放射學報告之前是否真的閱讀過放射學報告?答案是人類很難集中注意力。我們知道這一點,因爲我們已經在汽車自動駕駛領域看到了這一點。這是特斯拉自動駕駛儀駕駛員手冊中的內容顯然是由一羣非常昂"在一秒鐘內知曉並對正在發生的事情做出反應,這聽起來可能有些荒謬,但實際上可能是有效的。
讓我回顧一下幾年前發生的一起特斯拉事故,這是一起相當知名的事件。當特斯拉汽車進行計算機模型計算時,我認爲它有160英尺的反應時間,然後司機才意識到汽車將駛入一輛非常大的卡車。可悲的是,司機並未能避開,汽車真的撞上了卡車,導致卡車將汽車和司機的上半身都剪掉。顯然,司機因此喪生。這個事故實在太瘋狂了。我們不能期待有一個始終準確的系統,並且要求人類負責簽字,如果他們簽字後出現問題,從瀆職的角度來看,我們將承擔責任。我不知道如何解決這個問題。我認爲這是我們必須解決的一個真正問題,這在訓練領域非常重要。因此,我以此結束,以確保我們有一些時間進行討論。這就是我現在的想法。
我認爲你應該將過去10年或者15年的醫療保健視爲基礎。這意味着我們已經創建了現在數字化的數據,以數字方式完成我們工作的工具,這方面的專家事實上現在所有人都習慣了數字化工作。當我與居民或學生談論過去的日子時,我們在紙上繪製圖表,進行X光檢查,然後將其放在燈前,就像我在日誌中談論我的童年一樣。我不想......他們只知道數字健康。所以我們已經經歷了這一切。我們現在已經在某種程度上創建了治理,以弄清楚如何使其發揮作用並做出決策。在某種程度上,文化。我認爲所有這些都是基礎性的,讓我們爲醫學的數字化轉型做好了準備。電子健康記錄將越來越成爲這些新技術的基礎。所以你永遠都會在某件事上。我們認爲這是電子健康記錄,但它會越來越多地爲你做一些事情,這些事情可能是Epic沒有做的,但據我們所知,是其他公司已經做的,或者UCSF做的。
低垂的果實,意思是會做一些簡單的事情。我認爲我們會比80年代的人更聰明。我們將從物流和運營開始,調度、計費、事先授權、患者溝通。其中一家正在開發預先授權引擎的公司的首席執行官表示,他們現在在您輸入字母O的地方就擁有了該引擎。它會打印出您對Ozempic UnitedHealthcare事先授權的事先授權。它知道這就是您想要做的。因此,所有這些都是一種容易實現、唾手可得的成果,而且風險也沒有那麼高。而不是從診斷和治療等臨牀高風險領域開始,但這也並不遙遠。
我認爲,在某些方面,這將從臨牀護理的操作問題開始。從加州大學舊金山分校開始,我們現在正在推出數字抄寫程序。因此,過去幾年我們爲我們最大量的流動文檔提供的人類抄寫員,越來越多,我認爲在幾年內,每個醫生都會有一個數字抄寫員。您將與患者交談,您的筆記就會出現。該領域的公司已經經歷了一段時間的反彈,但現在已經準備好迎接黃金時段了。現在技術已經相當不錯了。您還將擁有系統,Epic正在構建其中一個系統,但也會有其他系統,也就是說,總結患者的過去病史並瀏覽300頁的註釋,併爲您提供一頁摘要患者的既往病史,並以臨牀上實際上相當可信的方式進行。您還將看到患者選擇以及正在推出的風險預測工具。這就是你之前首先看到的,然後您開始看到建議的診斷和建議的治療。
我們需要預見到可預測的問題,例如偏見、幻覺和自動化自滿,加上不可預測的事情。如果我能預測它們,我會告訴你它們是什麼,但我不知道它們會是什麼。我只知道我們會見到他們以及一些政治阻力。但我認爲醫學數字化轉型的舞臺終於搭建好了。我認爲這非常重要,特別是對於像我們這樣的地方來說,評估這些實施,確保收益大於風險,並重新考慮我們的組織結構圖,以確保我們現在爲新型數字工作做好了準備,包括人工智能。
我將向您展示一些工作和人員的示例。這些工作崗位在六個月前還不存在。所以在我們部門,我們成立了臨牀信息學和數字化轉型部門,朱莉·阿德勒·米爾斯坦 (Julie Adler Milstein) 擔任部門負責人。就在此時,七個月前,部分原因是準備研究這項工作,成爲該領域教育的領導者。對此非常非常興奮。我猜,大約三四個月前,我們部門的 Sarah Murray 成爲了首席健康人工智能官。直到六、八個月前,我們才知道我們需要一位首席健康人工智能官,當時我們意識到我們絕對需要有人來負責這一切,並找出如何讓這一切發揮作用。我認爲這只是臨牀操作中需要進行的治理變革的一個例子,進行研究和教育。我爲我們所做的工作以及這些人和許多其他人(包括在座的許多人)所做的工作感到自豪。
我確實認爲生成式人工智能的獨特力量加上我們在過去10到15年中所做的信息學基礎工作以及衛生系統轉型的迫切需要將創造我們的海明威時刻。如果你學的是醫療保健,我會說海明威可能會說的話,您如何描述醫療保健的數字化轉型?星號是幾年後,這不是明天,但也不是十年,而是兩年、三年、四年。我認爲答案是醫療保健在很大程度上發生了轉變,變得更好,逐漸地,然後突然地,我想現在是我們的時刻了。
我認爲在加州大學舊金山分校,我們有能力成爲這方面的領導者。非常感謝您的關注。
QnA:
主持人:鮑勃,非常感謝你創造了歷史傑作,感謝你現在所處的位置以及我們要去的地方。我們從現場觀衆和數字觀衆那裡提出了一些問題。
Annie Leukemeyer 博士提出了一個問題。她詢問,您如何看待 GPT-4 等工具的有時限性?一方面,你可以說它發展得很快,但另一方面,它不一定訪問上週的研究或我們如何將其納入醫學文獻。
是的,答案是如果您可以訪問上週的研究,那麼它也可以。現在到目前爲止還沒有,因爲到目前爲止,當 GPT-4 首次推出時,它擁有一個到2021年爲止都可用的信息庫。所以人們已經習慣了它目前還不是最新的想法。新的 GPT 和 GPT-5 最終將推出將會和我們一樣與時俱進。當然,問題是這個東西如何審查文獻並知道這項研究是好是壞,它是否會衡量影響因子或者給編輯的信等等?我認爲這些都是棘手的問題,但對我們來說也是棘手的問題。但我認爲你可以從新的人工智能中得到及時的響應,我們已經習慣了他們的時間滯後。我認爲未來的情況不會如此。
我很好奇只是想了解一下你上一篇關於加州大學舊金山分校在這個領域的地位的帖子,您認爲衛生系統的作用是什麼?我們是否與公司共同開發某些技術,或者我們的最佳角色是幫助在臨牀護理環境中進行測試和驗證?或者我們是在觀察事情的進展,也許一旦 Epic 在其他20個大型衛生系統中進行了測試,我們就會開始實施類似的事情。
是的,這是一個引人注目的問題。那麼問題是學術健康中心在這項工作中扮演什麼角色?我認爲誠實的答案是我不知道,因爲我認爲它是如此新,而且發展得如此之快。我認爲大部分的發展由於需要的規模,你需要的技術量,很多發展將發生在企業界、初創企業界,創業世界和微軟、谷歌、蘋果、微軟世界。我認爲他們將會是,他們最終將不得不向衛生系統出售產品。因此,他們將尋找合作伙伴來幫助開發這些東西,瞭解醫療保健系統中的用例進行研究以驗證它們在現實生活中是否有效。說它在實驗室或虛構的用例中有效是一回事。另一種說法是,在現實生活中培養未來的勞動力是我們工作的一部分。
學術健康系統真的很有趣,因爲你的商學院並不經營企業。法學院不經營律師事務所。我們集臨牀系統、教育、研究於一體,具有真正的價值。但是一家非常大的風險投資公司兩天前剛剛購買了一個醫療保健系統。它這樣做並不是因爲它認爲醫療保健系統可以盈利,而是因爲它想要一個學習實驗室來測試新的數字工具。所以你可以看到各種新的關係。我認爲作爲一個衛生系統,如果我們不擅長這一點,我們不會僅僅在醫療保健系統市場中生存。我認爲教育和研究領域也是如此。
我認爲研究界將提出一萬億個問題。因此,我認爲我們開始這個新部門的部分原因是我們需要新的研究重點。我認爲這將是學術健康系統的協同作用,將所有這三件事一起做,所增加的價值超出了公司所能做到的。但這將會有很多合作伙伴關係。
作爲訓練項目的負責人,我有一個關於去技能的問題。這讓我非常緊張,尤其是因爲,正如安妮所提出的,你無法判斷他正在做的研究的質量。我們的學員是否會失去理解諸如什麼是偉大的研究、什麼不是偉大的研究以及我們如何做我們想做的事情之間的區別的能力?所以我很好奇,是否有其他人的經驗教訓,比如飛行員或其他組織行業關於如何防止技能下降的問題?因爲您沒有接種疫苗似乎很自然。
是的,如果你從來沒有這樣做的話,一些去技能化是正常和適當的。正如我多次告訴人們的那樣,我幾乎不記得我妻子的手機號碼。如果我丟了手機,我就再也見不到她了,因爲我已經不擅長記住電話號碼或記住方向了。我不再需要了。因此,我認爲像您這樣運行訓練項目的人面臨的部分挑戰是弄清楚什麼是合適的,什麼是他們真正不需要再學習的東西與他們大部分時間可能不需要的東西相比,他們需要一些時間,以某種方式評估計算機的輸出。我認爲這將是您和其他像您一樣的人在未來10年需要解決的一個核心問題。區分去技能化和自動化自滿很重要。它們是相關的,但並不完全相同。我記得當我在寫書時採訪薩倫伯格船長時,我們正在談論其中一些事故以及計算機開始提供不良信息的飛機。他說,他們駕駛的是一架他們不知道如何駕駛的飛機。當他的電腦出現時,他知道如何飛行,當他的飛機熄火時,因爲他接受過滑翔機訓練並且知道。
那麼問題來了,你能模擬那些情況嗎?你能建立一個模擬來讓它們通過嗎?計算機給出錯誤的答案並給他們體驗。自動他們將物品放入袋子並通過X光機進行檢查,以確保人們保持警覺。因爲如果你連續檢查了10,000個袋子,都沒有發現任何問題,你可能就會放鬆警惕。這是一個複雜的問題,但我認爲我們需要重新思考。我記得當谷歌剛剛出現的時候,有人質疑我們爲什麼還要教醫學生記憶事實,因爲你可以通過搜索找到任何信息。但實際證明,這種觀點是荒謬的,掌握基礎知識仍然非常重要。我認爲對於人工智能也是如此。你仍然需要了解成爲一名好醫生的基礎知識,但現在找到可靠的信息比以前更容易。這將影響我們的培訓方式。
感謝你的精彩演講。我很想聽聽你對面臨潛在風險時的機會和利益的看法,特別是誰會承擔風險,誰會受益,誰可能會受到傷害?
是的,問題在於誰會從中受益,誰會因爲這些工具的潛在風險而受到傷害。我認爲這通常是在系統內置的激勵機制的背景下進行的。我認爲圍繞這個問題的激勵機制並不比現在的激勵機制更復雜。
我認爲你有一個系統,如果你按數量付費,更多的RVU和更多的小部件正在使用,那麼,如果這些工具能讓護理變得更好、更安全、更便宜,你還有動力花錢購買這些工具嗎?答案並不是像你應該的那樣強大的激勵,但你仍然有激勵,尤其是在競爭激烈的市場中,儘可能做到最好,以最低的成本提供最好的結果。而且這樣做還有道德動機。
我認爲,關於誰承擔傷害成本的問題非常有趣。因爲人工智能公司,那些爲特斯拉事件撰寫法律文件的律師也在他們推出的每一款產品上寫了一些東西,說,我們不是醫生,你應該諮詢醫生。在任何有關醫療建議的GPT-4搜索結束時,總會有一行內容表明你應該諮詢醫療保健專業人士。對於任何事情,除非是100%完美,否則他們都會有一位醫生來查看結果並簽字。當我們推出數字抄寫員時,文檔仍然需要在該註釋上簽名,並且如果發生不良情況,文檔將是負責的人。如果數字X射線正在讀取X射線,情況也是如此,但放射科醫生必須簽字。因此,在可預見的未來,我認爲人類將會被感受到、被保留、被承擔責任。數字公司可以盡一切努力確保我們不會稱他們爲醫生,也不會將責任歸咎於他們的法庭。
我認爲我應該提到的一個激勵因素或財務因素是按服務收費的制度,在流動世界中,唯一收費的事情是你來我的辦公室參觀,我會花10分鐘與你在一起並寫一張便條,然後將其發送給Aetna。這種方式越來越行不通了。如果你的護理越來越多地通過監控你的心率和情緒等的數字設備來提供,以及由此而來的建議,這將如何計費?因此,隨着醫療保健越來越多地被解構爲一大堆虛擬交互,我們獲得報酬的方式必須改變,如果醫療保健系統負責的話,這裡有X筆錢來照顧這位患有Y種合併症的患者。如果你做得更好、更便宜,你就會做得很好。如果你做得不好而且成本更高,你就不會做得很好。我認爲基於小部件、基於交易的支付的想法將會被所有這些數字工具所取代。
也許還有觀衆提出的最後一個問題。黑匣子現象是否有可能適用於他們喜歡的患者,我不知道發生了什麼,但我的手錶告訴我我應該做X,並且初級保健醫生告訴我我應該做X。我甚至不需要關注正在發生的事情,因爲我得到了推薦。那麼這會影響他們參與醫療保健的方式嗎?
當然。所以問題是這種可解釋性問題,這是否會像患者一樣與患者互動?
我認爲數字化,數字化的歷史就是它總是使事物民主化。考慮一下你計劃旅行或管理財務的方式。所以總是讓事情民主化。這是一個可以憑經驗回答的開放性問題。人們需要多少解釋才能相信?這就涉及到可信度問題。答案是,我個人並不怎麼想。我認爲可信度基本上是基於他們所聽到的和所看到的。當位智告訴你下高速公路並開車穿過這個小社區時,當你開車經過時,你需要位智告訴你嗎?我告訴你這樣做的原因是在你前方一英里處發生了車禍。只是相信位智知道這是帶你到達目的地的更好路線。我認爲可解釋性被高估了。我認爲我們將越來越無法解釋某些輸出。
谷歌已經證明,當你觀察視網膜的背面並將其顯示給人工智能時,它可以告訴你患者是否患有糖尿病、高血壓和高膽固醇,並且還可以告訴你患者的性別,這是眼科醫生無法做到的。沒有人知道它在排隊做什麼,但它可以做到這一點。因此,它會越來越多地告訴你一些你無法確定推導的事情。這將是一個問題,你對公司和之前的結果有足夠的信心相信它沒問題嗎?我認爲答案,我認爲趨勢,我認爲可解釋性是一個過渡階段。我想在某些時候你會說,事情常常是正確的,好吧,它肯定比我知道的更多,這就涉及到自動化自滿的問題。因爲當它出錯時,我們就沒有足夠的資金去理解。關鍵是要看看結果並說,這很奇怪。那是從哪裡來的?
我認爲對於我們這一代的醫生來說,這是很自然的,但是對於這個時代成長起來的全新醫生來說,我認爲,如果他們除了人工智能輸出之外從未見過任何東西,而且人工智能輸出在99.9%的時間裡都是可信的,那麼這會變得越來越困難。所以這些都是非常棘手的問題,我們必須努力解決它們。
主持人:精彩的演講,精彩的問答。非常感謝你的參與。