GPT-4答對「美國醫生資格考」90%題目! 還正確診斷出10萬分之1罕病
AI聊天機器人ChatGPT在3月向付費用戶發表最新版本GPT-4。(圖/達志/美聯社)
AI聊天機器人ChatGPT在3月向付費用戶發表最新版本GPT-4,對此哈佛大學電腦科學工程師兼內科科醫生柯漢(Isaac Kohane)就拿它來進行測試,沒想到最新版的ChatGPT居然能輕鬆答對美國醫生資格考90%的題目,甚至能在輸入病人資訊後,正確的診斷出罕見疾病。不過柯漢表示,GPT-4也會犯錯,重點是它還不用立下希波克拉底誓詞(Hippocratic Oath),意指其不需擔負任何醫學倫理和道德責任。
根據《商業內幕》(BusinessInsider)的報導,柯漢在新書The AI Revolution in Medicine中指出,他利用美國醫學資格考測試了最新版的ChatGPT,沒想到它居然能答對90%以上的題目,這個成績除了表現得比GPT-3和GPT-3.5更優秀之外,甚至還比一些有執照的醫師更好。
柯漢說,ChatGPT不僅僅是一個好的應試者,它還擁有強大的翻譯能力,甚至能將一些醫療術語精簡成醫學院6年級學生可以輕鬆閱讀的版本。同時更能為醫生在臨床上提供更好的建議,例如指導醫生如何以更簡單、清晰、更具有同情心的說法向病患解釋病情,也能輕鬆摘要冗長的醫學報告。
如果你問GPT-4是如何做到這一切的,它可能會告訴你,它的所有智能展現仍然「是數據演算的結果,並不涉及真正的理解或意圖。」不過即使有這些限制,正如柯漢在新書描述的,GPT-4仍可以模仿醫生診斷疾病的方式,取得驚人的成果,儘管並非完美。
柯漢進一步用ChatGPT進行臨床實驗,他將自己過去曾治療的個案資料,包含超音波、體內激素標準等內容提供給ChatGPT,沒想到它居然正確診斷出機率僅10萬分之1的先天性腎上腺增生症(congenital adrenal hyperplasia),「就像我透過多年研究和經驗得出的結果一樣。」
不過,柯漢也意識到,全球數百萬個家庭都能透過ChatGPT獲得這些醫療知識,「我不知道我們如何才能保證或證明GPT-4的建議是安全或有效的。」柯漢補充,「ChatGPT很容易出現錯誤,這些錯誤的地方通常很微小,多半是一個公式計算錯誤、忘記計算平方等,還曾算錯人體的BMI值,但僅僅是一個錯誤的數字或體重,都會導致嚴重的診斷誤差。」
柯漢表示GPT-4雖然會犯錯,但它不用立下希波克拉底誓詞(Hippocratic Oath),也就是俗稱的「醫師誓詞」。當ChatGPT被問到關於計算錯誤的部分時,它會回應,「我無意欺騙或誤導任何人,但我有時候會根據不完整或不準確的數據犯錯,我也沒有人類醫生或護理師的臨床判斷或道德責任。」
柯漢結論指出,ChatGPT能夠在臨床上節省醫師很多的時間和資源,「我們必須強迫自己想像身處在一個擁有越來越聰明的機器人世界,最終它可能在各方面都會超越人類智力,我們必須認真思考我們希望這樣的世界會如何運作。