ハーバード研究:AIの救急診断の正確性が人間医師を上回る

大規模言語モデル(LLM)の医療分野での探索が深まる中、ハーバード医学大学院が最近発表した研究が、AIの診断能力に対する業界の関心を再び高めている。研究によると、リアルな救急シナリオを模した試験において、少なくとも1つの先進的な大規模言語モデルが診断精度で経験豊富な人間の医師2名を上回った。この成果は5月4日に『Nature Medicine』に掲載され、TechCrunchが先行して報道した。

研究デザイン:AIと人間の医師を同じ土俵で競わせる

研究チームは、実際の救急室における200の難症例を選定し、胸痛、腹痛、呼吸困難など一般的な主訴をカバーした。独立して作業する救急科医師2名と、3つの主流大規模言語モデル(GPT-4、Claude 3、MedPaLM 2を含む)にそれぞれ診断を行わせた。すべての参加者は同一の患者病歴、身体診察結果、検査データを得たが、患者との直接対話はできなかった。最終的に、診断の正確性は専門家委員会が後続の確定診断結果に基づいて判定した。

「最も優れたモデル(GPT-4)の診断精度は87%に達し、人間の医師2名はそれぞれ74%と72%だったことに驚きました」――研究第一著者、ハーバード医学大学院のAndrew Lee博士

ただし研究では、AIが希少疾患や複雑な臨床推論を要する症例で精度が低く、論理的には正しいが臨床的には不適切な推奨を出すことがあると指摘している。例えば、薬物使用歴のある患者が感染性心内膜炎を発症した症例では、AIは病原体を正しく特定したが、患者のアレルギー歴と矛盾する抗生物質を推奨した。

業界背景:医療におけるLLMのチャンスと課題

近年、LLMを臨床診断に適用することはAI医療のホットトピックとなっている。メイヨー・クリニックからジョンズ・ホプキンスまで、多数のトップ医療機関がAI支援トリアージ、カルテ要約、初期診断のテストを行っている。しかし業界では、AIシステムが偏ったトレーニングデータに基づいて誤った結論を出した場合、誰が責任を負うのかという懸念が広がっている。ハーバードの今回の研究はAIの可能性を裏付ける積極的な根拠となったが、同時に統合プロセスにおける危険な盲点も浮き彫りにした。

編集後記:AIは「スーパー医師」ではなく「スーパーアシスタント」

本記事はTechCrunchから編訳した。指摘すべきは、研究中のAIは実際の医患対話を欠いた静的データの下で動作していたことだ。現実には、医師は検査結果に頼るだけでなく、患者の表情、声のトーン、過去の受診行動を観察して診断仮説を修正する。AIはすべての教科書を読破できるかもしれないが、ためらいのまなざしを読み取ることはできない。したがって、AIを「セカンドオピニオン」や「迅速スクリーニングツール」として位置付けることがより現実的だ。今後、医学教育においても医師がAIと協働する方法を教える必要がある:いつその結論を信頼し、いつその論理を疑うのか。結局のところ、最良の診断はAIや人間が一方的に下すものではなく、両者の組み合わせによって生み出されるものだ。

現在、ハーバードチームは前向き臨床試験を計画しており、AIを救急ワークフローに組み込み、患者予後への影響をリアルタイムで観察する予定である。後続研究も引き続き目覚ましい結果となれば、私たちは本当に「医師+AI」のデュアルコア診療時代を迎えるかもしれない。