本文へスキップ
医学よろず相談
エビデンスライブラリ
Cross-Sec中品質

柔軟性を欠く推論に起因するLLMの臨床問題解決の限界

Limitations of large language models in clinical problem-solving arising from inflexible reasoning

Kim J, et al.Scientific Reports, 2025

LLMは固定的思考パターンに陥り柔軟な推論ができない。過信傾向も顕著

対象集団o1, Gemini, Claude, DeepSeek vs 医師

エビデンスの限界

アインシュテルング効果を意図的に誘発する特定のテスト設計であり、通常の臨床推論場面とは異なるストレステスト的性質を持つ。また比較対象の医師群のサンプルサイズや専門領域の偏りについて詳細な報告が限定的。LLMのバージョンアップにより結果が変わりうる時間的制約もある

読者の方へ

この研究は、スタンフォード大学とUCSFのチームがAIに「引っかけ問題」を意図的に出して弱点を探ったものです。

エビデンス品質:中品質原文を読む →PubMed

この研究を解説した記事

免責事項:本サイトの情報は医療行為(診断・処方・治療)を提供するものではありません。健康上の判断は必ず医師にご相談ください。