エビデンスライブラリ
Cross-Sec中品質
柔軟性を欠く推論に起因するLLMの臨床問題解決の限界
Limitations of large language models in clinical problem-solving arising from inflexible reasoning
Kim J, et al. — Scientific Reports, 2025
LLMは固定的思考パターンに陥り柔軟な推論ができない。過信傾向も顕著
対象集団o1, Gemini, Claude, DeepSeek vs 医師
エビデンスの限界
アインシュテルング効果を意図的に誘発する特定のテスト設計であり、通常の臨床推論場面とは異なるストレステスト的性質を持つ。また比較対象の医師群のサンプルサイズや専門領域の偏りについて詳細な報告が限定的。LLMのバージョンアップにより結果が変わりうる時間的制約もある
読者の方へ
この研究は、スタンフォード大学とUCSFのチームがAIに「引っかけ問題」を意図的に出して弱点を探ったものです。
