Cross-Sec中品質

柔軟性を欠く推論に起因するLLMの臨床問題解決の限界

Limitations of large language models in clinical problem-solving arising from inflexible reasoning

Kim J, et al. — Scientific Reports, 2025

LLMは固定的思考パターンに陥り柔軟な推論ができない。過信傾向も顕著

対象集団o1, Gemini, Claude, DeepSeek vs 医師

アインシュテルング効果を意図的に誘発する特定のテスト設計であり、通常の臨床推論場面とは異なるストレステスト的性質を持つ。また比較対象の医師群のサンプルサイズや専門領域の偏りについて詳細な報告が限定的。LLMのバージョンアップにより結果が変わりうる時間的制約もある

この研究は、スタンフォード大学とUCSFのチームがAIに「引っかけ問題」を意図的に出して弱点を探ったものです。

エビデンス品質：中品質原文を読む →PubMed

この研究を解説した記事