ChatGPTやClaude、Geminiなど、多くのLLMで**Chain‑of‑Thought(思考の連鎖)**を使って、モデルに「途中の思考過程を出力させる」ことで解答精度が上がる──そんな経験をした方も多いでしょう。実際LMArenaのリーダーボードでも、推論モデルが主流であることが示されています。
gpt 4o, gpt 4.5とkimi k2以外はすべて推論モデル (2025/08/19時点)
でも最近、「CoTは本当の推論をしているわけではないのでは?」という疑問を投げかける研究が立て続けに発表されました。特に話題になったのが、Apple Researchによる“The Illusion of Thinking”と、アリゾナ州立大学(ASU)による“Is Chain‑of‑Thought Reasoning of LLMs a Mirage? A Data Distribution Lens”という2本の論文です。
この記事では、これらの論文がどういう問題提起をしているのかをざっくり紹介していきたいと思います。
Apple論文:「思考の錯覚」を暴くパズル実験
Appleの研究者たちは、既存の数学ベンチマークだけではモデルの「推論能力」や思考過程の質を測れないと考え、論理構造は同じまま複雑さだけを段階的に変えられるパズル環境を用意しました 。例えばハノイの塔や川渡りパズルなど、問題の規模を自在に調整できるものです。この環境で「最終答え」だけでなく、モデルが生成した思考過程(中間ステップ)の量と質を詳細に分析しました。
Appleのチームは、CoTで”思考”を行うLarge Reasoning Model(LRM)と、標準的なLLMを比較しながら、以下の3つの領域に分けて評価しています 。
左から右まで低複雑度、中複雑度、高負雑度の順番となります。また、Claude 3.7 SonnetとDeepseek V3は非推論モデルで、Claude 3.7 Sonnet (+thinking)とDeepseek R1は推論モデルとなります。
低複雑度ゾーン(左)
パズルが簡単な場合は、普通のLLMの方がLRMよりも速くて正確なことが多い 。思考トークンをたくさん出力するメリットがないどころか、余計な長考がかえって邪魔をすることもあります。
中複雑度ゾーン(真ん中)
ほどよく難しい問題では、LRMの方が優位に立ちます 。理由はシンプルで、CoTを促すとモデルは手順を丁寧に辿り、途中で間違いに気づきやすくなるためです。しかし、ここでも「長ければ長いほど良い」という単純な話ではありません。ある程度以上の長さになると、正答率は頭打ちになってしまいます 。
高複雑度ゾーン(右)
問題が難しすぎると両者とも精度が急落します 。モデルは大量の思考トークンを使い果たしても途中で「諦めモード」に入り、推論自体が崩壊してしまうのです。思考の量は問題の難易度に応じて増え続けるわけではなく、一定の複雑さを超えると逆に減少するというスケーリングの限界も確認されました 。
この研究では、LRMが単純なアルゴリズムを理解しているわけではなく、パズルごとに出力される思考パターンに一貫性がないという弱点も報告されています 。例えば、ハノイの塔の最適解の手順を明示的に与えても、モデルは必ずしもその手順に従えません。研究者たちは、こうした挙動を「思考の錯覚」と呼び、CoTが人間の論理的推論の真似に見えるだけで、内部では別のメカニズム(パターンマッチングもしくはデータの暗記)が動いている可能性を示唆しています。
ASU論文:「CoTは蜃気楼」の仮説