軌跡からメモリへ：AIエージェントはいかにして経験から学ぶか

⭐️この記事はJAPAN AIアドベントカレンダー2025の12日目の記事です⭐️

こんにちは、Avinashです。JAPAN AI Labチームをリードしています。Labチームの仕事は、エージェント型AI研究の最前線で起きていることを把握し、実際に私たちのプラットフォームに組み込むことができ、顧客にとって価値のあるものを見つけ出すことです。

この記事では、AIエージェントのメモリについてお話ししたいと思います。これは、モデルの重みに触れることなく調整できる数少ないレバーの一つで、コンテキストウィンドウに入るもの（システムプロンプト、検索、ツール、メモリ、履歴）を変更するだけで実現できます。最近、JAPAN AI Labでは、エージェントにとって良いメモリとは何か、そして強化学習と神経科学のアイデアを活用して、時間をかけて過去の経験をどのように再利用するかに焦点を当てています。

1. はじめに – AIエージェントのメモリが困難な理由

本番環境でエージェントを展開したことがある人なら、誰もが同じパターンを見たことがあるでしょう。最初の数ターンは高精度だが、会話やプロジェクトが長くなるにつれて忘れっぽくなっていく。プロジェクトが数ヶ月にわたり、ビジネスロジックが絶えず変化する企業環境では、組織の働き方を忘れるエージェントは実際のリスクを生み出します。

コンテキストウィンドウを拡大し、以前の会話/ターンを追加することは役立ちますが、ある程度までです。LongMemEvalは、チャットアシスタントが短い抜粋ではなく現実的なマルチセッション履歴で動作する場合、約30%の精度を失う可能性があることを示しています（Wu et al., 2024）。同時に、メモリシステムの成長するエコシステム - Mem0、Zep、MemGPT、ENGRAM、その他 - は異なる評価パイプラインの下で強いベンチマーク数値を公開しており、比較を困難にしています。

私たちJAPAN AIにとって、これは現実的な問題です。2025年8月、私たちはAIエージェント製品の機能として「エージェントメモリー」をリリースしました（JAPAN AI, 2025）。これにより、エージェントは会話内容、思考パターン、作業スタイルを記憶し、組織資産としてユーザーインサイトを蓄積できます。

この機能を構築することで、私たちは3つの課題に直面しました。

**「メモリ」とは何を意味するのか？**それは単により長いコンテキストなのか、それとも人間のエピソード記憶、意味記憶、手続き記憶により近いものなのか？
**どのように評価すべきか？**ベンチマークは価値があるが脆弱で、小さなパイプラインの選択がスコアを二桁変動させる。
**企業プラットフォームは実際にメモリをどのように実装すべきか？**私たちには、観察可能で、ガバナンス可能で、現実世界の制約に対して堅牢なシステムが必要です。

この投稿はその分野を整理します：認知科学に基づく分類法（セクション2）、なぜ私たちがストレージ形式ではなくメモリ抽出に焦点を当てるのか（セクション3）、具体的なタスクでのリフレクション式手法（セクション4）、ケースベース推論と学習可能なセレクター（セクション5）、そしてエージェントメモリがどこに向かっていると考えるか（セクション6）。

2. エージェントメモリのシンプルなレンズ

「メモリ」を主張するほとんどのシステムは、実際にはより大きなプロンプトや最近のターンに対するRAGです。私たちは3つの時間スケールを区別します。

一時的（現在のプロンプト）、
タスクレベル（単一のエピソード）
クロスタスク（実行をまたいで存続）

この記事ではクロスタスクメモリにフォーカスしています。

図1. 4種類のクロスタスクメモリ。エピソード記憶は具体的な軌跡を保存し、意味記憶は脱文脈化された事実を保存し、手続き記憶は再利用可能なプレイブックを保存し、連想記憶は手がかり-値リンク（プロファイル、類似性スコア）を保存します。

クロスタスクメモリ内で、メモリが含むものを分離します。Tulvingの分類法 (Tulving, 1972),に基づいて、私たちは以下を使用します：