AI開発の新常識、コンテキストエンジニアリング入門：LLMの性能を最大化する3つの要素

summarization from human feedback

lilianweng.github.io

human preference dataset

“External APIs” section

1] Wei et al. [“Chain of thought prompting elicits reasoning in large language models.”

2] Yao et al. [“Tree of Thoughts: Dliberate Problem Solving with Large Language Models.”

4] Liu et al. [“LLM+P: Empowering Large Language Models with Optimal Planning Proficiency”

5] Yao et al. [“ReAct: Synergizing reasoning and acting in language models.”

6] Google Blog. [“Announcing ScaNN: Efficient Vector Similarity Search”

7] [https://chat.openai.com/share/46ff149e-a4c7-4dd7-a800-fc4a642ea389

8] Shinn & Labash. [“Reflexion: an autonomous agent with dynamic memory and self-reflection”

9] Laskin et al. [“In-context Reinforcement Learning with Algorithm Distillation”

10] Karpas et al. [“MRKL Systems A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning.”

11] Nakano et al. [“Webgpt: Browser-assisted question-answering with human feedback.”

12] Parisi et al. [“TALM: Tool Augmented Language Models”

13] Schick et al. [“Toolformer: Language Models Can Teach Themselves to Use Tools.”

14] Weaviate Blog. [Why is Vector Search so fast?

15] Li et al. [“API-Bank: A Benchmark for Tool-Augmented LLMs”

16] Shen et al. [“HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace”

17] Bran et al. [“ChemCrow: Augmenting large-language models with chemistry tools.”

18] Boiko et al. [“Emergent autonomous scientific research capabilities of large language models.”

19] Joon Sung Park, et al. [“Generative Agents: Interactive Simulacra of Human Behavior.”

20] AutoGPT. [https://github.com/Significant-Gravitas/Auto-GPT

21] GPT-Engineer. [https://github.com/AntonOsika/gpt-engineer

arxiv.org

arxiv.org

arxiv.org

What is IArxiv?

arxiv.org

arxiv.org

arxiv.org

Supported LLMs documentation

調査のまとめ

コンテキストエンジニアリングは、大規模言語モデル（LLM）の能力を最大限に引き出すための多様な手法やフレームワークを包含する概念です。調査の結果、特に「計画」「記憶」「ツール利用」といった側面を強化す...

調査のまとめ

LangGraphの具体的な実装方法について調査しました。永続化機能については詳細な情報を得られましたが、「Human-in-the-loop」および「Multi-agent collaboratio...

🏷最先端の応用事例：AIエージェント「Devin」を支える技術と関連ツール

最先端の応用事例：AIエージェント「Devin」を支える技術と関連ツール

コンテキストエンジニアリングの真価は、理論だけでなく、それを実装した最先端のAIエージェントやツール群にこそ現れます。ここでは、世界に衝撃を与えたAIソフトウェアエンジニア「Devin」を筆頭に、この分野を牽引する具体的な応用事例と、それを支える重要なツールを紹介します。これらの事例は、コンテキストエンジニアリングが単なるバズワードではなく、AIの能力を飛躍させるための実践的な方法論であることを雄弁に物語っています。

Cognition Labsの「Devin」：コンテキストが魔法を生む現場

AIソフトウェアエンジニア「Devin」を開発したCognition社は、その成功の鍵が「コンテキストエンジニアリング」にあると明確に述べています

rlancemartin.github.io

。彼らのブログによれば、Devinが複雑なソフトウェア開発タスクを成功させる上で最も重要なのは「より良いコードベースコンテキスト🧠を持つこと」です

cognition-labs.com

。これは、AIの性能がモデル自体の賢さだけでなく、タスクを解くために与えられる情報の質と量に大きく依存するという、コンテキストエンジニアリングの核心的思想を裏付けています。

Cognition社は、この思想を具現化するために、以下のような専用ツールを開発・活用しています。

DeepWiki MCPサーバー: 公開されているGitHubリポジトリから、コードベースの文脈（コンテキスト）と回答を瞬時に取得するサーバーです
cognition-labs.com
。これにより、Devinは巨大なコードの森で迷うことなく、必要な情報を的確に把握できます。
blockdiff: VMディスクのスナップショットと差分を高速に取得するオープンソースツールです
cognition-labs.com
。これは、エージェントが試行錯誤する過程の状態を効率的に管理・保存するための基盤技術であり、まさに「永続化」の実践例と言えるでしょう。

Devinの事例が示すのは、優れたAIエージェント開発が、もはやLLMへの単一のプロンプト作成に留まらないということです。コードベース全体、開発履歴、関連ドキュメントといった広範なコンテキストを動的に収集・整理し、LLMに提供するシステム全体の設計、すなわちコンテキストエンジニアリングこそが、"魔法"のようなエージェントを生み出す源泉なのです。

学術研究から生まれる未来のエージェント像

コンテキストエンジニアリングのコンセプトは、産業界だけでなく、学術界の最先端研究においてもその重要性を増しています。

プロジェクト/論文	応用分野	コンテキストエンジニアリング的特徴	出典
Generative Agents	仮想社会シミュレーション	経験を自然言語で記録・統合する高度な記憶アーキテクチャ（永続化）により、25体のエージェントが自律的に社会行動（パーティーの企画など）を形成。	arxiv.org
HuggingGPT	汎用AIタスク解決	ChatGPTを司令塔とし、Hugging Face上の多数の専門AIモデルを「ツール」として動的に選択・実行するアーキテクチャ（計画とツール利用）。	arxiv.org
ChemCrow	化学研究	18種類の化学専門ツールを統合し、有機合成や創薬といった複雑なタスクを自律的に計画・実行（ツール利用）。	arxiv.org
Reflexion	コーディング、推論	失敗経験から言語的に「反省」し、それをエピソード記憶に保存して自己修正を繰り返すことで、GPT-4を超える精度を達成（永続化と自己修正）。	arxiv.org

スタンフォード大学とGoogleによる「Generative Agents」

arxiv.org

は、エージェントが日々の経験を「記憶ストリーム」に保存し、それを基に高次の洞察を得る「反省」プロセスを通じて行動を計画する、洗練された記憶アーキテクチャを提示しました。これは、単なる情報検索を超えた、長期的な文脈理解の重要性を示しています。

また、「HuggingGPT」

arxiv.org

や「ChemCrow」

arxiv.org

といった研究は、LLMを万能選手としてではなく、専門家チームを率いる優れたマネージャーとして位置づけ、タスクに応じて最適な「ツール（外部APIや専門モデル）」を動的に選択・利用させるアプローチの有効性を示しました。これは、コンテキストエンジニアリングにおける「ツール利用」の概念を体現するものです。

開発を加速するフレームワークとツール

こうした先進的なコンセプトを、より多くの開発者が実践できるようにするためのフレームワークやツールも次々と登場しています。

LangGraph：状態を持つエージェント開発の標準フレームワーク

LangChainから生まれたLangGraphは、状態（ステート）を持つエージェントやワークフローを構築するための強力なライブラリです

langchain-ai.github.io

。その中核機能は、コンテキストエンジニアリングの重要な要素を直接サポートしています。

永続化 (Persistence): LangGraphの「チェックポイント機能」は、グラフ（エージェントの処理フロー）の各ステップの状態を保存します
langchain-ai.github.io
。これにより、数日間にわたるような長期タスクでも中断・再開が可能になり、会話履歴の保持（メモリ）や耐障害性が実現されます。
```
# LangGraphではチェックポインターを指定するだけで永続化が有効になる
checkpointer = InMemorySaver()
graph = workflow.compile(checkpointer=checkpointer)

# スレッドIDを指定して実行することで、状態が保存・追跡される
config = {"configurable": {"thread_id": "user_123"}}
graph.invoke({"input": "最初のメッセージ"}, config)
```
この永続化機能は、人間がAIの作業に介入する「Human-in-the-loop」や、後述するマルチエージェントシステムの基盤ともなっており、まさにコンテキスト管理の要です
langchain-ai.github.io
。
状態の分離と共有: LangGraphでは、グラフの状態を
```
StateGraph
```
というスキーマで明確に定義します
langchain-ai.github.io
。これにより、単一のメッセージリストに全ての情報を詰め込むのではなく、タスクの進捗、中間成果物、エラー情報などを構造化して管理できます。さらに、サブグラフ機能を使えば、各エージェントが独立した内部状態（コンテキスト）を保ちつつ、協調して動作するマルチエージェントシステムを構築することも可能です
langchain-ai.github.io
。

Mem0：AIに特化したインテリジェントなメモリレイヤー

Mem0は、AIエージェントに長期記憶能力を付与することに特化したオープンソースのメモリレイヤーです

github.com

。驚くべきことに、フルコンテキスト（全履歴）と比較してトークン使用量を90%削減し、応答速度を91%向上させながら、精度を維持または向上させるという成果を報告しています

github.com

。これは、関連性の高い記憶だけを効率的に検索してコンテキストに含めるという、洗練された「圧縮」技術によるものです。AIアシスタントやカスタマーサポートなど、パーソナライズが求められる多くの分野での応用が期待されています

github.com

。

BabyAGI：自己改善するエージェントの未来像

BabyAGIは、エージェントが自ら「ツール（関数）」を記述し、自己改善していくという野心的なコンセプトを提示する実験的フレームワークです

github.com

。その核心である「functionz」フレームワークは、関数をデータベースに保存・管理し、依存関係を追跡します。これにより、エージェントはユーザーの要求に応じて、既存のツールを組み合わせるだけでなく、不足しているツールをAIの能力で新たに生成し、自身の能力を拡張していくことが可能になります。

これらの事例とツールから浮かび上がるのは、現代のAI開発が「静的なプロンプトの職人芸」から「動的なコンテキストを供給するシステムの設計」へと大きく舵を切っているという事実です。Devinのような高度なエージェントを支えているのは、単一の魔法のプロンプトではなく、LangGraphのようなフレームワーク上で、記憶（永続化）、ツール利用、自己修正といったコンテキストエンジニアリングの要素を巧みに組み合わせた、洗練されたアーキテクチャなのです。

github.com

langchain-ai.github.io

cognition-labs.com

arxiv.org

[view email

[v1]

arxiv.org

[view email

[v1]

arxiv.org