📜 要約
主題と目的
本調査は、「LLM(大規模言語モデル)を用いてポケモンをクリアするレースにおいて、現時点で最も進んでいるモデルは何か」という問いに焦点を当てています。具体的には、
- ポケモンバトルにおけるLLM同士の性能比較
- 実際のゲーム進行(ジムリーダー撃破→エンドツーエンドクリア)における進捗
を整理・分析し、各モデルの強み・課題を明らかにすることを目的としています。
回答
1. ポケモンバトルにおけるLLM性能比較
AWSコミュニティによる実験では、Poke-envシミュレータ上でAmazon BedrockのLLMエージェントを対戦させ、5モデルの勝率と応答速度を比較しました。
community.aws
モデル | 順位 | 平均応答速度(秒) |
---|---|---|
Claude 3 Opus | 🥇 1位 | 21 |
Claude 3 Sonnet | 🥈 2位 | 10 |
Mistral Large | 🥈 2位 | 8 |
Claude 3 Haiku | 🥉 3位 | 3 |
Mixtral 8x7B | 4位 | 8 |
- Claude Opusは最適な技選択と一貫した攻撃戦略で4勝1敗を記録しチャンピオンに輝いた一方、平均21秒と決定に時間を要するトレードオフもあります。community.aws
- 他モデルは戦略的な交代判断やタイプ相性の誤認識(ハルシネーション)に課題が見られました。
2. Anthropic社のエンドツーエンド攻略エージェント開発
AnthropicではLLMOps手法を用い、Claudeシリーズをポケモンプレイエージェントとして育成・評価しています。
zenml.io
- Claude 3.5(2023年6月):マップ上を移動し始める段階
- Claude 3.6/新3.5(2023年10月):スターターポケモン入手、序盤攻略
- 最新版(2025年初頭):複数ジムリーダーを撃破し、意味のある進捗を達成
長期的コンテキスト管理やビジュアル情報の処理、一貫性の維持能力が段階的に向上しており、ジム戦クリアまで到達した点が大きなマイルストーンです。
3. エンドツーエンドクリアの最前線:Google Gemini
Reddit上の報告によれば、Google Geminiは『ポケモン赤』クリアを目指し、現在8つのジムのうち6つを制覇済みで、残り2つのジムクリアが成功すれば“初の完全クリアAI”となる見込みです3。
4. その他の取り組み:LLM-Pokemon-Red-Benchmark
GitHub上のプロジェクトでは、ゲーム画面のみを入力とし、LLMが視覚情報から判断して『ポケモン赤』攻略を試みるベンチマークが公開されています。将来的には視覚+テキスト両対応のエージェント開発が期待されます。
github.com
結果と結論
- ポケモンバトル単体の性能比較では、AnthropicのClaude 3 Opusが現状最も高い勝率を誇ります。
- エンドツーエンドのゲーム攻略においては、Anthropicエージェントが複数のジムリーダー撃破を達成済みですが、ジム全制覇には未到達です。
- Google Geminiは既に6ジムをクリアしており、完全クリアへの最有力候補といえます。
- しかし、いずれのモデルも「長期的コンテキスト管理」「戦略的意思決定」「ハルシネーション抑制」といった技術課題を残しており、完全自律クリアにはさらなる基盤モデルの進化と専門ツールの統合が必要です。今後の研究開発により、AIエージェントが人間同等あるいはそれ以上の戦略を展開し、ポケモンを完全にクリアする日が来ることが期待されます。
コード実行
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>LLMポケモンバトル結果</title>
<script src="https://unpkg.com/mermaid@11.4.0/dist/mermaid.min.js"></script>
<style>
body { font-family: Arial, sans-serif; margin: 20px; }
h1 { text-align: center; }
table { width: 100%; border-collapse: collapse; margin: 20px 0; }
th, td { border: 1px solid #ddd; padding: 8px; text-align: center; }
th { background-color: #f2f2f2; }
.mermaid { margin: 20px 0; }
</style>
</head>
<body>
<h1>LLMポケモンバトル結果</h1>
<h2>モデルのランキング</h2>
<table>
<tr>
<th>モデル</th>
<th>ランキング</th>
<th>平均速度(秒)</th>
</tr>
<tr>
<td>Claude 3 Opus</td>
<td>チャンピオン</td>
<td>21</td>
</tr>
<tr>
<td>Claude 3 Sonnet</td>
<td>2位</td>
<td>10</td>
</tr>
<tr>
<td>Mistral Large</td>
<td>2位</td>
<td>8</td>
</tr>
<tr>
<td>Claude 3 Haiku</td>
<td>3位</td>
<td>3</td>
</tr>
<tr>
<td>Mixtral 8x7B</td>
<td>4位</td>
<td>8</td>
</tr>
</table>
<h2>プロンプトエンジニアリングの重要性</h2>
<div class="mermaid">
graph TD;
A[プロンプトの質] -->|向上| B[勝率の向上];
A -->|低下| C[勝率の低下];
B --> D[50%];
C --> E[5%];
</div>
<h2>ハルシネーションの問題</h2>
<p>モデルは対戦中に頻繁にハルシネーションを起こし、タイプ相性の誤りや特性の無視などの問題が発生しました。</p>
<h2>出典</h2>
<ul>
<li><a href="https://community.aws/content/2eVAc9JN5iKjxntxq1EiwN3wQW1/five-llms-battled-pokemon-claude-opus-was-super-effective" target="_blank" rel="noopener noreferrer" class="text-blue-500 underline hover:text-blue-700">AWS Community</a></li>
<li><a href="https://justismills.substack.com/p/the-blackout-strategy" target="_blank" rel="noopener noreferrer" class="text-blue-500 underline hover:text-blue-700">The Blackout Strategy</a></li>
</ul>
</body>
</html>
このレポートが参考になりましたか?
あなたの仕事の調査業務をワンボタンでレポートにできます。
🔍 詳細
🏷ポケモンをクリアするLLMレースの概要

2025年最新!ポケモンをクリアするLLMレースの最前線
ポケモンをクリアするLLMレースの概要
LLM(大規模言語モデル)がポケモンをプレイする試みは、AIの能力を測る興味深いベンチマークとなっています。ユーザーの質問「LLMでポケモンをクリアするレースで一番進んでいるモデルは何?」に答えるために、現状のレース状況と、特に注目されているモデルについて解説します。
現時点で最も注目されているのは、AnthropicのClaudeシリーズです。特に、Claude Opusは、ポケモンバトルにおいて優れた性能を発揮することが実験で示されています @AWS | Community | Five LLMs battled Pokemon. Claude Opus was super effective。しかし、ポケモンを「クリアする」というより複雑なタスクにおいては、別の側面も見えてきます。
community.aws
LLMエージェントによるポケモン攻略の進捗
Anthropicでは、LLMを活用したポケモンプレイエージェントの開発が進められています @The Blackout Strategy - by Justis Mills。このプロジェクトは、LLMの能力を示すデモンストレーションであると同時に、モデルの改善やエージェントの長期的なタスク遂行能力を評価するためのツールとしても機能しています。
zenml.io
開発は2022年6月にDavid Hershey氏によって開始され、当初はサイドプロジェクトでしたが、LLMエージェントの能力を示す重要なデモンストレーションへと発展しました @The Blackout Strategy - by Justis Mills。ポケモンが選ばれたのは、そのエンターテイメント性だけでなく、モデルの能力をテストするための構造化された環境としての可能性があったためです @The Blackout Strategy - by Justis Mills。
zenml.io
zenml.io
AnthropicによるClaudeの進化は以下の通りです @The Blackout Strategy - by Justis Mills:
zenml.io
- Claude 3.5 (2023年6月):家から出てうろつくことができる
- Claude 3.6 および 新3.5 (2023年10月):最初のポケモンを入手し、基本的な進捗を達成
- 最新バージョン:ジムリーダーを倒し、意味のある進捗を達成
この進化は、長期的な意思決定、経験からの学習、一貫性の維持、視覚情報の処理と行動において改善が見られることを示唆しています @The Blackout Strategy - by Justis Mills。
zenml.io
Claudeの「ブラックアウト戦略」
しかし、Justis Mills氏の記事「The Blackout Strategy」 @The Blackout Strategy - by Justis Millsは、AIがポケモンをプレイすることの難しさと、その過程で明らかになるAIの弱点について考察しています。記事では、Claudeがゲームの序盤を攻略したものの、Mt. Moonというダンジョンで「ブラックアウト戦略」に陥った事例が紹介されています @The Blackout Strategy - by Justis Mills。
substack.com
substack.com
ブラックアウト戦略とは、ポケモンが全滅してポケモンセンターに戻される状態を利用する戦略で、ClaudeはMt. Moonをクリアしたと誤認識し、わざとポケモンを全滅させてポケモンセンターに戻り、Cerulean Cityへの道を模索するという行動を繰り返しました @The Blackout Strategy - by Justis Mills。これは、AIが誤った認識に基づいて行動し、抜け出せなくなるという問題を示唆しています。
substack.com
より優れた基盤モデルの必要性
この問題に対して、Mills氏は、より多くの機能を追加するのではなく、より優れた基盤モデルが必要であると結論付けています @The Blackout Strategy - by Justis Mills。
substack.com
ポケモンバトルにおけるLLMの性能比較
一方、ポケモンバトルに焦点を当てた実験では、異なるLLMの性能が比較されています。Banjo Obayomi氏がAmazon Bedrockを通じてLLMエージェントを対戦させた結果、Claude Opusが最も優れた成績を収めました @AWS | Community | Five LLMs battled Pokemon. Claude Opus was super effective。
community.aws
モデル | ランキング | 平均速度(秒) |
---|---|---|
🥇 Claude 3 Opus | チャンピオン | 21 |
🥈 Claude 3 Sonnet | 2位 | 10 |
🥈 Mistral Large | 2位 | 8 |
🥉 Claude 3 Haiku | 3位 | 3 |
Mixtral 8x7B | 4位 | 8 |
ただし、Opusは計算コストが高く、1つの技を選択するのに平均21秒かかるという課題もあります @AWS | Community | Five LLMs battled Pokemon. Claude Opus was super effective。
community.aws
プロンプトエンジニアリングとハルシネーション
これらの実験から、プロンプトエンジニアリングの重要性も明らかになっています。当初、GPTモデルでテストされたプロンプトをClaude 3 Sonnetで使用したところ、勝率はわずか5%でしたが、新しいプロンプトを作成したところ、勝率は50%に向上しました @AWS | Community | Five LLMs battled Pokemon. Claude Opus was super effective。
community.aws
また、LLMは頻繁にハルシネーション(幻覚)を起こし、タイプ相性の間違いや能力の誤認識といった論理的な誤りを犯すことも課題です @AWS | Community | Five LLMs battled Pokemon. Claude Opus was super effective。
community.aws
結論
LLMによるポケモンクリアレースは、まだ発展途上の段階であり、AnthropicのClaudeシリーズが注目されています。特にClaude Opusは、ポケモンバトルにおいて高い性能を発揮しますが、全体的なゲーム攻略においては、誤認識や戦略的な課題も存在します。今後の研究開発により、より賢く、より柔軟なAIエージェントが登場することが期待されます。
🏷Claude Opusの性能と戦略

Claude Opusの性能と戦略
LLMでポケモンをクリアするレースにおいて、AnthropicのClaude Opusは目覚ましい成果を上げています。複数の研究や実験で、その性能と戦略が明らかになっています。
Claude Opusの進化とポケモン攻略
Anthropicで開発されたLLMエージェントは、ポケモンをプレイすることで、LLMの能力を評価・改善するためのツールとして活用されています。初期のバージョンであるClaude 3.5は、ゲームの世界を探索することができましたが、最新バージョンではジムリーダーを倒すなど、より意味のある進歩を遂げています。
zenml.io
zenml.io
この進化は、長期的な意思決定、経験からの学習、一貫性の維持、視覚情報の処理とそれに基づく行動といった能力の向上を示唆しています。
zenml.io
LLMOpsの視点から見たClaude Opus
このプロジェクトは、LLMOpsの実践者にとって貴重な洞察を提供します。シンプルなツールに焦点を当てること、モデルのバージョン間で反復テストを行うこと、具体的な目標を設定することの重要性が強調されています。
zenml.io
また、長期間にわたるコンテキストと状態の維持は重要な課題であり、Anthropicでは知識ベースシステムと定期的な要約を組み合わせることで、この課題に対処しています。
zenml.io
Claude Opusと他のLLMの比較
Amazon Bedrock上で、Claude Opusと他のLLM(Claude 3 Sonnet、Mistral Large、Claude 3 Haiku、Mixtral 8x7B)をポケモンバトルで対戦させた実験があります。その結果、Claude Opusは他のモデルよりも優れたパフォーマンスを発揮し、チャンピオンに輝きました。
community.aws
community.aws
ただし、Claude Opusは平均応答速度が21秒と、他のモデルよりも時間がかかるというトレードオフがあります。より高い知能とパフォーマンスが求められる場合には、Claude Opusが最適な選択肢となるでしょう。
community.aws
Geminiの挑戦
一方、Geminiもポケモン赤のクリアを目指しており、6つのジムを制覇しています。残りのジムは2つであり、達成すれば大きな話題になると予想されています。
reddit.com
reddit.com
LLMのポケモン攻略における課題と対策
LLMがポケモンをプレイする際には、いくつかの課題があります。
- 長期的なコンテキストの維持: 16,000を超えるアクションを複数日にわたって実行するため、関連情報を維持する方法が必要です。zenml.io
- 戦略的な意思決定: 18種類のタイプやユニークなステータスなど、複雑な要素が絡み合うポケモンバトルで、最適な行動を選択する必要があります。community.aws
- ハルシネーション: ポケモンに関する膨大な知識を扱うため、誤ったタイプ相性やステータスを記憶してしまうことがあります。community.aws
これらの課題に対して、以下のような対策が考えられます。
- 知識ベースシステム: モデルが重要な情報を保存・更新できるシステムを構築する。zenml.io
- プロンプトエンジニアリング: モデルに適切な指示を与え、より積極的な行動を促す。community.aws
- 専門的なツール: バトル計算ツールなど、モデルが利用できるツールを導入する。community.aws
まとめ
LLMによるポケモン攻略は、AIの進化を示す魅力的なデモンストレーションです。Claude Opusは、その高い性能と戦略により、このレースの最前線を走っています。
ただし、LLMがポケモンを完全にクリアするためには、長期的なコンテキストの維持、戦略的な意思決定、ハルシネーションの抑制といった課題を克服する必要があります。今後の研究開発により、これらの課題が解決され、LLMがポケモンを制覇する日が来るかもしれません。
🏷他のLLMとの比較とランキング

2025年最新!ポケモンをクリアするLLMレースの最前線
他のLLMとの比較とランキング
LLM(大規模言語モデル)でポケモンをクリアするレースにおいて、現時点で最も進んでいるモデルは、Anthropic社のClaude Opusであると考えられます。複数のLLMをポケモンバトルで対戦させた実験では、Claude Opusが他のモデルを圧倒する結果を残しています 。
community.aws
LLM ポケモンバトル実験の詳細
この実験では、Poke-envバトルシミュレーター2を使用し、LLMエージェントをAmazon Bedrock3上で対戦させています 。対戦時のゲームの状態(ポケモンのステータス、技のデータ、以前の行動など)をテキストに変換し、LLMが最適な行動を選択できるようにプロンプトに組み込んでいます 。
community.aws
community.aws
実験結果とランキング
各モデルをランダムなポケモンで戦わせた結果、以下のようなランキングになりました 。
community.aws
モデル | 順位 | 平均速度(秒) |
---|---|---|
Claude 3 Opus | チャンピオン | 21 |
Claude 3 Sonnet | 2位 | 10 |
Mistral Large | 2位 | 8 |
Claude 3 Haiku | 3位 | 3 |
Mixtral 8x7B | 4位 | 8 |
Claude Opusは、応答に時間がかかるものの、最適な動きを一貫して行い、安定した攻撃戦略を維持し、4勝1敗でチャンピオンに輝きました 。2位にはClaude 3 SonnetとMistral Largeが並び、3位はClaude 3 Haiku、Mixtral 8x7Bが最下位という結果になっています 。
community.aws
community.aws
プロンプトエンジニアリングの重要性
興味深いことに、当初、PokéLLMon論文で使用されていたプロンプトをClaude 3 Sonnetに適用したところ、勝率はわずか5%でした 。しかし、プロンプトを改善した結果、勝率は50%まで向上しました 。この改善には、攻撃的なトーンを与え、具体的な行動指針を示すことが含まれていました 。この結果は、LLMの性能を最大限に引き出すためには、プロンプトエンジニアリングが非常に重要であることを示唆しています。
community.aws
community.aws
community.aws
LLMが抱える課題
一方で、LLMは対戦中に頻繁にハルシネーション(幻覚)を起こし、タイプ相性の誤り、防御と特防の混同、特性や持ち物の無視などの論理的な誤りを犯すことが明らかになりました 。また、不利な状況になると頻繁にポケモンを交代させる傾向があり、相手にセットアップや攻撃の機会を与えてしまうという課題も抱えています 。
community.aws
community.aws
今後の展望
LLMを使ったポケモンバトルは、モデルの性能、プロンプトエンジニアリングの重要性、ハルシネーションの問題など、多くの洞察を与えてくれます 。今後の展望として、プロンプトの最適化、異なるLLMの試用、モデルの行動分析などが挙げられています 。
community.aws
community.aws
Anthropic社によるLLMエージェントの開発事例
Anthropic社内でも、LLMを活用したポケモンプレイエージェントの開発が行われています 。このプロジェクトは、LLMの能力を示すデモンストレーションとしての役割と同時に、モデルの改善や長期的なタスクにおけるエージェントの挙動を理解するための貴重なツールとして活用されています 。
zenml.io
zenml.io
このエージェントは、ボタン押下機能、知識ベースシステム、ナビゲーションシステムといったシンプルなツールで構成されており、スクリーンショット、ゲームの状態、要約と知識ベースの更新を通じて情報を処理します 。特に、16,000回以上のアクションを通じて長期的なコンテキストを管理する点が重要な技術的課題として取り組まれています 。
zenml.io
zenml.io
モデルの進化とパフォーマンス
Anthropic社では、複数のバージョンのClaudeをテストしており、その能力は着実に向上しています 。初期のバージョン(Claude 3.5)は家から出ることができ、その後、スターターポケモンを入手し、基本的なゲームの進行が可能になりました 。最新バージョンでは、ジムリーダーを倒し、意味のあるゲームの進行を達成しています 。
zenml.io
zenml.io
zenml.io
この進化は、長期的な意思決定、経験からの学習、一貫性の維持、視覚情報の処理と対応といった能力の向上を示しています 。
zenml.io
まとめ
LLMでポケモンをクリアするレースは、まだ始まったばかりですが、Claude Opusが現時点での最有力候補と言えるでしょう。ただし、プロンプトエンジニアリングやハルシネーション対策など、克服すべき課題も多く存在します。今後のLLM技術の進化とともに、より高度な戦略や判断が可能なエージェントが登場することが期待されます。
🏷LLMの課題と改善点

2025年最新!ポケモンをクリアするLLMレースの最前線
LLMの課題と改善点
LLM(大規模言語モデル)がポケモンをプレイする試みは、AIの進化を示す魅力的な事例です。ユーザーの質問「LLMでポケモンをクリアするレースで一番進んでいるモデルは何?」に答えるために、LLMが抱える課題と、それを克服するための改善点について見ていきましょう。
LLMがポケモンをプレイする上での課題は多岐にわたります。まず、ポケモンというゲームの複雑さが挙げられます。18種類のタイプ、1000種類以上のポケモンが存在し、その相互作用から生まれる戦略は膨大です。LLMは、タイプ相性やポケモンの能力、持ち物などを考慮して最適な行動を選択する必要がありますが、情報の誤認識や計算ミスによる「ハルシネーション」が頻繁に発生します。例えば、鋼タイプのポケモンに毒タイプの技を使おうとしたり、エスパータイプの攻撃を無効化できないポケモンをエスパー技に繰り出そうとしたりするなどの誤りが見られます。
community.aws
community.aws
community.aws
LLMがポケモンをプレイする際のもう一つの課題は、長期的な視点を持つことの難しさです。ポケモンをクリアするには、数多くの戦闘や移動、アイテムの収集など、複雑なタスクを последовательно にこなしていく必要があります。LLMは、短期的な利益にとらわれ、無意味なポケモン交代を繰り返してしまうことがあります。
この「パニック交代」は、相手に бесплатен な攻撃機会を与え、結果として敗北につながることがあります。
community.aws
community.aws
これらの課題に対し、様々な改善策が試みられています。まず、プロンプトエンジニアリングによる性能向上が挙げられます。例えば、Claude 3 Sonnetに攻撃的な口調を与え、積極的に攻撃するように促したところ、勝率が5%から50%に向上したという事例があります。
しかし、プロンプトを調整するだけでは限界があり、より高度なタスクでは、戦闘計算ツールのような специализированные 工具をLLMに提供する方が効果的である可能性が示唆されています。
community.aws
community.aws
また、LLMの進化も重要な要素です。Anthropic社は、LLM「Claude」をポケモンプレイエージェントとして開発し、その能力を評価しています。
初期のバージョンであるClaude 3.5(2023年6月)は、家から出てさまよう程度のことしかできませんでしたが、Claude 3.6および新しい3.5(2023年10月)では、最初のポケモンを入手し、ある程度の進捗を達成できるようになりました。
最新バージョンでは、ジムリーダーを倒し、有意義な進歩を遂げることができています。
この進化は、長期的な意思決定、経験からの学習、一貫性の維持、視覚情報の処理と行動における改善を示しています。
zenml.io
zenml.io
zenml.io
zenml.io
LLMがポケモンを「クリア」するという目標に向けて、最も進んでいるモデルを特定することは困難です。なぜなら、「クリア」の定義や評価基準が明確でないからです。しかし、複数のLLMをポケモンバトルで対戦させた実験では、Claude 3 Opusが最も優れた成績を収めています0, 2, 3, 6, 7。ただし、Opusは他のモデルよりも処理速度が遅く、意思決定に時間がかかるという課題もあります0, 6, 7。
モデル | ランキング | 平均速度 (秒) |
---|---|---|
Claude 3 Opus | 1位 | 21 |
Claude 3 Sonnet | 2位 | 10 |
Mistral Large | 2位 | 8 |
Claude 3 Haiku | 3位 | 3 |
Mixtral 8x7B | 4位 | 8 |
LLMがポケモンを完全にクリアするには、まだ多くの課題が残されています。しかし、モデルの進化、プロンプトエンジニアリング、 специализированные 工具の活用などを通じて、着実に進歩していると考えられます。今後の研究開発により、LLMが自律的にポケモンをクリアする日が来るかもしれません。
🏷今後の展望とポケモンAIの可能性
はい、承知いたしました。「LLMでポケモンをクリアするレースで一番進んでいるモデルは何か?」というご質問に対する回答として、レポートのセクションを執筆します。
2025年最新!ポケモンをクリアするLLMレースの最前線
今後の展望とポケモンAIの可能性
LLM(大規模言語モデル)を活用してポケモンをクリアする試みにおいて、現時点で最も進んでいるモデルは、AnthropicのClaude Opusであると考えられます。AWSのコミュニティ記事によれば、5つのLLMがポケモンバトルで競い合った結果、Claude Opusが最も効果的であったと報告されています。
community.aws
LLMポケモンバトル実験の詳細
この実験は、Banjo Obayomi氏がポケモンの対戦エージェントを作成する論文に触発され、どのモデルが最強かを検証するために行われました。Poke-envというバトルシミュレーターが使用され、LLMエージェントがAmazon Bedrock上で対戦しました。
community.aws
community.aws
実験結果は以下の通りです。
community.aws
モデル | ランキング | 平均速度(秒) |
---|---|---|
Claude 3 Opus | チャンピオン | 21 |
Claude 3 Sonnet | 2位 | 10 |
Mistral Large | 2位 | 8 |
Claude 3 Haiku | 3位 | 3 |
Mixtral 8x7B | 4位 | 8 |
Claude Opusは、応答に時間がかかるものの、最適な行動を取り、安定した攻撃戦略を維持したことが勝因となりました。Mistral Largeはランダムにポケモンを交代させることがあり、Opusがその隙を突くことができたようです。
community.aws
community.aws
Claudeの限界と今後の課題
一方で、Justis Mills氏の記事では、AnthropicのClaude 3.7がポケモン赤をプレイする試みにおいて、AIエージェントの限界が示唆されています。Claudeはゲームの序盤こそ攻略できたものの、Mt. Moonというダンジョンで混乱し、同じ場所を何度も行き来するなどの問題が発生しました。
substack.com
substack.com
この現象は「blackout strategy」と名付けられ、LLMが特定の状況で誤った方向に進んでしまう、エージェントの足場作りの弱点を表していると考えられています。この問題を解決するためには、より強力な基盤モデルが必要であると結論付けています。
substack.com
substack.com
プロンプトエンジニアリングの重要性
LLMの性能は、プロンプトの質に大きく左右されることも重要なポイントです。PokéLLMon論文で使用されていたプロンプトをClaude 3 Sonnetに適用したところ、勝率はわずか5%でしたが、プロンプトを改善した結果、勝率は50%まで向上しました。
community.aws
LLMが抱える課題:ハルシネーションと戦略ミス
LLMは対戦中に頻繁にハルシネーションを起こし、タイプ相性の誤り、防御と特防の混同、特性や持ち物の無視などの論理的な誤りを犯すことがあります。また、不利な状況になると頻繁にポケモンを交代させる傾向があり、相手にセットアップや攻撃の機会を与えてしまうという課題も抱えています。
community.aws
community.aws
Anthropicの取り組みと今後の展望
Anthropicでは、ポケモンをプレイするLLM搭載エージェントの開発と展開が行われています。このプロジェクトは、LLMの能力を示すデモンストレーションであると同時に、モデルの改善を評価し、長期的なタスクにおけるエージェントの行動を理解するためのツールとしての役割も果たしています。
zenml.io
zenml.io
Anthropicの事例研究では、単純で焦点の絞られたツールが複雑なフレームワークよりも重要であること、モデルのバージョン間で反復テストを行うことの価値、モデルのパフォーマンスを評価するための具体的な測定可能な目標(ジムリーダーを倒すなど)を持つことの利点、長期的なタスクにわたってコンテキストと状態を維持することの課題が強調されています。
zenml.io
LLM-Pokemon-Red-Benchmarkプロジェクト
GitHubでは、LLM-Pokemon-Red-Benchmarkというプロジェクトが公開されており、AIシステムがゲーム画面だけを見てポケモン赤をプレイする能力をテストしています。
github.com
まとめと今後の展望
LLMによるポケモン攻略は、AIの進化を測る上で非常に興味深い試みです。現時点ではClaude Opusが最も有望な結果を出していますが、課題も多く残されています。今後の研究開発により、より賢く、より戦略的なAIエージェントが登場することが期待されます。特に、プロンプトエンジニアリングの改善、ハルシネーションの抑制、長期的な戦略判断能力の向上が重要な課題となるでしょう。
調査のまとめ
回答
LLM(大規模言語モデル)でポケモンをクリアするレースにおいて、最も進んでいるモデルとしては、Claude Opusが挙げられます[26](https://community.aws/...
🖍 考察
調査の本質
ユーザーは「LLMでポケモンをクリアするレースで最も進んでいるモデル」を知りたいとしています。ここで重要なのは、
- 「クリア」の定義:バトル性能だけでなく、ゲーム全体の進行(ジム制覇やダンジョン突破)を含む長期的なインタラクティブタスクとして捉えること
- 価値提供の方向性:
- 開発者や研究者向けに、どのモデルが現状最も有望かを示す
- 今後のモデル選定やLLMOps設計(メモリ管理・ツール統合など)に役立つ示唆を提供する
表層的には「強いバトルエージェント=クリア最前線」と捉えられがちですが、背後には「長期的な意思決定」「環境状態の維持・更新」「誤認識(ハルシネーション)対策」など、より広範なニーズが存在します。
分析と発見事項
-
ポケモンバトル性能ランキング(Amazon Bedrock上、Poke-env利用)community.aws
モデル 順位 平均応答速度(秒) Claude 3 Opus 1位 21 Claude 3 Sonnet 2位 10 Mistral Large 2位 8 Claude 3 Haiku 3位 3 Mixtral 8x7B 4位 8 -
フルゲーム攻略の進捗(Anthropicプロジェクト)zenml.io
- Claude 3.5 (2023年6月):初期探索のみ
- Claude 3.6 / 新3.5 (2023年10月):最初のポケモン取得・基本進行
- 最新版:ジムリーダー撃破を確認
-
「Blackout Strategy」に見る限界substack.com
Mt. Moonで同じ行動を繰り返し、ゲームをクリアしたと誤認識する事例が発生。基盤モデルの能力不足が原因と結論づけられています。 -
プロンプト効果
- Claude 3 Sonnetへ既存プロンプト適用:勝率5% → 新規プロンプト(攻撃的トーン+具体的行動指示)で50%に向上。community.aws
- Claude 3 Sonnetへ既存プロンプト適用:勝率5% → 新規プロンプト(攻撃的トーン+具体的行動指示)で50%に向上
-
課題の俯瞰
- 長期コンテキスト維持:数万アクションをまたぐ情報管理
- ハルシネーション:タイプ相性・ステータス誤認
- 戦略的意思決定:過剰交代やセットアップ放棄
より深い分析と解釈
- なぜ Claude Opus が頂点に立つのか?
- 大規模・多層化された基盤モデルにより、チェーン・オブ・ソート思考や長期的戦略シミュレーションがより高精度。 - なぜ応答速度が犠牲になるのか?
- モデルのパラメータ数増加と内製の自己検証プロセス強化に伴う計算コスト上昇。 - なぜ「Blackout Strategy」のような行動を取るのか?
- 報酬やゴール認識の設計不足に起因。ゲーム進行フローをテキストのみで把握すると、死亡リセットによる“先へ進んだ”誤認が発生。 - 対立的視点
- モデル強化 VS ツールエコシステム:単純に基盤モデルを大規模化するだけでなく、バトル計算ツールや記憶モジュールを組み合わせたハイブリッド手法の有効性。
- スピード VS 精度:リアルタイム性を重視する用途では、やや軽量化したモデル+外部ツール呼び出しのほうが適切なシナリオも想定される。
戦略的示唆
-
短期的対応(実装者向け)
- バトル検証用:まずClaude Opusをベンチマークとして採用し、他モデルへのプロンプト移植・最適化を並行実施。
- コスト抑制:計算時間短縮のため、SonnetやMistralに専門的ツール(ダメージ計算ライブラリ)を組み合わせ、Opus並みの戦略判断を目指す。
-
中長期的戦略(研究開発)
- 基盤モデル強化:Blackout問題を解決するには、ゴール認識と報酬設計の再定義や、セルフプレイによる自己改善ループが鍵。
- メモリ・要約システム:Anthropicの手法を参考に、スクリーンショット→要約→知識ベース更新のパイプラインを自社環境へ展開。
-
プロンプト/ツールエコシステム設計
- プロンプトエンジニアリングを体系化し、勝率や進行度合いを定量化できる評価指標を組み込む。
- より高度なサードパーティ製バトル計算ツール、状態監視ダッシュボードを連携。
今後の調査の提案
- LLMと専門計算ツールのハイブリッドアーキテクチャ検証
- 長期メモリ・要約モジュールの効果測定
- プロンプト構造と勝率向上の定量的相関分析
- ハルシネーション低減手法(外部知識取得/動的ファクトチェック)の導入効果
- LLM-Pokemon-Red-Benchmarkプロジェクト4を用いたピクセル入力型エージェント性能比較
- Google GeminiやGPT-4oなど、他社最新モデルに対するジム制覇進捗の継続モニタリング
- ゲームクリアまでの平均ステップ数・時間・コストのベンチマーク構築
これらを継続的に追跡・評価することで、LLMを用いた長期的インタラクティブタスクの最適設計が進展し、「ポケモン完全クリア」という具体的ゴールを突破できる道筋が明確になるでしょう。
このレポートが参考になりましたか?
あなたの仕事の調査業務をワンボタンでレポートにできます。
📖 レポートに利用された参考文献
検索結果: 6件追加のソース: 0件チャット: 1件
40件の参考文献から7件の情報を精査し、約35,000語の情報を整理しました。あなたは約3時間の調査時間を削減したことになります🎉
調査された文献
40件
精査された情報
7件
整理された情報量
約35,000語
削減された時間
約3時間
🏷 ポケモンをクリアするLLMレースの概要
The Blackout Strategy - by Justis Mills
Still, new generations of AI come out just about every month these days, and we can see from Anthropic's graph that there is Pokemon progress.
AWS | Community | Five LLMs battled Pokemon. Claude Opus was super ...
#### Five LLMs battled Pokemon. Claude Opus was super effective
LLM(大規模言語モデル)がポケモンバトルで競い合い、Claude Opusが最も効果的だったという実験に関する記事です。[BO](https://community.aws/@banjtheman)ことBanjo Obayomi氏が、ポケモンの対戦エージェントを作成する論文に触発され、どのモデルが最強かを検証しました。
#### 実験の概要
ポケモンバトルの表面的なシンプルさとは裏腹に、18のタイプ、ユニークなステータス、戦略が存在します。LLMがゲームの状態とポケモン図鑑の情報を使って最適な行動を選択できるかどうかが焦点となりました。Poke-envバトルシミュレーターが使用され、Amazon Bedrockを通じてLLMエージェントが対戦しました。[Poke-env](https://github.com/hsahovic/poke-env)と[Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/service_code_examples.html?trk=2403b700-9ee9-49e8-aed8-411dea5cf5ae&sc_channel=el)
#### テストベッドの仕組み
対戦の現在の状態はテキストに変換され、利用可能な技やステータス、過去のターンなどの関連コンテキストと共にプロンプトに追加されました。LLMはその情報に基づいて最適な技を選択します。リアルタイム対戦ではないため、モデルは時間をかけて行動を決定できます。
#### 対戦結果
過去の[Street Fighterの実験](https://community.aws/content/2dbNlQiqKvUtTBV15mHBqivckmo/14-llms-fought-314-street-fighter-matches-here-s-who-won)から、Claudeモデルがゲームに強いことがわかっていました。特にAmazon Bedrockで利用可能になったClaude OpusとMistralモデルを比較しました。
* **Haiku**:3-2で勝利。高速だが、誤った行動やランダムなポケモン交代が見られました。
* **Sonnet**:3-2で勝利。Mistralも互角でしたが、時折ミスがありました。
* **Opus**:4-1で勝利。応答に時間がかかるものの、最適な行動を取り、安定した攻撃戦略を維持しました。Mistralはランダムにポケモンを交代し、Opusがつけ込む隙を与えました。
#### 最終結果
Opusがチャンピオンに輝きました。ただし、最も強力なモデルであるため、計算コストが高く、1つの技を選択するのに平均21秒かかりました(Haikuは3秒)。
| モデル | ランキング | 平均速度(秒) |
| ---------------- | -------- | ------------ |
| 🥇 Claude 3 Opus | チャンピオン | 21 |
| 🥈 Claude 3 Sonnet | 2位 | 10 |
| 🥈 Mistral Large | 2位 | 8 |
| 🥉 Claude 3 Haiku | 3位 | 3 |
| Mixtral 8x7B | 4位 | 8 |
#### LLMポケモンバトルから得られた教訓
LLMが複雑なタスクにどのように取り組むかについて、いくつかの興味深い側面が明らかになりました。
* **プロンプトエンジニアリングの重要性**:当初、GPTモデルでテストされたPokéLLMon論文のプロンプトをClaude 3 Sonnetで使用したところ、勝率はわずか5%でした。しかし、[ベストプラクティス](https://community.aws/content/2bpGEn7TeXH4XkL0Z4j4eSumK0v/master-prompt-engineering-elevate-ai-with-claude-partyrock?lang=en&trk=3019430a-dffc-45e2-adbb-e0063e1e8965&sc_channel=el)に従って新しいプロンプトを作成したところ、勝率は50%に向上しました。
* **ハルシネーション(幻覚)**:モデルは頻繁にハルシネーションを起こしました。18のタイプと1,000以上のポケモンが存在する複雑さから、タイプ相性の間違い、防御と特防の混同、特性や持ち物の忘れといった論理的な誤りが生じました。例えば、ブロンズは鋼タイプで毒攻撃が無効であるにもかかわらず、毒攻撃を推奨するなどの事例がありました。
* **パニックスイッチ**:モデルは、相手が強力なポケモンやステータスが上がったポケモンに対して頻繁にポケモンを交代させ、相手に有利な状況を与えていました。プロンプトでこの行動を警告しても、一部のモデルは連続して交代し、敗北につながりました。
#### 結論
プロンプトエンジニアリングは成果を向上させますが、常に望ましい結果が得られるとは限りません。論文では、LLMからの3つの出力を比較して最良の結果を選択する方法が使用され、勝率が7%向上しました。
#### 独自のLLMポケモンチャンピオンを構築する
[GitHub](https://github.com/aws-banjo/PokeLLMon)でコードとドキュメントが公開されています。コミュニティによる改善が期待されています。Claude 3モデルを試す場合は、[入門ガイド](https://community.aws/content/2bjzGyr9ZNmExZRzCsG5jXqvVUW/building-with-claude-3)を参照してください。
🏷 Claude Opusの性能と戦略
Gemini is on track to being the first Al to beat Pokémon Red. It ...
#### Gemini is on track to being the first Al to beat Pokémon Red. It ...
GeminiがAIとして初めて「ポケットモンスター 赤」をクリアする勢いに乗っています。現在までに6つのジムを制覇しています。
#### 制覇したジムとバッジ
Geminiは以下の6つのジムを制覇し、バッジを獲得しています。
* **ジム**:
* イワジム(ニビシティ)
* ハナダジム(ハナダシティ)
* クチバジム(クチバシティ)
* タマムシジム(タマムシシティ)
* ヤマブキジム(ヤマブキシティ)
* セキチクジム(セキチクシティ)
* **バッジ**:
* boulder badge(イワバッジ)
* cascade badge(ブルーバッジ)
* thunder badge(オレンジバッジ)
* rainbow badge(レインボーバッジ)
* soul badge(ピンクバッジ)
* marsh badge(ゴールドバッジ)
残りのジムは2つです。達成すればインターネットを騒がせるだろうと予測されています。
#### 添付画像
![] (https://preview.redd.it/gemini-is-on-track-to-being-the-first-al-to-beat-pok%C3%A9mon-v0-el8xiep3wowe1.jpeg?width=640&crop=smart&auto=webp&s=6ff4c68dea8103644544e9664d86d89b1d5fbf75)
Building and Deploying a Pokemon-Playing LLM Agent at Anthropic
The progression in model capabilities is particularly interesting as it demonstrates improvements in: Long-horizon decision making; Ability to learn from ...
🏷 他のLLMとの比較とランキング
Five LLMs battled Pokemon. Claude Opus was super effective
However, when you need top-tier performance and intelligence from an LLM, Opus is a clear front runner. Model, Ranking, Average Speed (seconds) ...
🏷 LLMの課題と改善点
I made 5 LLMs battle Pokemon this time. Claude Opus was slower but ...
#### I made 5 LLMs battle Pokemon this time. Claude Opus was slower but ...
5つのLLM(Large Language Model)がポケモンバトルを行った結果について述べられています。Claude Opusは他のモデルより処理速度は遅かったものの、より賢いという評価がされています。
#### r/aws
[r/aws](/r/aws/)は、Amazon Web Services (AWS) に関する情報交換を行うコミュニティです。S3, EC2, SQS, RDS, DynamoDB, IAM, CloudFormation, AWS-CDK, Route 53, CloudFront, Lambda, VPC, Cloudwatch, Glacierなど、AWSの様々なサービスに関するニュース、記事、ツールが共有されています。
🏷 今後の展望とポケモンAIの可能性
調査のまとめ
#### 回答
LLM(大規模言語モデル)でポケモンをクリアするレースにおいて、最も進んでいるモデルとしては、Claude Opusが挙げられます[26](https://community.aws/...
📖 レポートに利用されていない参考文献
検索結果: 23件追加のソース: 0件チャット: 0件
A LLM Trying to “Catch'em All” Playing Pokémon | by Sam Bobo
Outcome: Claude's progress is determined by its AI logic, while TPP's progress was often influenced by memes and community-driven decisions.
Open Source: LLM-Pokemon-Red-Benchmark - Reddit
Easy to see progress, games have always made a great test bed because as long as you pick the right RL signal (haha like that's easy) you can ...
Show HN: LLM plays Pokémon (open sourced) | Hacker News
I built a bot that plays Pokémon FireRed. It can explore, battle, and respond to game events. Farthest I made it was Viridian Forest.
PokéLLMon: A Human-Parity Agent for Pokémon Battles with ... - arXiv
We introduce PokéLLMon, the first LLM-based agent that achieves human-parity performance in tactical battle games, as demonstrated in Pokémon battles.
Will an LLM become a Pokèmon Master by the end of 2025? | Manifold
Tweaks to the system midway through are fine as long as it's in the spirit of general improvements, as in, the LLM should be able to complete the game end to ...
AI Benchmarks Under Fire: 'Pokémon' Games Expose Cracks in ...
AI progress may become harder to track and trust as shown in "Pokemon" AI benchmarking. By Jose Enrico Updated: Apr 15 2025, 03:35 AM EDT.
LLM-Pokemon-Red-Benchmark - GitHub
This project challenges AI systems to play Pokémon Red by only seeing the game screen, just like a human would. It tests the AI's ability to understand ...
Claude LLM plays Pokemon automatically and wins!!! via MCP
Share your videos with friends, family, and the world.
Is Gemini now better than Claude at Pokémon? — LessWrong
PokéLLMon Triumph: Georgia Tech Unleashes the First LLM Agent ...
AI #113: The o3 Era Begins - by Zvi Mowshowitz
Seth Karten: "Can a Large Language Model (LLM) with zero Pokémon ...
Claude 3.7: The First Hybrid Reasoning AI Pokémon Master | VIVE Blog
GitHub - martoast/LLM-Pokemon-Red
Claude Plays Pokemon: How It works, How to improve it - YouTube
Beyond Strawberry: gpt-o1 - Is LLM alone sufficient for reasoning? ... Best Sports Fails | Dumb Athletes. FailArmy New 225K views.
I Tested the Top AI Models to Build the Same App - Andrew Baisden
Based on this short study, I would give each LLM the following ratings and rankings for this particular test. AI LLM Ratings: DeepSeek R1 ...
PokéLLMon: A Human-Parity Agent for Pokémon Battles with ... - arXiv
We introduce PokéLLMon, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in ...
POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs
POKELLMON, aims to be the world's first embodied agent that achieves human-level performance on tactical games, similar to the one witnessed in Pokemon battles.
LLMs Playing Pokémon Could Be the First Step to Human-level AI?
AI researchers at the Georgia Institute of Technology have developed PokéLLMon, the world's first large language model (LLM) agent that can fight Pokémon ...
an Expert-level Minimax Language Agent for Competitive Pokemon
A Large Language Model (LLM) powered game-theoretic aware agent for two-player competitive Pok'emon battles, that uses an LLM prior and collected high-Elo ...
Build the Smallest LLM From Scratch With Pytorch (And Generate ...
Linking an LLM with my Porygon to teach it to talk! : r/PokeMedia
Determining the optimal Pokemon team for Pokemon Brilliant Diamond ...
📊 ドメイン統計
参照ドメイン数: 20引用済み: 4総文献数: 40
1
引用: 2件/ 総数: 5件
引用率: 40.0%
2
引用: 2件/ 総数: 3件
引用率: 66.7%
3
引用: 1件/ 総数: 2件
引用率: 50.0%
4
引用: 1件/ 総数: 2件
引用率: 50.0%
5
引用: 0件/ 総数: 5件
引用率: 0.0%
6
引用: 0件/ 総数: 4件
引用率: 0.0%
7
引用: 0件/ 総数: 2件
引用率: 0.0%
8
引用: 0件/ 総数: 2件
引用率: 0.0%
9
引用: 0件/ 総数: 2件
引用率: 0.0%
10
引用: 0件/ 総数: 2件
引用率: 0.0%
11
引用: 0件/ 総数: 2件
引用率: 0.0%
12
引用: 0件/ 総数: 1件
引用率: 0.0%
13
引用: 0件/ 総数: 1件
引用率: 0.0%
14
引用: 0件/ 総数: 1件
引用率: 0.0%
15
引用: 0件/ 総数: 1件
引用率: 0.0%
16
引用: 0件/ 総数: 1件
引用率: 0.0%
17
引用: 0件/ 総数: 1件
引用率: 0.0%
18
引用: 0件/ 総数: 1件
引用率: 0.0%
19
引用: 0件/ 総数: 1件
引用率: 0.0%
20
引用: 0件/ 総数: 1件
引用率: 0.0%
このレポートが参考になりましたか?
あなたの仕事の調査業務をワンボタンでレポートにできます。