2026年5月版 Claude Code vs Codex CLI vs Gemini CLI — 実運用で使い分けるための比較ガイド

「CLIのAIコーディングツール、どれ使えばいいか全然わからない」という声を最近よく聞きます。4月に書いたIDE型の比較記事(Cursor / Copilot)はエディタ統合型を中心に扱いましたが、今回はターミナルで動くCLI 3強を取り上げます。

Claude Code、Codex CLI、Gemini CLI。どれも「AI がターミナルからコードを書いてくれる」ものですが、設計思想も価格体系も得意な用途も異なります。2026年5月時点の最新情報をもとに、「どういう状況でどれを選ぶか」を整理しました。

ベンチマーク早見表

数字で全体像をつかんでおく。ただし2点注意が必要だ。SWE-bench はモデル単体の評価であり、CLIツールの実用性を直接測るものではない。Terminal-Bench はCLIエージェント向けの評価指標だが、まだ業界標準とは言いきれない段階だ。参考値として見てほしい。

指標Claude Code(Opus 4.7)Codex CLI(GPT-5.3-Codex)Gemini CLI(Gemini 3 Pro)
SWE-bench Verified87.6%(Anthropic公式)85.0%76.2%
SWE-bench Pro64.3%(首位)
Terminal-Bench 2.077.3%(tbench.ai公式リーダーボード)

SWE-bench Pro は難易度の高いバグ修正タスクで、Claude Opus 4.7 が64.3%で首位を走っています。一方 Terminal-Bench 2.0(CLIエージェント特化)では GPT-5.3-Codex が 77.3% を記録しており、CLI単体での自律性は Codex が強いという評価です。

Claude Code — マルチエージェント設計が強み

バックエンドは Opus 4.7 / Sonnet 4.6 / Haiku 4.5 の3モデルを使い分けられ、Opus 4.7 の 1M コンテキストモードが2026年4月から使えるようになりました。価格は Opus 4.7 で入力 $5/MTok・出力 $25/MTok、Sonnet 4.6 なら入力 $3/MTok・出力 $15/MTok です。

一番の強みはエージェント設計の成熟度です。Subagents・Skills・Hooks・MCP・Channels(Discord/Telegram 連携)・Routines(クラウド常駐タスク)が揃っていて、「AIエージェントを組んで業務フローに組み込む」用途では他の2ツールより頭一つ抜けています。このブログの記事パイプライン自体も Claude Code 上で動いています。

2026年5月にレート上限が2倍になり、デスクトップアプリもリリースされました。サブスクは Pro $20〜、Max $100〜$200 のクレジット型です。

弱みはコスト感覚です。複雑なタスクを回すと1セッションでのトークン消費が多くなります。チーム展開のための設計コストもかかります。

向いているシーン

  • 組織でのチーム運用(Managed Settings / Skills)
  • /goal コマンドを使った複数ターンの自律タスク
  • Discord や外部サービスと連携したワークフロー構築

Codex CLI — バッチ自動化に振り切った設計

OpenAI が2026年春に安定版をリリース。バックエンドは GPT-5.5(256K コンテキスト)と GPT-5.3-Codex が選べます。GPT-5.5 は2026年4月の価格改定で入力 $5/MTok・出力 $30/MTok になっています(以前は $2.50/$15 だったので約2倍)。GPT-5.3-Codex は入力 $1.75/MTok・出力 $14/MTok と比較的安価です。

Terminal-Bench 2.0 で GPT-5.3-Codex が 77.3%(tbench.ai公式リーダーボード)を記録しており、CLI単体の自律実行精度は高い評価を得ています。in-app Browser でローカル開発サーバを直接操作できる機能や、Codex access tokens による自動化向けの権限管理も実装されています。

「4倍少ないトークン消費」という比較も一部のレポートで報告されていますが、これは特定環境での事例であり、条件次第で変わります。普遍的な仕様として受け取るのは避けた方がよいでしょう。

向いているシーン

  • CI/CD パイプラインへの組み込み
  • バッチ処理・定期実行タスクの自動化
  • トークンコストを細かくコントロールしたい場合(GPT-5.3-Codex 選択時)

Gemini CLI — 無料枠と 1M コンテキストが武器

Google が2025年後半に発表し、2026年に普及フェーズに入ったツールです。バックエンドは Gemini 3 Pro など、API キー経由でモデルを指定します。

価格の構造について一点誤解が多い部分があります。Google AI Pro($19.99/月)や Google AI Ultra($249.99/月)などのコンシューマ向けサブスクは Gemini CLI には適用されません。CLI で使う場合は「Flash モデルの無料枠(日次クォータあり)」か「Pay-as-you-go の従量課金」になります。無料枠の規模は公式には明記されていませんが、実態として1日あたり1,000リクエスト水準という報告が複数あります。

コンテキストウィンドウ 1M トークンが標準で、v0.34.0(2026年3月)からはデフォルトで Plan Mode(読み取り専用で変更を提案)が有効になりました。「まず現状を把握して提案だけ受け取る」という使い方との相性が良いです。

SWE-bench Verified の 76.2% は3ツール中で最下位であり、精度面では Claude / Codex に譲ります。複雑なエージェント設計も現時点では他2ツールより弱い部分があります。

向いているシーン

  • 個人プロジェクトでコストをかけたくない場合
  • 大規模リポジトリを把握するための探索・調査用途
  • AIコーディングツールを初めて触る学習目的

価格比較(2026年5月時点)

価格は変動します。導入前に必ず公式ドキュメントを確認してください。

ツールモデル入力($/MTok)出力($/MTok)サブスク無料枠
Claude CodeOpus 4.7$5$25Pro $20〜 / Max $100〜なし
Claude CodeSonnet 4.6$3$15同上なし
Codex CLIGPT-5.5$5$30ChatGPT Plus $20〜なし
Codex CLIGPT-5.3-Codex$1.75$14同上なし
Gemini CLIGemini 3 ProPay-as-you-goFlash モデル無料枠あり

Claude Code と Codex CLI の GPT-5.5 は入力価格が同じ $5 ですが、出力価格は Claude Code($25)の方が安く、Codex CLI($30)の方が高くなっています。トークン消費量の多いタスクで長期的なコストを比較するときは出力価格に注目してください。

「結局どれ?」シナリオ別の判断フロー

用途別に見ていく。

チームで複雑なプロジェクトを動かしたい → Claude Code

Subagents / Skills / Managed Settings を使った組織展開、/goal コマンドによる自律タスク、Channels を経由した Slack・Discord 連携。複数人・複数タスクが絡む運用には今のところ Claude Code が一歩リードしています。Claude Code の Skill 設計についてはこちらの記事(/2026/05/19/428/)も参考になります。

CI/CD に組み込みたい・トークン予算を絞りたい → Codex CLI

Terminal-Bench での高い自律性評価、access tokens による自動化向け権限管理、そして GPT-5.3-Codex モデルを使えば入力 $1.75/MTok とコストを下げやすい構成。バッチ処理や CI での定期実行に向いています。

個人・無料・大規模リポジトリ → Gemini CLI

Flash モデルの無料枠と 1M コンテキストの組み合わせは、まずコストをかけずに試したい場合や、既存の大規模コードベースを把握したい場合に役立ちます。Plan Mode 標準で「AIに変更を加えさせたくないが理解を深めたい」フェーズにも向いています。

複数ツールを組み合わせる → 目的別に使い分け

排他的に選ぶ必要はありません。「複雑なタスクは Claude Code、大規模リポジトリの探索は Gemini CLI(無料枠)、CI バッチは Codex CLI」という分担も現実的です。同じワークフローの中で適材適所に使い分けている事例も増えています。詳しいワークフロー構成についてはこちら(/2026/05/19/426/)にまとめています。

まとめ

3ツールの特性をシンプルに言うと、Claude Code は「設計する」、Codex CLI は「自律で動かす」、Gemini CLI は「安く探索する」ツールです。

選び方に迷っているなら、以下の問いに答えてみてください。

  • チームで使うか、個人で使うか?
  • 月にどのくらいのコストを許容できるか?
  • 自律実行(バッチ)が主か、インタラクティブな対話が主か?

「チーム・複雑・対話」なら Claude Code、「個人・バッチ・コスト効率」なら Codex CLI か Gemini CLI が出発点になります。どれか一つを試してみると、自分のユースケースでの手応えがわかるはずです。

参考リンク

コメント

タイトルとURLをコピーしました