AWS Bedrock AgentCore のコスト最適化——I/O wait 無料を活かす設計パターン

AgentCore の料金ページを開くと、12のコンポーネントが並んでいる。「I/O wait は無料」というのは分かった。でも、どの設定が月額を倍にするのか、どこでコストが積み上がるのかを体系的に把握するには、公式ドキュメントをかなり読み込む必要がある。

本稿は、その読み込みを省くために書いた。6/2 の AgentCore 全体記事で概要と Claude Code との接続パターンは扱ったので、本稿はコスト設計だけに絞る。読み終えたとき、「Memory の設定を変えれば月$75削減できる」「Gateway の Search を避ければ5倍のコスト差が消える」という具体的な手が見える状態を目指す。

なお、本稿の金額表示はすべて 2026年6月時点の公式 pricing ページのドル建て表示に基づいており、為替レートによる円換算は変動する点をあらかじめ断っておく。

「I/O wait 無料」の正確な意味

「AgentCore は安い」という話を聞いたとき、多くの人が想像するのは「何もしていない時間は課金されない」というイメージだ。実態は少し違う。

公式 pricing ページには次のように書かれている。

> I/O wait and idle time is free, if no other background process is running.

後半の条件節が重要だ。他のバックグラウンドプロセスが動いていなければ、という条件がついている。エージェントが LLM の応答を待っている間に別のジョブが裏で走っていれば、その時間は課金対象になる。conversational agent のように「LLM を呼んで待つ」だけの処理ならほぼ無料になるが、background polling や heartbeat を同時に走らせると無料の恩恵が薄まる。

一方、idle 時間については 15分で session が自動 terminate される。8時間が上限で、それを超えると強制終了になる。terminate 後に同じ session ID を呼び出すと新しいマイクロ VM が立ち上がり、状態の復元は AgentCore Memory に依存する。

この挙動を踏まえたうえで、コンポーネントごとの最適化に入る。

全料金単価——12コンポーネントを一覧で把握する

公式 pricing ページをもとに整理した単価表を以下に示す。無料枠がある項目は備考欄に記載した。

コンポーネント課金単位単価備考
Runtime / Browser / Code InterpretervCPU 時間$0.0895 / vCPU-hourI/O wait・idle は無料(条件付き)
同上メモリ$0.00945 / GB-hour1秒・128MB が最低単位
Gateway 通常 API1,000 calls$0.005ListTools / InvokeTool / Ping
Gateway Search API1,000 calls$0.025Invoke の5倍
Gateway Tool indexing100 tools/月$0.02月額固定
Gateway データ egressGB$0.006顧客 VPC へのレスポンス
Identity1,000 requests$0.010Runtime/Gateway 経由は無料
Memory 短期 event1,000 events$0.25
Memory 長期 record(built-in)1,000 records/月$0.75
Memory 長期 record(self-managed)1,000 records/月$0.25built-in の1/3
Memory 長期 retrieval1,000 retrievals$0.50
Policy 認可リクエストrequest$0.000025安価だが量で積み上がる
Policy 自然言語ポリシー作成1,000 input tokens$0.13Cedar 直書きは無料
Evaluations Built-in1,000 tokens 入力/出力$0.0024 / $0.012
Evaluations Custom1,000 evaluations$1.50モデル料金別
Registry 記録1,000 records$0.405,000 records/月まで無料
Registry Search1,000 calls$0.0201,000,000 calls/月まで無料
Paymentswallet operationCoinbase CDP は $0.005/op、Stripe Privy はプロバイダ公開価格Preview のため料金は変動しうる
Harness無料基盤リソースのみ課金
Optimization Recommendations無料(Preview 中)A/B test・batch は基盤料金

Optimization と Harness は現在 Preview 中で料金変動の可能性がある。GA 後に料金体系が変わる前提で設計しておくと安全だ。

Memory が最も効くポイント——built-in vs self-managed で3倍差

コスト最適化で最も差が出るのは Memory の設計選択だ。

長期 record の保管単価は次の通り。

  • built-in strategy: $0.75 / 1,000 records/月
  • self-managed / override: $0.25 / 1,000 records/月

単価は3倍違う。

built-in strategy は AgentCore が記録の抽出・要約まで自動でやってくれる方式で、実装が簡単で PoC には向いている。self-managed は、アプリケーション側で抽出ロジックを持ち、Memory には記録を預けるだけにする方式だ。

100ユーザー規模で1日10会話、各会話で長期 record を5件保管、月 retrieval を50件とすると:

項目built-inself-managed
短期 events(100 × 10 × 30 × 5 events = 150,000)$37.50$37.50
長期 records(100 × 10 × 30 × 5 records = 150,000)$112.50$37.50
長期 retrieval(100 × 50 = 5,000)$2.50$2.50
合計$152.50$77.50

self-managed への移行で 月$75の削減になる。ただし self-managed では要約ロジックを自前で書く工数と、別途 LLM 推論コストが乗る。月次で LLM 推論コストを含めたトータルで比較し、record 数が増えてきた段階で切り替えを判断する。

長期 retrieval が高頻度になる場合は $0.50 / 1,000 retrievals も積み上がる。structured metadata filtering(2026年4月に追加)を使って検索前に絞り込むと retrieval 回数を減らせる。

Gateway の Search を避ける設計

Gateway の見落としやすいコスト差として、通常 API と Search API の価格差がある。

  • 通常 API(ListTools / InvokeTool / Ping): $0.005 / 1,000 calls
  • Search API: $0.025 / 1,000 calls

Search は通常 API の5倍になる。ツール一覧を都度 Search する設計にすると、コストが想定の5倍になりうる。

エージェント起動時に ListTools で一括取得してアプリケーション側にキャッシュし、Search の呼び出しを減らす。Tool 数が多くて意味検索が必要になる場合は、エージェント定義の段階でツールを用途別に絞り込んでおくと Search の頻度が下がる。

Tool indexing($0.02 / 100 tools/月)も見落としやすい。PoC で使ったまま残っている未使用ツールが、毎月 indexing コストを生み続けるパターンがある。本番前に index 対象を整理しておく。

データ egress($0.006/GB)は顧客 VPC へのレスポンス送信で発生する。大量データを返す Gateway target は、レスポンスを要約してから返す設計にしておくと egress コストを抑えられる。

Identity の「Runtime 経由で無料」を見逃さない

Identity のコストは地味だが、設計次第でゼロにできる。

公式 pricing ページには次の注記がある。

> No charge when used through Runtime or Gateway.

Runtime や Gateway 経由で呼ぶ Identity リクエストは課金されない。エージェントの Inbound auth(IAM/SigV4 or OAuth 2.0)は Runtime 経由なので無料。Slack や GitHub 等外部サービスへの Outbound auth も Runtime 内で完結させれば同様に無料になる。

Identity を直接 API 呼びするスタンドアロンの使い方は、当初から不要なケースが多い。設計時に Runtime 経由に統一しておくだけでコストがゼロになる箇所だ。

月額試算——3パターンのワークロード

以下の試算はあくまで概算で、LLM 推論コストは含まない。実際の課金は公式 pricing ページの計算式で確認してほしい。

PoC・個人開発(1日4時間 × 20日稼働)

項目金額
Runtime 1 vCPU × 2GB × 80時間(active 30%)約 $2.50
Memory 短期 500 events・長期 100 records(built-in)・retrieval 50$0.30
Gateway Invoke 10,000 calls$0.05
Identity$0(Runtime 経由)
合計約 $3/月

PoC 規模であれば AWS の新規顧客向け無料クレジット(最大 $200)で十分まかなえる。

中規模 SaaS(100ユーザー、1日12時間 × 30日)

項目built-in Memoryself-managed Memory
Runtime 1 vCPU × 2GB × 360時間(vCPU active 30% + memory フル課金)約 $16約 $16
Memory$153$78
Gateway 100,000 Invoke + 5,000 Search$0.63$0.63
Policy 300,000 requests$7.50$7.50
Observability(CloudWatch 標準)約 $10約 $10
合計約 $187/月約 $112/月

Memory の設計選択だけで月$75差が生じる。100ユーザー規模を超えたあたりで self-managed への移行コストを計算する価値が出てくる。

エンタープライズ(1,000ユーザー、ガバナンス厚め)

項目金額(概算)
Runtime 4 vCPU × 8GB × 720時間(async 含む、フル稼働想定)約 $312
Memory self-managed 100,000 records・retrieval 50,000約 $87
Gateway 1M Invoke + 100K Search約 $9.50
Policy 3M requests$75
Evaluations Built-in 1,000 evaluations約 $13.50
Observability(CloudWatch)約 $50
合計約 $547/月

LLM 推論コストは workload と model 選択によって数千〜数万ドル規模になるのが典型で、インフラコストはその10〜15%程度に収まる。コスト最適化の主戦場は LLM 側になることが多い。LLM 推論コストの最適化は5/31 の model × effort 記事が参考になる。

Lambda・ECS との比較

AgentCore Runtime を既存のサーバーレス基盤と比較すると次のようになる。

観点LambdaECS FargateAgentCore Runtime
I/O wait 課金あり(CPU 時間で)あり(プロビジョン時間)なし(条件付き)
最大実行時間15分制限なし8時間
単発タスク(5分以内)最安プロビジョン待機分コスト高1秒最低だが microVM 起動コストなし
長時間 LLM 待ち高コスト高コスト最適
1セッション 8時間(1 vCPU、128MB)不可(15分制限)約 $0.32約 $0.22(vCPU active 30%、memory フル課金)
月 100セッション/日 × 30日 × 8時間(同条件)不可約 $960約 $660

bursty な単発関数なら Lambda が安い。長時間の LLM 待ち処理が多い conversational agent では AgentCore Runtime のコスト優位が出る。

Observability コストについては5/26 の OTel 記事で CloudWatch との接続パターンを扱っているので参考にしてほしい。

最初の1ヶ月で確認すべきこと

AWS コンソールで memory-strategy の設定を確認してほしい。built-in になっているなら self-managed への移行が月$75削減に直結する。100ユーザー規模を超えたタイミングで移行コストとトレードオフを計算し、切り替えるかどうかを判断する。

Gateway については CloudWatch のメトリクスで Search 呼び出しの頻度を見る。Search が全体の10%を超えているなら、ListTools キャッシュの導入を検討する余地がある。

Policy の認可リクエスト数はエンタープライズ規模になると月$75を超えてくる。Cedar ポリシーの直書きと評価結果キャッシュで対処できる。

LLM 推論コストと AgentCore インフラコストを月次で並べると、改善の優先順位が見えてくる。インフラ側で詰めるより先に、モデル選択と effort 設計を見直した方が数倍のコスト差になることもある。本番化前に2軸を合わせて試算しておく。LLM 側と AgentCore 側の内訳が揃えば、どこに手を入れるかを判断しやすい。

コメント

タイトルとURLをコピーしました