AIで速くなったのに安定性が下がる——Claude CodeでDORAメトリクスを測定・改善する

はじめに
DORAの5指標とAI時代の新たな意味
Claude CodeでDORAボトルネックを特定する
AI採用率をDORAと並行して追う
CLAUDE.md × SMART目標でチームの改善サイクルを回す
まとめ

はじめに

最初に断っておくと、この記事はClaude Code自体のROIや利用コストの話ではない。あなたのチームがどれだけ速く・安全に出荷できているかを測定・改善する話だ。

AIツールを使って開発速度が上がったはずなのに、なぜかリリースが不安定になった——そういう感覚を持っているEMは少なくない。Google 2024年のDORA報告でも、開発者の84%がAIツールを利用し全コードの41%をAIが生成する一方で、デリバリー安定性が7.2%低下したという数値が出ている。コード変動（チャーン）は2026年に倍増すると予測されている。

「速く作れているのになぜリリースが安定しないのか」——この問いへの答えを数値で出すために、DORAメトリクスとClaude Codeを組み合わせる方法を紹介する。

DORAの5指標とAI時代の新たな意味

DORAは2025年に5指標へ更新された。デプロイ頻度（Eliteは1日複数回）、リードタイム（Eliteは1時間以内）、変更失敗率（Eliteは0〜5%）、MTTR（Eliteは1時間以内）、そして2025年追加のリワーク率——本番パッチとして展開された予定外修正の割合だ。

「チームが速い/遅い」という感覚を数値化できるのがこの5指標だが、AI時代に特に重要になったのがリワーク率だ。AIが「速く作れる」ようになったことで、レビューを通過した後に問題が発覚する事例が増えている。速度が上がっているのに品質が下がるという逆説の正体は、ここにあることが多い。

Claude CodeでDORAボトルネックを特定する

エンジニアリングリードのHelio Medeirosは、git logからリードタイムとデプロイ頻度を抽出することで、主観的な評価から客観的な対話への移行を実践した。

このリポジトリのgit logを分析して、過去3ヶ月のDORA指標を算出して。必要なデータ： 1. デプロイ頻度: productionブランチへのマージ頻度（週単位） 2. リードタイム: feature/fix/*ブランチのコミット作成〜mainマージまでの時間（中央値・p95） 3. PRのサイクルタイム: PR作成〜マージまでの時間（中央値）

以下の形式でレポートを作成して： - 現状値 vs Eliteベンチマーク（1日複数回/1時間以内） - ボトルネックがコーディング時間・レビュー待ち・CI待ちのどこにあるか - 改善優先度のトップ3

Medeirosはこう言っている。"DORA did not tell me whether my team was using AI. It told me whether AI was making our system better"——「DORAはチームがAIを使っているかどうかを教えてくれるのではない。AIが実際にシステムを良くしているかどうかを教えてくれる」。AIの導入有無ではなく、成果を数値で測ることの重要性を端的に表した言葉だ。

PRサイクルタイムの詳細分解にはこのプロンプトが使える。

過去90日間のPR履歴を分析して。ボトルネックを以下で特定して： - PR作成〜最初のレビューコメントまでの時間 - レビューラウンド数（理想は2ラウンド以内） - レビュー待ちが最長になった時間帯・曜日 - サイズ別（small/medium/large）のサイクルタイム比較

改善施策を「効果大×実装コスト小」から優先順位付けして。

リワーク率の検出では、本番マージから72時間以内に「fix」「hotfix」「patch」「revert」がコミットメッセージに含まれるケースをリワークとして定義し、全デプロイに対する割合を算出させることができる。目安として10〜15%程度が参照されることがあり、これを大きく超えているようならAIによるコード生成のレビュー品質に問題がある可能性が高い。

AI支援コードレビューの効果にも注意が必要だ。arxivの独立調査ではPRサイクルタイムが31.8%削減された事例がある一方、METR研究では不適切な設定下で経験豊富な開発者が19%遅くなるケースも報告されている。この差（8%〜31.8%）は設定品質の違いによるものだ。「AI導入したら当然速くなる」という前提は危険で、計測しながら調整する姿勢が要る。

AI採用率をDORAと並行して追う

MergeScoutは2026年において、AI採用率（PRsのうちAI支援開発が使われた割合）をDORAを補完する重要指標として提唱している。チームのAI活用成熟度が生産性の先行指標になるという考え方だ。

AI採用率の計測では、GitHubのPRに「claude」「ai-generated」「co-authored-by」などのコメントが含まれる割合を集計したり、Claude Codeのセッションログを参照してアクティブユーザー数と利用頻度を把握したりする方法がある。

ここで注意すべきなのが「ミラーアンプリファイア効果」（Plandek, 2026年）だ。AIは既存のプロセスを増幅する。チームにボトルネックがあれば、AIはその課題も拡大する。AI採用率が上がるほど、既存のボトルネックを先に特定・修正することが重要になる。

誤検知率が10%を超えるとエンジニアの信頼が失墜し、AIを使わなくなる逆効果が出るという報告もある。精度の低いまま強制採用しても数値は上がらない。

CLAUDE.md × SMART目標でチームの改善サイクルを回す

CLAUDE.mdにメトリクス警告ルールを定義しておくと、日常のコードレビューでClaudeが自動的にDORA劣化リスクを指摘するようになる。

# CLAUDE.md（メトリクス警告ルール）

<h2>Engineering Metrics Rules</h2> When reviewing code or PRs, flag: - PRサイズが500行以上: レビュータイム増加・リワーク率上昇リスク - 本番ブランチへの直接コミット: デプロイ頻度の正確な計測を阻害 - fix/hotfix/revert コミット: リワーク率のカウント対象になる可能性 - テストなしの本番コード変更: 変更失敗率上昇リスク

Helio Medeirosが実践するSMART目標の設定例として、デプロイ頻度を週2回→週5回（3ヶ月以内）、リードタイムの中央値を3日→1日以内（PRサイズ削減で対処）、AI採用率を50%→80%（スラッシュコマンドの標準化で対処）といった形がある。

注意が必要なのはメトリクスゲーミングだ。デプロイ頻度を上げるために小さすぎるPRを量産する行動が出ることがある。PRサイズとデプロイ頻度をセットで追うと、そのバランスが崩れていないか確認できる。また、5人チームと50人チームでは同じデプロイ頻度でも意味が違う。Eliteベンチマークとの比較より「チーム自身の前月比較」の方が健全な指標になる。

Medeirosはこうも言っている。"The real risk is not slow adoption. It is forced adoption that burns trust"——「本当のリスクは採用が遅いことではない。信頼を壊す強制採用だ」。メトリクスは問題を見つけて改善するための道具であり、数値で責任を追及するために使うものではない。この認識をチームで共有しておかないと、数値を見せた瞬間に防衛的な空気が生まれる。

まとめ

「チームが速い」という感覚と「チームが安全に出荷できている」という事実は、別物だ。AIを使い始めてから速度が上がったのに品質が下がっているなら、それはDORAで測れる問題であり、Claude Codeで分析・改善できる問題でもある。

git logを渡してリードタイムを算出させるところから始められる。数分で「ボトルネックがレビュー待ちにある」という具体的な情報が手に入る。感覚ではなく数値で改善の議論を始めてほしい。