「AIを入れたのに、チームが速くなった実感がない」。そう感じているEMは、実はデータ的に正しい感覚を持っている。2025年7月にMETRが発表したRCT(ランダム化比較試験)では、大規模オープンソースリポジトリに5年以上貢献してきた熟練開発者16名がAIツールを使って246件のタスクに取り組んだところ、完了時間が19%増加(つまり遅くなった)していた。一方で開発者自身はAIツール使用前に「24%速くなる」と期待し、使用後も「20%速くなった」と自己評価していた。
この認知ギャップこそが、AI時代のEMが直面している本質的な問題だ。「減った仕事」と「増えた仕事」の対比を軸にEMに何が起きているかを整理し、今週から始められる具体的な行動を示す。
AIツールを入れたのに、チームは速くなっていない
Jellyfish「2025 State of Engineering Management Report」によると、AI開発ツールの採用率は90%(前年比61%から急増)に達した。生産性向上を報告した組織も62%に上る。ところが、そのAI活用の効果を「測定している」組織はわずか20%にとどまる。
この数字が示すのは単純な話だ。「使っている」と「効果がある」の間に、誰も橋を架けていない。
さらにGitClearが約2億1100万行のコード変更データを分析した2025年の研究報告では、AIツール普及と連動して気になる指標が浮かび上がっている。書いてから2週間以内に廃棄されるコードの比率(コードチャーン)は2020年の3.1%から2024年には5.7%へと増えた。コピー&ペーストとみなされるコード比率も8.3%から12.3%に上昇し、リファクタリング比率は24.1%から9.5%に落ちた。
「速く感じる」と「速く出荷できる」の決定的な違い
AIツールは個人のタスク完了数を押し上げる。Jellyfish 2025の調査では、AIツール採用率が高い組織ほどPRスループットが大幅に向上するというデータがある。一見すると生産性が大きく改善したように見える。
しかし組織全体のデリバリーメトリクスは横ばいが続く。PRが増えてもレビューキューが詰まり、AI生成コードの品質チェックに時間がかかり、結果的にリードタイムが縮まらない。「個人の速さ」と「チームの速さ」は別の話だ。
なぜこのギャップが生じるのか。構造的に言えば、AIが定型業務を吸収することで残る業務は本質的複雑性(ビジネス要件・組織設計・人間関係の難しさ)に集中する。そしてその本質的複雑性を扱えるのはEMしかいない。この因果を踏まえずにAIを導入しても、チームは加速しない。
Claude Codeをチームに導入する際のEM視点の設計手順は、こうした導入判断の具体的な補助線になる。
なぜEMだけがこの計測ギャップを埋められるのか
チームメンバーは自分の仕事の速さしか観測できない。経営層は定量的な売上・コスト指標しか見ていない。組織全体のデリバリーと個人の体感の間にいて、両方の言語を話せるのがEMだ。計測の責任を誰かが担わなければ、投資は続くが効果は見えないまま、という状態が続く。
そもそもEMとは何を「管理する」仕事か——4Pフレームで整理する
AIの話に入る前に、EMの仕事の輪郭を一度確認しておく。
EMの責任領域は大きく4象限に整理できる。People(採用・育成・1on1・心理的安全性)、Product(プロダクト理解・ステークホルダー調整)、Process(アジャイル運営・デリバリー管理)、Technology(技術的意思決定の支援・アーキテクチャ理解)だ。
広木大地氏(レクター取締役)は類似の整理を「4P(ピープル・プロジェクト・プラットフォーム・プロダクト)フレームワーク」として提唱し、EMConf JP 2025(2025年2月27日)の基調講演で「EMは4つすべてができるスーパーマンである必要はないが、理解している必要がある」と述べた。
TL・TLM・EMの違いと「全部できる人は不要」の原則
テックリード(TL)はICとして最高技術判断を担う。People管理は原則行わない。TLM(テックリードマネージャー)はその小規模版で、IC業務を兼務する。そしてEMはPeople管理が主軸で、チームのアウトカムと育成・組織設計を担う。
EMに求められるのは「技術者として最強である」ことではなく、「チームが機能するシステムを設計・維持する」ことだ。AI時代においてこの定義は変わらないが、システムの中に「AIエージェント」という新しいメンバーが加わった。
AIが「減らした」EMの仕事——コードレビュー定型と育成の答え合わせ
AIが確かに減らしたものは存在する。そこは正直に認めるべきだ。
コードレビューの定型部分はAIへ、アーキテクチャ判断はEMへ
GitHub Copilot Code Review(2025年4月にGAリリース、公開プレビュー開始から1か月強で100万人超が利用)の登場で、スタイルガイド違反・バグパターン・単純な論理エラーはAIが自動検出するようになった。
ただし「レビュー文化を捨てていい」という話ではない。CodeRabbitの調査ではAI生成コードは人間記述コードより1.7倍多くの論理・正確性バグを含む。AIが見落とすのは定型エラーではなく、アーキテクチャ上の判断ミス・ビジネスコンテキストの逸脱・セキュリティの思慮不足だ。EMの役割は「何をAIに任せ、何を人間がレビューするか」の設計に移行した。
AIをコードレビュアーとして組み込む具体的な実装手順はAIをコードレビュアーとして組み込む3段階の実装パターンに詳しい。
「コードを貼るだけで理解しない」問題への対処
定型的なメンタリング時間も減った。AIツールを活用したオンボーディングでは、新人エンジニアのファーストPRまでの時間が大幅に短縮されたとの報告が複数ある。「この関数の意味は何か」「なぜこの実装にしたのか」という定型質問をAIが即答するためだ。
しかしMicrosoft社の2025年調査では、AIを日常的に使う開発者は「クリティカルシンキングの必要性が下がった」という自己評価を持ち、問題解決への主体的関与度も低下する傾向が示された。コードを貼るだけで理解しないジュニアエンジニアが増えるという、育成の新たな課題がEMに生まれた。
答え合わせが得意なAIと、なぜそうなるかを一緒に考えるEMの役割は、むしろはっきり分かれた。ジュニアエンジニアの育成設計については「コードを貼るだけで理解しない」を防ぐ育成設計で扱っている。
AIが「増やした」EMの仕事——ガバナンス・計測・エージェント境界設計
ここが記事の核心だ。EMの仕事が増えた理由は、AIが定型業務を吸収した結果、残った仕事が全て「本質的複雑性」(ビジネスの曖昧さ・組織の摩擦・人間の感情)になったからだ。
AIが減らした仕事 vs 増えた仕事
| カテゴリ | AIが減らした仕事 | AIが増えた仕事 |
|---|---|---|
| コードレビュー | 定型エラー検出・スタイル違反指摘 | アーキテクチャ審査設計・Tier分類 |
| 育成・メンタリング | 定型Q&A・コード説明 | クリティカルシンキング指導・AI依存リスク管理 |
| 生産性管理 | ステータス更新・会議サマリー作成 | AI効果の客観計測・DORA × AI指標設計 |
| コード品質 | 単体テスト生成(一部) | コードチャーン監視・AI起因バグ追跡 |
| エージェント管理 | —(新領域) | Tier A/B/C境界設計・ガバナンスポリシー |
AI生成コードのリスクをTier A/B/Cに分類する
まずEMが手をつけるべきは、AIガバナンスのガードレール設計だ。
Augment Codeが提唱する「Agentic Engineering Operating Model」の三層モデルが参考になる。Tier A(人間のみ)はアーキテクチャ決定・セキュリティポリシー。Tier B(AI生成→人間承認)は要件検証・コード承認。Tier C(自動実行)はユニットテスト・依存関係更新だ。
この分類がなぜ必要かは数字が示している。CodeRabbitの調査ではAI支援コードは人間記述コードより1.7倍多くの論理・正確性バグを含む。Veracodeが2025年に100以上のLLMをテストしたところ、全体の脆弱性率は45%、Javaでは72%の失敗率が確認された。「AIが書いたから大丈夫」という発想を組織レベルで放置すると、EMは後になってインシデント対応に追われることになる。
DORA + リワーク率 + AI帰属インシデント率の3点測定
もう一つ、客観的な計測体制の構築がある。
従来のDORAメトリクス(デプロイ頻度・変更リードタイム・変更失敗率・平均復旧時間)は、AI時代において「個人のコード出力増加 → 組織のデリバリー改善」という単純な相関が成り立たなくなってきている。DORA自身も「Rework Rate(手戻り率)」と「Reliability(信頼性)」を新たな指標として追加した。
EMが計測すべき指標は絞って考えたほうがいい。DORAの基本4指標でベースラインを確認し、AI支援PR比率とコードチャーン率(GitClearの警戒水準5.7%超を参照)、そしてAI帰属インシデント率、つまりAIが関与したPRから発生したインシデントの比率を見る。この3つで十分だ。
METRのRCTが示した「19%遅くなる」という衝撃の背後には、計測していないからこそ見えていなかった遅さがある。自己申告の生産性感覚を鵜呑みにしないための計測設計は、今やEMの基本職務だ。AIツールのROIを経営層に説明するフレームワークとして「効果あるんですか」に数字で答えるROI計測フレームワークも参照してほしい。DORAメトリクスとAI活用を組み合わせた具体的な計測手順はDORAメトリクスでAI時代のチーム速度を測る具体的方法にまとめた。
「何を人間が判断し、何をエージェントに任せるか」の境界設計
三つ目の領域は、AIエージェントのオーケストレーション設計だ。
LangChain「State of Agent Engineering 2025」調査(2025年11〜12月、1,340人回答)によると、AIエージェントを本番稼働させている組織は57.3%に達したが、大企業以外では評価・実験段階にとどまるケースが多い。しかしClaude Codeをはじめとするエージェントが「チームの一員」として機能し始めた今、EMには「どこまで任せるか」の境界を明文化する責任が生まれた。
Amazonは2024〜2025年にかけてICとマネージャーの比率を少なくとも15%引き上げる方針を打ち出し、Morgan Stanleyは約14,000の管理職ポジションが削減される可能性があると試算している。エージェントが一部の中間管理的業務(ステータス更新・進捗追跡・会議サマリー)を担い始めた結果、「AIの仕事を整理する人間」の価値が高まっている。
「全エンジニアがEMになる」——広木大地が示した本物のEM像
EMConf JP 2025基調講演(2025年2月27日)で広木大地氏はこう述べた。
「全てのエンジニアは、AIをメンバーに持つエンジニアリングマネージャーになる」
AIツールが普及し、各エンジニアがAIに指示してコードを生成させる存在になるとき、個々のエンジニアは委譲・フィードバック・タスク分割というマネジメント的思考を日常的に行う。
「偶有的複雑性」をAIに、「本質的複雑性」をEMに
ここで登場する重要な概念が「偶有的複雑性」と「本質的複雑性」だ。偶有的複雑性とは、技術的な制約や実装上の難しさだ。ライブラリの使い方、テストの書き方、定型コードの記述など。本質的複雑性とは、ビジネス要件の曖昧さ・組織の利害対立・人間の感情や動機の複雑さだ。
AIが削減しつつあるのは前者の偶有的複雑性だ。後者の本質的複雑性、「このプロダクトは何を解決すべきか」「このメンバーはどんな成長を望んでいるか」「チームの心理的安全性が下がっている根本原因は何か」、これはAIには扱えない。
「AIで自分の仕事はなくなるのでは」という不安を持つEMは少なくない。それは誠実な問いだが、なくなるのは定型的な調整業務であって、本質的複雑性を扱う仕事ではない。むしろ偶有的複雑性をAIが吸収した分、本質的複雑性に集中できる環境が整いつつある。
ハイブリッド化するEM、技術理解なしのEMが切られる理由
LeadDevの調査によると、2023年のレイオフで削減された管理職の比率は32%に上る。背景にはGitHubの分析が示すCopilot導入後のプロジェクト管理活動の25%低下がある。ステータス更新・進捗追跡・会議のサマリー作成という「調整業務中心のEM」の存在価値が薄れた。
生き残るEMに求められるのは、アーキテクチャ・パフォーマンス・スケーリングへの技術的理解と、AIツールを活用したプロトタイピング・チケット処理能力、そしてステークホルダーへの技術的な説明力だ。非技術系EMの終焉は、EMの仕事が「管理」から「技術的コンテキストを持つオーケストレーション」へシフトしていることを意味する。
LeadDev 2025 Engineering Leadership Reportでは65%の経営陣が責任範囲の拡大を報告し、40%がより多くの部下を管理していると回答している。少ないシートにより多くの責任。この構造に対応できるEMだけが価値を発揮できる。
今週やること。AI時代のEMが始める3つのアクション
論考はここまでにして、具体的な行動に移る。
アクション1: AIツール採用率の基準値を測る
チームのAIツール月次アクティブユーザー率(MAU)と日次アクティブユーザー率(DAU)を計測する。エリート組織のベンチマークはMAU 80%以上、DAUのPower user density 40%以上だ。まずは現状把握から始める。GitHubや社内の利用ログから取れる場合は今週中に数値を出す。取れない場合は簡単なアンケートでも構わない。「測定していない20%」から抜け出すことが最初のステップだ。
アクション2: AI帰属インシデント率を可視化する
直近3ヶ月のインシデントを振り返り、「AI支援PRが関与していたか」を分類する。完璧な精度は最初から求めなくていい。「AIが書いたコードが含まれていたか」という粒度でも構わない。CodeRabbitの調査ではAI生成コードは人間記述コードより1.7倍多くのバグを含む。自チームでAI関与PRからのインシデントが増えていると感じるなら、Tier A/B/Cの設計に着手するタイミングだ。GitClearのような外部ツールでコードチャーン率を確認することも判断材料になる。
アクション3: Tier分類でレビュー責任を再設計する
チームのコードレビュー基準を「Tier A(人間のみ)」「Tier B(AI生成→人間承認)」「Tier C(自動実行可)」の3区分に整理する。最初は仮設定でいい。重要なのは「何を自動化してよくて、何は人間が見なければならないか」をチームで合意することだ。これがないと、AIへの委譲は各エンジニアの判断に委ねられ、ばらつきが生まれる。1時間の設計会議でドラフトを作り、2週間試してみる。
AIはEMの仕事を奪うのではなく、EMの仕事の輪郭を変えた。定型的な調整業務は薄れ、本質的複雑性のオーケストレーションが濃くなった。AIをメンバーに持つ全エンジニアが「小さなEM」になる時代に、本物のEMが担う仕事は広木氏の言う通りメタマネジメントへ移行する。計測、ガバナンス、境界設計。これが今のEMの実務だ。
3つのアクションのうち一つ、今週中に手をつけてほしい。
参考リンク
- METR - Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
- Jellyfish - 2025 State of Engineering Management Report
- Jellyfish - 2026 AI Accountability Report
- GitClear - AI Assistant Code Quality 2025 Research
- DORA - Balancing AI Tensions
- GitHub Docs - About Copilot Code Review
- LeadDev - The end of the non-technical engineering manager
- LeadDev - Why would anyone be an engineering manager in 2026
- Augment Code - Agentic Engineering Operating Model
- 広木大地 - EMの本質と未来(レバテックLAB)
- EMConf JP 2025 公式サイト
- EMConf JP 2025 詳細レポート - gihyo.jp
- サイバーエージェント - 生成AI時代のEMと開発組織の生存戦略
- DX Blog - How to measure AI impact
- GitLab - Engineering Manager Handbook

コメント