AIコーディングツールは生産性を19％も低下させているという調査結果、AI出力の評価・手直し・再出力などで無駄な時間が大量発生か

2025年07月11日 22時00分ソフトウェア

生成AIの進化により人間の仕事がAIに置き換えられる事例が増えています。大手テクノロジー企業のMicrosoftでさえ、ソフトウェア製品のコードの30％がAIにより記述されていることを明かしています。しかし、すべてがいい方向に作用しているわけではないようで、2025年春に実施されたMETRの実験により、AIコーディングツールは人間の生産性を低下させていることが明らかになりました。

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity - METR

https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity (PDFファイル)https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

Not So Fast: AI Coding Tools Can Actually Reduce Productivity

https://secondthoughts.ai/p/ai-coding-slowdown 一部から「社会に壊滅的なリスクをもたらす可能性がある」と批判されるようなAIモデルの能力を評価する非営利の研究機関がMETRです。

METRは成熟したプロジェクトに取り組む経験豊富な開発者を対象に、AIツールがもたらす生産性向上効果を測定するための厳密な調査を実施しました。調査対象となったのは主要なオープンソースプロジェクトに携わりながら、中程度のAI使用経験を持つ16人の開発者です。調査対象となった開発者には、246種類のタスクが書かれたToDoリストの中からコーディングタスクを選択してもらい、タスクを完了するのにかかるであろう時間を予測してもらいました。246種類のタスクにはランダムに「AI使用可」または「AI使用不可」が割り当てられており、これに従って開発者には「AIあり」あるいは「AIなし」でコーディングタスクを実施してもらいます。タスク実施時は、画面を記録しながら作業に取り組んでもらっているため、タスク完了にかかった時間が正確に記録されているそうです。開発者が予測した「タスク完了にかかる時間」と「AIを用いてタスクを実施した際の完了までにかかった時間」を比較することで、AIコーディングツールによって生産性がどの程度向上したのかを計測しました。なお、AIの使用が許可されたタスクでは、画面録画の84％で少なくとも何らかのAIツールが使用されていることが確認されています。以下のグラフはAIツールを使用している開発者が自己申告した「AIを用いることで生産性がどのように変化したか」の予測と、実際の調査結果による生産性の変化(Observed result)を示したもの。調査結果としては全体平均で「生産性が19％低下した」となっていますが、経済専門家は約40％、機械学習の専門家は約40％、調査に参加した開発者は調査中に約24％、実際に生産性低下を体感した調査後でも約20％生産性が向上すると予測しました。

この調査結果について、Googleに買収された文章作成ツール・Writelyの創業者であるスティーブ・ニューマン氏は、「AIによって仕事が加速したと報告する人は、もしかしたら間違っているかもしれません」「この結果は信じられないほどひどいです」「この研究はAIコーディングツールが詐欺だと暴露しているわけではありませんが、AIには少なくとも今のところ重要な限界があることを改めて認識させてくれます」と言及しています。被験者は「最も生産性が高まると思われる程度までAIを活用してください」と指示されるケースがあったため、一部の被験者はAIに熱中し過ぎて生産性を落とした可能性が指摘されています。しかし、被験者に提示されたタスクは「通常通りAIを使用する」(70タスク)、「AIを使用する」(119タスク)、「可能な限りAIを活用する」(57タスク)とほぼ均等に分かれており、AIの使用を強制するようなタスクは一部のみです。また、被験者のAI使用経験はまちまちですが、調査開始時にCursor Proの使い方講座を受けるなど、AIツールの使用方法を学ぶ機会を設けています。

なお、調査が行われたのは2025年2～6月で、このタイミングでは最新のAIツールであるCursor ProやClaude 3.5 Sonnet、Claude 3.7 SonnetといったAIコーディングツールを被験者は使用していました。

調査では開発者へのインタビューと画面録画を分析することで、「なぜAIを使うと生産性が低下するのか？」の原因をいくつか特定することに成功しています。最大の問題は、AIツールによって生成されたコードが一般的にオープンソースプロジェクトの高い基準を満たしていないためです。開発者はAIによる出力をレビューするのに多くの時間を費やすこととなり、AIに追加で指示を出したり、コード生成を待ったり、致命的欠陥がある場合は出力を破棄したり、再びAIに指示を出したりと、同じ作業を何度も繰り返さなければならなくなるケースがありました。実際、Cursorが出力したコードのうち、開発者が使用したのは39％だけだったと報告されています。なお、この39％のコードもそのまま使用されているわけではなく、開発者によるレビューや手直しが行われています。以下のグラフは開発者がAIを使用する場合(緑色)と、使用しない場合(紫色)の各作業に費やす時間の割合を示したもの。縦軸が各作業に費やす時間の割合で、横軸が各作業を表しています。作業は左から「AI出力の確認」「AIへの指示」「AIの出力待ち」「コードを書く」「読む・調べる」「テスト・デバッグ」「Git、環境」「雑務」です。AIを使用することで、「AI出力の確認」「AIへの指示」「AIの出力待ち」というAI不使用時には発生しない作業が生まれ、ここに全体の作業時間の20％強を費やさざるを得なくなることがわかります。一方で、実際にコードを書く時間は約10％短くなります。

生産性が19％低下したという調査結果について、ニューマン氏は「一見すると気が滅入るかもしれませんが、これはAIツール(経験豊富な開発者が品質基準の高い複雑なコードベースで作業している)にとって難しいシナリオに当てはまり、開発者がエネルギーを節約するためによりゆったりとしたペースを選択したり、AIを活用してより徹底した作業をしたりすることで部分的に説明できるかもしれません。もちろん、結果は時間の経過とともに改善されるでしょう」「おそらく最も重要なのは、開発者がAIを使用するとタスクを19％遅く完了することになるにもかかわらず、開発者は20％速く完了していると考えていたという点です。AIの影響に関する評価の多くは調査や事例報告に基づいていますが、この研究結果にはそうした結果が著しく誤解を招く可能性があることを示す確かなデータがあります」と記しました。

Microsoft製品のコードの30％程度はAIで書かれている - GIGAZINE

AIを使って効果的にプログラミングを行う方法とは？ - GIGAZINE

AIに「もっといいコードを書いて」と繰り返し要求するとコードの実行速度は向上するがバグが増えるという報告 - GIGAZINE