Вот уже несколько недель в сети бурлят на тему исследования от METR.org — Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
Мы проводим рандомизированное контролируемое исследование (РКИ), чтобы понять, как инструменты ИИ начала 2025 года влияют на производительность опытных разработчиков открытого кода, работающих над собственными репозиториями. К нашему удивлению, мы обнаружили, что при использовании инструментов ИИ разработчикам требуется на 19% больше времени, чем без них — ИИ замедляет их работу. Мы рассматриваем этот результат как моментальный снимок возможностей ИИ начала 2025 года в одной релевантной среде; поскольку эти системы продолжают стремительно развиваться, мы планируем продолжать использовать эту методологию для оценки ускорения ИИ за счёт автоматизации исследований и разработок в этой области.
Чем это исследование лучше промо материалов продвигаторов ИИ
- Используются последние версии инструментов: Cursor Pro и Claude Sonnet.
- Меряют реальную разработку, а не выдуманные простые задачки.
- Испытуемые — однородная группа: профессиональные разработчики, работающие со своими кодовыми базами, с многолетним опытом.
- Берутся большие, живые репозитории. Миллион строк — это не тысяча. С ИИ это особенно критично: если задача целиком влезает в контекст — одно дело, если надо искать релевантные места и правила — совсем другое.
Вкратце, что выяснили
Разработчики ожидали, что ИИ ускорит их примерно на +20%. После работы с ИИ им казалось, что они и стали на 20% быстрее. Фактически же они работали на 19% медленнее — при том, что сами решали, в каких задачах пользоваться ИИ, а в каких нет.
Авторы заранее подготовились к возраженям про «крутой порог вхождения» и проверили:
- За время эксперимента ускорения с ИИ не появилось.
- Предварительный опыт работы с ИИ роли не сыграл.
- Большее количество часов в Cursor не помогло.
Чем объясняют замедление? Несколько гипотез:
- Слишком частое исспользовании ИИ: разработчики исспользовали ИИ там, где быстрее было бы сделать самому, а потом тратили время на чистку кода.
- Опытные разработчики: участники имели в среднем 5 лет и ~1500 коммитов в своих open source-репозиториях. На «обычных» задачах они и сами были очень быстрые и хорошо ориентировались в коде. ИИ полезнее, когда задача не в слишком знакомой области.
- Большие репозитории с кучей неявных правил — не лучшая среда для ИИ. На маленьких/простых проектах эффект мог бы быть лучше.
Почему ИИ не ускорил работу
Больше всего мне откликается версия о слишком опытных и умных разработчиках. В своей работе когда я пользуюсь ИИ, он особенно помогает, когда задача не типовая и выходит за привычные рамки. А вот баги в хорошо знакомом коде, уверен, что исправляются быстрее, чем Claude Sonnet.
Иллюзия скорости
Самое интересное не только то, что разработчики замедлились, а то, что им казалось — они ускорились. Как так опытные инженеры могут неверно оценить свою скорость?
Точного ответа в работе нет, но есть подсказки:
- Многие (но не все) сказали, что с ИИ работать проще. 69% продолжили пользоваться инструментами после эксперимента — косвенный, но сильный сигнал.
- По записям экрана с ИИ было больше простоев: не только ожидание ответа модели, но и просто «тишина» без какой либо активности.
Моя версия: работа с ИИ снижает когнитивную нагрузку. Легче мультизадачить или «залипать» где-то еще, а время при этом субъективно летит быстрее. Иногда параллельно успеваешь сделать побочные дела, пока модель думает. В итоге кажется, что процесс эффективный, даже если фактическая пропускная способность ниже.
И это, кстати, может быть недоисследованой пользой. Когда я бодр и сфокусирован, я и так быстро фигачу код. Но так бывает не всегда. Когда устал или замучен созвонами после длинного дня, сесть и фиксать баг — тяжело. Зато можно запустить агентную сессию и проверить небольшой дифф. Проверка выдачи ИИ намного легче, чем испралять баг самому. То есть ИИ не столько «ускоряет обычную работу», сколько расширяет часы, когда я вообще способен что-то сделать. Если альтернатива — ноль, то работать на 19% или даже 50% медленнее своего пика — все равно плюс, но пониженный уровень внимательности и автоматизм, верный путь наплодить еще багов.
Главный вывод настораживает!
ИИ замедлил людей, при этом убедив их, что они ускорились. Полезное напоминание: наше внутреннее «вау, меня это ускоряет» может быть неточным.
Тем не менее, это лучшее исследование про ИИ в инженерии, что я видел в последнее время. Хотелось бы продолжение, где:
- инженеры работают с незнакомыми кодовыми базами,
- задачи лежат вне их зоны комфорта,
- участники уставшие, ограничены по времени или не на пике концентрации.
Если даже в таких условиях будет замедление, придется переосмыслить использование ИИ в разработке. Если нет — картина прояснится: ИИ — это ситуативный буст, а не универсальный ускоритель.
PS: ИИ — это устройство, поднимающее пол, а не потолок
Интересная статья о том как ИИ конкурирует с «кожанными» в разных задачах, и сюрприз-сюрприз, проигрывает когда требуется высокий уровень мастерства.


