Segundo a Anthropic, mais de 80% do código incorporado ao repositório interno da empresa, usado no desenvolvimento, testes e manutenção dos próprios modelos Claude e das ferramentas associadas, foi gerado pelo próprio Claude. O número se refere ao código que passa pelo pipeline oficial da companhia, é revisado e depois integrado aos sistemas que sustentam o treinamento, a infraestrutura e os produtos de IA.
A mudança não ficou restrita ao volume de código. O ritmo de produção dos engenheiros cresceu. Dados internos indicam um aumento de 8 vezes nas linhas de código produzidas por trimestre em comparação com o período entre 2021 e 2025. O trabalho mudou de natureza: menos digitação, mais direção e revisão.
Essa transição seguiu uma sequência clara ao longo de cinco anos. Entre 2021 e 2023, o código era escrito manualmente. Em 2024, surgiram os primeiros usos consistentes de chatbots para gerar trechos pequenos. Em 2025, agentes passaram a operar sobre arquivos completos. Em 2026, esses agentes já executam tarefas longas com pouca intervenção.
O benchmark METR registrava cerca de 35 segundos de operação autônoma em modelos como GPT‑3.5 em 2022. Em 2026, o Claude Opus 4.6 chega a 16 horas em tarefas complexas. A própria Anthropic descreve que a duração das tarefas dobrava a cada 7 meses e passou a dobrar a cada 4 meses. Mantido esse ritmo, sistemas devem assumir tarefas de vários dias em 2027.

Os testes clássicos também ficaram saturados. O SWE-bench, usado para medir capacidade de programação, já não diferencia bem os modelos mais recentes. Em paralelo, ganhos de desempenho no código são diretos. Em 2025, versões do Claude triplicavam a velocidade de execução de programas. Em abril de 2026, o Claude Mythos Preview atingiu aceleração de 52 vezes em casos documentados pela própria empresa.
O modelo gera dados, corrige erros e cria novos desafios para si mesmo. O ciclo reduz a dependência de curadoria humana. Em vez de engenheiros prepararem datasets e ajustes, a própria IA executa esse processo e retroalimenta seu treinamento.
Esse mecanismo também amplia riscos conhecidos. Pequenos vieses podem ser reforçados ao longo das iterações. Alterações internas nos critérios de decisão podem surgir sem visibilidade direta. Para conter isso, a Anthropic descreve o uso de ambientes isolados para testes e modelos independentes que auditam cada modificação gerada.
Com a geração de código em alta velocidade, surge um novo limite. A própria empresa cita a lei de Amdahl para explicar que a parte não automatizada do sistema passa a dominar o tempo total. Nesse caso, é a revisão humana. Quanto mais código a IA produz, mais tempo pessoas levam para validar cada mudança.
Você também deve ler!
Empresa gasta US$ 500 milhões em um mês com Claude por não ter colocado limites para funcionários



