Os sistemas de codificação de IA podem ganhar US $ 1 milhão como freelancers?

A Engenharia de Software Freelance é um campo lucrativo e dinâmico, onde desenvolvedores qualificados enfrentam diversos desafios, desde correções de bugs até o desenvolvimento de recursos de palha total. Nos últimos anos, esses trabalhadores estão entre os primeiros a incorporar sistemas de IA em seu fluxo de trabalho para ajudar a escrever o código.

Isso levanta uma pergunta interessante: um sistema de IA poderia fazer o mesmo trabalho por si só? Em outras palavras, os engenheiros de software se desenvolveram efetivamente fora de seus próprios empregos?

Agora, recebemos uma espécie de resposta graças ao trabalho de Samuel Miserendino, Michele Wang e colegas da Openai Research, que desenvolveram uma ferramenta de benchmarking que determina se os grandes modelos de idiomas de ponta (LLMs) podem concluir um conjunto de tarefas reais de desenvolvimento de software que foram resolvidas pelos humanos. Esses desenvolvedores humanos ganharam US $ 1 milhão no processo, levantando a questão óbvia sobre se os sistemas de IA poderiam ganhar sua crosta sozinhos.

A resposta será de conforto limitado aos desenvolvedores humanos. “O trabalho freelancer do mundo real em nossa referência continua sendo desafiador para os modelos de linguagem de fronteira”, diz Miserendino, Wang e companhia. No entanto, eles calculam que os melhores modelos podem ganhar com sucesso uma fração significativa dos US $ 1 milhão.

Código vermelho

A engenharia de software envolve muito mais do que apenas escrever código. Os engenheiros devem interpretar os requisitos do cliente, navegar em bases de código complexas e tomar decisões arquitetônicas de alto nível sobre a abordagem correta. Os empregos freelancers do mundo real exigem desenvolvimento de pilhas completas, depuração e habilidades gerenciais.

Avaliar o desempenho de grandes modelos de idiomas nessas tarefas é complicado, porque a maioria dos benchmarks envolve problemas de codificação padrão, que representam apenas uma pequena parte do desafio do freelancer.

Miserendino, Wang e Co se propuseram a alterar isso criando um banco de dados de tarefas reais de engenharia de software previamente resolvidas por freelancers humanos. Eles chamam seu referência SWE-Lancer e esperam que ele se torne um padrão contra o qual testar o desempenho de codificação do mundo real de grandes modelos avançados de linguagem.

A equipe adquiriu as tarefas freelancers da Despensify, uma empresa pública que possui um sistema de gerenciamento de despesas usado por 12 milhões de clientes. Este software requer manutenção e desenvolvimento constantes, para os quais a empresa depende de trabalhadores freelancers. O Despensify torna essas tarefas de codificação públicas e as publica no site do Freelancer Site.

A equipe do Openai escolheu 1488 dessas tarefas. Cerca de metade deles visava programadores individuais e envolveu tarefas como o desenvolvimento de patches de codificação para resolver problemas do mundo real. A outra metade das tarefas era para os gerentes e envolvia a seleção da melhor solução das propostas concorrentes enviadas por freelancers humanos.

Todas as tarefas foram concluídas por freelancers humanos que receberam valores pagos variando de US $ 250 a US $ 32.000. O valor total de todas as tarefas foi de US $ 1 milhão.

Para colocar os modelos atuais de IA de última geração em seus ritmos, a equipe estabeleceu cada tarefa para o Claude 3,5 soneto da Anthropic e os modelos GPT-4O e O1 da OpenAI. Os sistemas de IA receberam o texto que descreve o problema como apareceu na plataforma de trabalho, juntamente com um instantâneo do código antes que a correção fosse feita, juntamente com o objetivo de corrigir o problema.

Para as tarefas de gerenciamento, os modelos receberam várias soluções propostas para um problema, um instantâneo do código a ser corrigido e a meta na escolha da solução mais adequada.

Os resultados são esclarecedores. “O Sonnet 3.5 tem o melhor desempenho, seguido de O1 e depois GPT-4O”, diz Miserendino, Wang e co. Mas eles estavam longe de ser perfeitos. “Todos os modelos ganham bem abaixo de US $ 1 milhão de US $ 1 milhão de possíveis pagamentos no conjunto de dados completo do SWE-Lancer”, diz os pesquisadores.

No entanto, há um retorno saudável para alguns problemas. “No conjunto de dados completo do SWE-Lancer, o Claude 3,5 sonetos ganha mais de US $ 400.000 de US $ 1.000.000 possível.”

Isso parece ser uma renda razoável para um desenvolvedor freelancer usando a IA para [del automate] Auxiliar no trabalho deles. Mas existem claramente limitações. Os sistemas de IA tiveram um desempenho melhor nas tarefas do gerente do que as tarefas de codificação individuais, que geralmente produziam correções superficiais, em vez de abordar problemas de raiz. Isso sugere que a IA é melhor na avaliação de soluções do que implementá -las.

No geral, os sistemas de IA conseguiram enfrentar menos de 50 % das tarefas disponíveis, o que leva a equipe a uma conclusão sombria. “O trabalho freelancer do mundo real em nossa referência continua sendo um desafio para os modelos de linguagem de fronteira”, dizem os pesquisadores.

Ganho de dinheiro

A equipe diz que a incapacidade de superar os freelancers humanos decorre de várias questões fundamentais. Por exemplo, os modelos de IA carecem de um profundo entendimento do código – em vez disso, são apenas geradores de padrões. Os engenheiros humanos também refinam iterativamente suas soluções, executando testes e depurar comportamentos inesperados, uma abordagem que os LLMs lutam para copiar.

Mas, embora os LLMs não estejam prontos para substituir os engenheiros humanos, a referência do SWE-Lancer revela um potencial emocionante. Ele sugere que os assistentes de IA provavelmente ajudarão a automatizar tarefas de codificação de rotina, para que os desenvolvedores humanos possam se concentrar na solução de problemas de nível superior.

Uma coisa em que os pesquisadores não se concentram em detalhes é o tempo para concluir as tarefas de seres humanos versus máquinas. Pode ser que os sistemas de IA não sejam atualmente muito melhores em algumas tarefas, mas que são significativamente mais rápidas. Isso inevitavelmente aparecerá no planejamento de negócios.

Mas eles mostram que algumas tarefas estão maduras para a automação e provavelmente já estão sendo realizadas dessa maneira por freelancers e empresas empreendedoras. É provável que essa proporção aumente à medida que os modelos se tornam mais capazes.

E, a julgar pelas melhorias, os modelos de IA alcançaram outros benchmarks para problemas de matemática avançada e similares, é provável que essa melhoria acelere rapidamente.

Claramente, o tempo para a mudança disruptiva é agora.


Ref: SWE-Lancer: A Frontier LLMS pode ganhar US $ 1 milhão com engenharia de software freelancer do mundo real? : arxiv.org/abs/2502.12115

Este artigo foi útil?
Gostei0Não Gostei0

Related posts

Por que nunca uso conversores PDF online gratuitos

As melhores VPNs gratuitas de 2025

O novo chip de computação quântica da Microsoft pode revolucionar a indústria