Lançamento da Developer Productivity AI Arena, uma plataforma aberta para benchmarks de agentes de programação por IA
Durante 25 anos, a JetBrains vem dando forma ao cenário do desenvolvimento de software em diversas linguagens de programação e fazendo progredir o modo como desenvolvedores e organizações criam software. Nosso foco sempre foi em melhorar a produtividade e a experiência geral dos desenvolvedores.
Com a ascensão da IA, agora um grande desafio é compreender como medir no mundo real os ganhos de produtividade proporcionados pelas ferramentas assistidas por IA. Tentando responder a esse desafio, a JetBrains decidiu criar a Developer Productivity AI Arena (DPAI Arena) e eventualmente torná-la uma contribuição à Linux Foundation.
“À medida que os agentes de programação por IA se tornam partes integrais do moderno desenvolvimento de software, o setor precisa urgentemente de uma maneira transparente e confiável de medir o real impacto desses agentes na produtividade dos desenvolvedores. A DPAIA cria um framework aberto e independente dos fornecedores para avaliar o desenvolvimento assistido por IA nas várias linguagens, frameworks e ambientes.
Convidamos os fornecedores de agentes de programação e de frameworks a se juntarem a esta iniciativa e ajudarem a dar forma aos benchmarks que definirão a próxima era da criação de software. E encorajamos os usuários finais a participarem, validando as ferramentas de IA em suas cargas de trabalho do mundo real, garantindo o progresso do ecossistema sobre uma base de abertura, confiança e impactos mensuráveis.”
A DPAI Arena é a primeira plataforma aberta de benchmarking, com suporte a várias linguagens, frameworks e fluxos de trabalho, e projetada para medir a eficácia dos agentes de programação por IA em tarefas de engenharia de software no mundo real. A plataforma foi criada em torno de uma arquitetura flexível e baseada em trilhas, e permite comparações justas e reproduzíveis em diversos fluxos de trabalho, tais como patching, correção de bugs, revisão de solicitações de pull, geração de testes, análise estática e muito mais.
O benchmarking redefinido
Os benchmarks atuais dependem de conjuntos de dados desatualizados, cobrem uma variedade pequena de tecnologias e se concentram muito fortemente em fluxos de trabalho de problemas a corrigir. Com o progresso rápido das ferramentas de programação por IA, o setor ainda carece de um framework neutro e baseado em padrões para medir o real impacto dessas ferramentas na produtividade dos desenvolvedores.
“A JetBrains passou mais de duas décadas criando ferramentas que ajudam dezenas de milhões de desenvolvedores a pensarem criticamente, criarem código com confiança e inovarem rapidamente. Isso nos dá uma compreensão única do potencial e da pressão que a IA está colocando atualmente no mundo do desenvolvimento de software. Vemos em primeira mão como as equipes estão tentando conciliar ganhos de produtividade com qualidade, transparência e confiabilidade do código. Enfrentar esses desafios requer mais que benchmarks de desempenho.
A Developer Productivity AI Arena foi projetada para trazer claridade e responsabilização, para avaliar e aperfeiçoar os agentes de programação por IA de forma consistente e colaborativa, e para ajudar o setor a visualizar e até medir a diferença entre uma IA que apenas acelere o trabalho e uma que realmente o compreenda e facilite. Ao definirmos um framework compartilhado para benchmarks de agentes por IA, desejamos promover a transparência e a confiança em todo o sistema de IA. “
A DPAI Arena preenche essa lacuna, através de pipelines transparentes de avaliação, infraestrutura reproduzível e conjuntos de dados extensíveis, orientados pela comunidade e com diversas trilhas.
Medindo o que importa
A DPAI Arena traz a produtividade mensurável para o mundo do desenvolvimento de software assistido por IA. Os fornecedores de ferramentas de IA poderão fazer benchmarks e refinar suas ferramentas com tarefas do mundo real; os fornecedores de tecnologia poderão garantir que seus ecossistemas sejam de primeira linha, contribuindo com benchmarks específicos de cada domínio; as empresas ganharão uma maneira confiável de avaliar ferramentas antes de adotá-las e os desenvolvedores obterão insights transparentes sobre o que realmente aumenta a produtividade.
A DPAI Arena foi criada para dar condições a todos de contribuírem para o futuro da programação com IA. O primeiro benchmark da plataforma, o Spring Benchmark, introduz o padrão técnico para futuras contribuições. Primeiramente, ele implementa as diretrizes para a criação de conjuntos de dados e detalha os formatos de avaliação com suporte e as regras gerais. Depois, ele oferece uma base sólida para uma infraestrutura desacoplada, permitindo que todos tragam seus próprios conjuntos de dados (abordagem BYOD) e reutilizem a infraestrutura para suas próprias avaliações.
Também estamos estudando o Spring AI Bench para ampliar o fluxo de benchmarking em Java na DPAI Arena, colaborando de forma estreita com a equipe central do projeto para estimular mais variação e benchmarks de várias trilhas em todo o ecossistema do Java.
Junte-se à DPAI Arena
Pretendemos transformar este projeto em uma contribuição à Linux Foundation, que então criará um Comitê de Direção Técnica, diverso e inclusivo, que determinará a direção futura da plataforma.
Acompanhe o progresso da plataforma em https://dpaia.dev/. Para mais informações, consulte nossa Visão Geral do Projeto ou o GitHub org.
Artigo original em inglês por: