AI News

Lançamento da Developer Productivity AI Arena, uma plataforma aberta para benchmarks de agentes de programação por IA

Read this post in other languages:

Durante 25 anos, a JetBrains vem dando forma ao cenário do desenvolvimento de software em diversas linguagens de programação e fazendo progredir o modo como desenvolvedores e organizações criam software. Nosso foco sempre foi em melhorar a produtividade e a experiência geral dos desenvolvedores.

Com a ascensão da IA, agora um grande desafio é compreender como medir no mundo real os ganhos de produtividade proporcionados pelas ferramentas assistidas por IA. Tentando responder a esse desafio, a JetBrains decidiu criar a Developer Productivity AI Arena (DPAI Arena) e eventualmente torná-la uma contribuição à Linux Foundation.

“À medida que os agentes de programação por IA se tornam partes integrais do moderno desenvolvimento de software, o setor precisa urgentemente de uma maneira transparente e confiável de medir o real impacto desses agentes na produtividade dos desenvolvedores. A DPAIA cria um framework aberto e independente dos fornecedores para avaliar o desenvolvimento assistido por IA nas várias linguagens, frameworks e ambientes.

Convidamos os fornecedores de agentes de programação e de frameworks a se juntarem a esta iniciativa e ajudarem a dar forma aos benchmarks que definirão a próxima era da criação de software. E encorajamos os usuários finais a participarem, validando as ferramentas de IA em suas cargas de trabalho do mundo real, garantindo o progresso do ecossistema sobre uma base de abertura, confiança e impactos mensuráveis.”

Mark Collier
Gerente-Geral de IA e Infraestrutura da Linux Foundation

A DPAI Arena é a primeira plataforma aberta de benchmarking, com suporte a várias linguagens, frameworks e fluxos de trabalho, e projetada para medir a eficácia dos agentes de programação por IA em tarefas de engenharia de software no mundo real. A plataforma foi criada em torno de uma arquitetura flexível e baseada em trilhas, e permite comparações justas e reproduzíveis em diversos fluxos de trabalho, tais como patching, correção de bugs, revisão de solicitações de pull, geração de testes, análise estática e muito mais.

O benchmarking redefinido

Os benchmarks atuais dependem de conjuntos de dados desatualizados, cobrem uma variedade pequena de tecnologias e se concentram muito fortemente em fluxos de trabalho de problemas a corrigir. Com o progresso rápido das ferramentas de programação por IA, o setor ainda carece de um framework neutro e baseado em padrões para medir o real impacto dessas ferramentas na produtividade dos desenvolvedores. 

“A JetBrains passou mais de duas décadas criando ferramentas que ajudam dezenas de milhões de desenvolvedores a pensarem criticamente, criarem código com confiança e inovarem rapidamente. Isso nos dá uma compreensão única do potencial e da pressão que a IA está colocando atualmente no mundo do desenvolvimento de software. Vemos em primeira mão como as equipes estão tentando conciliar ganhos de produtividade com qualidade, transparência e confiabilidade do código. Enfrentar esses desafios requer mais que benchmarks de desempenho.
A Developer Productivity AI Arena foi projetada para trazer claridade e responsabilização, para avaliar e aperfeiçoar os agentes de programação por IA de forma consistente e colaborativa, e para ajudar o setor a visualizar e até medir a diferença entre uma IA que apenas acelere o trabalho e uma que realmente o compreenda e facilite. Ao definirmos um framework compartilhado para benchmarks de agentes por IA, desejamos promover a transparência e a confiança em todo o sistema de IA. “

Kirill Skrygan
CEO da JetBrains

A DPAI Arena preenche essa lacuna, através de pipelines transparentes de avaliação, infraestrutura reproduzível e conjuntos de dados extensíveis, orientados pela comunidade e com diversas trilhas.

Medindo o que importa

A DPAI Arena traz a produtividade mensurável para o mundo do desenvolvimento de software assistido por IA. Os fornecedores de ferramentas de IA poderão fazer benchmarks e refinar suas ferramentas com tarefas do mundo real; os fornecedores de tecnologia poderão garantir que seus ecossistemas sejam de primeira linha, contribuindo com benchmarks específicos de cada domínio; as empresas ganharão uma maneira confiável de avaliar ferramentas antes de adotá-las e os desenvolvedores obterão insights transparentes sobre o que realmente aumenta a produtividade.

A DPAI Arena foi criada para dar condições a todos de contribuírem para o futuro da programação com IA. O primeiro benchmark da plataforma, o Spring Benchmark, introduz o padrão técnico para futuras contribuições. Primeiramente, ele implementa as diretrizes para a criação de conjuntos de dados e detalha os formatos de avaliação com suporte e as regras gerais. Depois, ele oferece uma base sólida para uma infraestrutura desacoplada, permitindo que todos tragam seus próprios conjuntos de dados (abordagem BYOD) e reutilizem a infraestrutura para suas próprias avaliações.

Também estamos estudando o Spring AI Bench para ampliar o fluxo de benchmarking em Java na DPAI Arena, colaborando de forma estreita com a equipe central do projeto para estimular mais variação e benchmarks de várias trilhas em todo o ecossistema do Java.

Junte-se à DPAI Arena

Pretendemos transformar este projeto em uma contribuição à Linux Foundation, que então criará um Comitê de Direção Técnica, diverso e inclusivo, que determinará a direção futura da plataforma. 

Acompanhe o progresso da plataforma em https://dpaia.dev/. Para mais informações, consulte nossa Visão Geral do Projeto ou o GitHub org.

Artigo original em inglês por:

Arun Gupta

Arun Gupta

Arun Gupta is a globally recognized expert in developer relations, open source strategy, and go-to-market innovation. He is the VP of Developer Experience at JetBrains, leading the effort to connect with the global developer community and external partners. With over 25 years of experience at Intel, Apple, Amazon, and Red Hat, he’s built developer communities that drive adoption and aligned DevRel with product, marketing, and sales to create lasting champions. Arun advocates mindfulness, kindness, and developer empathy as the foundation of modern DevRel.

He chaired the CNCF and OpenSSF governing boards, leading ecosystem growth and open source security initiatives. Arun also helped Fortune 100 companies embrace open collaboration through founding multiple open source program offices. A global speaker and author, Arun has keynoted in 50+ countries, is a Docker Captain and Java Champion, and founded Devoxx4Kids USA. He actively leads initiatives like TEDAI and the UN’s Tech Over Hackathon.

image description

Discover more