AI News

Einführung von Developer Productivity AI Arena: eine offene Benchmarking-Plattform für KI-Coding-Agents

Read this post in other languages:

Seit 25 Jahren prägt JetBrains die Softwareentwicklung in mehreren Programmiersprachen und verändert die Art und Weise, wie Entwickler*innen und Unternehmen an Software arbeiten. Unser Schwerpunkt lag stets darauf, die Produktivität und die allgemeine Entwicklungserfahrung zu verbessern.

Angesichts der wachsenden Bedeutung von KI-Systemen besteht eine zentrale Herausforderung nun darin, die tatsächlichen Produktivitätssteigerungen durch KI-Tools in Zahlen zu fassen. Um diese Herausforderung zu bewältigen, entschied sich JetBrains, die Developer Productivity AI Arena (DPAI Arena) zu entwickeln und der Linux Foundation zu übergeben.

„KI-Coding-Agents sind dabei, zu einem integralen Bestandteil der modernen Softwareentwicklung zu werden, und daher benötigt die Branche dringend eine transparente und vertrauenswürdige Methode, um den tatsächlichen Einfluss auf die Entwicklerproduktivität zu messen. DPAIA schafft einen offenen, anbieterneutralen Rahmen für die Bewertung der KI-gestützten Softwareentwicklung in verschiedenen Sprachen, Frameworks und Umgebungen.

Wir laden Anbieter von Coding-Agents und Frameworks ein, sich dieser Initiative anzuschließen und an der Gestaltung der Benchmarks mitzuwirken, die die nächste Ära der Softwareentwicklung prägen werden. Wir ermutigen auch die Endbenutzer*innen, sich zu beteiligen, indem sie KI-Tools in ihren realen Arbeitsprozessen prüfen und auf diese Weise sicherstellen, dass das Ökosystem auf der Grundlage von Offenheit, Vertrauen und messbarer Wirkung weiterentwickelt wird.“

Mark Collier
Geschäftsführer, KI und Infrastruktur, Linux Foundation

DPAI Arena ist die erste offene Benchmark-Plattform der Branche, die verschiedene Sprachen, Frameworks und Workflows unterstützt und darauf ausgerichtet ist, die Effektivität von KI-Coding-Agents anhand von realen Softwareentwicklungsaufgaben zu messen. Auf der Basis einer flexiblen, trackbasierten Architektur ermöglicht sie faire, reproduzierbare Vergleiche über verschiedene Workflows hinweg, darunter Patching, Fehlerbehebung, PR-Reviews, Testgenerierung, statische Analysen und mehr.

Benchmarking neu definiert

Aktuelle Benchmarks basieren auf veralteten Datensammlungen, decken nur ein enges Technologiespektrum ab und konzentrieren sich zu sehr auf Issue-zu-Patch-Abläufe. Trotz der rasanten Fortschritte im Bereich der KI-Programmiertools fehlt es der Branche nach wie vor an einem neutralen, standardbasierten Rahmen zur Messung der tatsächlichen Auswirkungen auf die Entwicklerproduktivität.

„JetBrains entwickelt seit mehr als zwei Jahrzehnten Tools, die Millionen von Softwareentwickler*innen dabei unterstützen, kritisch zu denken, dem eigenen Code zu vertrauen und zügig und innovativ zu arbeiten. Dadurch haben wir eine einzigartige Perspektive auf das Potenzial der KI-Entwicklung und den Druck, der dabei auf der Softwareentwicklungsbranche lastet. Wir beobachten unmittelbar, wie Teams versuchen, den Spagat zwischen Produktivitätssteigerungen einerseits und Codequalität, Transparenz und Vertrauen andererseits zu schaffen – eine Herausforderung, die mehr als nur Leistungsbenchmarks erfordert.
Die Developer Productivity AI Arena wurde entwickelt, um Übersichtlichkeit und klare Verantwortlichkeiten zu schaffen, KI-Coding-Agents einheitlich und kollaborativ zu bewerten und zu verbessern und der Branche zu vermitteln, dass es einen Unterschied gibt zwischen KIs, die lediglich die Arbeit beschleunigen, und solchen, die sie wirklich verstehen und erleichtern – und dass dieser Unterschied sogar gemessen werden kann. Durch die Definition eines gemeinsamen Rahmenwerks für das Benchmarking von KI-Agents möchten wir Transparenz und Vertrauen in Bezug auf die gesamte KI-Entwicklung fördern. “

Kirill Skrygan
CEO, JetBrains

DPAI Arena schließt diese Lücke durch transparente Bewertungspipelines, eine reproduzierbare Infrastruktur und erweiterbare, Community-gesteuerte Multi-Track-Datensammlungen.

Messen, was wirklich zählt

DPAI Arena ermöglicht die Messung der Produktivität in der KI-gestützten Softwareentwicklung. Anbieter von KI-Tools können ihre Produkte anhand realer Aufgaben benchmarken und optimieren, Technologieanbieter sorgen durch die Bereitstellung domänenspezifischer Benchmarks dafür, dass ihre Ökosysteme an vorderster Front der Entwicklung bleiben, Unternehmen erhalten eine zuverlässige Methode zur Bewertung von Tools vor deren Einführung und Entwickler*innen bekommen einen transparenten Einblick in die Faktoren, die tatsächlich zur Produktivität beitragen.

lDPAI Arena wurde entwickelt, um allen die Möglichkeit zu bieten, zur Zukunft der KI-gestützten Programmierung beizutragen. Der erste Benchmark der Plattform, Spring Benchmark, führt den technischen Standard für zukünftige Beiträge ein. Erstens setzt er die Richtlinien für die Erstellung von Datensammlungen um, wobei auch die unterstützten Bewertungsformate und allgemeinen Regeln detailliert beschrieben werden. Zweitens bietet er eine solide Grundlage für eine entkoppelte Infrastruktur, die es jedem ermöglicht, eigene Datensammlungen einzusetzen (BYOD-Ansatz) und die Infrastruktur für eigene Auswertungen wiederzuverwenden.

Wir sehen uns derzeit auch Spring AI Bench an, um den Java-Benchmarking-Stream in DPAI Arena zu erweitern. Dabei arbeiten wir eng mit dem Projekt-Kernteam zusammen, um das Java-Ökosystem durch mehr Variabilität und Multi-Track-Benchmarks zu bereichern.

Wirken Sie an DPAI Arena mit

Wir haben vor, dieses Projekt der Linux Foundation zu übergeben, die im Anschluss einen vielfältig und inklusiv besetzten Lenkungsausschuss berufen wird, um die zukünftige Ausrichtung der Plattform zu bestimmen.

Unter https://dpaia.dev/ können Sie die Fortschritte der Plattform verfolgen. Weitere Informationen finden Sie in unserer Projektübersicht oder auf GitHub.

Autor des ursprünglichen Blogposts

Arun Gupta

Arun Gupta

Arun Gupta is a globally recognized expert in developer relations, open source strategy, and go-to-market innovation. He is the VP of Developer Experience at JetBrains, leading the effort to connect with the global developer community and external partners. With over 25 years of experience at Intel, Apple, Amazon, and Red Hat, he’s built developer communities that drive adoption and aligned DevRel with product, marketing, and sales to create lasting champions. Arun advocates mindfulness, kindness, and developer empathy as the foundation of modern DevRel.

He chaired the CNCF and OpenSSF governing boards, leading ecosystem growth and open source security initiatives. Arun also helped Fortune 100 companies embrace open collaboration through founding multiple open source program offices. A global speaker and author, Arun has keynoted in 50+ countries, is a Docker Captain and Java Champion, and founded Devoxx4Kids USA. He actively leads initiatives like TEDAI and the UN’s Tech Over Hackathon.

image description

Discover more