Einführung von Developer Productivity AI Arena: eine offene Benchmarking-Plattform für KI-Coding-Agents
Seit 25 Jahren prägt JetBrains die Softwareentwicklung in mehreren Programmiersprachen und verändert die Art und Weise, wie Entwickler*innen und Unternehmen an Software arbeiten. Unser Schwerpunkt lag stets darauf, die Produktivität und die allgemeine Entwicklungserfahrung zu verbessern.
Angesichts der wachsenden Bedeutung von KI-Systemen besteht eine zentrale Herausforderung nun darin, die tatsächlichen Produktivitätssteigerungen durch KI-Tools in Zahlen zu fassen. Um diese Herausforderung zu bewältigen, entschied sich JetBrains, die Developer Productivity AI Arena (DPAI Arena) zu entwickeln und der Linux Foundation zu übergeben.
„KI-Coding-Agents sind dabei, zu einem integralen Bestandteil der modernen Softwareentwicklung zu werden, und daher benötigt die Branche dringend eine transparente und vertrauenswürdige Methode, um den tatsächlichen Einfluss auf die Entwicklerproduktivität zu messen. DPAIA schafft einen offenen, anbieterneutralen Rahmen für die Bewertung der KI-gestützten Softwareentwicklung in verschiedenen Sprachen, Frameworks und Umgebungen.
Wir laden Anbieter von Coding-Agents und Frameworks ein, sich dieser Initiative anzuschließen und an der Gestaltung der Benchmarks mitzuwirken, die die nächste Ära der Softwareentwicklung prägen werden. Wir ermutigen auch die Endbenutzer*innen, sich zu beteiligen, indem sie KI-Tools in ihren realen Arbeitsprozessen prüfen und auf diese Weise sicherstellen, dass das Ökosystem auf der Grundlage von Offenheit, Vertrauen und messbarer Wirkung weiterentwickelt wird.“
DPAI Arena ist die erste offene Benchmark-Plattform der Branche, die verschiedene Sprachen, Frameworks und Workflows unterstützt und darauf ausgerichtet ist, die Effektivität von KI-Coding-Agents anhand von realen Softwareentwicklungsaufgaben zu messen. Auf der Basis einer flexiblen, trackbasierten Architektur ermöglicht sie faire, reproduzierbare Vergleiche über verschiedene Workflows hinweg, darunter Patching, Fehlerbehebung, PR-Reviews, Testgenerierung, statische Analysen und mehr.
Benchmarking neu definiert
Aktuelle Benchmarks basieren auf veralteten Datensammlungen, decken nur ein enges Technologiespektrum ab und konzentrieren sich zu sehr auf Issue-zu-Patch-Abläufe. Trotz der rasanten Fortschritte im Bereich der KI-Programmiertools fehlt es der Branche nach wie vor an einem neutralen, standardbasierten Rahmen zur Messung der tatsächlichen Auswirkungen auf die Entwicklerproduktivität.
„JetBrains entwickelt seit mehr als zwei Jahrzehnten Tools, die Millionen von Softwareentwickler*innen dabei unterstützen, kritisch zu denken, dem eigenen Code zu vertrauen und zügig und innovativ zu arbeiten. Dadurch haben wir eine einzigartige Perspektive auf das Potenzial der KI-Entwicklung und den Druck, der dabei auf der Softwareentwicklungsbranche lastet. Wir beobachten unmittelbar, wie Teams versuchen, den Spagat zwischen Produktivitätssteigerungen einerseits und Codequalität, Transparenz und Vertrauen andererseits zu schaffen – eine Herausforderung, die mehr als nur Leistungsbenchmarks erfordert.
Die Developer Productivity AI Arena wurde entwickelt, um Übersichtlichkeit und klare Verantwortlichkeiten zu schaffen, KI-Coding-Agents einheitlich und kollaborativ zu bewerten und zu verbessern und der Branche zu vermitteln, dass es einen Unterschied gibt zwischen KIs, die lediglich die Arbeit beschleunigen, und solchen, die sie wirklich verstehen und erleichtern – und dass dieser Unterschied sogar gemessen werden kann. Durch die Definition eines gemeinsamen Rahmenwerks für das Benchmarking von KI-Agents möchten wir Transparenz und Vertrauen in Bezug auf die gesamte KI-Entwicklung fördern. “
DPAI Arena schließt diese Lücke durch transparente Bewertungspipelines, eine reproduzierbare Infrastruktur und erweiterbare, Community-gesteuerte Multi-Track-Datensammlungen.
Messen, was wirklich zählt
DPAI Arena ermöglicht die Messung der Produktivität in der KI-gestützten Softwareentwicklung. Anbieter von KI-Tools können ihre Produkte anhand realer Aufgaben benchmarken und optimieren, Technologieanbieter sorgen durch die Bereitstellung domänenspezifischer Benchmarks dafür, dass ihre Ökosysteme an vorderster Front der Entwicklung bleiben, Unternehmen erhalten eine zuverlässige Methode zur Bewertung von Tools vor deren Einführung und Entwickler*innen bekommen einen transparenten Einblick in die Faktoren, die tatsächlich zur Produktivität beitragen.
lDPAI Arena wurde entwickelt, um allen die Möglichkeit zu bieten, zur Zukunft der KI-gestützten Programmierung beizutragen. Der erste Benchmark der Plattform, Spring Benchmark, führt den technischen Standard für zukünftige Beiträge ein. Erstens setzt er die Richtlinien für die Erstellung von Datensammlungen um, wobei auch die unterstützten Bewertungsformate und allgemeinen Regeln detailliert beschrieben werden. Zweitens bietet er eine solide Grundlage für eine entkoppelte Infrastruktur, die es jedem ermöglicht, eigene Datensammlungen einzusetzen (BYOD-Ansatz) und die Infrastruktur für eigene Auswertungen wiederzuverwenden.
Wir sehen uns derzeit auch Spring AI Bench an, um den Java-Benchmarking-Stream in DPAI Arena zu erweitern. Dabei arbeiten wir eng mit dem Projekt-Kernteam zusammen, um das Java-Ökosystem durch mehr Variabilität und Multi-Track-Benchmarks zu bereichern.
Wirken Sie an DPAI Arena mit
Wir haben vor, dieses Projekt der Linux Foundation zu übergeben, die im Anschluss einen vielfältig und inklusiv besetzten Lenkungsausschuss berufen wird, um die zukünftige Ausrichtung der Plattform zu bestimmen.
Unter https://dpaia.dev/ können Sie die Fortschritte der Plattform verfolgen. Weitere Informationen finden Sie in unserer Projektübersicht oder auf GitHub.
Autor des ursprünglichen Blogposts