Developer Productivity AI Arena 正式上线:用于 AI 编码智能体基准测试的开放平台
25 年来,JetBrains 一直致力于塑造跨多种编程语言的软件开发格局,不断改进开发者和组织的软件构建方式。 我们一直专注于提升工作效率和整体开发者体验。
随着 AI 的兴起,现在的一项关键挑战是如何衡量 AI 辅助工具在现实世界中带来的效率提升。 为了应对这一挑战,JetBrains 决定打造 Developer Productivity AI Arena (DPAI Arena),并最终将其献给 Linux Foundation。
“随着 AI 编码智能体成为现代软件开发不可或缺的一部分,行业迫切需要一种透明、可信的方式来衡量它们对开发者工作效率的真正影响。 DPAIA 建立了一个开放的供应商中立式框架,用于评估跨语言、框架和环境的 AI 辅助开发。
我们诚邀编码智能体和框架提供商加入这项工作,共同制定用于定义下一代软件创作的基准。 我们鼓励最终用户参与其中,在自身实际工作负载上验证 AI 工具,从而确保生态系统能够以开放、可信和可衡量的影响不断发展。”
DPAI Arena 是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。 它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。
重新定义基准测试
当前的基准测试所依赖的数据集已过时,涵盖的技术范围狭窄,并且过于局限地关注问题到补丁工作流。 随着 AI 编码工具的快速发展,业界仍然缺乏一个中立且基于标准的框架,用于衡量它们对开发者工作效率的真正影响。
“JetBrains 二十多年来一直致力于构建各种工具,帮助数千万开发者进行批判性思考、自信地编写代码并快速创新。 这让我们对 AI 目前为软件开发领域带来的潜在影响与压力有了独到的理解。 我们亲眼目睹了广大团队在提高工作效率的同时兼顾代码质量、透明度和可信度方面所做的努力 – 这些挑战并非仅靠性能基准就能解决。
Developer Productivity AI Arena 旨在实现清晰且可追责的方法,以持续且协作的方式评估和改进 AI 编码智能体,并帮助行业了解甚至衡量仅能加快工作速度的 AI 与能够真正理解和促进工作效果的 AI 之间的区别。 我们希望通过定义一种用于 AI 智能体基准测试的共享框架,来促进整个 AI 系统的透明度和可信度。 ”
DPAI Arena 通过透明的评估管道、可重现的基础架构以及可扩展的社区驱动型多路径数据集填补了这一空白。
衡量重要指标
DPAI Arena 将可衡量的工作效率带入 AI 辅助软件开发领域。 AI 工具提供商可以在实际任务中对其工具进行基准测试和不断完善,技术供应商可以通过贡献领域特定的基准来帮助其生态系统维持一流水平,企业在采用某些工具前可以获得可信的方式对其进行评估,开发者可以获得有关哪些工具能够真正提高工作效率的透明洞察。
DPAI Arena 旨在让每个人都能为 AI 编码的未来做出贡献。 Spring Benchmark 是该平台的第一项基准,它带来了针对未来贡献的技术标准。 首先,它实现了数据集创建准则,并详细说明了支持的评估格式和一般规则。 其次,它为解耦基础架构提供了坚实的基础,使任何人都能采用自己的数据集(BYOD 方式)并重用基础架构进行自己的评估。
我们也在关注 Spring AI Bench,以扩展 DPAI Arena 中的 Java 基准测试流,并与该项目的核心团队紧密合作以推动 Java 生态系统中的更多可变性和多路径基准测试。
加入 DPAI Arena
我们计划将此项目献给 Linux Foundation,供其建立多元且包容的技术指导委员会,以确定平台的未来发展方向。
请访问 https://dpaia.dev/ 关注平台最新进展。 有关详情,请参阅我们的项目概览或 GitHub 组织。
本博文英文原作者: