Kotlin

A concise multiplatform language developed by JetBrains

访问 Kotlin 网站

AI 友好型编程语言：Kotlin 的故事

Sue

Read this post in other languages:

English
한국어

编程语言只有在机器学习社区和语言模型中具有良好的代表性，才能在当今全球 AI 变革之中跟上时代的步伐。语言的代表性越差，生成的代码的质量就越低，进而导致语言使用率下降，代表性也会更差。您可能想知道我们所说的“代表性”是什么意思。继续阅读！

为了支持 Kotlin 未来受欢迎程度的增长，并确保语言在新一代开发者工具中具有良好的代表性，我们推出了 ?Kotlin ML Pack：一套必备工具、数据和模型，可以促进 Kotlin 语言的代码建模任务。它基于 JetBrains 研究团队的广泛研究，并为机器学习研究者提供了更多可以应用于其他编程语言的工具和想法。

Kotlin 数据/数据集

好数据是包括编程语言在内所有领域的机器学习的基石。虽然已经存在用于教授和衡量 Python 语言建模各个方面的热门高质量数据集，但对于 Kotlin 来说，这样的数据集几乎不存在。我们通过收集和开源 Kotlin 语言语料库和 Kotlin 生成指令数据集这两大主要数据集弥补了这一差距。

语言语料库数据集

下面两个数据集是我们语言语料库相关研究的成果：

KStack – Kotlin 大型语言语料库。最完整、许可最宽松且最新的开源 Kotlin 代码集合。
KStack-clean – 用于提升模型训练的精选数据集。 KStack 的高度筛选版本，包含 25,000 个高质量样本。

下表比较了这两个新数据集和 The Stack v2 的 Kotlin 子集的描述性统计。

	文件	仓库	行数	词例数
The Stack v2	200 万	109547	1.62 亿	17 亿
KStack	400 万	163310	2.93 亿	31 亿
KStack-clean	25000	3366	200 万	2200 万

KExercises：Kotlin 指令数据集

我们的数据集开发的另一个重点是创建用于指令调整的 Kotlin 数据集。通常，此类数据集由指令或任务集及其解决方案组成。在这种数据上训练有助于模型更好地理解自然语言与编程语言之间的关系。

此类数据集很多，一些适用于 Python 编程语言，另一些具有多语言表示。不过，在这些数据集中，Kotlin 仅具有适量的代表性，或者根本不存在。

我们的决定是将一个现有数据集从 Python 转换到 Kotlin，而不是从头开始创建整个数据集。为此，我们选择了一个 Python 练习数据集来展示其功能和有效性。然后，我们使用 GPT-3.5-turbo 将数据从 Python 转换为 Kotlin。转换完成后，我们手动审查了数据的子样本，确保转换的准确性。最后，我们编译了一个包含 15,000 个 Kotlin 任务（约 350 万个词例和 33.5 万行代码）的指令数据集。

评估

机器学习的另一个重要方面是准确、有效的评估程序。好在 HumanEval 已经成为代码 LLM 领域此类评估的标准。虽然 HumanEval 最初是为 Python 设计，但它已被翻译成多种编程语言。它也被改编用于编译语言，并已扩展到新任务。

适用于 Kotlin 的 HumanEval

不过，现有适用于 Kotlin 的 HumanEval 需要重大改进才能使用。因此，我们采用不同的方式让人类专家参与，从头重做 HumanEval。

所有 JetBrains HumanEval 解决方案和测试均由具有六年 Kotlin 经验的专业程序员编写，并由具有四年 Kotlin 经验的程序员独立检查。我们实现的测试相当于 Python 的原始 HumanEval 测试，我们还修正了提示签名以解决上述泛型变量签名。

新的 HumanEval 基准位于 Hugging Face 上，同时提供了适用于不同语言模型的使用说明和基准评估结果。

适用于 Kotlin 的训练模型

为了展示我们的数据集，我们在不同的环境中训练了多个模型。

Code Llama 7B 是使用优化型 Transformer 架构的自回归语言模型。它支持填充文本生成，使用多达 16,000 个词例进行了微调，并在推理时支持最多 100,000 个词例。
DeepSeek 实现的 DeepSeek-coder-6.7B 基础模型是拥有 67 亿参数的 Multi-Head Attention 模型，基于 2 万亿个英语和中文自然语言文本训练。它还使用 16,000 的窗口大小和额外的填空任务支持项目级代码补全和填充，在项目级代码语料库上进行预训练。
DeepSeek-coder-1.3B 具有相同的架构和训练程序，但参数更少。

我们使用上面的三个数据集作为训练环境的一部分。使用 AdamW 优化器在 NVIDIA A100 GPU 上以 bf16 精度微调。此外，为了稳定训练过程，我们使用了多种种术，例如 Z-loss、权重衰减、梯度范数裁剪等。

最后，我们观察到使用的所有方式都有所改进。结合 DeepSeek-coder-6.7B 与 KExercises 数据集上的微调，我们取得了最显著的提升，通过率达到 55.28%。指令微调在另外两个基础模型也取得了很好的效果。同时，对完整数据集的微调显示出较弱的结果，CodeLlama 的通过率仅提高了 3 个百分点。 KStack 的干净版本在微调期间显示出更好的结果，但通过率仍然低于我们使用 KExercises 数据集实现的通过率。

我们不会止步于此。我们的目标不仅仅是提高 Kotlin 代码生成的质量。我们还将为研究人员提供更多工具和想法，确保开发者工具在代码生成和软件开发的机器学习应用方面取得进一步发展。

这项工作和我们发布的 Kotlin ML Pack 涵盖了 Kotlin 学习管道的基本要素，例如数据和评估。不过，Kotlin 和 JetBrains 生态系统可以为语言建模和机器学习社区提供更多好处，例如通过编译器或 linter 等工具学习、数据集的额外代码，以及与日常生产开发任务更相关的新基准。

如需深入了解 JetBrains 研究团队的研究，请阅读 Kotlin ML Pack：技术报告。

或者，观看 KotlinConf’24 主题演讲的相关部分（51 分 12 秒开始）。

本博文英文原作者：

完成不可完成的补全任务：JetBrains IDE 中 AI 补全的现状

Discover more

JetBrains 将 Kotlin 视为现代后端开发的坚实基础，这不仅是因为它的技术优势，还因为它能够帮助开发者更高效地构建可靠、可维护的系统。我们一直在努力使 Kotlin 成为专业服务器端工作的首选，为此，我们荣幸宣布 JetBrains 与 Spring 团队将进一步加深合作。这一战略合作伙伴关系涵盖多个关键领域，将使 Kotlin 成为构建 Spring 应用程序更自然、更强大的选择。 Spring Framework 联合创始人兼项目负责人 Juergen Hoeller 和 Spring 核心提交者兼 Kotlin 支持负责人 Sébastien Deleuze 表示： “多…

KotlinConf 2025 Unpacked: Upcoming Language Features, AI-Powered Development, and Kotlin Multiplatform Upgrades

Kotlin 语言不断发展壮大，全球已有 250 万开发者使用这种语言。从精彩的语言和生态系统更新、助力 Kotlin 开发的强大 AI 工具，到重要的 Kotlin Multiplatform 里程碑和后端战略合作伙伴关系，KotlinConf 2025 带来了一系列新闻，为未来一年定下基调。以下是关键信息汇总。 Kotlin 2.2 和语言演变 Kotlin 2.2 即将发布，它将带来一系列全新功能，包括： when-with-subject 中的保护条件多美元符号内插非局部中断和继续上下文形参 (Beta) K2 编译器：现在是 IntelliJ IDEA 2025.1 …

概览：我们始终致力于在 Web 开发版 Kotlin Multiplatform 中为 Kotlin 开发者提供强大的无缝支持。为此，我们正在以下关键领域开展工作：改进 IDE 对 Web 目标的支持。将 Kotlin/Wasm 和 Web 版 Compose Multiplatform 提升到 Beta。为旧版浏览器中的 Compose Multiplatform 提供兼容模式。消除 Kotlin/JS 中互操作的大部分限制。针对 Kotlin/JS 中最新的 JavaScript 标准。 Kotlin Multiplatform (KMP) 旨在帮助开发者跨平台共享代码，显…

今天标志着 Kotlin Multiplatform 旅程的一个重要里程碑：Compose Multiplatform 1.8.0 现已发布，将 Compose for iOS 带入稳定阶段。更新后，Kotlin Multiplatform 成为移动开发的完整解决方案，支持跨业务逻辑和 UI 的灵活代码共享，而不会影响应用质量或减少对平台特定功能的控制。构建实际应用所需的一切 Compose Multiplatform for iOS 现在包含为实际应用构建精美 UI 所需的一切：在所有常见用例中功能与 Jetpack Compose 一致具有深度链接支持的类…

Kotlin

AI 友好型编程语言：Kotlin 的故事