JetBrains AI
Supercharge your tools with AI-powered features inside many JetBrains products
Mellum がオープンソース化: 開発者向けに特化した LLM を Hugging Face で提供
Mellum はあらゆる分野の知識を拾おうとしているわけではありません。 コード補完という 1 つの機能を非常に適切に実行できるように設計されています。 弊社は汎用性を考慮せず、ある目的に特化して構築されたものをフォーカルモデルと呼んでいます。
ただし、コード補完はほんの始まりに過ぎません。
Mellum はコード補完から差分予測など、さまざまなコーディングタスクに特化した個々のフォーカルモデルから成るファミリーへと成長することでしょう。
この度はベースモデルがオープンソース化され、Hugging Face で提供されるようになりました。 ツールを構築している場合であれ、研究実験を行っている場合であれ、または単に興味がある場合であれ、高速な多言語モデル*をフルに活用できるようになります。
* Mellum は Java、Kotlin、Python、Go、PHP、C、C++、C#、JavaScript、TypeScript、CSS、HTML、Rust、Ruby のコード補完をサポートしています。
🤔 なぜ Mellum をオープンソース化したのか?
この疑問には世界中から大きな注目が寄せられました。
Mellum は単にオープンソースモデルをファインチューニングしたものではありません。 このモデルは JetBrains が JetBrains IDE でのクラウドベースのコード補完を強化する目的でゼロからトレーニングし、昨年に一般公開したものです。 コードに特化したモデルファミリーとして計画されたものの第 1 弾でもあります。
では、なぜそれをオープンソース化したのでしょうか?
それは、JetBrains が透明性、コラボレーション、進歩を共有することの効果を信じているからです。 Linux や Git から Node.js や Docker まで、テック業界ではオープンソースが非常に大きな飛躍の原動力となってきました。 オープンソース LLM が一部の業界主要モデルを超えるパフォーマンスを見せるようになった今、AI の全体的な進化が同じような道をたどることを想定するのは理にかなっていると言えます。
Muellum はプラグアンドプレイのソリューションではありません。 Hugging Face でリリースすることで、研究者、教育者、および高度なチームに対し、ある目的に特化したモデル内部の仕組みを探る機会を提供しています。
フォーカルモデルとは?
機械学習では、モデルの特化は新しい試みではありません。数十年にわたってモデル設計を導いてきた基本的な手法であり、モデルは特定のタスクを効率的かつ効果的に解決するように構築されます。 時が経つにつれて、AI に関する話題はあらゆることを実行することを目的とした汎用モデル(往々にして大量の計算コストと環境コストがかかるモデル)へと変わっていきました。
フォーカルモデルはその元々の原則に立ち返り、ある 1 つの分野で優れたモデルの構築を実現しています。
これを T 字型スキルとして考えるとよいでしょう。T 字型スキルとは、ある人が多数のトピックにわたって幅広い理解を得ながらも(T の横方向の一画で知識の幅を表現)、特定の 1 つ分野に関する深い専門知識(縦の軸で深さを表現)を持っているという概念です。 フォーカルモデルはこの考えに従い、あらゆることを処理するようには構築されていません。 そうではなく、その知識の深さによって本当の価値をもたらす 1 つのタスクに特化し、それを得意としています。
Mellum はそれを明確に示す例です。 コード補完に始まるコード関連タスク用に特化した小規模で効率的なモデルです。
JetBrains はなぜこの手法を採用したのでしょうか? すべての問題で汎用的な解決策が求められているわけではなく、すべてのチームが大規模で包括的なモデルを実行するためのリソースや必要性がるわけではないからです。
Mellum のようなフォーカルモデルには以下のような明確なメリットがあります。
- 分野固有のタスクに特化した精度
- モデルの実行とデプロイに関するコスト効率
- 計算量とカーボンフットプリントの削減
- 研究者、教育者、および小規模チームにとってのアクセス利便性の向上
これは退化ではなく、実証済みの特化の原則を現代の AI 問題に応用するものです。 JetBrains は、これをよりスマートな進化だと考えています。
Mellum の実績
Mullum は、コード補完に特化して最適化された多言語対応の 4B パラメーターモデルです。 複数の言語にわたって複数のデータセットでベンチマークを実施し、JetBrains IDE で人間による広範な評価も実行しました。 この記事では、Mellum といくつかのより大規模なモデルを比較した評価データを一部紹介します。 完全な評価情報、結果、および比較はモデルカードをご覧ください。
HumanEval Infilling | RepoBench 1.1(2K コンテキスト、py) | SAFIM(平均) | ||
単一行 | 複数行 | |||
Mellum-4B-base | 66.2 | 38.5 | 28.2 | 38.1 |
InCoder-6B | 69.0 | 38.6 | — | 33.8 |
CodeLlama-7B-base | 83.0 | 50.8 | 34.1 | 45.0 |
CodeLlama-13B-base | 85.6 | 56.1 | 36.2 | 52.8 |
DeepSeek-Coder-6.7B | 80.7 | — | — | 63.4 |
Mellum の(非)想定ユーザー
現実的な話をしましょう。普通の開発者が Mellum のファインチューニングやデプロイは行うことはほぼないかと思います。 それでも問題ありません。
むしろ、Hugging Face の現在のバージョンの Mellum は以下のユーザーを想定しています。
- AI/ML 研究者: 特に、ソフトウェア開発、ベンチマーク、またはモデルの相互運用性における AI の役割を調査している方。
- AI/ML エンジニアおよび教育者: ドメイン固有言語モデルの構築、ファインチューニング、および適応の方法や、LLM アーキテクチャと特化に的を絞った教育プログラムの支援方法を学習するための基盤として使用する方。
今すぐ Mellum をお試しください
Mellum が Hugging Face で提供されるようになりました。 これはまだ始まりに過ぎません。 JetBrains は汎用性を追求しているのではなく、焦点を絞って構築を進めています。 Mellum で 1 つでも有意義な実験、貢献、またはコラボレーションを引き起こせたなら、それを成功と考えることでしょう。
Mellum をご自身でお試しになり、ぜひこの構想にご参加ください。
オリジナル(英語)ブログ投稿記事の作者: