News

より良い AI の実現には、より良いデータによって支えられます:ぜひご協力ください

Read this post in other languages:

概要

AI は 過去数年にわたって目覚ましい進歩を遂げてきましたが、プロの開発者が本当に必要とするものを常に満たしているとは限りません。 その大きな理由の 1 つには、ほとんどのモデルが複雑な実際のシナリオを反映していない一般公開のデータセットでトレーニングされていることが挙げられます。 実際のデータがなければ、AI ツールは十分に能力を発揮できません。 この状況を改善するため、JetBrains は業界の他の組織と同様に実際の使用状況から学習することを必要としています。

そのため、この件に関してユーザーの皆様に以下のようにご協力をお願いしています。

  • 法人のお客様: 管理者が会社全体でデータ共有を有効化できます。 早期採用者を支援するため、このプログラムへの参加をご希望の一部の組織に All Products Pack サブスクリプションを無料で提供し、その間にこのプログラムの調査を実施いたします。 このプログラムへの参加をご希望でない企業のお客様については、何の変更もありません。これまで通り、管理者が管理を行います。
  • 非商用ライセンスをご利用の個人のお客様: データ共有はデフォルトで有効化されていますが、設定でいつでもオフにすることができます。
  • 商用ライセンス、無料体験版、無料の Community ライセンス、または EAP ビルドをご利用の個人のお客様: これまでと変更はございません。 データを JetBrains と共有することに同意いただける場合(管理者が存在し、データ共有を許可している場合)、設定と管理者を通じてご参加いただけます。

AI はソフトウェアの構築手法に変化をもたらしつつも、ツールであることには変わりません

JetBrains は 25 年以上にわたり、ユーザーが開発プロセスを楽しみながら、ビジョンをコードへと具現化できるプロ向け開発ツールを提供してきました。 当社は AI をこのミッションを推進するための革命的なツールとして見ており、AI の進歩が有意義である一方、まだまだ改善の余地があることを理解しています。 現在の AI はすでに多くのタスクに役立っており、単純かつ適切に定義されたケースでは素晴らしい結果を示しています。 しかし、その出力の品質は業務開発環境でよくある複雑なシナリオでは急速に低下し、ミスやロジックのギャップ、さらにはコードのハルシネーションを引き起こします。

AI の動作改善には入力データとフィードバックが欠かせません

すべての AI レイヤーはトレーニング、エンジニアリング、改善が可能であり、AI が提供する結果は入力データとフィードバック信号の質に左右されます。 現在、ほとんどの LLM は公開されている同一のデータセットでトレーニングされていますが、大企業はユーザーから得られる実際のクローズドループフィードバックを利用することで、モデルのパフォーマンスをさらに強化しようとし始めているようです。 結果はどうなのでしょうか? AI ツールは単純なタスクや新たに開発するプロジェクトでは非常に役立ちますが、本格的な問題は解決できず、既存のコードベースに適切に順応することはできません。 LLM プロバイダーはこのことを認識しており、データ収集への取り組み方法が改善されようとしています。

理屈の上では、これに対する答えは目の前にあります。 当社の IDE は退屈な定型タスクから最も高度なエンジニアリング問題の解決に至るまで、無数のプロ開発者が日々のタスクを完了するのに役立っています。 これらの活動は、まさにモデルの改良に使用できるデータです。 しかし、これが慎重な扱いを要するデータであることも理解しています。 情報によっては、ソリューションが知的財産であったり、会社の基本事業や固有の価値がコードと一体化している場合も多く、非公開のままにする必要があるからです。

実際のデータが AI の出力を改善できるという考えを検証するため、最近になってこの類のデータを社内で収集し、モデルのトレーニングに適用し始めました。 現時点では有望な結果が出ていますが、次の段階に進むには、この作業に使用するデータの量と種類を拡大する必要があります。

当社は個人ユーザーと法人のどちらのプライバシーポリシーも尊重しており、データを収集する許可を求める際に透明性を確保しています。 データ共有は常にユーザーの選択に委ねられています。 決して強制ではありません。 ご協力いただける場合、共有されたデータは EU データ保護法に完全準拠して責任を持って取り扱われます。 皆様の貢献は、AI ツールを開発者コミュニティ全体にとってよりスマートで安全かつ便利なものにするのに役立ちます。 ご協力いただけますと大変ありがたく存じます。

実際に改善される内容

皆様にデータを共有していただくことで、日常的に使用するツールの方向性を決めることができます。 皆様のデータは、JetBrains が以下の内容を実現するのに役立ちます。

  1. 安全でないコードを検出して除外することで、それらがコードベースに入り込むリスクを軽減することができます。 これは、強力なセキュリティやテスト体制を整えずに長期的なタスクをコーディングエージェントに委任しているチームが増え始めているため、特に重要です。
  2. 基礎モデルのみを使用する場合よりも低コストで大量の低インテリジェンスタスクを処理できます。
  3. よりスマートなコード補完、より明確な説明、誤検出の低減が可能になり、(コードの品質に一貫性がない場合のある)ウェブ上にあるありふれた言語の人工的な例のみならず、業務ワークフローを本当に理解する AI を利用できるようになります。 当社は業務開発者向けに機能セットを改良しており、実際のユースケースを活用することで大きな違いを生み出しています。

また、皆様へ恩返しすることにも力を入れております。 たとえば、コード補完に特化して構築された専用 LLM である JetBrains の Mellum は、Hugging Face と Amazon Bedrock でオープンソースとして公開されています。

2 つのデータレイヤー

  1. 現在、当社の製品は、機能の使用状況に関する匿名の統計情報(経過時間、クリック数、一般的なワークフローなど)である匿名テレメトリを収集しています。
  1. 当社は編集履歴、ターミナルの使用方法、AI 機能との対話など、IDE 内での活動に関する詳細なコード関連データの収集を許可するためのオプションの追加をこの度開始いたします。 このようなデータには、コードスニペット、プロンプトテキスト、AI の応答などが含まれる可能性があります。

    多くのデータ量を収集するように感じるかもしれませんが、このようなデータの内容は改善に大いに役立ちます。 データの収集にご協力いただける場合は、以下の点をお約束します。
  • 機密情報または個人情報が共有されることはありません。 
  • データは適切に保管されます。 
  • アクセスは承認された担当者とユースケースに限定されます。 


詳細は、収集対象のデータとその保護方法をお読みください。

匿名テレメトリは、機能の使用状況やパフォーマンスの評価に非常に重要です。 詳細なコード関連データは、Mellum のような大規模なコードベースを伴う複雑な業務タスクでの生成速度、コスト効率、精度などの具体的な目的に最適な専用モデルのトレーニングに欠かせません。 また、当社が構築している AI 機能のフィードバックループと反復作業の迅速化の基礎となるものでもあります。

このデータは、日常業務における JetBrains 製品のパフォーマンス改善のみを目的に、製品の分析とモデルの評価、および独自モデルのトレーニングに使用されます。 サードパーティに共有されることは一切ありません。

ユーザーのコードはユーザーの作品であり、以上の通りに取り扱われます。コードの管理権はユーザーにあります。 データ共有の設定は IDE でいつでも変更でき、同意の撤回も即時に行われます。

ご協力ください

AI のトレーニングなどの JetBrains 製品の改善に活用するデータを取得するため、ユーザーのプライバシーを念頭に置いて作成されたデータ共有プログラムをいくつか開始いたします。

  1. 非商用個人ユーザーの場合: データ共有を行わないオプション

一部の IDE については、すでに教育、ホビープロジェクト、オープンソースの作業向けに無料で提供しています。 これらの場合、データ共有はデフォルトで有効化されていますが、詳細なコード関連データの共有はいつでも設定で無効にできます。

  1. 法人利用

組織ライセンスをお持ちのユーザーは、管理者が会社レベルで共有を有効にしている場合にのみ詳細なコード関連データを共有できるようになっています。この措置により、偶発的な知的財産の流出を予防しています。 このオプションについては現在検討中の段階にあるため、データ共有にご協力いただける一部の会社にのみ All Products Pack ライセンスを無料で提供する予定です。 ご興味がございましたら、順番待ちリストにご登録ください。 ご提出いただいた内容を確認した上で、承認結果をお知らせします。

商用ライセンス、無料体験版、無料の Community ライセンス、または EAP ビルドをご利用の個人ユーザーの場合、現時点で変更される内容はありません。 それでも JetBrains へのデータ共有をご希望の場合は、設定と管理者(管理者が存在し、データ共有を許可している場合)を通じてご参加いただけます。 このプログラムへの参加をご希望でない企業のお客様については、変更はございません。管理者が管理を行います。

変更の適用時期

データ共有に関する新しい更新後のオプションは、JetBrains IDE の次期 2025.2.4 アップデートのリリースに合わせて数週間後に公開されます。 非商用ユーザーには、利用規約の更新に関する通知が送信されます。 他の種類のライセンスをお持ちのユーザーについては、過去に同意したことがない限りは変更はありません。 

また、この新しいデータ収集の仕組みに対応するため、JetBrains AI サービス利用規約も更新されています。 

設定箇所

JetBrains IDE のデータ共有を管理する設定は、Settings(設定)| Appearance & Behavior(外観 & 振る舞い)| System Settings(システム設定)| Data Sharing(データ共有)から行ってください。

このプログラムへの参加を希望しない場合、または法的な理由によりご参加いただけない会社の場合は、変更はございません。引き続き、管理者がすべてを管理できます。 管理者は JetBrains Account にある設定を確認できます。

ユーザーの条件に基づく公正な契約

このテーマについては意見が分かれる可能性があることを承知していますが、この変更がツールとユーザーに大きな価値をもたらすと当社は信じています。 当社の意図と行動は明白であり、ユーザーがデータを共有するかどうかの最終的な選択はユーザーに委ねられています。

快く貢献していただける場合は、IDE でデータ共有を有効にするか、会社に順番待ちリストへの登録をご依頼ください。 私たちは実際の開発に応える AI ツールを、安全に、責任を持ち、そして皆さまのコントロールのもとで作り上げていきます。皆様のご協力に感謝いたします。

オリジナル(英語)ブログ投稿記事の作者:

Egor Tolstoy

Egor Tolstoy

Kris Kang

Kris Kang

image description

Discover more