Bessere KI erfordert bessere Daten: Wir brauchen Ihre Hilfe
TL;DR
Trotz der bemerkenswerten Fortschritte in den letzten Jahren erfüllen KI-Systeme nicht immer die Anforderungen von Berufsentwickler*innen. Ein wesentlicher Grund dafür ist, dass die meisten Modelle mit öffentlichen Datensammlungen trainiert wurden, die nicht die komplexen Praxisszenarien widerspiegeln, mit denen Berufsentwickler*innen täglich konfrontiert sind. Ohne solche Daten aus der Praxis können unsere KI-Tools nicht zufriedenstellend funktionieren. Um sie zu verbessern, muss JetBrains – wie der Rest der Branche – Lehren aus der tatsächlichen Nutzung ziehen.
Dabei bitten wir unsere Benutzer*innen um Unterstützung, und zwar auf folgende Weise:
- Unternehmen: Admins können die Datenübermittlung auf der Unternehmensebene aktivieren. Um Early Adopter zu unterstützen, bieten wir Organisationen, die sich zur Teilnahme an diesem Programm während der Erkundungsphase bereit erklären, eine begrenzte Anzahl kostenloser Abonnements für das All Products Pack an. Für Unternehmen, die nicht teilnehmen möchten, ändert sich nichts, und die Admins behalten – wie immer – die Kontrolle.
- Nutzer*innen von nichtkommerziellen Lizenzen: Die Datenübermittlung ist standardmäßig aktiviert, kann jedoch in den Einstellungen jederzeit deaktiviert werden.
- Personen, die kommerzielle Lizenzen, kostenlose Testversionen, kostenlose Community-Lizenzen oder EAP-Builds verwenden: Keine Änderungen. Sie können weiterhin in den Einstellungen die Datenübermittlung an JetBrains zulassen (sofern Ihr Admin, wenn Sie einen verwalteten Account haben, dies erlaubt hat).
KI verändert die Softwareentwicklung, ist aber nach wie vor nur ein Werkzeug
Seit über 25 Jahren entwickelt JetBrains professionelle Entwicklungstools, die Ihnen helfen, Ihre Visionen in Code umzusetzen und dabei den Entwicklungsprozess zu genießen. Wir betrachten KI als ein revolutionäres Instrument zur Erfüllung dieser Mission, aber trotz der bemerkenswerten Fortschritte im KI-Bereich sind wir uns bewusst, dass es Verbesserungspotenzial gibt. Derzeit können KIs bereits bei zahlreichen Aufgaben Unterstützung bieten und erzielen in einfachen und klar definierten Anwendungsfällen beeindruckende Ergebnisse. Allerdings lässt die Qualität der Ergebnisse in komplexen Szenarien, wie sie typischerweise in professionellen Entwicklungsumgebungen auftreten, schnell nach, was zu Fehlern, logischen Brüchen oder sogar zu erfundenem Code führen kann.
Dateninputs und Rückmeldungen sind zur Verbesserung von KIs unerlässlich
Alle KI-Schichten können trainiert, entwickelt und verbessert werden, und die Ergebnisse hängen von der Qualität der Dateninputs und Rückmeldungen ab. Die meisten LLMs werden heute mit denselben öffentlich zugänglichen Datensammlungen trainiert, und größere Unternehmen beginnen gerade erst, Benutzerfeedback aus der realen Welt für eine weitere Verbesserung der Modellperformance einzusetzen. Das Ergebnis? KI-Tools, die sich hervorragend für einfache Aufgaben und neu gestartete Projekte eignen, jedoch an realen Problemen und an der Anpassung an bestehende Codebestände scheitern. Die LLM-Anbieter sind sich dieses Problems bewusst und haben begonnen, ihre Herangehensweise an die Datenbeschaffung weiterzuentwickeln.
Theoretisch liegt die Antwort direkt vor unserer Nase. Unsere IDEs unterstützen Millionen Berufsentwickler*innen in ihrem Arbeitsalltag – von der Erledigung von Routineaufgaben bis hin zur Lösung komplexer technischer Probleme. Genau diese Daten könnten zur Optimierung unserer Modelle verwendet werden. Wir wissen jedoch auch, wie sensibel dieses Thema ist. Bestimmte Informationen müssen vertraulich bleiben, da Ihre Lösungen Ihr geistiges Eigentum sind und Ihr gesamtes Geschäft häufig aus Ihrem Code besteht.
Um die Annahme zu überprüfen, dass reale Daten tatsächlich die KI-Ergebnisse verbessern können, haben wir kürzlich damit begonnen, solche Daten innerhalb unseres Unternehmens zu sammeln und sie in das Training unserer Modelle einfließen zu lassen. Die bisherigen Ergebnisse sind vielversprechend, für weitere Fortschritte müssen wir jedoch die Menge und Vielfalt der verwendeten Daten ausweiten.
Wir berücksichtigen individuelle und unternehmensweite Datenschutzrichtlinien und bitten Sie transparent um Ihre Zustimmung zur Erfassung dieser Daten. Die Entscheidung über die Übermittlung von Daten obliegt stets Ihnen. Es handelt sich niemals eine Verpflichtung. Sollten Sie sich entschließen, uns zu unterstützen, werden alle von Ihnen übermittelten Daten verantwortungsvoll und in voller Übereinstimmung mit dem EU-Datenschutzrecht verarbeitet. Durch Ihre Unterstützung tragen Sie dazu bei, KI-Tools intelligenter, sicherer und für die gesamte Entwicklungscommunity nützlicher zu gestalten. Wir wären Ihnen für Ihre Unterstützung sehr dankbar.
Was wird sich konkret verbessern?
Durch die Übermittlung Ihrer Daten tragen Sie zur Entwicklung der Tools bei, die Sie täglich nutzen. Ihre Daten helfen JetBrains in den folgenden Bereichen:
- Erkennen und Herausfiltern von unsicherem Code, wodurch die Wahrscheinlichkeit sinkt, dass solcher Code in Ihren Codebestand gelangt. Dies ist besonders wichtig, da immer mehr Teams längere Aufgaben an Coding-Agents delegieren, ohne eine robuste Sicherheits- und Teststrategie zu haben.
- Bewältigung von volumenintensiven, aber einfachen Aufgaben zu geringeren Kosten, als dies mit einem Basismodell allein möglich wäre.
- Vorteile für Sie in der Form von intelligenteren Completion-Vorschlägen, klareren Erklärungen, weniger Fehlalarmen und einer KI, die professionelle Arbeitsabläufe wirklich versteht – und nicht nur künstliche Beispiele von schwankender Qualität in Sprachen bereitstellt, die im Internet überrepräsentiert sind. Wir entwickeln dies für aktive Programmierer*innen, und Ihre praktischen Anwendungsfälle sind dabei von entscheidender Bedeutung.
Es ist uns auch wichtig, etwas zurückzugeben. So ist zum Beispiel Mellum – unser speziell für Code-Completion entwickeltes LLM – quelloffen und auf Hugging Face und Amazon Bedrock verfügbar.
Zwei Datenebenen
- Derzeit erfassen unsere Produkte anonyme Telemetriedaten – allgemeine, anonyme Statistiken über die Nutzung von Funktionen (z. B. Nutzungsdauer, Klicks oder allgemeine Arbeitsabläufe).
- Wir bieten nun die Möglichkeit, die Erfassung detaillierter codebezogener Daten im Zusammenhang mit IDE-Aktivitäten zu erlauben, darunter den Bearbeitungsverlauf, die Terminalnutzung und Ihre Interaktionen mit KI-Funktionen. Dies kann Codeabschnitte, Textprompts und KI-Antworten umfassen.
Das hört sich nach viel an, und das ist es auch, aber genau darin liegt das wirkliche Verbesserungspotenzial. Wenn Sie uns die Erhebung dieser Daten erlauben, stellen wir Folgendes sicher:
- Es werden keine sensiblen oder persönlichen Daten übermittelt.
- Die Daten werden ordnungsgemäß gesichert.
- Der Zugang ist auf autorisiertes Personal und autorisierte Anwendungsfälle beschränkt.
Erfahren Sie mehr darüber, welche Daten erhoben und wie sie geschützt werden.
Anonyme Telemetriedaten sind entscheidend für die Bewertung der Nutzung und Performance von Funktionen. Detaillierte codebezogene Daten sind unverzichtbar für das Training spezialisierter Modelle wie Mellum, die für einen konkreten Zweck – beispielsweise Generierungsgeschwindigkeit, Kosteneffizienz oder Korrektheit bei komplexen professionellen Aufgaben in großen Codebeständen – optimal geeignet sind. Sie leisten auch einen grundlegenden Beitrag zur Feedbackschleife und zu schnelleren Iterationen bei allen KI-Funktionen, die wir entwickeln.
Wir verwenden diese Daten für Produktanalysen und Modellbewertungen sowie zum Training unserer eigenen Modelle, mit dem alleinigen Ziel, die Leistung unserer Produkte in Ihrem Arbeitsalltag zu verbessern. Wir werden diese Daten nicht an Dritte weitergeben.
Ihr Code ist Ihr Handwerk, und so behandeln wir ihn auch – Sie haben die vollständige Kontrolle. Sie können Ihre Einstellungen zur Datenübermittlung jederzeit in der IDE ändern und Ihre Zustimmung mit sofortiger Wirkung widerrufen.
Sind Sie bereit zu helfen?
Um Daten zur Verbesserung unserer Produkte, darunter auch das Training von KI-Modellen, zu erhalten, führen wir mehrere Programme zur Datenübermittlung ein, und bei allen steht der Schutz Ihrer Daten im Mittelpunkt:
- Nichtkommerzielle Nutzer*innen: Opt-out-Möglichkeit
Wir stellen einige unserer IDEs kostenlos für Bildungszwecke, Hobbyprojekte und Open-Source-Entwicklung bereit. In diesen Fällen ist die Datenübermittlung standardmäßig aktiviert, aber die Übermittlung detaillierter codebezogener Daten kann jederzeit in den Einstellungen deaktiviert werden.
- Für Organisationen
Benutzer*innen von Organisationslizenzen können detaillierte codebezogene Daten nur dann übermitteln, wenn ein Admin die Übermittlung auf Unternehmensebene aktiviert hat, sodass versehentliche Lecks von geistigem Eigentum verhindert werden. Da sich diese Option derzeit noch in der Testphase befindet, werden wir ausgewählten Unternehmen, die zur Datenübermittlung bereit sind, kostenlose All-Products-Pack-Lizenzen bereitstellen. Tragen Sie sich gerne in die Warteliste ein, falls Sie Interesse haben. Wir werden die Anmeldungen prüfen und Sie benachrichtigen, wenn Sie zugelassen wurden.
Für Personen, die kommerzielle Lizenzen, kostenlose Testversionen, kostenlose Community-Lizenzen oder EAP-Builds nutzen, ändert sich vorerst nichts. Sie können weiterhin in den Einstellungen die Datenübermittlung an JetBrains zulassen (sofern Ihr Admin, wenn Sie einen verwalteten Account haben, dies erlaubt hat). Für Unternehmen, die sich nicht für das Programm anmelden möchten, ändert sich nichts, und die Kontrolle verbleibt bei den Admins.
Wann werden die Änderungen eingeführt?
Die neuen und aktualisierten Optionen für die Datenübermittlung werden in den nächsten Wochen mit dem bevorstehenden Update 2025.2.4 der JetBrains-IDEs veröffentlicht. Nichtkommerzielle Benutzer*innen werden über die Aktualisierung der Nutzungsbedingungen informiert. Für Inhaber*innen anderer Lizenztypen, die keine Zustimmung erteilt haben, ändert sich nichts.
Wir haben außerdem die JetBrains-AI-Nutzungsbedingungen geändert, um die neuen Ansätze zur Datenerfassung zu berücksichtigen.
Wo finde ich die Einstellungen?
Die Einstellungen zur Verwaltung der Datenübermittlung in JetBrains-IDEs finden Sie unter Settings | Appearance & Behavior | System Settings | Data Sharing:

Für Unternehmen, die sich nicht für das Programm anmelden möchten oder aus rechtlichen Gründen nicht teilnehmen können, ändert sich nichts, und ihre Admins behalten die vollständige Kontrolle. Admins können die Einstellungen in ihrem JetBrains-Account überprüfen:

Ein fairer Deal zu Ihren Bedingungen
Wir wissen, dass dies ein kontroverses Thema ist, wir sind jedoch fest überzeugt vom Mehrwert, den diese Änderung für unsere Tools und für Sie bietet. Wir legen unsere Absichten und Aktionen offen auf den Tisch, und die endgültige Entscheidung über die Datenübermittlung liegt bei Ihnen.
Wenn Sie gerne beitragen möchten, aktivieren Sie bitte die Datenübermittlung in Ihrer IDE oder setzen Sie Ihr Unternehmen auf die Warteliste. Vielen Dank, dass Sie uns dabei unterstützen, KI-Tools zu entwickeln, die den Anforderungen der realen Softwareentwicklung gerecht werden – sicher, verantwortungsvoll und unter Ihrer Kontrolle.
Autor*innen des ursprünglichen Blogposts