News

Cuanto mejores sean los datos, mejor será la IA: necesitamos su ayuda

Read this post in other languages:

TL;DR

A lo largo de los últimos años, la IA ha evolucionado notablemente, pero no siempre responde a las necesidades de los desarrolladores profesionales. Esto se debe principalmente a que la mayoría de los modelos se entrenan con conjuntos de datos públicos que no reflejan los escenarios complejos del mundo real a los que se enfrentan diariamente los profesionales. Sin esos datos del mundo real, nuestras herramientas de IA siempre se quedarán cortas. Para mejorarlas, JetBrains —como el resto del sector— necesita aprender del uso real.

Estamos pidiendo a nuestros usuarios que nos ayuden con esto del modo siguiente:

  • Para empresas: los administradores pueden habilitar la opción de compartir los datos en toda la empresa. Para apoyar a los primeros usuarios, estamos ofreciendo un número limitado de suscripciones gratuitas al All Products Pack a organizaciones que deseen participar en la fase de exploración de este programa. Para las empresas que no deseen participar en el programa, nada cambiará; como siempre, los administradores tienen el control.
  • Para particulares con licencias no comerciales: la opción de compartir datos está activada de forma predeterminada, pero puede desactivarla cuando quiera en la configuración.
  • Para particulares que utilizan licencias comerciales, pruebas gratuitas, licencias de comunidad gratuitas o versiones de acceso anticipado: no cambia nada. No obstante, puede escoger compartir datos con JetBrains a través de la configuración si lo desea (y si sus administradores, si los hay, lo permiten).

La IA está cambiando la forma de crear software, pero sigue siendo una herramienta

JetBrains lleva más de 25 años creando herramientas de desarrollo profesionales que le permiten convertir su visión en código, al tiempo que disfruta del proceso de desarrollo. Vemos la IA como una herramienta revolucionaria para avanzar en esta misión y, aunque el progreso ha sido significativo, sabemos que aún puede mejorarse. Actualmente la IA ya ayuda con muchas tareas, y obtiene resultados fantásticos para casos sencillos y bien definidos. Pero la calidad de sus resultados se degrada en gran medida en escenarios complejos típicos de los entornos de desarrollo profesional, lo que da lugar a errores, lagunas en la lógica o incluso código inventado.

Los datos de entrada y las señales de retroalimentación son esenciales para que la IA funcione mejor

Todas las capas de IA se pueden entrenar, diseñar y mejorar, y los resultados que ofrecen dependen de la calidad de los datos de entrada y de las señales de retroalimentación. Hoy en día, la mayoría de los LLM se entrenan con los mismos conjuntos de datos disponibles públicamente, y estamos solo al principio de la fase en que las grandes empresas adoptan la retroalimentación de los usuarios del mundo real en bucle cerrado para mejorar aún más el rendimiento del modelo. ¿El resultado? Herramientas de IA que son estupendas para tareas sencillas y proyectos totalmente nuevos, pero que no consiguen resolver problemas reales ni adaptarse adecuadamente a las bases de código existentes. Los proveedores de LLM lo reconocen, y sus enfoques de recopilación de datos han empezado a evolucionar.

En teoría, la respuesta está justo ante nuestros ojos. Nuestros IDE ayudan a millones de desarrolladores profesionales a llevar a cabo las tareas cotidianas, desde las más aburridas y rutinarias hasta la resolución de los problemas de ingeniería más avanzados. Esos son precisamente los datos que podrían utilizarse para perfeccionar nuestros modelos. Pero también sabemos lo delicado que es esto. Hay datos que deben permanecer privados, ya que sus soluciones son su propiedad intelectual y todo su negocio está a menudo en su código.

Para validar la idea de que los datos reales pueden mejorar de verdad los resultados de la IA, hace poco empezamos a recopilar este tipo de datos dentro de nuestra empresa y a aplicarlos para entrenar nuestros modelos. Los resultados hasta ahora han sido prometedores, pero para dar el siguiente paso, necesitamos ampliar la cantidad y variedad de datos que utilizamos.

Respetamos las políticas de privacidad de particulares y empresas, y somos transparentes a la hora de pedirle permiso para recopilar estos datos. Compartir los datos siempre es su elección, nunca una obligación. Si decide ayudarnos, todos los datos que comparta se tratarán de forma responsable, cumpliendo estrictamente la legislación de la UE en materia de protección de datos. Si participa, nos ayudará a crear herramientas de IA más inteligentes, seguras y útiles para toda la comunidad de desarrolladores. Le estaríamos muy agradecidos por su colaboración.

Qué mejorará exactamente

Compartiendo sus datos, contribuirá a dar forma a las herramientas en las que confía cada día. Sus datos ayudarán a JetBrains a garantizar lo siguiente:

  1. El código no seguro se detecta y se filtra, con lo que es menos probable que se cuele en su base de código. Esto es especialmente importante, ya que cada vez más equipos están empezando a delegar tareas de mayor duración en agentes de codificación que no cuentan con una sólida postura en cuanto a la seguridad y las pruebas.
  2. Podemos realizar tareas de gran volumen y baja complejidad a un coste inferior al que sería posible utilizando solo un modelo fundacional.
  3. Usted disfruta de una finalización de código más inteligente, explicaciones más claras, menos falsos positivos y una IA que entiende de verdad los flujos de trabajo profesionales, no solo ejemplos artificiales en lenguajes sobrerrepresentados de la web, donde la calidad del código puede no ser consistente. Hacemos esto para ayudar a los desarrolladores en activo, y sus casos de uso reales marcan la diferencia.

También nos comprometemos a dar algo a cambio. Por ejemplo, Mellum —nuestro LLM especializado en finalización de código— es de código abierto y está disponible en Hugging Face y Amazon Bedrock.

Dos capas de datos

  1. Actualmente, nuestros productos recopilan telemetría anónima: estadísticas generalizadas y anónimas sobre cómo se utilizan las funcionalidades (como el tiempo empleado, los clics o los flujos de trabajo generales).
  1. Ahora estamos añadiendo la opción de permitir la recopilación de datos detallados relacionados con el código y pertenecientes a la actividad del IDE, como el historial de ediciones, el uso del terminal y sus interacciones con las funcionalidades de IA. Esto puede incluir fragmentos de código, texto de peticiones y respuestas de IA.

    Parece mucho, y lo es, pero ahí radica el verdadero valor de las mejoras. Si nos permite recopilar estos datos, nos aseguraremos de que:
  • No se comparte ninguna información sensible ni personal. 
  • Los datos están debidamente protegidos. 
  • El acceso está restringido al personal y a los casos de uso autorizados. 


Lea más sobre qué datos se recopilan y cómo se protegen.

La telemetría anónima es fundamental para evaluar el uso y el rendimiento de las funcionalidades. Los datos detallados relacionados con el código son esenciales para entrenar modelos especializados como Mellum, que son los más adecuados para un fin específico, como la velocidad de generación, la rentabilidad o la precisión en tareas profesionales complejas que implican grandes bases de código. También es fundamental para el ciclo de retroalimentación y para iteraciones más rápidas sobre cualquier funcionalidad de IA que estemos creando.

Utilizaremos estos datos para el análisis de productos y la evaluación de modelos, así como para entrenar nuestros propios modelos, con el único fin de que nuestros productos funcionen mejor en su trabajo diario. No compartiremos estos datos con terceros.

Su código es suyo, y así lo trataremos: usted tiene todo el control. Puede cambiar sus preferencias de compartir datos en el IDE en cualquier momento, y retirar su consentimiento con efecto inmediato.

¿Listo para ayudar?

Con el fin de obtener datos para mejorar nuestros productos, incluido el entrenamiento de la IA, estamos lanzando varios programas de intercambio de datos, todos ellos diseñados teniendo en cuenta su privacidad:

  1. Para usuarios no comerciales: opción de retirar el consentimiento

Ya proporcionamos algunos de nuestros IDE sin coste alguno para la educación, proyectos de aficionados y trabajo de código abierto. En estos casos, la opción de compartir datos estará activada de forma predeterminada, pero compartir datos detallados relacionados con el código puede desactivarse en cualquier momento desde la configuración.

  1. Para organizaciones

Los usuarios con licencias de organización solo pueden compartir datos detallados relacionados con el código si un administrador habilita el uso compartido a nivel de empresa, para evitar así fugas accidentales de propiedad intelectual. Como todavía estamos en la fase exploratoria de esta opción, ofreceremos licencias gratuitas del All Products Pack a una selección de empresas dispuestas a compartir datos. Puede unirse a la lista de espera si le interesa. Revisaremos las solicitudes y le avisaremos si se aprueba la suya.

Para las personas que utilicen licencias comerciales, pruebas gratuitas, licencias de comunidad gratuitas o compilaciones EAP, por ahora no cambia nada. No obstante, puede escoger compartir datos con JetBrains en la configuración si lo desea (y si sus administradores, si los hay, lo permiten). Para las empresas que no estén dispuestas a participar en el programa, nada cambia, y los administradores tienen el control.

Cuándo se producirán los cambios

Las opciones nuevas y actualizadas para compartir datos se publicarán en las próximas semanas con la próxima actualización 2025.2.4 de los JetBrains IDEs. Los usuarios no comerciales recibirán una notificación sobre las actualizaciones de las condiciones de uso. Para los titulares de otros tipos de licencias, si nunca dio su consentimiento, nada cambiará. 

También hemos introducido cambios en las Condiciones de servicio de JetBrains AI para asegurarnos de que los nuevos mecanismos de recopilación de datos estén contemplados. 

Dónde están los ajustes

Puedes encontrar los ajustes que controlan la opción de compartir los datos en los JetBrains IDEs en Settings | Appearance & Behavior | System Settings | Data Sharing:

Para las empresas que no quieran o, por motivos legales, no puedan acceder al programa, no cambia nada, y sus administradores siguen teniendo el control total. Los administradores pueden comprobar la configuración en su cuenta de JetBrains:

Un acuerdo justo, según sus términos

Sabemos que este tema puede ser controvertido, pero creemos de verdad en el valor que este cambio puede aportar a nuestras herramientas y a usted. Somos transparentes sobre nuestras intenciones y acciones, y la decisión final sobre si compartir o no sus datos depende de usted.

Si no tiene problema en contribuir, habilite la opción de compartir datos en su IDE o añada a su empresa a la lista de espera. Gracias por ayudarnos a crear herramientas de IA que respondan a las exigencias del desarrollo en el mundo real, de forma segura, responsable y bajo su control.

Artículo original en inglés de:

Egor Tolstoy

Egor Tolstoy

Kris Kang

Kris Kang

image description

Discover more