News

Uma melhor IA depende de dados melhores: precisamos da sua ajuda

Read this post in other languages:

TL;DR

Nos últimos anos, a IA teve um progresso notável, mas ela nem sempre entrega aquilo de que os desenvolvedores profissionais precisam. Uma das principais razões para isso é que a maioria dos modelos é treinada em conjuntos de dados públicos, que não refletem os cenários complexos do mundo real que os desenvolvedores profissionais encontram todos os dias. Sem esses dados do mundo real, nossas ferramentas de IA deixarão a desejar. Para melhorá-las, a JetBrains — assim como as outras empresas do setor — precisa aprender com o uso real.

Estamos pedindo aos nossos usuários que nos ajudem com isso. É assim que funciona:

  • Para empresas: Administradores podem habilitar o compartilhamento de dados em nível de empresa. Para apoiar os pioneiros nessa liberação, estamos oferecendo um número limitado de assinaturas gratuitas do All Products Pack para as organizações dispostas a participarem na nossa exploração desse programa. Nada muda para as empresas que não aceitarem entrar para esse programa e, como sempre, os administradores continuam no controle.
  • Para pessoas físicas com licenças não comerciais: O compartilhamento de dados é ativado como padrão, mas você pode desativá-lo a qualquer momento nas configurações.
  • Para pessoas físicas com licenças comerciais, avaliações gratuitas, licenças gratuitas da comunidade ou versões de acesso antecipado: Nada muda. Você ainda poderá entrar para o programa através das configurações, se você estiver disposto a compartilhar os seus dados com a JetBrains (e se os seus administradores, se houver, permitirem isso).

A IA está mudando a maneira de desenvolver software, mas ainda é apenas uma ferramenta

Por mais de 25 anos, a JetBrains vem criando ferramentas profissionais de desenvolvimento que dão a você o poder de transformar a sua visão em código e ter prazer nesse processo. Vemos a IA como uma ferramenta revolucionária para o progresso dessa missão, mas apesar de a evolução da IA ter sido significativa, sabemos que ela ainda pode melhorar. Atualmente, a IA já ajuda em muitas tarefas e vem mostrando resultados impressionantes em casos simples e bem definidos. Mas a qualidade de sua saída degrada-se rapidamente em cenários complexos que ocorrem rotineiramente em ambientes profissionais de desenvolvimento. Isso leva a erros, lacunas de lógica ou até a código com alucinações.

Dados de entrada e sinais de feedback são essenciais para fazer a IA funcionar melhor

Todas as camadas da IA podem ser treinadas, modificadas e melhoradas, mas os resultados que elas entregam dependem da qualidade dos dados de entrada e dos sinais de feedback. Atualmente, a maioria dos LLMs é treinada com os mesmos conjuntos de dados disponíveis publicamente e estamos apenas começando a ver empresas maiores adotarem feedback do mundo real e em circuito fechado, fornecido pelos usuários, para melhorar ainda mais o desempenho de seus modelos. O resultado? Ferramentas de IA que são ótimas para tarefas simples e projetos totalmente novos, mas não conseguem resolver problemas reais e se adaptar às bases de código já existentes. Os provedores de LLMs reconhecem esse problema e suas abordagens de coleta de dados já começaram a evoluir.

Na teoria, a resposta está bem diante de nós. Nossos IDEs ajudam milhões de desenvolvedores profissionais a executarem tarefas diárias — desde tarefas rotineiras monótonas até a resolução dos problemas mais complexos de engenharia. Esses são exatamente os dados que poderiam ser usados para refinar nossos modelos. Mas também sabemos o quanto isso é sensível. Algumas informações precisam ficar em sigilo, pois as suas soluções são sua propriedade intelectual e, muitas vezes, todo o seu negócio está no seu código.

Para validarmos a ideia de que dados reais podem realmente melhorar os resultados da IA, recentemente começamos a coletar esse tipo de dados dentro da nossa empresa e a usá-los para treinar nossos modelos. Até agora, os resultados têm sido promissores, mas para prosseguirmos, precisamos escalar a quantidade e a variedade dos dados que usamos.

Respeitamos as políticas de privacidade, tanto pessoais quanto empresariais, e somos transparentes ao pedirmos a sua permissão para coletar esses dados. Compartilhar os dados é sempre uma escolha sua. Nunca é uma obrigação. Se você decidir ajudar, quaisquer dados que você compartilhar serão tratados de forma responsável, em total conformidade com as leis de proteção de dados da União Europeia. Ao contribuir, você nos ajudará a tornar as ferramentas de IA mais inteligentes, seguras e úteis para toda a comunidade dos desenvolvedores. Ficaremos verdadeiramente gratos pela sua cooperação.

O que exatamente ficará melhor

Ao compartilhar os seus dados, você dará forma às ferramentas das quais você depende todos os dias. Seus dados ajudarão a JetBrains a garantir que:

  1. Código inseguro seja detectado, filtrado e eliminado, tornando menos provável que ele seja introduzido na sua base de código. Isto é especialmente importante, porque mais equipes estão começando a delegar tarefas de longa duração a agentes de programação, sem que haja uma postura forte de segurança e testes.
  2. Possamos lidar com tarefas de alto volume e baixa inteligência a custos menores do que seria possível usando apenas um modelo básico.
  3. Você se beneficie de uma complementação mais inteligente do código, explicações mais claras, menos falsos positivos e uma IA que realmente compreenda os fluxos de trabalho profissionais e não apenas exemplos artificiais em linguagens super-representadas da Web, onde a qualidade do código pode ser inconsistente. Estamos criando isto para desenvolvedores em atividade e os seus casos de uso do mundo real fazem toda a diferença.

Também temos o compromisso de retribuir. Por exemplo, o Mellum, nosso LLM criado especificamente para complementação de código, é de código aberto e está disponível no Hugging Face e no Amazon Bedrock.

Duas camadas de dados

  1. Atualmente, nossos produtos coletam dados anônimos de telemetria — estatísticas generalizadas e anônimas sobre como os recursos são usados (tais como o tempo gasto, o número de cliques ou os fluxos gerais de trabalho).
  1. Agora estamos adicionando a opção de permitir a coleta de dados detalhados relativos ao código, referentes à atividade do IDE, tais como o histórico de edições, o uso do terminal e as suas interações com os recursos de IA. Isso pode incluir trechos de código, o texto de prompts e respostas da IA.

    Parece muito e é mesmo, mas é daí que vêm os dados verdadeiramente valiosos para fazermos melhorias. Se você permitir que coletemos esses dados, garantiremos que:
  • Nenhuma informação pessoal ou sensível será compartilhada. 
  • Os dados serão mantidos adequadamente em segurança. 
  • O acesso estará restrito a pessoas e casos de uso autorizados. 


Leia mais sobre quais dados são coletados e como eles são protegidos.

A telemetria anônima é crítica para avaliar o uso e o desempenho dos recursos. Dados detalhados referentes ao código são essenciais para treinar modelos especializados, como o Mellum, que são mais adequados a uma finalidade específica, como a velocidade de geração, a eficiência de custos ou a precisão em tarefas profissionais complexas que envolvam grandes bases de código. Eles também são fundamentais para o circuito de feedback e para iterações mais rápidas de quaisquer recursos de IA que estejamos criando.

Usaremos esses dados para análise de produtos e avaliação de modelos, e também para treinarmos nossos próprios modelos, com a única finalidade de fazermos nossos produtos terem um melhor desempenho no seu trabalho diário. Não compartilharemos esses dados com terceiros.

Seu código é uma criação sua e nós o trataremos como tal — você estará totalmente no controle. Você pode mudar as suas preferências de compartilhamento de dados a qualquer momento no IDE e pode retirar o seu consentimento, com efeito imediato.

Pronto para ajudar?

Para obtermos dados para a melhoria dos nossos produtos, incluindo o treinamento de IA, estamos lançando vários programas de compartilhamento de dados, todos projetados pensando na sua privacidade:

  1. Para usuários não comerciais: opção de retirar o consentimento

Já fornecemos alguns dos nossos IDEs gratuitamente para trabalho em educação, projetos como hobby e de código aberto. Nesses casos, o compartilhamento de dados será ativado como padrão, mas o compartilhamento de dados detalhados relacionados ao código poderá ser desativado a qualquer momento nas configurações.

  1. Para empresas

Usuários com licenças de organizações só poderão compartilhar dados detalhados relacionados ao código se um administrador ativar o compartilhamento em nível da empresa, evitando vazamentos acidentais de propriedade intelectual. Como ainda estamos na fase de exploração dessa opção, ofereceremos licenças gratuitas do All Products Pack a um número limitado de empresas dispostas a compartilharem seus dados. Se você tiver interesse, entre na lista de espera. Revisaremos as solicitações e notificaremos se a sua for aprovada.

Para pessoas físicas com licenças comerciais, avaliações gratuitas, licenças gratuitas da comunidade ou versões de acesso antecipado, nada muda por enquanto. Você ainda poderá entrar para o programa através das configurações, se você estiver disposto a compartilhar os seus dados com a JetBrains (e se os seus administradores, se houver, permitirem isso). Nada muda para as empresas que não aceitarem entrar para esse programa e os administradores continuam no controle.

Quando ocorrerão as mudanças

As opções novas e atualizadas de compartilhamento de dados serão implementadas nas próximas semanas, com a futura versão 2025.2.4 dos JetBrains IDEs. Os usuários não comerciais receberão uma notificação sobre as atualizações nos termos de uso. Quanto aos usuários com outros tipos de licenças, se eles nunca tiverem dado seu consentimento, nada mudará. 

Também introduzimos mudanças nos Termos de Serviço do JetBrains AI, para garantirmos que eles incluam os novos mecanismos de coleta de dados. 

Onde encontrar as configurações

Você encontra as configurações que controlam o compartilhamento de dados nos JetBrains IDEs em Settings | Appearance & Behavior | System Settings | Data Sharing:

Nada muda para as empresas que não aceitarem ou, por razões legais, não puderem entrar para esse programa, e seus administradores continuam com o controle total. Os administradores podem conferir as configurações localizadas em sua conta da JetBrains:

Um acordo justo, nos seus termos

Sabemos que este assunto pode ser polarizador, mas realmente acreditamos no valor que esta mudança pode agregar às nossas ferramentas e a você. Somos transparentes quanto às nossas intenções e ações, e a escolha final sobre compartilhar ou não os seus dados é toda sua.

Se você se sentir confortável em contribuir, ative o compartilhamento de dados no seu IDE ou coloque a sua empresa na lista de espera. Obrigado por nos ajudar a criar ferramentas de IA que atendem às necessidades do desenvolvimento no mundo real — de forma segura, responsável e sob o seu controle.

Artigo original em inglês por:

Egor Tolstoy

Egor Tolstoy

Kris Kang

Kris Kang

image description

Discover more