JetBrains AI
Supercharge your tools with AI-powered features inside many JetBrains products
O Mellum2 passa a ser de código aberto: um modelo rápido para fluxos de trabalho de IA
O Mellum2 foi treinado do zero, projetado para implementação prática e criado para roteamento, perguntas e respostas, subagentes e uso privativo de IA em sistemas de engenharia de software.
Hoje estamos abrindo o código do Mellum2, um modelo de 12 bilhões de parâmetros, projetado para resolver as partes mais difíceis da IA em produção: latência, fluxo de saída e custo. O Mellum2 foi criado do zero e está sendo lançado sob a licença Apache 2.0, oferecendo uma alternativa de alto desempenho e bom custo/benefício para a sua infraestrutura.
O Mellum começou fazendo complementação de código, mas agora evoluiu para lidar tanto com código quanto com linguagem natural. Agora ele é uma ferramenta versátil, pronta para atuar em etapas de roteamento, resumo e raciocínio nos seus fluxos de trabalho modernos de IA.
Quer você pretenda fazer experiências, ajustes finos ou implantações em escala, o Mellum2 está pronto para ser executado nos seus próprios sistemas.
Arquitetura e desempenho
O Mellum2 foi projetado para resolver os gargalos de sistemas em escala de produção, através de sua arquitetura e de seu projeto com foco na eficiência e orientado por ela.
- Projeto com “mistura de especialistas” (MoE): o modelo tem 12 bilhões de parâmetros no total, mas como usa um projeto com MoE, apenas 2,5 bilhões de parâmetros ficam ativos para cada token. Isso reduz os custos de computação e possibilita inferência de alto fluxo de saída e baixa latência, para fluxos de trabalho em tempo real.
- Foco especializado: ao contrário de muitos modelos atuais, o Mellum2 não é multimodal. Ele foi treinado especificamente com dados de código e linguagem natural. Essa especialização garante que o modelo seja excelente em ambientes de engenharia de software, sem deixar de ser enxuto e rápido.
No nosso relatório técnico, analisamos em detalhes o desempenho do nosso modelo em benchmarks de geração de código, ciência, matemática e raciocínio. O Mellum2 é competitivo com outros modelos de tamanho semelhante, mas reduz o tempo de inferência a menos da metade — uma vantagem definitiva em implantações em nível de produção.

Principais casos de uso do Mellum2
- Rotear e orquestrar cargas de trabalho de IA: use o Mellum2 para analisar prompts de entrada e ajudar a selecionar a ferramenta ou o modelo certo para cada tarefa.
- Criar pipelines de RAG de baixa latência: recupere o contexto relevante, use o Mellum2 para resumi-lo e gere respostas instantâneas.
- Ativar subagentes rápidos em fluxos de trabalho complexos: Divida pipelines com agentes em etapas, tais como obtenção, planejamento e validação do contexto. Use o Mellum para executar tarefas especializadas rapidamente, em vez de depender de um único modelo grande.
- Possibilitar a implantação privativa e local da IA: execute o Mellum2 localmente ou use auto-hospedagem para manter o código e os dados totalmente sob o seu controle.
A filosofia do “modelo focado”: por que modelos focados escalam melhor
À medida que os sistemas de IA ficam mais complexos, o gargalo de desempenho deixa de ser a capacidade bruta para ser a latência, o fluxo de saída e o custo em escala. Nem toda tarefa precisa do maior modelo. Muitas etapas nos sistemas modernos de IA são repetitivas, sensíveis à latência e de alta frequência. Essas etapas beneficiam-se de um modelo rápido e confiável que possa ser roteado, hospedado e controlado com eficiência.
Na JetBrains, acreditamos que sistemas coordenados são o futuro, não modelos únicos. Modelos de ponta continuarão a expandir os limites, mas produtos práticos de IA também precisam de modelos focados: componentes rápidos e especializados que executem tarefas de alta frequência de forma eficiente.
É este papel que vemos para o Mellum2 na próxima geração de ferramentas de software de IA.
Comece a usar o Mellum2
Se você estiver desenvolvendo sistemas de IA para engenharia de software, seja em um IDE, em um pipeline de RAG, como parte de um fluxo de trabalho com agentes ou inteiramente na sua própria infraestrutura, adoraríamos que você experimentasse o Mellum2.
O código aberto é a forma de criar ferramentas melhores.
Artigo original em inglês por:








