Menu

Modelo de IA com 130 milhões de parâmetros supera gigante de 3 bilhões em geração de imagens

Um novo modelo de inteligência artificial chamado MIND alcançou desempenho impressionante na geração de imagens, usando apenas 130 milhões de parâmetros para superar um concorrente com 3,1 bilhões. O sistema, apresentado em artigo no repositório arXiv, reduz em quase metade a taxa de erro (FID) em relação a arquiteturas amplamente utilizadas, sem depender de orientação […]

sem comentários
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News
Ilustração editorial sobre Modelo de IA com 130 milhões de parâmetros supera gigante de 3 bilhões em geração de imagens. (Ilu
Ilustração editorial sobre Modelo de IA com 130 milhões de parâmetros supera gigante de 3 bilhões em geração de imagens. (Ilustração: Cafezinho / Wan 2.6)

Um novo modelo de inteligência artificial chamado MIND alcançou desempenho impressionante na geração de imagens, usando apenas 130 milhões de parâmetros para superar um concorrente com 3,1 bilhões. O sistema, apresentado em artigo no repositório arXiv, reduz em quase metade a taxa de erro (FID) em relação a arquiteturas amplamente utilizadas, sem depender de orientação externa.

O MIND inova ao combinar uma modelagem explícita da geometria da variedade de dados – a estrutura onde as imagens reais se distribuem – com um mecanismo de difusão contínuo. Essa abordagem híbrida permite capturar padrões de alta frequência e preservar detalhes finos que modelos puramente contínuos costumam perder. Os pesquisadores introduziram uma tokenização discreta em patches, integrada à função de pontuação do modelo de difusão, para quantificar relações estruturais entre regiões da imagem.

Um esquema de agregação soft top-k tornou o treinamento completamente diferenciável, eliminando gargalos de discretização que limitavam modelos anteriores. Camadas duplas de incorporação de características de alta frequência foram acrescentadas para combater o viés espectral dos backbones baseados em transformers, que tendem a suavizar texturas. Na inferência, um esquema de amostragem multi-estágio ajusta dinamicamente a estratégia conforme o passo de difusão, acelerando a geração sem sacrificar a qualidade.

Os testes no conjunto ImageNet 256×256 mostram resultados expressivos: após 80 épocas, o MIND base obteve FID de 22,73 sem qualquer guia, contra 43,47 do baseline DiT-B/2 – uma redução de quase 48%. Em relação ao SiT, a média de melhora foi de 9,06 pontos, superando todos os concorrentes de porte equivalente. Com orientação, o modelo de 130 milhões de parâmetros (MIND-B) alcançou FID de 2,06, ultrapassando o LlamaGen-3B (FID 2,35) que possui 24 vezes mais parâmetros.

A versão ampliada (MIND-XL), com 715 milhões de parâmetros, baixou ainda mais o FID para 1,95, estabelecendo um novo patamar para a geração condicionada de imagens. A eficiência paramétrica do MIND tem implicações diretas para a democratização da IA, pois reduz drasticamente os custos computacionais de treino e inferência. Países e instituições com menos acesso a hardware de ponta podem se beneficiar de modelos de alto desempenho sem depender de infraestruturas bilionárias controladas por grandes corporações.

O código-fonte do modelo será disponibilizado publicamente, conforme anunciado no artigo, reforçando o compromisso com a reprodutibilidade científica e a inovação aberta. A publicação no arXiv, principal repositório livre de pré-prints do mundo, garante acesso universal ao conhecimento gerado. A arquitetura do MIND representa uma contribuição original para a comunidade de visão computacional, pois demonstra que a modelagem explícita da geometria da variedade de dados é superior aos métodos puramente contínuos ou discretos.

Ao emular a compactação densa da informação latente, o modelo se aproxima da forma como o cérebro humano processa padrões visuais. O avanço ocorre num momento em que a geração de imagens por IA enfrenta críticas sobre consumo energético e concentração de poder tecnológico nos Estados Unidos e em algumas poucas empresas. Soluções como o MIND, que entregam mais com menos recursos, apontam para um ecossistema multipolar, no qual a inovação eficiente rompe a lógica de dependência de capital concentrado.

Apoie o Cafezinho
Siga-nos no Siga-nos no Google News

Comentários

Os comentários aqui postados são de responsabilidade exclusiva de seus autores e não representam a opinião do site O CAFEZINHO. Todos as mensagens são moderadas. Não serão aceitos comentários com ofensas, com links externos ao site, e em letras maiúsculas. Em casos de ofensas pessoais, preconceituosas, ou que incitem o ódio e a violência, denuncie.

Escrever comentário

Escreva seu comentário

Nenhum comentário ainda, seja o primeiro!


Leia mais

Recentes

Recentes