Menu

Cosmos 3 integra todas as modalidades de IA em único modelo e é liberado como código aberto

Pesquisadores apresentaram o Cosmos 3, um novo modelo de inteligência artificial que unifica pela primeira vez o processamento simultâneo de linguagem, imagem, vídeo, áudio e sequências de ação em uma única arquitetura. O sistema, descrito em artigo publicado no repositório arXiv, foi projetado como espinha dorsal para agentes físicos inteligentes, como robôs e sistemas autônomos. […]

sem comentários
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News
Ilustração editorial sobre Cosmos 3 integra todas as modalidades de IA em único modelo e é liberado como código aberto. (Ilus
Ilustração editorial sobre Cosmos 3 integra todas as modalidades de IA em único modelo e é liberado como código aberto. (Ilustração: Cafezinho / Wan 2.6)

Pesquisadores apresentaram o Cosmos 3, um novo modelo de inteligência artificial que unifica pela primeira vez o processamento simultâneo de linguagem, imagem, vídeo, áudio e sequências de ação em uma única arquitetura. O sistema, descrito em artigo publicado no repositório arXiv, foi projetado como espinha dorsal para agentes físicos inteligentes, como robôs e sistemas autônomos.

Sua arquitetura, baseada em uma mistura de transformadores (mixture-of-transformers), permite que o mesmo modelo execute tarefas de compreensão e geração em todas essas modalidades, eliminando a necessidade de modelos separados para cada tipo de dado. Os resultados de testes mostram que o Cosmos 3 estabelece novo estado da arte em uma ampla gama de tarefas, desde geração de imagens a partir de texto até a previsão de ações para robôs.

Segundo o levantamento independente Artificial Analysis, as versões pós-treinadas do Cosmos 3 foram classificadas como os melhores modelos de código aberto para geração texto-imagem e imagem-vídeo. Além disso, a plataforma RoboArena apontou o modelo como o melhor entre as políticas de ação para robôs, destacando sua capacidade de operar no mundo físico.

Comprometido com a abertura e a aceleração da pesquisa em IA Física, o grupo disponibilizou o código-fonte, os pesos dos modelos, conjuntos de dados sintéticos curados e benchmarks de avaliação sob a licença OpenMDW-1.1 da Linux Foundation, conforme indicado no artigo do arXiv. A iniciativa representa um marco para a comunidade que trabalha com agentes corporificados e simulações do mundo real.

A liberação de modelos poderosos em código aberto representa uma oportunidade para reduzir a dependência de soluções proprietárias controladas por grandes corporações dos Estados Unidos. Ao adotar bases abertas e adaptáveis, instituições de pesquisa e empresas podem desenvolver aplicações de IA física em áreas como agricultura de precisão, manufatura automatizada e inspeção de infraestrutura sem depender de APIs estrangeiras.

A unificação de modalidades em um único modelo também aponta para o futuro dos agentes corporificados, capazes de perceber o ambiente por múltiplos sentidos e agir de forma coordenada. Com o Cosmos 3, o ecossistema de IA de código aberto avança significativamente, desafiando o monopólio de grandes modelos fechados e ampliando as possibilidades de inovação soberana.

Com informações de https://arxiv.org/.

,
Apoie o Cafezinho
Siga-nos no Siga-nos no Google News

Comentários

Os comentários aqui postados são de responsabilidade exclusiva de seus autores e não representam a opinião do site O CAFEZINHO. Todos as mensagens são moderadas. Não serão aceitos comentários com ofensas, com links externos ao site, e em letras maiúsculas. Em casos de ofensas pessoais, preconceituosas, ou que incitem o ódio e a violência, denuncie.

Escrever comentário

Escreva seu comentário

Nenhum comentário ainda, seja o primeiro!


Leia mais

Recentes

Recentes