Modelos e plataformas de IA

Apresentação de Modelos Multimodais Grandes: Moldando o Cenário de Modelos de Linguagem em 2024

Publicado em 8 de janeiro de 2024

Atualizado em 22 de maio de 2026

Por

Dr. Tehseen Zia

À medida que experimentamos o mundo, nossos sentidos (visão, sons, cheiros) fornecem uma variedade diversificada de informações, e nos expressamos usando diferentes métodos de comunicação, como expressões faciais e gestos. Esses sentidos e métodos de comunicação são coletivamente chamados de modalidades, representando as diferentes maneiras pelas quais percebemos e nos comunicamos. Inspirados nessa capacidade humana, os grandes modelos multimodais (LMM), uma combinação de modelos gerativos e IA multimodal, estão sendo desenvolvidos para entender e criar conteúdo usando diferentes tipos, como texto, imagens e áudio. Neste artigo, mergulhamos nesse campo emergente, explorando o que são os LMM (Grandes Modelos Multimodais), como são construídos, exemplos existentes, os desafios que enfrentam e aplicações potenciais.

Evolução da IA Gerativa em 2024: Dos Grandes Modelos de Linguagem para os Grandes Modelos Multimodais

No seu relatório mais recente, a McKinsey designou 2023 como o ano de destaque para a IA gerativa, levando a muitos avanços no campo. Testemunhamos um aumento notável na prevalência de grandes modelos de linguagem (LLM) aptos a entender e gerar linguagem humana. Além disso, modelos de geração de imagens evoluíram significativamente, demonstrando sua capacidade de criar visuais a partir de prompts textuais. No entanto, apesar do progresso significativo em modalidades individuais, como texto, imagens ou áudio, a IA gerativa enfrentou desafios para combinar essas modalidades de forma eficaz no processo de geração. Como o mundo é inerentemente multimodal, é crucial que a IA lide com informações multimodais. Isso é essencial para um engajamento significativo com os humanos e para uma operação bem-sucedida em cenários do mundo real.

Consequentemente, muitos pesquisadores de IA antecipam o surgimento dos LMM como a próxima fronteira na pesquisa e desenvolvimento de IA em 2024. Essa fronteira em evolução se concentra em melhorar a capacidade da IA gerativa de processar e produzir saídas diversificadas, abrangendo texto, imagens, áudio, vídeo e outras modalidades. É essencial enfatizar que nem todos os sistemas multimodais se qualificam como LMM. Modelos como Midjourney e Stable Diffusion, apesar de serem multimodais, não se encaixam na categoria de LMM principalmente porque carecem da presença de LLM, que é um componente fundamental dos LMM. Em outras palavras, podemos descrever os LMM como uma extensão dos LLM, fornecendo-lhes a capacidade de lidar proficuentemente com várias modalidades.

Como Funcionam os LMM?

Embora os pesquisadores tenham explorado vários métodos para construir LMM, eles geralmente envolvem três componentes e operações essenciais. Primeiro, codificadores são empregados para cada modalidade de dados para gerar representações de dados (chamadas de incorporações) específicas para essa modalidade. Segundo, diferentes mecanismos são usados para alinhar incorporações de diferentes modalidades em um espaço de incorporação multimodal unificado. Terceiro, para modelos gerativos, um LLM é empregado para gerar respostas textuais. Como as entradas podem consistir em texto, imagens, vídeos e áudios, os pesquisadores estão trabalhando em novas maneiras de fazer com que os modelos de linguagem considerem diferentes modalidades ao fornecer respostas.

Desenvolvimento dos LMM em 2023

Abaixo, eu resumi alguns dos LMM notáveis desenvolvidos em 2023.

LLaVA é um LMM de código aberto, desenvolvido em conjunto pela Universidade de Wisconsin-Madison, Microsoft Research e Universidade de Columbia. O modelo visa oferecer uma versão de código aberto do multimodal GPT4. Utilizando o LLM Llama da Meta, ele incorpora o codificador visual CLIP para uma compreensão visual robusta. A variante do LLaVA focada em saúde, denominada LLaVA-Med, pode responder a perguntas relacionadas a imagens biomédicas.
ImageBind é um modelo de código aberto criado pela Meta, imitando a capacidade da percepção humana de relacionar dados multimodais. O modelo integra seis modalidades — texto, imagens/vídeos, áudio, medições 3D, dados de temperatura e dados de movimento — aprendendo uma representação unificada através desses diferentes tipos de dados. O ImageBind pode conectar objetos em fotos com atributos como som, formas 3D, temperatura e movimento. O modelo pode ser usado, por exemplo, para gerar cenas a partir de texto ou sons.
SeamlessM4T é um modelo multimodal projetado pela Meta para fomentar a comunicação entre comunidades multilíngues. O SeamlessM4T se destaca em tarefas de tradução e transcrição, suportando tradução de fala para fala, fala para texto, texto para fala e texto para texto. O modelo emprega um decodificador de texto para unidade não autoregressivo para realizar essas traduções. A versão aprimorada, SeamlessM4T v2, forma a base para modelos como SeamlessExpressive e SeamlessStreaming, enfatizando a preservação da expressão entre idiomas e fornecendo traduções com latência mínima.
GPT4, lançado pela OpenAI, é uma evolução de seu antecessor, GPT3.5. Embora os detalhes arquitetônicos específicos não sejam totalmente divulgados, o GPT4 é bem considerado por sua integração suave de modelos de texto, visão e áudio. O modelo pode gerar texto a partir de entradas textuais e gráficas. Ele se destaca em várias tarefas, incluindo a descrição de humor em imagens, a resumo de texto a partir de telas e a resposta apropriada a perguntas de exame com diagramas. O GPT4 também é reconhecido por sua adaptabilidade em processar eficazmente uma ampla gama de formatos de dados de entrada.
Gemini, criado pelo Google DeepMind, se distingue por ser inerentemente multimodal, permitindo uma interação sem esforço entre diferentes tarefas sem depender da combinação de componentes de modalidade única. Esse modelo gerencia facilmente tanto texto quanto entradas áudio-visuais, demonstrando sua capacidade de gerar saídas em formato de texto e imagem.

Desafios dos Grandes Modelos Multimodais

Incorporação de Mais Modalidades de Dados: A maioria dos LMM existentes opera com texto e imagens. No entanto, os LMM precisam evoluir além do texto e das imagens, acomodando modalidades como vídeos, música e 3D.
Disponibilidade de Conjuntos de Dados Diversos: Um dos principais desafios no desenvolvimento e treinamento de modelos gerativos de IA multimodais é a necessidade de conjuntos de dados grandes e diversificados que incluem múltiplas modalidades. Por exemplo, para treinar um modelo para gerar texto e imagens juntos, o conjunto de dados precisa incluir tanto entradas de texto quanto de imagem relacionadas entre si.
Geração de Saídas Multimodais: Embora os LMM possam lidar com entradas multimodais, a geração de saídas diversificadas, como combinar texto com gráficos ou animações, permanece um desafio.
Seguindo Instruções: Os LMM enfrentam o desafio de dominar diálogos e tarefas de seguir instruções, indo além da mera conclusão.
Raciocínio Multimodal: Embora os LMM atuais sejam excelentes em transformar uma modalidade em outra, a integração eficaz de dados multimodais para tarefas de raciocínio complexo, como resolver problemas de palavras escritas com base em instruções auditivas, permanece uma empreitada desafiadora.
Compressão dos LMM: A natureza intensiva em recursos dos LMM apresenta um obstáculo significativo, tornando-os impraticáveis para dispositivos de borda com recursos computacionais limitados. Comprimir os LMM para melhorar a eficiência e torná-los adequados para implantação em dispositivos com recursos limitados é uma área crucial de pesquisa em andamento.

Casos de Uso Potenciais

Educação: Os LMM têm o potencial de transformar a educação, gerando materiais de aprendizado diversificados e envolventes que combinam texto, imagens e áudio. Os LMM fornecem feedback abrangente sobre tarefas, promovem plataformas de aprendizado colaborativo e melhoram o desenvolvimento de habilidades por meio de simulações interativas e exemplos do mundo real.
Saúde: Em contraste com os sistemas de diagnóstico de IA tradicionais que visam uma única modalidade, os LMM melhoram a diagnose médica integrando múltiplas modalidades. Eles também suportam a comunicação entre profissionais de saúde e pacientes, atuando como um repositório centralizado para várias aplicações de IA dentro dos hospitais.
Geração de Arte e Música: Os LMM podem se destacar na criação de arte e música, combinando diferentes modalidades para saídas únicas e expressivas. Por exemplo, um LMM de arte pode mesclar elementos visuais e auditivos, proporcionando uma experiência imersiva. Da mesma forma, um LMM de música pode integrar instrumentais e vocais, resultando em composições dinâmicas e expressivas.
Recomendações Personalizadas: Os LMM podem analisar preferências de usuário em várias modalidades para fornecer recomendações personalizadas para o consumo de conteúdo, como filmes, música, artigos ou produtos.

Previsão do Tempo e Monitoramento Ambiental: Os LMM podem analisar várias modalidades de dados, como imagens de satélite, condições atmosféricas e padrões históricos, para melhorar a precisão na previsão do tempo e no monitoramento ambiental.

A Linha de Fundo

O cenário dos Grandes Modelos Multimodais (LMM) marca um avanço significativo na IA gerativa, prometendo avanços em vários campos. À medida que esses modelos integram diferentes modalidades, como texto, imagens e áudio, seu desenvolvimento abre portas para aplicações transformadoras em saúde, educação, arte e recomendações personalizadas. No entanto, desafios, incluindo a acomodação de mais modalidades de dados e a compressão de modelos intensivos em recursos, destacam os esforços de pesquisa contínuos necessários para a plena realização do potencial dos LMM.