Inteligência artificial
Desvendando os Grandes Modelos Multimodais: Moldando o Cenário dos Modelos de Linguagem em 2024

À medida que experimentamos o mundo, nossos sentidos (visão, sons, cheiros) fornecem uma diversidade de informações, e nos expressamos usando diferentes métodos de comunicação, como expressões faciais e gestos. Esses sentidos e métodos de comunicação são coletivamente chamados de modalidades, representando as diferentes maneiras pelas quais percebemos e nos comunicamos. Inspirados nessa capacidade humana, grandes modelos multimodais (LMM), uma combinação de modelos gerativos e IA multimodal, estão sendo desenvolvidos para entender e criar conteúdo usando diferentes tipos, como texto, imagens e áudio. Neste artigo, mergulhamos nesse campo emergente, explorando o que são LMMs (Grandes Modelos Multimodais), como são construídos, exemplos existentes, os desafios que enfrentam e aplicações potenciais.
Evolução da IA Gerativa em 2024: Dos Grandes Modelos de Linguagem para os Grandes Modelos Multimodais
Em seu relatório mais recente, McKinsey designou 2023 como um ano de destaque para IA gerativa, levando a muitos avanços no campo. Testemunhamos um aumento notável na prevalência de grandes modelos de linguagem (LLMs) aptos a entender e gerar linguagem humana. Além disso, modelos de geração de imagens evoluíram significativamente, demonstrando sua capacidade de criar visuais a partir de prompts textuais. No entanto, apesar dos progressos significativos em modalidades individuais, como texto, imagens ou áudio, a IA gerativa enfrentou desafios para combinar essas modalidades de forma eficaz no processo de geração. Como o mundo é intrinsicamente multimodal, é crucial que a IA lide com informações multimodais. Isso é essencial para um engajamento significativo com humanos e operação bem-sucedida em cenários do mundo real.
Consequentemente, muitos pesquisadores de IA antecipam o surgimento de LMMs como a próxima fronteira na pesquisa e desenvolvimento de IA em 2024. Essa fronteira em evolução se concentra em aprimorar a capacidade da IA gerativa de processar e produzir saídas diversificadas, abrangendo texto, imagens, áudio, vídeo e outras modalidades. É essencial enfatizar que nem todos os sistemas multimodais se qualificam como LMMs. Modelos como Midjourney e Stable Diffusion, apesar de serem multimodais, não se encaixam na categoria de LMMs, principalmente porque carecem da presença de LLMs, que são um componente fundamental dos LMMs. Em outras palavras, podemos descrever LMMs como uma extensão de LLMs, fornecendo-lhes a capacidade de lidar proficuentemente com várias modalidades.
Como os LMMs Funcionam?
Embora os pesquisadores tenham explorado vários abordagens para construir LMMs, eles geralmente envolvem três componentes e operações essenciais. Primeiro, codificadores são empregados para cada modalidade de dados para gerar representações de dados (referidas como embeddings) específicas para essa modalidade. Segundo, diferentes mecanismos são usados para alinhar embeddings de diferentes modalidades em um espaço de embedding multimodal unificado. Terceiro, para modelos gerativos, um LLM é empregado para gerar respostas textuais. Como as entradas podem consistir em texto, imagens, vídeos e áudios, os pesquisadores estão trabalhando em novas maneiras de fazer com que os modelos de linguagem considerem diferentes modalidades ao fornecer respostas.
Desenvolvimento de LMMs em 2023
Abaixo, eu resumi brevemente alguns dos LMMs notáveis desenvolvidos em 2023.
- LLaVA é um LMM de código aberto, desenvolvido conjuntamente pela Universidade de Wisconsin-Madison, Microsoft Research e Universidade Columbia. O modelo visa oferecer uma versão de código aberto de multimodal GPT4. Com base no LLM Llama da Meta, ele incorpora o codificador visual CLIP para uma compreensão visual robusta. A variante de LLaVA focada em saúde, denominada LLaVA-Med, pode responder a perguntas relacionadas a imagens biomédicas.
- ImageBind é um modelo de código aberto criado pela Meta, imitando a capacidade da percepção humana de relacionar dados multimodais. O modelo integra seis modalidades — texto, imagens/vídeos, áudio, medidas 3D, dados de temperatura e dados de movimento — aprendendo uma representação unificada através desses diferentes tipos de dados. ImageBind pode conectar objetos em fotos com atributos como som, formas 3D, temperatura e movimento. O modelo pode ser usado, por exemplo, para gerar cenas a partir de texto ou sons.
- SeamlessM4T é um modelo multimodal projetado pela Meta para fomentar a comunicação entre comunidades multilíngues. SeamlessM4T se destaca em tarefas de tradução e transcrição, suportando traduções de fala-para-fala, fala-para-texto, texto-para-fala e texto-para-texto. O modelo emprega um decodificador de texto-para-unidade não autoregressivo para realizar essas traduções. A versão aprimorada, SeamlessM4T v2, forma a base para modelos como SeamlessExpressive e SeamlessStreaming, enfatizando a preservação da expressão entre idiomas e fornecendo traduções com latência mínima.
- GPT4, lançado pela OpenAI, é uma evolução de seu antecessor, GPT3.5. Embora os detalhes arquiteturais específicos não sejam totalmente divulgados, GPT4 é bem considerado por sua integração suave de modelos apenas de texto, apenas de visão e apenas de áudio. O modelo pode gerar texto a partir de entradas escritas e gráficas. Ele se destaca em várias tarefas, incluindo descrição de humor em imagens, resumo de texto a partir de capturas de tela e respostas apropriadas a perguntas de exames com diagramas. GPT4 também é reconhecido por sua adaptabilidade em processar eficazmente uma ampla gama de formatos de dados de entrada.
- Gemini, criado pelo Google DeepMind, se distingue por ser intrinsicamente multimodal, permitindo interação sem esforço entre várias tarefas sem depender da combinação de componentes de modalidade única. Esse modelo lida facilmente com texto e diversas entradas áudio-visuais, demonstrando sua capacidade de gerar saídas em formato de texto e imagem.
Desafios dos Grandes Modelos Multimodais
- Incorporando Mais Modalidades de Dados: A maioria dos LMMs existentes opera com texto e imagens. No entanto, os LMMs precisam evoluir além do texto e das imagens, acomodando modalidades como vídeos, música e 3D.
- Disponibilidade de Conjuntos de Dados Diversos: Um dos principais desafios no desenvolvimento e treinamento de modelos de IA gerativa multimodal é a necessidade de grandes e diversificados conjuntos de dados que incluam múltiplas modalidades. Por exemplo, para treinar um modelo para gerar texto e imagens juntos, o conjunto de dados precisa incluir tanto entradas de texto quanto de imagem relacionadas entre si.
- Geração de Saídas Multimodais: Embora os LMMs possam lidar com entradas multimodais, gerar saídas diversificadas, como combinar texto com gráficos ou animações, permanece um desafio.
- Seguindo Instruções: Os LMMs enfrentam o desafio de dominar diálogos e tarefas de seguimento de instruções, indo além da mera conclusão.
- Raciocínio Multimodal: Embora os LMMs atuais sejam excelentes em transformar uma modalidade em outra, a integração sem esforço de dados multimodais para tarefas de raciocínio complexas, como resolver problemas de palavras escritas com base em instruções auditivas, permanece uma empreitada desafiadora.
- Comprimindo LMMs: A natureza intensiva em recursos dos LMMs apresenta um obstáculo significativo, tornando-os impraticáveis para dispositivos de bordo com recursos computacionais limitados. Comprimir LMMs para melhorar a eficiência e torná-los adequados para implantação em dispositivos com recursos limitados é uma área crucial de pesquisa em andamento.
Casos de Uso Potenciais
- Educação: Os LMMs têm o potencial de transformar a educação, gerando materiais de aprendizado diversificados e envolventes que combinam texto, imagens e áudio. Os LMMs fornecem feedback abrangente sobre tarefas, promovem plataformas de aprendizado colaborativo e melhoram o desenvolvimento de habilidades por meio de simulações interativas e exemplos do mundo real.
- Saúde: Em contraste com os sistemas de diagnóstico de IA tradicionais que visam uma modalidade única, os LMMs melhoram a diagnose médica integrando múltiplas modalidades. Eles também suportam a comunicação entre profissionais de saúde e pacientes, atuando como um repositório centralizado para várias aplicações de IA dentro de hospitais.
- Geração de Arte e Música: Os LMMs podem se destacar na criação de arte e música, combinando diferentes modalidades para saídas únicas e expressivas. Por exemplo, um LMM de arte pode mesclar elementos visuais e auditivos, proporcionando uma experiência imersiva. Da mesma forma, um LMM de música pode integrar elementos instrumentais e vocais, resultando em composições dinâmicas e expressivas.
- Recomendações Personalizadas: Os LMMs podem analisar preferências de usuário em várias modalidades para fornecer recomendações personalizadas para consumo de conteúdo, como filmes, música, artigos ou produtos.
- Previsão do Tempo e Monitoramento Ambiental: Os LMMs podem analisar várias modalidades de dados, como imagens de satélite, condições atmosféricas e padrões históricos, para melhorar a precisão na previsão do tempo e monitoramento ambiental.
A Linha de Fundo
O cenário dos Grandes Modelos Multimodais (LMMs) marca um avanço significativo na IA gerativa, prometendo avanços em vários campos. À medida que esses modelos integram de forma eficaz diferentes modalidades, como texto, imagens e áudio, seu desenvolvimento abre portas para aplicações transformadoras em saúde, educação, arte e recomendações personalizadas. No entanto, desafios, incluindo acomodar mais modalidades de dados e comprimir modelos intensivos em recursos, destacam os esforços de pesquisa em andamento necessários para a plena realização do potencial dos LMMs.












