Inteligência artificial
Revelação de grandes modelos multimodais: moldando o cenário dos modelos de linguagem em 2024

À medida que experimentamos o mundo, os nossos sentidos (visão, sons, olfatos) fornecem uma gama diversificada de informações e nos expressamos através de diferentes métodos de comunicação, como expressões faciais e gestos. Esses sentidos e métodos de comunicação são chamados coletivamente de modalidades, representando as diferentes maneiras como percebemos e nos comunicamos. Inspirando-se nesta capacidade humana, grande modelo multimodal (LMM), uma combinação de generativo e IA multimodal, estão sendo desenvolvidos para compreender e criar conteúdo usando diferentes tipos de texto, imagens e áudio. Neste artigo, nos aprofundamos nesse campo emergente, explorando o que são LMMs (Large Multimodal Models), como são construídos, exemplos existentes, os desafios que enfrentam e possíveis aplicações.
Evolução da IA generativa em 2024: de grandes modelos de linguagem a grandes modelos multimodais
Em seu último relatório, McKinsey designada 2023 como um ano de ruptura para IA generativa, levando a muitos avanços no campo. Assistimos a um aumento notável na prevalência de modelos de linguagem grande (LLMs) adepto da compreensão e geração de linguagem semelhante à humana. Além disso, modelos de geração de imagem evoluíram significativamente, demonstrando sua capacidade de criar recursos visuais a partir de instruções textuais. No entanto, apesar do progresso significativo em modalidades individuais como texto, imagens ou áudio, a IA generativa encontrou desafios na combinação perfeita destas modalidades no processo de geração. Como o mundo é inerentemente multimodal por natureza, é crucial que a IA lute com informações multimodais. Isto é essencial para um envolvimento significativo com os seres humanos e uma operação bem-sucedida em cenários do mundo real.
Consequentemente, muitos investigadores de IA antecipam a ascensão dos LMMs como a próxima fronteira na investigação e desenvolvimento de IA em 2024. Esta fronteira em evolução centra-se no aumento da capacidade da IA generativa para processar e produzir diversos resultados, abrangendo texto, imagens, áudio, vídeo e outras modalidades. É essencial enfatizar que nem todos os sistemas multimodais se qualificam como LMMs. Modelos como Meio da jornada e Difusão Estável, apesar de serem multimodais, não se enquadram na categoria LMM principalmente porque não possuem a presença de LLMs, que são um componente fundamental dos LMMs. Em outras palavras, podemos descrever os LMMs como uma extensão dos LLMs, proporcionando-lhes a capacidade de lidar com várias modalidades de forma proficiente.
Como funcionam os LMMs?
Embora os pesquisadores tenham explorado várias abordagens para a construção de LMMs, eles normalmente envolvem três componentes e operações essenciais. Primeiro, codificadores são empregados para cada modalidade de dados para gerar representações de dados (referidas como embeddings) específicas para aquela modalidade. Em segundo lugar, diferentes mecanismos são usados para alinhar incorporações de diferentes modalidades em um espaço de incorporação multimodal unificado. Terceiro, para modelos generativos, um LLM é empregado para gerar respostas de texto. Como as entradas podem consistir em texto, imagens, vídeos e áudios, os investigadores estão a trabalhar em novas formas de fazer com que os modelos de linguagem considerem diferentes modalidades ao dar respostas.
Desenvolvimento de LMMs em 2023
Abaixo, descrevi brevemente alguns dos LMMs notáveis desenvolvidos em 2023.
- LLaVA é um LMM de código aberto, desenvolvido em conjunto pela Universidade de Wisconsin-Madison, Microsoft Research e Universidade de Columbia. O modelo visa oferecer uma versão de código aberto de multimodal GPT4. Aproveitando Llama LLM da Meta, incorpora o CLIP codificador visual para compreensão visual robusta. A variante do LLaVa com foco na saúde, denominada LLaVA-Med, pode responder a perguntas relacionadas a imagens biomédicas.
- imagebind é um modelo de código aberto criado pela Meta, emulando a capacidade da percepção humana de relacionar dados multimodais. O modelo integra seis modalidades – texto, imagens/vídeos, áudio, medições 3D, dados de temperatura e dados de movimento – aprendendo uma representação unificada entre esses diversos tipos de dados. ImageBind pode conectar objetos em fotos com atributos como som, formas 3D, temperatura e movimento. O modelo pode ser usado, por exemplo, para gerar cenas a partir de texto ou sons.
- Sem emendaM4T é um modelo multimodal desenhado pela Meta para promover a comunicação entre comunidades multilíngues. SeamlessM4T é excelente em tarefas de tradução e transcrição, suportando traduções de fala para fala, fala para texto, texto para fala e texto para texto. O modelo emprega decodificador de texto para unidade não autorregressivo para realizar essas traduções. A versão aprimorada, Sem emendaM4T v2, constitui a base para modelos como Sem costuraExpressivo e Streaming contínuo, enfatizando a preservação da expressão entre idiomas e entregando traduções com latência mínima.
- GPT4, lançado pela OpenAI, é um avanço de seu antecessor, GPT3.5. Embora as especificações arquitetônicas detalhadas não sejam totalmente divulgadas, o GPT4 é bem conhecido por sua integração suave de modelos somente de texto, somente de visão e somente de áudio. O modelo pode gerar texto a partir de entradas escritas e gráficas. Ele se destaca em várias tarefas, incluindo descrição de humor em imagens, resumo de texto de capturas de tela e resposta adequada a questões de exames com diagramas. O GPT4 também é reconhecido por sua adaptabilidade no processamento eficaz de uma ampla variedade de formatos de dados de entrada.
- Gemini, criado pelo Google DeepMind, distingue-se por ser inerentemente multimodal, permitindo uma interação perfeita entre várias tarefas sem depender da junção de componentes de modalidade única. Este modelo gerencia facilmente texto e diversas entradas audiovisuais, demonstrando sua capacidade de gerar resultados em formatos de texto e imagem.
Desafios de grandes modelos multimodais
- Incorporando mais modalidades de dados: A maioria dos LMMs existentes opera com texto e imagens. No entanto, os LMMs precisam evoluir além de texto e imagens, acomodando modalidades como vídeos, música e 3D.
- Disponibilidade diversificada de conjuntos de dados: Um dos principais desafios no desenvolvimento e treinamento de modelos de IA generativos multimodais é a necessidade de conjuntos de dados grandes e diversos que incluam múltiplas modalidades. Por exemplo, para treinar um modelo para gerar texto e imagens juntos, o conjunto de dados precisa incluir entradas de texto e imagem relacionadas entre si.
- Gerando resultados multimodais: Embora os LMMs possam lidar com entradas multimodais, gerar diversos resultados, como combinar texto com gráficos ou animações, continua sendo um desafio.
- Seguindo instruções: Os LMMs enfrentam o desafio de dominar o diálogo e as tarefas de seguimento de instruções, indo além da mera conclusão.
- Raciocínio Multimodal: Embora os LMMs atuais sejam excelentes na transformação de uma modalidade em outra, a integração perfeita de dados multimodais para tarefas complexas de raciocínio, como resolver problemas de palavras escritas com base em instruções auditivas, continua a ser um empreendimento desafiador.
- Comprimindo LMMs: A natureza intensiva de recursos dos LMMs representa um obstáculo significativo, tornando-os impraticáveis para dispositivos de ponta com recursos computacionais limitados. A compactação de LMMs para aumentar a eficiência e torná-los adequados para implantação em dispositivos com recursos limitados é uma área crucial de pesquisa em andamento.
Casos de uso potenciais
- Educação: Os LMMs têm o potencial de transformar a educação ao gerar materiais de aprendizagem diversos e envolventes que combinam texto, imagens e áudio. Os LMMs fornecem feedback abrangente sobre as tarefas, promovem plataformas de aprendizagem colaborativa e melhoram o desenvolvimento de habilidades por meio de simulações interativas e exemplos do mundo real.
- Assistência médica: Em contraste com os sistemas tradicionais de diagnóstico de IA que visam uma única modalidade, os LMMs melhoram o diagnóstico médico integrando múltiplas modalidades. Também apoiam a comunicação através das barreiras linguísticas entre prestadores de cuidados de saúde e pacientes, agindo como um repositório centralizado para várias aplicações de IA dentro dos hospitais.
- Geração de Arte e Música: Os LMMs poderiam se destacar na criação artística e musical, combinando diferentes modalidades para resultados únicos e expressivos. Por exemplo, um LMM artístico pode combinar elementos visuais e auditivos, proporcionando uma experiência envolvente. Da mesma forma, um LMM musical pode integrar elementos instrumentais e vocais, resultando em composições dinâmicas e expressivas.
- Recomendações personalizadas: Os LMMs podem analisar as preferências do usuário em diversas modalidades para fornecer recomendações personalizadas para consumo de conteúdo, como filmes, músicas, artigos ou produtos.
- Previsão do Tempo e Monitoramento Ambiental: Os LMMs podem analisar diversas modalidades de dados, como imagens de satélite, condições atmosféricas e padrões históricos, para melhorar a precisão na previsão do tempo e no monitoramento ambiental.
Concluindo!
O cenário dos Grandes Modelos Multimodais (LMMs) representa um avanço significativo na IA generativa, prometendo avanços em diversas áreas. À medida que esses modelos integram perfeitamente diferentes modalidades, como texto, imagens e áudio, seu desenvolvimento abre portas para aplicações transformadoras em saúde, educação, arte e recomendações personalizadas. No entanto, desafios, incluindo a acomodação de mais modalidades de dados e a compactação de modelos com uso intensivo de recursos, reforçam os esforços contínuos de pesquisa necessários para a plena realização do potencial dos LMMs.