Entre em contato

Revelação de grandes modelos multimodais: moldando o cenário dos modelos de linguagem em 2024

Inteligência artificial

Revelação de grandes modelos multimodais: moldando o cenário dos modelos de linguagem em 2024

mm

À medida que experimentamos o mundo, os nossos sentidos (visão, sons, olfatos) fornecem uma gama diversificada de informações e nos expressamos através de diferentes métodos de comunicação, como expressões faciais e gestos. Esses sentidos e métodos de comunicação são chamados coletivamente de modalidades, representando as diferentes maneiras como percebemos e nos comunicamos. Inspirando-se nesta capacidade humana, grande modelo multimodal (LMM), uma combinação de generativo e IA multimodal, estão sendo desenvolvidos para compreender e criar conteúdo usando diferentes tipos de texto, imagens e áudio. Neste artigo, nos aprofundamos nesse campo emergente, explorando o que são LMMs (Large Multimodal Models), como são construídos, exemplos existentes, os desafios que enfrentam e possíveis aplicações.

Evolução da IA ​​generativa em 2024: de grandes modelos de linguagem a grandes modelos multimodais

Em seu último relatório, McKinsey designada 2023 como um ano de ruptura para IA generativa, levando a muitos avanços no campo. Assistimos a um aumento notável na prevalência de modelos de linguagem grande (LLMs) adepto da compreensão e geração de linguagem semelhante à humana. Além disso, modelos de geração de imagem evoluíram significativamente, demonstrando sua capacidade de criar recursos visuais a partir de instruções textuais. No entanto, apesar do progresso significativo em modalidades individuais como texto, imagens ou áudio, a IA generativa encontrou desafios na combinação perfeita destas modalidades no processo de geração. Como o mundo é inerentemente multimodal por natureza, é crucial que a IA lute com informações multimodais. Isto é essencial para um envolvimento significativo com os seres humanos e uma operação bem-sucedida em cenários do mundo real.

Consequentemente, muitos investigadores de IA antecipam a ascensão dos LMMs como a próxima fronteira na investigação e desenvolvimento de IA em 2024. Esta fronteira em evolução centra-se no aumento da capacidade da IA ​​generativa para processar e produzir diversos resultados, abrangendo texto, imagens, áudio, vídeo e outras modalidades. É essencial enfatizar que nem todos os sistemas multimodais se qualificam como LMMs. Modelos como Meio da jornada e Difusão Estável, apesar de serem multimodais, não se enquadram na categoria LMM principalmente porque não possuem a presença de LLMs, que são um componente fundamental dos LMMs. Em outras palavras, podemos descrever os LMMs como uma extensão dos LLMs, proporcionando-lhes a capacidade de lidar com várias modalidades de forma proficiente.

Como funcionam os LMMs?

Embora os pesquisadores tenham explorado várias abordagens para a construção de LMMs, eles normalmente envolvem três componentes e operações essenciais. Primeiro, codificadores são empregados para cada modalidade de dados para gerar representações de dados (referidas como embeddings) específicas para aquela modalidade. Em segundo lugar, diferentes mecanismos são usados ​​para alinhar incorporações de diferentes modalidades em um espaço de incorporação multimodal unificado. Terceiro, para modelos generativos, um LLM é empregado para gerar respostas de texto. Como as entradas podem consistir em texto, imagens, vídeos e áudios, os investigadores estão a trabalhar em novas formas de fazer com que os modelos de linguagem considerem diferentes modalidades ao dar respostas.

Desenvolvimento de LMMs em 2023

Abaixo, descrevi brevemente alguns dos LMMs notáveis ​​desenvolvidos em 2023.

  • LLaVA é um LMM de código aberto, desenvolvido em conjunto pela Universidade de Wisconsin-Madison, Microsoft Research e Universidade de Columbia. O modelo visa oferecer uma versão de código aberto de multimodal GPT4. Aproveitando Llama LLM da Meta, incorpora o CLIP codificador visual para compreensão visual robusta. A variante do LLaVa com foco na saúde, denominada LLaVA-Med, pode responder a perguntas relacionadas a imagens biomédicas.
  • imagebind é um modelo de código aberto criado pela Meta, emulando a capacidade da percepção humana de relacionar dados multimodais. O modelo integra seis modalidades – texto, imagens/vídeos, áudio, medições 3D, dados de temperatura e dados de movimento – aprendendo uma representação unificada entre esses diversos tipos de dados. ImageBind pode conectar objetos em fotos com atributos como som, formas 3D, temperatura e movimento. O modelo pode ser usado, por exemplo, para gerar cenas a partir de texto ou sons.
  • Sem emendaM4T é um modelo multimodal desenhado pela Meta para promover a comunicação entre comunidades multilíngues. SeamlessM4T é excelente em tarefas de tradução e transcrição, suportando traduções de fala para fala, fala para texto, texto para fala e texto para texto. O modelo emprega decodificador de texto para unidade não autorregressivo para realizar essas traduções. A versão aprimorada, Sem emendaM4T v2, constitui a base para modelos como Sem costuraExpressivo e Streaming contínuo, enfatizando a preservação da expressão entre idiomas e entregando traduções com latência mínima.
  • GPT4, lançado pela OpenAI, é um avanço de seu antecessor, GPT3.5. Embora as especificações arquitetônicas detalhadas não sejam totalmente divulgadas, o GPT4 é bem conhecido por sua integração suave de modelos somente de texto, somente de visão e somente de áudio. O modelo pode gerar texto a partir de entradas escritas e gráficas. Ele se destaca em várias tarefas, incluindo descrição de humor em imagens, resumo de texto de capturas de tela e resposta adequada a questões de exames com diagramas. O GPT4 também é reconhecido por sua adaptabilidade no processamento eficaz de uma ampla variedade de formatos de dados de entrada.
  • Gemini, criado pelo Google DeepMind, distingue-se por ser inerentemente multimodal, permitindo uma interação perfeita entre várias tarefas sem depender da junção de componentes de modalidade única. Este modelo gerencia facilmente texto e diversas entradas audiovisuais, demonstrando sua capacidade de gerar resultados em formatos de texto e imagem.

Desafios de grandes modelos multimodais

  • Incorporando mais modalidades de dados: A maioria dos LMMs existentes opera com texto e imagens. No entanto, os LMMs precisam evoluir além de texto e imagens, acomodando modalidades como vídeos, música e 3D.
  • Disponibilidade diversificada de conjuntos de dados: Um dos principais desafios no desenvolvimento e treinamento de modelos de IA generativos multimodais é a necessidade de conjuntos de dados grandes e diversos que incluam múltiplas modalidades. Por exemplo, para treinar um modelo para gerar texto e imagens juntos, o conjunto de dados precisa incluir entradas de texto e imagem relacionadas entre si.
  • Gerando resultados multimodais: Embora os LMMs possam lidar com entradas multimodais, gerar diversos resultados, como combinar texto com gráficos ou animações, continua sendo um desafio.
  • Seguindo instruções: Os LMMs enfrentam o desafio de dominar o diálogo e as tarefas de seguimento de instruções, indo além da mera conclusão.
  • Raciocínio Multimodal: Embora os LMMs atuais sejam excelentes na transformação de uma modalidade em outra, a integração perfeita de dados multimodais para tarefas complexas de raciocínio, como resolver problemas de palavras escritas com base em instruções auditivas, continua a ser um empreendimento desafiador.
  • Comprimindo LMMs: A natureza intensiva de recursos dos LMMs representa um obstáculo significativo, tornando-os impraticáveis ​​para dispositivos de ponta com recursos computacionais limitados. A compactação de LMMs para aumentar a eficiência e torná-los adequados para implantação em dispositivos com recursos limitados é uma área crucial de pesquisa em andamento.

Casos de uso potenciais

  • Educação: Os LMMs têm o potencial de transformar a educação ao gerar materiais de aprendizagem diversos e envolventes que combinam texto, imagens e áudio. Os LMMs fornecem feedback abrangente sobre as tarefas, promovem plataformas de aprendizagem colaborativa e melhoram o desenvolvimento de habilidades por meio de simulações interativas e exemplos do mundo real.
  • Assistência médica: Em contraste com os sistemas tradicionais de diagnóstico de IA que visam uma única modalidade, os LMMs melhoram o diagnóstico médico integrando múltiplas modalidades. Também apoiam a comunicação através das barreiras linguísticas entre prestadores de cuidados de saúde e pacientes, agindo como um repositório centralizado para várias aplicações de IA dentro dos hospitais.
  • Geração de Arte e Música: Os LMMs poderiam se destacar na criação artística e musical, combinando diferentes modalidades para resultados únicos e expressivos. Por exemplo, um LMM artístico pode combinar elementos visuais e auditivos, proporcionando uma experiência envolvente. Da mesma forma, um LMM musical pode integrar elementos instrumentais e vocais, resultando em composições dinâmicas e expressivas.
  • Recomendações personalizadas: Os LMMs podem analisar as preferências do usuário em diversas modalidades para fornecer recomendações personalizadas para consumo de conteúdo, como filmes, músicas, artigos ou produtos.
  • Previsão do Tempo e Monitoramento Ambiental: Os LMMs podem analisar diversas modalidades de dados, como imagens de satélite, condições atmosféricas e padrões históricos, para melhorar a precisão na previsão do tempo e no monitoramento ambiental.

Concluindo!

O cenário dos Grandes Modelos Multimodais (LMMs) representa um avanço significativo na IA generativa, prometendo avanços em diversas áreas. À medida que esses modelos integram perfeitamente diferentes modalidades, como texto, imagens e áudio, seu desenvolvimento abre portas para aplicações transformadoras em saúde, educação, arte e recomendações personalizadas. No entanto, desafios, incluindo a acomodação de mais modalidades de dados e a compactação de modelos com uso intensivo de recursos, reforçam os esforços contínuos de pesquisa necessários para a plena realização do potencial dos LMMs.

mm

Tehseen Zia é professor associado titular na COMSATS University Islamabad, com doutorado em IA pela Universidade de Tecnologia de Viena, Áustria. Especializado em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em revistas científicas de renome. Tehseen também liderou vários projetos industriais como investigador principal e atuou como consultor de IA.