Connect with us

Inteligência artificial

A Inteligência Artificial Multimodal Evolui à Medida que o ChatGPT Ganha Visão com o GPT-4V(isão)

mm
chatgpt vision

Na tentativa contínua de tornar a inteligência artificial mais semelhante aos humanos, os modelos GPT da OpenAI continuamente empurram os limites. O GPT-4 agora é capaz de aceitar prompts de texto e imagens.

A multimodalidade em inteligência artificial generativa denota a capacidade de um modelo produzir saídas variadas, como texto, imagens ou áudio, com base na entrada. Esses modelos, treinados em dados específicos, aprendem padrões subjacentes para gerar novos dados semelhantes, enriquecendo as aplicações de inteligência artificial.

Avanços Recentes em Inteligência Artificial Multimodal

Um salto notável recente nesse campo é visto com a integração do DALL-E 3 no ChatGPT, um upgrade significativo na tecnologia de texto-para-imagem da OpenAI. Essa combinação permite uma interação mais suave, onde o ChatGPT ajuda a criar prompts precisos para o DALL-E 3, transformando ideias dos usuários em arte gerada por inteligência artificial vívida. Então, enquanto os usuários podem interagiretamente com o DALL-E 3, ter o ChatGPT no processo torna a criação de arte de inteligência artificial muito mais amigável para os usuários.
Confira mais sobre o DALL-E 3 e sua integração com o ChatGPT aqui. Essa colaboração não apenas demonstra o avanço na inteligência artificial multimodal, mas também torna a criação de arte de inteligência artificial uma brisa para os usuários.

O Google Health, por outro lado, introduziu o Med-PaLM M em junho deste ano. É um modelo gerativo multimodal apto a codificar e interpretar dados biomédicos diversos. Isso foi alcançado por meio do ajuste fino do PaLM-E, um modelo de linguagem, para atender a domínios médicos utilizando um benchmark de código aberto, o MultiMedBench. Esse benchmark consiste em mais de 1 milhão de amostras em 7 tipos de dados biomédicos e 14 tarefas, como resposta a perguntas médicas e geração de relatórios de radiologia.
Diversas indústrias estão adotando ferramentas de inteligência artificial multimodal inovadoras para impulsionar a expansão dos negócios, otimizar operações e elevar o engajamento do cliente. O progresso nas capacidades de voz, vídeo e texto da inteligência artificial está impulsionando o crescimento da inteligência artificial multimodal.
As empresas buscam aplicações de inteligência artificial multimodal capazes de reformular modelos de negócios e processos, abrindo caminhos de crescimento em todo o ecossistema de inteligência artificial generativa, desde ferramentas de dados até aplicações de inteligência artificial emergentes.
Após o lançamento do GPT-4 em março, alguns usuários observaram uma declínio na qualidade de resposta ao longo do tempo, uma preocupação ecoada por desenvolvedores notáveis e nos fóruns da OpenAI. Inicialmente descartada pela OpenAI, um estudo posterior estudo confirmou a questão. Ele revelou uma queda na precisão do GPT-4 de 97,6% para 2,4% entre março e junho, indicando uma declínio na qualidade de resposta com atualizações subsequentes do modelo.

chatgpt-ai

ChatGPT (Azul) & Inteligência Artificial (Vermelho) Tendência de Pesquisa do Google


Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.