Entre em contato

IA generativa: a ideia por trás do CHATGPT, Dall-E, Midjourney e mais

Inteligência artificial

IA generativa: a ideia por trás do CHATGPT, Dall-E, Midjourney e mais

mm
IA generativa - Aviso no meio da jornada

O mundo da arte, da comunicação e de como percebemos a realidade está se transformando rapidamente. Se olharmos para a história da inovação humana, podemos considerar a invenção da roda ou a descoberta da eletricidade como saltos monumentais. Hoje, uma nova revolução está ocorrendo – fazendo a ponte entre a criatividade humana e a computação mecânica. Isso é IA generativa.

Modelos generativos borraram a linha entre humanos e máquinas. Com o advento de modelos como o GPT-4, que emprega módulos transformadores, nos aproximamos da geração de linguagem natural e rica em contexto. Esses avanços alimentaram aplicações na criação de documentos, sistemas de diálogo de chatbot e até composição de música sintética.

Decisões recentes de Big-Tech ressaltam sua importância. A Microsoft já é descontinuando seu aplicativo Cortana este mês para priorizar as inovações mais recentes da Generative AI, como o Bing Chat. A Apple também dedicou uma parte significativa de sua Orçamento de P&D de US$ 22.6 bilhões à IA generativa, conforme indicado pelo CEO Tim Cook.

Uma nova era de modelos: generativo vs. discriminativo

A história da Generative AI não é apenas sobre suas aplicações, mas fundamentalmente sobre seu funcionamento interno. No ecossistema de inteligência artificial, existem dois modelos: discriminativo e generativo.

Modelos discriminatórios são o que a maioria das pessoas encontra no dia a dia. Esses algoritmos pegam dados de entrada, como um texto ou uma imagem, e os combinam com uma saída de destino, como a tradução de uma palavra ou um diagnóstico médico. Eles se concentram em mapeamento e previsão.

Modelos generativos, por outro lado, são criadores. Eles não apenas interpretam ou preveem; eles geram resultados novos e complexos a partir de vetores de números que muitas vezes nem sequer estão relacionados a valores do mundo real.

 

Tipos de IA generativa: texto para texto, texto para imagem (GPT, DALL-E, Midjourney)

As tecnologias por trás dos modelos generativos

Os modelos generativos devem sua existência a redes neurais profundas, estruturas sofisticadas projetadas para imitar a funcionalidade do cérebro humano. Ao capturar e processar variações multifacetadas em dados, essas redes servem como a espinha dorsal de inúmeros modelos generativos.

Como esses modelos generativos ganham vida? Normalmente, eles são construídos com redes neurais profundas, otimizadas para capturar as variações multifacetadas dos dados. Um exemplo primordial é o Rede Adversarial Geradora (GAN), onde duas redes neurais, o gerador e o discriminador, competem e aprendem uma com a outra em uma relação única professor-aluno. Das pinturas à transferência de estilo, da composição musical ao jogo, esses modelos estão evoluindo e se expandindo de maneiras anteriormente inimagináveis.

Isso não para com as GANs. Autoencoders Variacionais (VAEs), são outro jogador fundamental no campo do modelo generativo. Os VAEs se destacam por sua capacidade de criar imagens fotorrealistas a partir de números aparentemente aleatórios. Como? O processamento desses números por meio de um vetor latente dá origem à arte que reflete as complexidades da estética humana.

Tipos de IA generativa: texto para texto, texto para imagem

Transformadores e LLM

O papel "Atenção É Tudo Que Você Precisa”do Google Brain marcou uma mudança na maneira como pensamos sobre modelagem de texto. Em vez de arquiteturas complexas e sequenciais como Redes Neurais Recorrentes (RNNs) ou Redes Neurais Convolucionais (CNNs), o modelo Transformer introduziu o conceito de atenção, o que essencialmente significava focar em diferentes partes do texto de entrada dependendo do contexto. Um dos principais benefícios disso foi a facilidade de paralelização. Ao contrário dos RNNs, que processam texto sequencialmente, tornando-os mais difíceis de escalar, os Transformers podem processar partes do texto simultaneamente, tornando o treinamento mais rápido e eficiente em grandes conjuntos de dados.

Em um texto longo, nem toda palavra ou frase que você lê tem a mesma importância. Algumas partes exigem mais atenção com base no contexto. Essa capacidade de mudar nosso foco com base na relevância é o que o mecanismo de atenção imita.

Para entender isso, pense em uma frase: "Unir IA Publicar notícias sobre IA e Robótica". Prever a próxima palavra requer uma compreensão do que é mais importante no contexto anterior. O termo "Robótica" pode sugerir que a próxima palavra pode estar relacionada a um avanço ou evento específico na área da robótica, enquanto "Publicar" pode indicar que o contexto seguinte pode se aprofundar em uma publicação ou artigo recente.

Explicação do mecanismo de auto-atenção em uma frase de demonstração
Ilustração de auto-atenção

Os mecanismos de atenção em Transformers são projetados para atingir esse foco seletivo. Eles avaliam a importância de diferentes partes do texto de entrada e decidem onde "olhar" ao gerar uma resposta. Isso representa um distanciamento de arquiteturas mais antigas, como as RNNs, que tentavam condensar a essência de todo o texto de entrada em um único "estado" ou "memória".

O funcionamento da atenção pode ser comparado a um sistema de recuperação de chave-valor. Ao tentar prever a próxima palavra em uma frase, cada palavra precedente oferece uma "chave" que sugere sua relevância potencial e, com base na correspondência dessas chaves com o contexto atual (ou consulta), elas contribuem com um "valor" ou peso para a previsão.

Esses modelos avançados de aprendizado profundo de IA foram integrados perfeitamente a vários aplicativos, desde os aprimoramentos do mecanismo de busca do Google com o BERT até o Copilot do GitHub, que aproveita a capacidade dos Large Language Models (LLMs) para converter trechos de código simples em códigos-fonte totalmente funcionais.

Large Language Models (LLMs) como GPT-4, Bard e LLaMA, são construções colossais projetadas para decifrar e gerar linguagem humana, código e muito mais. Seu tamanho imenso, variando de bilhões a trilhões de parâmetros, é uma das características definidoras. Esses LLMs são alimentados com grandes quantidades de dados de texto, permitindo que compreendam as complexidades da linguagem humana. Uma característica marcante desses modelos é sua aptidão para “poucos tiros" aprendizado. Ao contrário dos modelos convencionais que precisam de grandes quantidades de dados de treinamento específicos, os LLMs podem generalizar a partir de um número muito limitado de exemplos (ou “shots”)

Estado dos grandes modelos de linguagem (LLMs) a partir de meados de 2023

Nome do modelo Developer Parâmetros Técnicos Disponibilidade e acesso Características e observações notáveis
GPT-4 OpenAI 1.5 Trillion Código não aberto, somente acesso à API Desempenho impressionante em uma variedade de tarefas pode processar imagens e texto, comprimento máximo de entrada 32,768 tokens
GPT-3 OpenAI 175 bilhões Código não aberto, somente acesso à API Capacidades demonstradas de aprendizado de poucos tiros e zero tiros. Executa a conclusão do texto em linguagem natural.
BLOOM Big Science 176 bilhões Modelo para download, API hospedada disponível LLM multilíngue desenvolvido pela colaboração global. Suporta 13 linguagens de programação.
TheMDA Google 173 bilhões Não é de código aberto, sem API ou download Treinado em diálogo poderia aprender a falar sobre praticamente qualquer coisa
MT-NLG Nvidia/Microsoft 530 bilhões Acesso à API por aplicativo Utiliza a arquitetura Megatron baseada em transformador para várias tarefas de NLP.
chamadas Meta IA 7B a 65B) Para download por aplicativo Destina-se a democratizar a IA, oferecendo acesso a pesquisadores, governo e academia.

Como os LLMs são usados?

Os LLMs podem ser usados ​​de várias maneiras, incluindo:

  1. Utilização direta: simplesmente usando um LLM pré-treinado para geração ou processamento de texto. Por exemplo, usar o GPT-4 para escrever uma postagem de blog sem nenhum ajuste fino adicional.
  2. Ajuste fino: Adaptar um LLM pré-treinado para uma tarefa específica, um método conhecido como aprendizagem por transferência. Um exemplo seria personalizar o T5 para gerar resumos de documentos de um setor específico.
  3. Recuperação de informações: usando LLMs, como BERT ou GPT, como parte de arquiteturas maiores para desenvolver sistemas que podem buscar e categorizar informações.
Ajuste fino generativo AI ChatGPT
Arquitetura de ajuste fino do ChatGPT

Atenção com várias cabeças: por que uma quando você pode ter muitas?

No entanto, confiar em um único mecanismo de atenção pode ser limitante. Diferentes palavras ou sequências em um texto podem ter vários tipos de relevância ou associações. É aqui que entra a atenção de várias cabeças. Em vez de um conjunto de pesos de atenção, a atenção de várias cabeças emprega vários conjuntos, permitindo que o modelo capture uma variedade mais rica de relacionamentos no texto de entrada. Cada “cabeça” de atenção pode se concentrar em diferentes partes ou aspectos da entrada, e seu conhecimento combinado é usado para a previsão final.

ChatGPT: a ferramenta de IA generativa mais popular

Desde o início do GPT em 2018, o modelo foi essencialmente construído com base em 12 camadas, 12 cabeças de atenção e 120 milhões de parâmetros, treinados principalmente em um conjunto de dados chamado BookCorpus. Este foi um começo impressionante, oferecendo uma visão do futuro dos modelos de linguagem.

O GPT-2, lançado em 2019, ostentou um aumento de quatro vezes em camadas e cabeças de atenção. Significativamente, sua contagem de parâmetros disparou para 1.5 bilhão. Esta versão aprimorada derivou seu treinamento do WebText, um conjunto de dados enriquecido com 40 GB de texto de vários links do Reddit.

O GPT-3, lançado em maio de 2020, tinha 96 camadas, 96 cabeças de atenção e uma enorme contagem de parâmetros de 175 bilhões. O que diferenciava o GPT-3 eram seus diversos dados de treinamento, abrangendo CommonCrawl, WebText, Wikipedia em inglês, corpora de livros e outras fontes, combinando um total de 570 GB.

As complexidades do funcionamento do ChatGPT permanecem um segredo bem guardado. No entanto, um processo denominado "aprendizagem por reforço a partir de feedback humano" (RLHF) é conhecido por ser fundamental. Originária de um projeto anterior do ChatGPT, essa técnica foi fundamental para aprimorar o modelo GPT-3.5, tornando-o mais alinhado às instruções escritas.

O treinamento do ChatGPT compreende uma abordagem de três níveis:

  1. Ajuste fino supervisionado: envolve a curadoria de entradas e saídas de conversas escritas por humanos para refinar o modelo GPT-3.5 subjacente.
  2. Modelagem de recompensa: humanos classificam várias saídas do modelo com base na qualidade, ajudando a treinar um modelo de recompensa que pontua cada saída considerando o contexto da conversa.
  3. Aprendizagem por reforço: o contexto de conversação serve como pano de fundo onde o modelo subjacente propõe uma resposta. Essa resposta é avaliada pelo modelo de recompensa e o processo é otimizado por meio de um algoritmo denominado otimização de política proximal (PPO).

Para aqueles que estão apenas mergulhando no ChatGPT, um guia inicial abrangente pode ser encontrado aqui. Se você deseja se aprofundar na engenharia de prompts com o ChatGPT, também temos um guia avançado que aborda as técnicas de prompt mais recentes e de última geração, disponível em 'ChatGPT e engenharia de prompt avançada: conduzindo a evolução da IA'.

Difusão & Modelos Multimodais

Enquanto modelos como VAEs e GANs geram suas saídas por meio de uma única passagem, portanto, presos a tudo o que produzem, os modelos de difusão introduziram o conceito de 'refinamento iterativo'. Por meio desse método, eles retornam, refinando os erros das etapas anteriores e produzindo gradualmente um resultado mais polido.

Central para os modelos de difusão é a arte de “corrupção" e "refinamento". Na fase de treinamento, uma imagem típica é progressivamente corrompida pela adição de diferentes níveis de ruído. Essa versão com ruído é então alimentada ao modelo, que tenta "reduzir o ruído" ou "descorrompê-la". Por meio de várias rodadas, o modelo se torna hábil em restauração, compreendendo aberrações sutis e significativas.

IA generativa - Aviso no meio da jornada
Imagem gerada no meio da jornada

O processo de geração de novas imagens após o treinamento é intrigante. Começando com uma entrada completamente aleatória, ela é continuamente refinada usando as previsões do modelo. O objetivo é obter uma imagem original com o mínimo de etapas. O controle do nível de corrupção é feito por meio de um "programa de ruído", um mecanismo que determina a quantidade de ruído aplicada em diferentes estágios. Um programador, como visto em bibliotecas como "difusores“, determina a natureza dessas interpretações ruidosas com base em algoritmos estabelecidos.

Uma espinha dorsal arquitetural essencial para muitos modelos de difusão é a UNet— uma rede neural convolucional adaptada para tarefas que exigem saídas que espelham a dimensão espacial das entradas. É uma mistura de camadas de downsampling e upsampling, intrinsecamente conectadas para reter dados de alta resolução, essenciais para saídas relacionadas a imagens.

Aprofundando-se no reino dos modelos generativos, a OpenAI DALL-E2 surge como um exemplo brilhante da fusão de capacidades textuais e visuais de IA. Ele emprega uma estrutura de três níveis:

O DALL-E 2 apresenta uma arquitetura tripla:

  1. Codificador de Texto: Transforma o prompt de texto em uma incorporação conceitual dentro de um espaço latente. Este modelo não parte do zero. Ele se baseia no Pré-treinamento de Linguagem Contrastiva-Imagem da OpenAI (CLIP) como base. O CLIP serve como uma ponte entre dados visuais e textuais, aprendendo conceitos visuais usando linguagem natural. Por meio de um mecanismo conhecido como aprendizado contrastivo, ele identifica e combina imagens com suas descrições textuais correspondentes.
  2. O Prior: A incorporação de texto derivada do codificador é então convertida em uma incorporação de imagem. O DALL-E 2 testou os métodos autorregressivo e de difusão para essa tarefa, sendo que o último apresentou resultados superiores. Modelos autorregressivos, como visto em Transformers e PixelCNN, geram saídas em sequências. Por outro lado, modelos de difusão, como o usado no DALL-E 2, transformam ruído aleatório em incorporações de imagens previstas com a ajuda de incorporações de texto.
  3. O Decodificador: O clímax do processo, esta parte gera a saída visual final com base no prompt de texto e na incorporação de imagens da fase anterior. O decodificador do DALL.E 2 deve sua arquitetura a outro modelo, DESLIZAR, que também pode produzir imagens realistas a partir de dicas textuais.
Arquitetura do modelo DALL-E (modelo múltiplo de difusão)
Arquitetura simplificada do modelo DALL-E

Usuários Python interessados ​​em Langchain deve conferir nosso tutorial detalhado que cobre tudo, desde os fundamentos até as técnicas avançadas.

Aplicações de IA generativa

domínios textuais

Começando com o texto, a IA generativa foi fundamentalmente alterada por chatbots como ChatGPT. Dependendo fortemente do Processamento de Linguagem Natural (PNL) e de grandes modelos de linguagem (LLMs), essas entidades são capacitadas para executar tarefas que vão desde geração de código e tradução de linguagem até resumo e análise de sentimento. O ChatGPT, por exemplo, foi amplamente adotado, tornando-se um produto básico para milhões de pessoas. Isso é ainda aumentado por plataformas de IA conversacional, baseadas em LLMs como GPT-4, Palma e BLOOM, que produzem texto sem esforço, auxiliam na programação e até oferecem raciocínio matemático.

Do ponto de vista comercial, esses modelos estão se tornando inestimáveis. As empresas os utilizam para uma infinidade de operações, incluindo gestão de riscos, otimização de estoque e previsão de demandas. Alguns exemplos notáveis ​​incluem a IA do Bing, o BARD do Google e a API ChatGPT.

Arte

O mundo das imagens passou por transformações drásticas com a IA Generativa, principalmente desde o lançamento do DALL-E 2 em 2022. Essa tecnologia, que pode gerar imagens a partir de prompts textuais, tem implicações artísticas e profissionais. Por exemplo, a Midjourney utilizou essa tecnologia para produzir imagens impressionantemente realistas. Esta publicação recente desmistifica Midjourney em um guia detalhado, elucidando a plataforma e suas complexidades imediatas de engenharia. Além disso, plataformas como Alpaca AI e Photoroom AI utilizam Generative AI para funcionalidades avançadas de edição de imagens, como remoção de fundo, exclusão de objetos e até mesmo restauração facial.

Produção de vídeo

A produção de vídeo, embora ainda em estágio inicial no âmbito da IA ​​Generativa, apresenta avanços promissores. Plataformas como Imagen Video, Meta Make A Video e Runway Gen-2 estão expandindo os limites do que é possível, mesmo que resultados verdadeiramente realistas ainda estejam no horizonte. Esses modelos oferecem utilidade substancial para a criação de vídeos humanos digitais, com aplicativos como Synthesia e SuperCreator liderando o caminho. Notavelmente, a Tavus AI oferece uma proposta de venda única ao personalizar vídeos para cada público, um benefício para as empresas.

Criação de código

A codificação, um aspecto indispensável do nosso mundo digital, não ficou imune à IA Generativa. Embora o ChatGPT seja uma ferramenta popular, diversas outras aplicações de IA foram desenvolvidas para fins de codificação. Essas plataformas, como GitHub Copilot, Alphacode e CodeComplete, funcionam como assistentes de codificação e podem até mesmo produzir código a partir de prompts de texto. O que é intrigante é a adaptabilidade dessas ferramentas. O Codex, a força motriz por trás do GitHub Copilot, pode ser adaptado ao estilo de codificação de cada indivíduo, ressaltando o potencial de personalização da IA ​​Generativa.

Conclusão

Combinando a criatividade humana com a computação de máquina, tornou-se uma ferramenta inestimável, com plataformas como ChatGPT e DALL-E 2 expandindo os limites do que é concebível. Da criação de conteúdo textual à escultura de obras-primas visuais, suas aplicações são vastas e variadas.

Como acontece com qualquer tecnologia, as implicações éticas são primordiais. Embora a IA Generativa prometa criatividade sem limites, é crucial empregá-la com responsabilidade, estando ciente de possíveis vieses e do poder da manipulação de dados.

Com ferramentas como o ChatGPT se tornando mais acessíveis, agora é o momento perfeito para testar as águas e experimentar. Seja você um artista, programador ou entusiasta de tecnologia, o universo da IA ​​Generativa está repleto de possibilidades esperando para serem exploradas. A revolução não está no horizonte; ela está aqui e agora. Então, mergulhe de cabeça!

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.