Inteligência artificial

Inteligência Artificial Gerativa: A Ideia por trás do CHATGPT, DALL-E, Midjourney e Mais

Publicado em 8 de agosto de 2023

Atualizado em 23 de maio de 2026

Por

Aayush Mittal Mittal

O mundo da arte, comunicação e como percebemos a realidade está se transformando rapidamente. Se olharmos para a história da inovação humana, podemos considerar a invenção da roda ou a descoberta da eletricidade como saltos monumentais. Hoje, uma nova revolução está acontecendo – ponteando a divisão entre a criatividade humana e a computação de máquina. Isso é a Inteligência Artificial Gerativa.

Os modelos gerativos borraram a linha entre humanos e máquinas. Com a chegada de modelos como o GPT-4, que emprega módulos de transformadores, demos um passo mais próximo da geração de linguagem natural e rica em contexto. Esses avanços impulsionaram aplicações na criação de documentos, sistemas de diálogo de chatbot e até na composição de música sintética.

Recentes decisões de grandes empresas destacam sua importância. A Microsoft está descontinuando seu aplicativo Cortana este mês para priorizar inovações mais recentes de Inteligência Artificial Gerativa, como o Bing Chat. A Apple também dedicou uma parte significativa de seu $22,6 bilhões de orçamento de P&D para a Inteligência Artificial Gerativa, como indicado pelo CEO Tim Cook.

Uma Nova Era de Modelos: Gerativos vs. Discriminativos

A história da Inteligência Artificial Gerativa não é apenas sobre suas aplicações, mas fundamentalmente sobre seu funcionamento interno. No ecossistema de inteligência artificial, existem dois modelos: discriminativos e gerativos.

Os modelos discriminativos são os que a maioria das pessoas encontra no dia a dia. Esses algoritmos tomam dados de entrada, como um texto ou uma imagem, e os associam a uma saída-alvo, como uma tradução de palavra ou diagnóstico médico. Eles são sobre mapeamento e previsão.

Os modelos gerativos, por outro lado, são criadores. Eles não apenas interpretam ou prevêem; geram saídas complexas a partir de vetores de números que frequentemente não estão relacionados a valores do mundo real.

As Tecnologias por trás dos Modelos Gerativos

Os modelos gerativos devem sua existência a redes neurais profundas, estruturas sofisticadas projetadas para imitar a funcionalidade do cérebro humano. Ao capturar e processar variações multifacetadas nos dados, essas redes servem como a espinha dorsal de numerosos modelos gerativos.

Como esses modelos gerativos são criados? Normalmente, eles são construídos com redes neurais profundas, otimizadas para capturar as variações multifacetadas nos dados. Um exemplo primário é a Rede Adversária Gerativa (GAN), onde duas redes neurais, o gerador e o discriminador, competem e aprendem um com o outro em uma relação de professor-aluno única. Desde pinturas até transferência de estilo, desde composição de música até jogos, esses modelos estão evoluindo e se expandindo de maneiras anteriormente inimagináveis.

Isso não para com as GANs. Autoencoders Variacionais (VAEs) são outro jogador pivotal no campo dos modelos gerativos. Os VAEs se destacam por sua capacidade de criar imagens fotorealistas a partir de números aparentemente aleatórios. Como? Processando esses números por meio de um vetor latente, dando origem a arte que espelha as complexidades da estética humana.

Tipos de Inteligência Artificial Gerativa: Texto para Texto, Texto para Imagem

Transformadores e LLM

O artigo “Atenção é Tudo o que Você Precisa” do Google Brain marcou uma mudança na forma como pensamos sobre modelagem de texto. Em vez de arquiteturas complexas e sequenciais como Redes Neurais Recorrentes (RNNs) ou Redes Neurais Convolucionais (CNNs), o modelo Transformer introduziu o conceito de atenção, que basicamente significava se concentrar em diferentes partes do texto de entrada dependendo do contexto. Uma das principais vantagens disso foi a facilidade de paralelização. Ao contrário das RNNs, que processam o texto sequencialmente, tornando-as mais difíceis de dimensionar, os Transformadores podem processar partes do texto simultaneamente, tornando o treinamento mais rápido e eficiente em grandes conjuntos de dados.

: Arquitetura do Modelo Transformer

Em um longo texto, nem todas as palavras ou frases que você lê têm a mesma importância. Algumas partes exigem mais atenção com base no contexto. Essa capacidade de mudar nosso foco com base na relevância é o que o mecanismo de atenção imita.

Para entender isso, pense em uma frase: “Unite AI Publica Notícias de IA e Robótica.” Agora, prever a próxima palavra exige uma compreensão do que é mais importante no contexto anterior. O termo ‘Robótica’ pode sugerir que a próxima palavra possa estar relacionada a um avanço específico ou evento na área de robótica, enquanto ‘Publica’ pode indicar que o contexto seguinte pode mergulhar em uma publicação recente ou artigo.

: Ilustração da Atenção

Os mecanismos de atenção nos Transformadores são projetados para alcançar esse foco seletivo. Eles medem a importância de diferentes partes do texto de entrada e decidem onde “olhar” ao gerar uma resposta. Isso é uma partida das arquiteturas mais antigas, como as RNNs, que tentavam compactar a essência de todo o texto de entrada em um único ‘estado’ ou ‘memória’.

O funcionamento da atenção pode ser comparado a um sistema de recuperação de chave-valor. Ao tentar prever a próxima palavra em uma frase, cada palavra anterior oferece uma ‘chave’ sugerindo sua potencial relevância, e com base em quão bem essas chaves se alinham com o contexto atual (ou consulta), elas contribuem com um ‘valor’ ou peso para a previsão.

Esses modelos de aprendizado de máquina avançados se integraram perfeitamente a várias aplicações, desde melhorias no mecanismo de busca do Google com o BERT até o Copilot do GitHub, que aproveita a capacidade dos Grandes Modelos de Linguagem (LLMs) para converter trechos de código simples em códigos-fonte completamente funcionais.

Os Grandes Modelos de Linguagem (LLMs), como o GPT-4, o Bard e o LLaMA, são construções colossais projetadas para decifrar e gerar linguagem humana, código e mais. Seu tamanho imenso, variando de bilhões a trilhões de parâmetros, é uma das características definidoras. Esses LLMs são alimentados com vastas quantidades de dados de texto, permitindo-lhes compreender as nuances da linguagem humana. Uma característica notável desses modelos é sua aptidão para o “aprendizado de poucos disparos”. Ao contrário dos modelos convencionais, que necessitam de grandes quantidades de dados de treinamento específicos, os LLMs podem generalizar a partir de um número muito limitado de exemplos (ou “disparos”).

Estado dos Grandes Modelos de Linguagem (LLMs) a partir de meados de 2023

Nome do Modelo	Desenvolvedor	Parâmetros	Disponibilidade e Acesso	Recursos Notáveis e Comentários
GPT-4	OpenAI	1,5 Trilhão	Não é de Código Aberto, Acesso apenas via API	Desempenho impressionante em uma variedade de tarefas; pode processar imagens e texto, comprimento máximo de entrada de 32.768 tokens
GPT-3	OpenAI	175 bilhões	Não é de Código Aberto, Acesso apenas via API	Demonstrou capacidades de aprendizado de poucos disparos e zero disparos. Realiza a conclusão de texto em linguagem natural.
BLOOM	BigScience	176 bilhões	Modelo Baixável, API Hospedada Disponível	LLM multilíngue desenvolvido por colaboração global. Suporta 13 linguagens de programação.
LaMDA	Google	173 bilhões	Não é de Código Aberto, Sem API ou Download	Treinado em diálogos, pode aprender a falar sobre praticamente qualquer coisa
MT-NLG	Nvidia/Microsoft	530 bilhões	Acesso via API por Solicitação	Utiliza a arquitetura Megatron baseada em Transformadores para várias tarefas de NLP.
LLaMA	Meta AI	7B a 65B)	Modelo Baixável por Solicitação	Destinado a democratizar a IA, oferecendo acesso àqueles em pesquisa, governo e academia.

Como os LLMs São Usados?

Os LLMs podem ser usados de várias maneiras, incluindo:

Uso Direto: Simplesmente usando um LLM pré-treinado para geração de texto ou processamento. Por exemplo, usando o GPT-4 para escrever um post de blog sem nenhum ajuste fino adicional.
Ajuste Fino: Adaptando um LLM pré-treinado para uma tarefa específica, um método conhecido como transferência de aprendizado. Um exemplo seria personalizar o T5 para gerar resumos para documentos de uma indústria específica.
Recuperação de Informação: Usando LLMs, como o BERT ou o GPT, como parte de arquiteturas maiores para desenvolver sistemas que possam buscar e categorizar informações.

: Arquitetura de Ajuste Fino do ChatGPT

Atenção Multi-Cabeça: Por que um quando você pode ter muitos?

No entanto, confiar em um único mecanismo de atenção pode ser limitante. Diferentes palavras ou sequências em um texto podem ter tipos variados de relevância ou associações. É aqui que entra a atenção multi-cabeça. Em vez de um conjunto de pesos de atenção, a atenção multi-cabeça emprega múltiplos conjuntos, permitindo que o modelo capture uma variedade mais rica de relações no texto de entrada. Cada “cabeça” de atenção pode se concentrar em diferentes partes ou aspectos do texto de entrada, e seu conhecimento combinado é usado para a previsão final.

ChatGPT: A Ferramenta de Inteligência Artificial Gerativa mais Popular

Começando com a invenção do GPT em 2018, o modelo foi basicamente construído sobre a fundação de 12 camadas, 12 cabeças de atenção e 120 milhões de parâmetros, principalmente treinado em um conjunto de dados chamado BookCorpus. Isso foi um começo impressionante, oferecendo um vislumbre do futuro dos modelos de linguagem.

O GPT-2, lançado em 2019, teve um aumento quatro vezes maior no número de camadas e cabeças de atenção. Significativamente, sua contagem de parâmetros disparou para 1,5 bilhão. Essa versão aprimorada derivou seu treinamento do WebText, um conjunto de dados enriquecido com 40GB de texto de várias ligações do Reddit.

O GPT-3, lançado em maio de 2020, teve 96 camadas, 96 cabeças de atenção e uma contagem massiva de parâmetros de 175 bilhões. O que distinguiu o GPT-3 foi sua diversidade de dados de treinamento, abrangendo CommonCrawl, WebText, Wikipedia em inglês, corpora de livros e outras fontes, combinando para um total de 570 GB.

As intrincâncias do funcionamento do ChatGPT permanecem um segredo bem guardado. No entanto, um processo chamado ‘aprendizado por reforço com feedback humano’ (RLHF) é conhecido por ser crucial. Originário de um projeto anterior do ChatGPT, essa técnica foi instrumental no aprimoramento do modelo GPT-3.5 para que se alinhasse melhor com as instruções escritas.

O treinamento do ChatGPT envolve uma abordagem em três etapas:

Ajuste Fino Supervisionado: Envolve a curação de entradas e saídas de conversas escritas por humanos para refinar o modelo GPT-3.5 subjacente.
Modelagem de Recompensa: Humanos classificam várias saídas do modelo com base na qualidade, ajudando a treinar um modelo de recompensa que pontua cada saída considerando o contexto da conversa.
Aprendizado por Reforço: O contexto da conversa serve como pano de fundo onde o modelo subjacente propõe uma resposta. Essa resposta é avaliada pelo modelo de recompensa, e o processo é otimizado usando um algoritmo chamado otimização de política proximal (PPO).

Para aqueles que estão apenas começando com o ChatGPT, um guia de início abrangente pode ser encontrado aqui. Se você está procurando mergulhar mais fundo no engenharia de prompts com o ChatGPT, também temos um guia avançado que ilumina as últimas e mais avançadas técnicas de prompts, disponível em ‘ChatGPT & Engenharia de Prompts Avançada: Impulsionando a Evolução da IA‘.

Modelos de Difusão e Multimodais

Enquanto modelos como os VAEs e GANs geram suas saídas por meio de uma única passagem, portanto, presos ao que produzem, os modelos de difusão introduziram o conceito de ‘refinamento iterativo’. Por meio desse método, eles retornam, refinando erros de etapas anteriores, e gradualmente produzindo um resultado mais polido.

Central para os modelos de difusão está a arte da “corrupção” e “refinamento”. Em sua fase de treinamento, uma imagem típica é progressivamente corrompida adicionando-se níveis variados de ruído. Essa versão barulhenta é então alimentada no modelo, que tenta “desbarulhar” ou “des-corromper” a imagem. Por meio de múltiplas rodadas disso, o modelo se torna hábil em restauração, entendendo tanto sutis quanto significativas aberrações.

: Imagem Gerada pelo Midjourney

O processo de gerar novas imagens após o treinamento é intrigante. Começando com uma entrada completamente aleatorizada, ela é continuamente refinada usando as previsões do modelo. A intenção é atingir uma imagem imaculada com o mínimo número de etapas. O controle do nível de corrupção é feito por meio de um “cronograma de ruído”, um mecanismo que governa a quantidade de ruído aplicada em diferentes estágios. Um programador, como visto em bibliotecas como “diffusers“, dita a natureza dessas versões barulhentas com base em algoritmos estabelecidos.

A arquitetura essencial para muitos modelos de difusão é a UNet – uma rede neural convolucional projetada para tarefas que exigem saídas que espelhem as dimensões espaciais das entradas. É uma combinação de camadas de downsampling e upsampling, intricadamente conectadas para reter dados de alta resolução, essenciais para saídas relacionadas a imagens.

Mergulhando mais fundo no reino dos modelos gerativos, o DALL-E 2 da OpenAI emerge como um exemplo brilhante da fusão de capacidades de IA textual e visual. Ele emprega uma estrutura de três camadas:

O DALL-E 2 apresenta uma arquitetura de três camadas:

Encoder de Texto: Transforma o prompt de texto em um embedding conceitual dentro de um espaço latente. Esse modelo não começa do zero. Ele se baseia no conjunto de dados de pré-treinamento de Linguagem-Imagem Contrastiva (CLIP) da OpenAI como sua base. O CLIP serve como uma ponte entre dados visuais e textuais, aprendendo conceitos visuais usando linguagem natural. Por meio de um mecanismo conhecido como aprendizado contrastivo, ele identifica e combina imagens com suas descrições textuais correspondentes.
O Prior: O embedding de texto derivado do encoder é então convertido em um embedding de imagem. O DALL-E 2 testou tanto métodos autoregressivos quanto de difusão para essa tarefa, com o último mostrando resultados superiores. Modelos autoregressivos, como os vistos nos Transformadores e no PixelCNN, geram saídas em sequências. Por outro lado, modelos de difusão, como o usado no DALL-E 2, transformam ruído aleatório em embeddings de imagem previstos com a ajuda de embeddings de texto.
Decodificador: A parte final do processo, essa gera a saída visual final com base no prompt de texto e no embedding de imagem da fase anterior. O decodificador do DALL-E 2 deve sua arquitetura a outro modelo, o GLIDE, que também pode produzir imagens realistas a partir de prompts textuais.

: Arquitetura Simplificada do Modelo DALL-E

Usuários de Python interessados no Langchain devem verificar nosso tutorial detalhado, cobrindo tudo, desde os fundamentos até técnicas avançadas.

Aplicações da Inteligência Artificial Gerativa

Domínios Textuais

Começando com o texto, a Inteligência Artificial Gerativa foi fundamentalmente alterada por chatbots como o ChatGPT. Dependendo fortemente do Processamento de Linguagem Natural (NLP) e dos grandes modelos de linguagem (LLMs), essas entidades são capacitadas a realizar tarefas que variam desde a geração de código e tradução de linguagem até a resumo e análise de sentimento. O ChatGPT, por exemplo, viu uma adoção generalizada, tornando-se uma ferramenta essencial para milhões. Isso é ainda mais reforçado por plataformas de IA conversacional, fundamentadas em LLMs como o GPT-4, PaLM e BLOOM, que produzem textos, auxiliam na programação e até oferecem raciocínio matemático.

Do ponto de vista comercial, esses modelos estão se tornando inestimáveis. As empresas os empregam para uma miríade de operações, incluindo gerenciamento de riscos, otimização de estoque e previsão de demanda. Alguns exemplos notáveis incluem o Bing AI, o BARD do Google e a API do ChatGPT.

Arte

O mundo das imagens viu transformações dramáticas com a Inteligência Artificial Gerativa, especialmente desde a introdução do DALL-E 2 em 2022. Essa tecnologia, que pode gerar imagens a partir de prompts textuais, tem implicações tanto artísticas quanto profissionais. Por exemplo, o Midjourney aproveitou essa tecnologia para produzir imagens impressionantemente realistas. Este post recente desmistifica o Midjourney em um guia detalhado, elucidando tanto a plataforma quanto as complexidades da engenharia de prompts. Além disso, plataformas como Alpaca AI e Photoroom AI utilizam a Inteligência Artificial Gerativa para funcionalidades avançadas de edição de imagens, como remoção de fundo, exclusão de objetos e até restauração facial.

Produção de Vídeo

A produção de vídeo, embora ainda em seu estágio inicial no reino da Inteligência Artificial Gerativa, está mostrando avanços promissores. Plataformas como Imagen Video, Meta Make A Video e Runway Gen-2 estão empurrando os limites do que é possível, mesmo que saídas realistas ainda estejam no horizonte. Esses modelos oferecem utilidade substancial para a criação de vídeos digitais humanos, com aplicações como Synthesia e SuperCreator liderando o caminho. Notavelmente, o Tavus AI oferece uma proposta de valor única, personalizando vídeos para membros individuais da audiência, um benefício para as empresas.

Criação de Código

A codificação, um aspecto indispensável do nosso mundo digital, não ficou imune à Inteligência Artificial Gerativa. Embora o ChatGPT seja uma ferramenta favorita, várias outras aplicações de IA foram desenvolvidas para propósitos de codificação. Essas plataformas, como o GitHub Copilot, o Alphacode e o CodeComplete, atuam como assistentes de codificação e podem até produzir código a partir de prompts textuais. O que é intrigante é a adaptabilidade dessas ferramentas. O Codex, a força motriz por trás do GitHub Copilot, pode ser personalizado para o estilo de codificação de um indivíduo, destacando o potencial de personalização da Inteligência Artificial Gerativa.

Conclusão

Mesclando criatividade humana com computação de máquina, a Inteligência Artificial Gerativa evoluiu para uma ferramenta inestimável, com plataformas como o ChatGPT e o DALL-E 2 empurrando os limites do que é concebível. Desde a criação de conteúdo textual até a escultura de obras-primas visuais, suas aplicações são vastas e variadas.

Como qualquer tecnologia, as implicações éticas são primordiais. Embora a Inteligência Artificial Gerativa prometa criatividade ilimitada, é crucial empregá-la de forma responsável, ciente de possíveis viés e do poder da manipulação de dados.

Com ferramentas como o ChatGPT se tornando mais acessíveis, agora é o momento perfeito para testar as águas e experimentar. Seja você um artista, codificador ou entusiasta da tecnologia, o reino da Inteligência Artificial Gerativa está repleto de possibilidades esperando para ser explorado. A revolução não está no horizonte; está aqui e agora. Então, mergulhe!

Aayush Mittal, Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contínua também me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.