Inteligência artificial
Inteligência Artificial Gerativa: A Ideia por trás do CHATGPT, DALL-E, Midjourney e Mais

O mundo da arte, comunicação e como percebemos a realidade está se transformando rapidamente. Se olharmos para a história da inovação humana, podemos considerar a invenção da roda ou a descoberta da eletricidade como saltos monumentais. Hoje, uma nova revolução está acontecendo — ponteando a divisão entre a criatividade humana e a computação de máquina. Isso é a Inteligência Artificial Gerativa.
Modelos gerativos borram a linha entre humanos e máquinas. Com o advento de modelos como o GPT-4, que emprega módulos de transformador, demos um passo mais próximo da geração de linguagem natural e rica em contexto. Esses avanços impulsionaram aplicações na criação de documentos, sistemas de diálogo de chatbot e até mesmo na composição de música sintética.
Decisões recentes de grandes empresas destacam sua importância. A Microsoft já está descontinuando seu aplicativo Cortana este mês para priorizar inovações mais recentes de Inteligência Artificial Gerativa, como o Bing Chat. A Apple também dedicou uma parte significativa de seu $22,6 bilhões de orçamento de P&D para a inteligência artificial gerativa, como indicado pelo CEO Tim Cook.
Uma Nova Era de Modelos: Gerativo vs. Discriminativo
A história da Inteligência Artificial Gerativa não é apenas sobre suas aplicações, mas fundamentalmente sobre seu funcionamento interno. No ecossistema de inteligência artificial, existem dois modelos: discriminativo e gerativo.
Modelos discriminativos são os que a maioria das pessoas encontra no dia a dia. Esses algoritmos tomam dados de entrada, como um texto ou uma imagem, e os emparelham com uma saída de destino, como uma tradução de palavra ou diagnóstico médico. Eles são sobre mapeamento e previsão.
Modelos gerativos, por outro lado, são criadores. Eles não apenas interpretam ou predizem; eles geram novas saídas complexas a partir de vetores de números que frequentemente não estão relacionados a valores do mundo real.
As Tecnologias por trás dos Modelos Gerativos
Modelos gerativos devem sua existência a redes neurais profundas, estruturas sofisticadas projetadas para imitar a funcionalidade do cérebro humano. Ao capturar e processar variações multifacetadas nos dados, essas redes servem como a espinha dorsal de numerosos modelos gerativos.
Como esses modelos gerativos ganham vida? Normalmente, eles são construídos com redes neurais profundas, otimizadas para capturar as variações multifacetadas nos dados. Um exemplo primário é a Rede Adversária Gerativa (GAN), onde duas redes neurais, o gerador e o discriminador, competem e aprendem um com o outro em uma relação única de professor-aluno. Desde pinturas até transferência de estilo, desde composição de música até jogos, esses modelos estão evoluindo e se expandindo de maneiras anteriormente inimagináveis.
Isso não para com as GANs. Autoencoders Variacionais (VAEs) são outro jogador fundamental no campo de modelos gerativos. Os VAEs se destacam por sua capacidade de criar imagens fotorealistas a partir de números aparentemente aleatórios. Como? Processando esses números por meio de um vetor latente, dá origem a arte que espelha as complexidades da estética humana.
Tipos de Inteligência Artificial Gerativa: Texto para Texto, Texto para Imagem
Transformadores & LLM
O artigo “Atenção é Tudo o que Você Precisa” do Google Brain marcou uma mudança na forma como pensamos sobre modelagem de texto. Em vez de arquiteturas complexas e sequenciais como Redes Neurais Recorrentes (RNNs) ou Redes Neurais Convolucionais (CNNs), o modelo Transformer introduziu o conceito de atenção, que basicamente significava se concentrar em diferentes partes do texto de entrada dependendo do contexto. Uma das principais vantagens disso foi a facilidade de paralelização. Ao contrário das RNNs, que processam o texto sequencialmente, tornando-as mais difíceis de dimensionar, os Transformadores podem processar partes do texto simultaneamente, tornando o treinamento mais rápido e eficiente em grandes conjuntos de dados.
Em um longo texto, nem todas as palavras ou frases que você lê têm a mesma importância. Algumas partes exigem mais atenção com base no contexto. Essa capacidade de mudar nosso foco com base na relevância é o que o mecanismo de atenção imita.
Para entender isso, pense em uma frase: “Unite AI Publica Notícias de IA e Robótica.” Agora, prever a próxima palavra exige uma compreensão do que é mais importante no contexto anterior. O termo ‘Robótica’ pode sugerir que a próxima palavra possa estar relacionada a um avanço específico ou evento no campo da robótica, enquanto ‘Publica’ pode indicar que o contexto seguinte pode mergulhar em uma publicação recente ou artigo.
Mecanismos de atenção nos Transformadores são projetados para alcançar esse foco seletivo. Eles medem a importância de diferentes partes do texto de entrada e decidem onde “olhar” ao gerar uma resposta. Isso é uma partida das arquiteturas mais antigas, como as RNNs, que tentavam enfiar a essência de todo o texto de entrada em um único ‘estado’ ou ‘memória’.
O funcionamento da atenção pode ser comparado a um sistema de recuperação de chave-valor. Ao tentar prever a próxima palavra em uma frase, cada palavra precedente oferece uma ‘chave’ sugerindo sua potencial relevância, e com base em quão bem essas chaves correspondem ao contexto atual (ou consulta), elas contribuem com um ‘valor’ ou peso para a previsão.
Esses modelos de aprendizado de máquina avançados se integraram perfeitamente a várias aplicações, desde melhorias no mecanismo de busca do Google com o BERT até o Copilot do GitHub, que aproveita a capacidade de Modelos de Linguagem Grande (LLMs) para converter trechos de código simples em códigos-fonte completamente funcionais.
Modelos de Linguagem Grande (LLMs) como o GPT-4, Bard e LLaMA são construções colossais projetadas para decifrar e gerar linguagem humana, código e mais. Seu tamanho imenso, variando de bilhões a trilhões de parâmetros, é uma das características definidoras. Esses LLMs são alimentados com vastas quantidades de dados de texto, permitindo que eles compreendam as nuances da linguagem humana. Uma característica notável desses modelos é sua aptidão para “aprendizado de poucos disparos”. Ao contrário de modelos convencionais que precisam de vastas quantidades de dados de treinamento específicos, os LLMs podem generalizar a partir de um número muito limitado de exemplos (ou “disparos”).
Estado dos Modelos de Linguagem Grande (LLMs) a partir de meados de 2023
| Nome do Modelo | Desenvolvedor | Parâmetros | Disponibilidade e Acesso | Recursos Notáveis e Comentários |
| GPT-4 | OpenAI | 1,5 Trilhão | Não é de Código Aberto, Acesso apenas via API | Desempenho impressionante em uma variedade de tarefas, pode processar imagens e texto, comprimento máximo de entrada de 32.768 tokens |
| GPT-3 | OpenAI | 175 bilhões | Não é de Código Aberto, Acesso apenas via API | Demonstrou capacidades de aprendizado de poucos disparos e zero disparos. Realiza complemento de texto em linguagem natural. |
| BLOOM | BigScience | 176 bilhões | Modelo Baixável, API Hospedada Disponível | LLM multilíngue desenvolvido por colaboração global. Suporta 13 linguagens de programação. |
| LaMDA | 173 bilhões | Não é de Código Aberto, Sem API ou Download | Treinado em diálogos, pode aprender a falar sobre praticamente qualquer coisa | |
| MT-NLG | Nvidia/Microsoft | 530 bilhões | Acesso via API por solicitação | Utiliza a arquitetura Megatron baseada em transformador para várias tarefas de NLP. |
| LLaMA | Meta AI | 7B a 65B) | Modelo Baixável por solicitação | Destinado a democratizar a IA, oferecendo acesso àqueles em pesquisa, governo e academia. |
Como os LLMs São Usados?
Os LLMs podem ser usados de várias maneiras, incluindo:
- Utilização Direta: Simplesmente usar um LLM pré-treinado para geração de texto ou processamento. Por exemplo, usar o GPT-4 para escrever um post de blog sem nenhum ajuste fino adicional.
- Ajuste Fino: Adaptar um LLM pré-treinado para uma tarefa específica, um método conhecido como aprendizado de transferência. Um exemplo seria personalizar o T5 para gerar resumos para documentos de uma indústria específica.
- Recuperação de Informações: Usar LLMs, como o BERT ou o GPT, como parte de arquiteturas mais amplas para desenvolver sistemas que possam buscar e categorizar informações.
Atenção Multi-Cabeça: Por que ter apenas uma quando você pode ter várias?
No entanto, confiar em um único mecanismo de atenção pode ser limitante. Diferentes palavras ou sequências em um texto podem ter tipos variados de relevância ou associações. É aqui que entra a atenção multi-cabeça. Em vez de um conjunto de pesos de atenção, a atenção multi-cabeça emprega vários conjuntos, permitindo que o modelo capture uma variedade mais rica de relações no texto de entrada. Cada “cabeça” de atenção pode se concentrar em diferentes partes ou aspectos da entrada, e seu conhecimento combinado é usado para a previsão final.
ChatGPT: A Ferramenta de Inteligência Artificial Gerativa mais Popular
Começando com a incepção do GPT em 2018, o modelo foi essencialmente construído sobre a fundação de 12 camadas, 12 cabeças de atenção e 120 milhões de parâmetros, principalmente treinado em um conjunto de dados chamado BookCorpus. Isso foi um começo impressionante, oferecendo um vislumbre do futuro dos modelos de linguagem.
O GPT-2, lançado em 2019, ostentava um aumento quatro vezes maior em camadas e cabeças de atenção. Significativamente, sua contagem de parâmetros disparou para 1,5 bilhão. Essa versão aprimorada derivou seu treinamento do WebText, um conjunto de dados enriquecido com 40GB de texto de várias ligações do Reddit.
O GPT-3, lançado em maio de 2020, tinha 96 camadas, 96 cabeças de atenção e uma contagem massiva de parâmetros de 175 bilhões. O que distinguiu o GPT-3 foi sua diversidade de dados de treinamento, abrangendo CommonCrawl, WebText, Wikipedia em inglês, corpora de livros e outras fontes, combinando para um total de 570 GB.
As intrincadas operações do ChatGPT permanecem um segredo bem guardado. No entanto, um processo denominado ‘aprendizado de reforço com feedback humano’ (RLHF) é conhecido por ser fundamental. Originário de um projeto anterior do ChatGPT, essa técnica foi instrumental no aprimoramento do modelo GPT-3.5 para se alinhar melhor com instruções escritas.
O treinamento do ChatGPT compreende uma abordagem de três níveis:
- Ajuste Fino Supervisionado: Envolve a curadoria de entradas e saídas conversacionais escritas por humanos para refinar o modelo GPT-3.5 subjacente.
- Modelagem de Recompensa: Humanos classificam várias saídas do modelo com base na qualidade, ajudando a treinar um modelo de recompensa que pontua cada saída considerando o contexto da conversa.
- Aprendizado de Reforço: O contexto conversacional serve como um pano de fundo onde o modelo subjacente propõe uma resposta. Essa resposta é avaliada pelo modelo de recompensa, e o processo é otimizado usando um algoritmo chamado otimização de política proximal (PPO).
Para aqueles que estão apenas começando a explorar o ChatGPT, um guia abrangente de início pode ser encontrado aqui. Se você está procurando mergulhar mais fundo na engenharia de prompts com o ChatGPT, também temos um guia avançado que esclarece as técnicas de prompt mais recentes e de ponta, disponível em ‘ChatGPT & Engenharia de Prompts Avançada: Impulsionando a Evolução da IA‘.
Difusão e Modelos Multimodais
Enquanto modelos como VAEs e GANs geram suas saídas por meio de uma única passagem, portanto, travados no que produzem, os modelos de difusão introduziram o conceito de ‘refinamento iterativo’. Por meio desse método, eles retornam, refinando erros de etapas anteriores, e gradualmente produzindo um resultado mais polido.
Central para os modelos de difusão está a arte da “corrupção” e “refinamento”. Em sua fase de treinamento, uma imagem típica é progressivamente corrompida pela adição de vários níveis de ruído. Essa versão barulhenta é então alimentada no modelo, que tenta ‘desruído’ ou ‘des-corromper’ a imagem. Por meio de múltiplas rodadas disso, o modelo se torna habilidoso em restauração, entendendo tanto aberrações sutis quanto significativas.
O processo de gerar novas imagens após o treinamento é intrigante. Começando com uma entrada completamente randomizada, é continuamente refinada usando as previsões do modelo. A intenção é atingir uma imagem imaculada com o mínimo número de etapas. O controle do nível de corrupção é feito por meio de um “cronograma de ruído”, um mecanismo que governa quanto ruído é aplicado em diferentes estágios. Um agendador, como visto em bibliotecas como “diffusers“, dita a natureza dessas versões barulhentas com base em algoritmos estabelecidos.
Uma espinha dorsal arquitetônica essencial para muitos modelos de difusão é a U-Net — uma rede neural convolucional personalizada para tarefas que exigem saídas que espelhem a dimensão espacial das entradas. É uma mistura de camadas de downsampling e upsampling, intricadamente conectadas para reter dados de alta resolução, fundamental para saídas relacionadas a imagens.
Mergulhando mais fundo no reino dos modelos gerativos, o DALL-E 2 da OpenAI emerge como um exemplo brilhante da fusão de capacidades de IA textual e visual. Ele emprega uma estrutura de três níveis:
O DALL-E 2 apresenta uma arquitetura de três níveis:
- Codificador de Texto: Ele transforma o prompt de texto em uma incorporação conceitual dentro de um espaço latente. Esse modelo não começa do zero. Ele se baseia no conjunto de dados de pré-treinamento de Linguagem-Imagem do OpenAI (CLIP) como sua base. O CLIP serve como uma ponte entre dados visuais e textuais, aprendendo conceitos visuais usando linguagem natural. Por meio de um mecanismo conhecido como aprendizado contrastivo, ele identifica e combina imagens com suas descrições textuais correspondentes.
- O Prior: A incorporação de texto derivada do codificador é então convertida em uma incorporação de imagem. O DALL-E 2 testou tanto métodos autoregressivos quanto de difusão para essa tarefa, com o último mostrando resultados superiores. Modelos autoregressivos, como os vistos nos Transformadores e no PixelCNN, geram saídas em sequências. Por outro lado, os modelos de difusão, como o usado no DALL-E 2, transformam ruído aleatório em incorporações de imagem previstas com a ajuda de incorporações de texto.
- O Decodificador: O clímax do processo, essa parte gera a saída visual final com base no prompt de texto e na incorporação de imagem da fase anterior. O decodificador do DALL-E 2 deve sua arquitetura a outro modelo, GLIDE, que também pode produzir imagens realistas a partir de pistas textuais.
Usuários de Python interessados no Langchain devem verificar nosso tutorial detalhado, cobrindo tudo, desde os fundamentos até técnicas avançadas.
Aplicações da Inteligência Artificial Gerativa
Domínios Textuais
Começando com o texto, a Inteligência Artificial Gerativa foi fundamentalmente alterada por chatbots como ChatGPT. Dependendo fortemente do Processamento de Linguagem Natural (NLP) e de modelos de linguagem grande (LLMs), essas entidades são capacitadas a realizar tarefas que variam desde geração de código e tradução de linguagem até resumo e análise de sentimento. O ChatGPT, por exemplo, viu uma adoção generalizada, tornando-se uma ferramenta essencial para milhões. Isso é ainda mais reforçado por plataformas de IA conversacional, baseadas em LLMs como o GPT-4, PaLM e BLOOM, que produzem textos, ajudam na programação e até mesmo oferecem raciocínio matemático.
Do ponto de vista comercial, esses modelos estão se tornando inestimáveis. Empresas os empregam para uma miríade de operações, incluindo gerenciamento de riscos, otimização de estoque e previsão de demandas. Alguns exemplos notáveis incluem o Bing AI, o BARD do Google e a API do ChatGPT.
Arte
O mundo das imagens viu transformações dramáticas com a Inteligência Artificial Gerativa, particularmente desde a introdução do DALL-E 2 em 2022. Essa tecnologia, que pode gerar imagens a partir de prompts textuais, tem implicações tanto artísticas quanto profissionais. Por exemplo, o Midjourney aproveitou essa tecnologia para produzir imagens impressionantemente realistas. Este post recente desmistifica o Midjourney em um guia detalhado, elucidando tanto a plataforma quanto as complexidades da engenharia de prompts. Além disso, plataformas como Alpaca AI e Photoroom AI utilizam a Inteligência Artificial Gerativa para funcionalidades avançadas de edição de imagem, como remoção de fundo, exclusão de objetos e até mesmo restauração facial.
Produção de Vídeo
A produção de vídeo, embora ainda em sua fase inicial no reino da Inteligência Artificial Gerativa, está mostrando avanços promissores. Plataformas como Imagen Video, Meta Make A Video e Runway Gen-2 estão empurrando os limites do que é possível, mesmo que saídas realistas ainda estejam no horizonte. Esses modelos oferecem utilidade substancial para a criação de vídeos digitais humanos, com aplicações como Synthesia e SuperCreator liderando o caminho. Notavelmente, o Tavus AI oferece uma proposta de valor única, personalizando vídeos para membros individuais da audiência, um benefício para as empresas.
Criação de Código
A codificação, um aspecto indispensável do nosso mundo digital, não permaneceu intocado pela Inteligência Artificial Gerativa. Embora o ChatGPT seja uma ferramenta favorita, várias outras aplicações de IA foram desenvolvidas para fins de codificação. Essas plataformas, como o Copilot do GitHub, Alphacode e CodeComplete, servem como assistentes de codificação e podem até mesmo produzir código a partir de prompts textuais. O que é intrigante é a adaptabilidade dessas ferramentas. O Codex, a força motriz por trás do Copilot do GitHub, pode ser personalizado para o estilo de codificação de um indivíduo, destacando o potencial de personalização da Inteligência Artificial Gerativa.
Conclusão
Misturando criatividade humana com computação de máquina, a Inteligência Artificial Gerativa evoluiu para uma ferramenta inestimável, com plataformas como o ChatGPT e o DALL-E 2 empurrando os limites do que é concebível. Desde a criação de conteúdo textual até a escultura de obras-primas visuais, suas aplicações são vastas e variadas.
Como qualquer tecnologia, as implicações éticas são primordiais. Embora a Inteligência Artificial Gerativa prometa criatividade ilimitada, é crucial empregá-la de forma responsável, ciente dos potenciais vieses e do poder da manipulação de dados.
Com ferramentas como o ChatGPT se tornando mais acessíveis, agora é o momento perfeito para testar as águas e experimentar. Seja você um artista, codificador ou entusiasta da tecnologia, o reino da Inteligência Artificial Gerativa está repleto de possibilidades esperando para ser explorado. A revolução não está no horizonte; ela está aqui e agora. Então, Mergulhe!


















