Engenharia de prompts

Um Olhar Mais Profundo no DALL-E 3 da OpenAI

mm
DALL·E 3

No mundo da Inteligência Artificial Gerativa, manter-se atualizado é fundamental. E quando se trata de gerar imagens, a Stable Diffusion e a Midjourney eram as plataformas que todos estavam falando – até agora.

A OpenAI, apoiada pelo gigante da tecnologia Microsoft, introduziu o DALL·E 3 em 20 de setembro de 2023.

O DALL-E 3 não é apenas sobre criar imagens; é sobre trazer suas ideias à vida, exatamente como você as imaginou. E o melhor parte? É rápido, muito rápido. Você tem uma ideia, alimenta-a com o DALL-E 3, e pronto, sua imagem está pronta.

Então, neste artigo, vamos mergulhar fundo no que é o DALL-E 3. Vamos falar sobre como ele funciona, o que o distingue do resto e por que ele pode ser a ferramenta que você não sabia que precisava. Seja você um designer, um artista ou apenas alguém com muitas ideias legais, você vai querer ficar por aqui. Vamos começar.

O que é novo no DALL·E 3 é que ele entende o contexto muito melhor do que o DALL·E 2. As versões anteriores podem ter perdido alguns detalhes ou ignorado alguns detalhes aqui e ali, mas o DALL·E 3 está no ponto. Ele pega os detalhes exatos do que você está pedindo, dando-lhe uma imagem que está mais próxima do que você imaginou.

A parte legal? O DALL·E 3 e o ChatGPT agora estão integrados. Eles trabalham juntos para ajudar a refinar suas ideias. Você dispara um conceito, o ChatGPT ajuda a ajustar o prompt, e o DALL·E 3 traz à vida. Se você não gosta da imagem, pode pedir ao ChatGPT para ajustar o prompt e fazer o DALL·E 3 tentar novamente. Por uma taxa mensal de 20$, você tem acesso ao GPT-4, DALL·E 3 e muitos outros recursos legais.

O Bing Chat da Microsoft conseguiu colocar as mãos no DALL·E 3 mesmo antes do ChatGPT da OpenAI, e agora não é apenas as grandes empresas que podem brincar com ele, mas todos podem usá-lo de graça. A integração ao Bing Chat e ao Bing Image Creator torna muito mais fácil para qualquer um usá-lo.

A Ascensão dos Modelos de Difusão

Nos últimos 3 anos, a inteligência artificial de visão testemunhou a ascensão dos modelos de difusão, dando um salto significativo, especialmente na geração de imagens. Antes dos modelos de difusão, as Redes Adversárias Gerativas (GANs) eram a tecnologia de ponta para gerar imagens realistas.

GANs

GANs

Entretanto, elas tinham seus próprios desafios, incluindo a necessidade de vastas quantidades de dados e poder computacional, o que as tornava difíceis de lidar.

Então, surgem os modelos de difusão. Eles surgiram como uma alternativa mais estável e eficiente às GANs. Ao contrário das GANs, os modelos de difusão operam adicionando ruído aos dados, obscurecendo-os até que apenas aleatoriedade reste. Em seguida, eles trabalham de trás para frente para reverter esse processo, reconstruindo dados significativos a partir do ruído. Esse processo provou ser eficaz e menos intensivo em recursos, tornando os modelos de difusão um tópico quente na comunidade de IA.

O verdadeiro ponto de inflexão ocorreu por volta de 2020, com uma série de artigos inovadores e a introdução da tecnologia CLIP da OpenAI, que avançou significativamente as capacidades dos modelos de difusão. Isso tornou os modelos de difusão excepcionalmente bons na síntese de imagem-texto, permitindo que eles gerem imagens realistas a partir de descrições textuais. Esses avanços não foram apenas na geração de imagens, mas também em campos como composição de música e pesquisa biomédica.

Hoje, os modelos de difusão não são apenas um tópico de interesse acadêmico, mas estão sendo usados em cenários práticos e do mundo real.

Modelagem Gerativa e Camadas de Autoatenção: DALL-E 3

Uma das principais evoluções neste campo foi a evolução da modelagem gerativa, com abordagens baseadas em amostragem como modelagem gerativa autoregressiva e processos de difusão liderando o caminho. Eles transformaram os modelos de imagem-texto, levando a melhorias drásticas de desempenho. Ao quebrar a geração de imagens em etapas discretas, esses modelos se tornaram mais tratables e fáceis para redes neurais aprenderem.

Em paralelo, o uso de camadas de autoatenção desempenhou um papel crucial. Essas camadas, empilhadas, ajudaram na geração de imagens sem a necessidade de vieses espaciais implícitos, um problema comum com convoluções. Essa mudança permitiu que os modelos de imagem-texto escalassem e melhorassem de forma confiável, devido às propriedades de escalabilidade bem compreendidas dos transformadores.

Desafios e Soluções na Geração de Imagens

Apesar desses avanços, a controlabilidade na geração de imagens permanece um desafio. Problemas como o seguimento de prompts, onde o modelo pode não aderir de perto ao texto de entrada, têm sido prevalentes. Para abordar isso, novas abordagens como a melhoria de legendas foram propostas, visando melhorar a qualidade de pares de texto e imagem nos conjuntos de treinamento.

Melhoria de Legendas: Uma Abordagem Nova

A melhoria de legendas envolve gerar legendas de melhor qualidade para imagens, o que, por sua vez, ajuda a treinar modelos de imagem-texto mais precisos. Isso é alcançado por meio de um robusto gerador de legendas de imagens que produz descrições detalhadas e precisas de imagens. Ao treinar com essas legendas melhoradas, o DALL-E 3 conseguiu alcançar resultados notáveis, muito semelhantes a fotografias e obras de arte produzidas por humanos.

Treinamento com Dados Sintéticos

O conceito de treinamento com dados sintéticos não é novo. No entanto, a contribuição única aqui está na criação de um sistema de legendas de imagens descritivas novas. O impacto de usar legendas sintéticas para treinar modelos gerativos foi substancial, levando a melhorias na capacidade do modelo de seguir prompts com precisão.

Avaliando o DALL-E 3

Por meio de múltiplas avaliações e comparações com modelos anteriores, como o DALL-E 2 e a Stable Diffusion XL, o DALL-E 3 demonstrou desempenho superior, especialmente em tarefas relacionadas ao seguimento de prompts.

Comparação de modelos de imagem-texto em várias avaliações

Comparação de modelos de imagem-texto em várias avaliações

O uso de avaliações automatizadas e benchmarks forneceu evidências claras de suas capacidades, solidificando sua posição como um gerador de imagem-texto de ponta.

Prompts e Capacidades do DALL-E 3

O DALL-E 3 oferece uma abordagem mais lógica e refinada para criar visuais. À medida que você navega, você notará como o DALL-E cria cada imagem, com uma mistura de precisão e imaginação que ressoa com o prompt dado.

Ao contrário de seu antecessor, essa versão aprimorada se destaca em organizar objetos naturalmente dentro de uma cena e representar recursos humanos com precisão, até o número correto de dedos em uma mão. As melhorias se estendem a detalhes mais finos e agora estão disponíveis em uma resolução mais alta, garantindo uma saída mais realista e profissional.

As capacidades de renderização de texto também foram significativamente aprimoradas. Enquanto as versões anteriores do DALL-E produziam texto sem sentido, o DALL-E 3 agora pode gerar texto legível e estilizado profissionalmente (às vezes), e até mesmo logotipos limpos ocasionalmente.

A compreensão do modelo de solicitações de imagem complexas e nuances foi significativamente aprimorada. O DALL-E 3 agora pode seguir descrições detalhadas com precisão, mesmo em cenários com múltiplos elementos e instruções específicas, demonstrando sua capacidade de produzir imagens coerentes e bem compostas. Vamos explorar alguns prompts e as saídas que obtivemos:

Desenvolva o design da embalagem para uma linha de chás orgânicos. Inclua espaço para o nome do produto e descrição.

Imagens do DALL-E 3 baseadas em prompts de texto

Imagens do DALL-E 3 baseadas em prompts de texto (Nota: o pôster da esquerda tem erro de digitação)

Crie um banner da web anunciando uma venda de verão em móveis de exterior. A imagem deve apresentar um cenário de praia com diferentes peças de móveis de exterior e texto anunciando 'Grandes Economias de Verão!'

Imagens do DALL-E 3 baseadas em prompts de texto

Imagens do DALL-E 3 baseadas em prompts de texto

Um pôster de viagem vintage de Paris com texto estilizado e ousado dizendo 'Visite Paris' na parte inferior.

Imagens do DALL-E 3 baseadas em prompts de texto

Imagens do DALL-E 3 baseadas em prompts de texto (Nota: ambos os pôsteres têm erros de digitação)

Gerar uma imagem de uma figura histórica famosa, como Cleópatra ou Leonardo da Vinci, colocada em um cenário contemporâneo, usando tecnologia moderna como smartphones ou laptops.
Imagens do DALL-E 3 baseadas em prompts de texto

Imagens do DALL-E 3 baseadas em prompts de texto

Uma cena movimentada do festival de Diwali na Índia, com famílias acendendo lampiões, fogos de artifício no céu e doces e decorações tradicionais.
Imagens do DALL-E 3 baseadas em prompts de texto

Imagens do DALL-E 3 baseadas em prompts de texto

Gerar uma imagem de uma figura histórica famosa, como Cleópatra ou Leonardo da Vinci, colocada em um cenário contemporâneo, usando tecnologia moderna como smartphones ou laptops.
Imagens do DALL-E 3 baseadas em prompts de texto

Imagens do DALL-E 3 baseadas em prompts de texto

Limitações e Riscos do DALL-E 3

A OpenAI deu passos significativos para filtrar conteúdo explícito dos dados de treinamento do DALL-E 3, visando reduzir vieses e melhorar a saída do modelo. Isso inclui a aplicação de filtros específicos para categorias de conteúdo sensível e uma revisão dos limiares para filtros mais amplos. A pilha de mitigação também inclui várias camadas de salvaguardas, como mecanismos de recusa no ChatGPT para tópicos sensíveis, classificadores de entrada de prompts para prevenir violações de políticas, listas de bloqueio para categorias de conteúdo específicas e transformações para garantir que os prompts estejam alinhados com as diretrizes.

Apesar de seus avanços, o DALL-E 3 tem limitações na compreensão de relações espaciais, renderização de texto longo com precisão e geração de imagens específicas. A OpenAI reconhece esses desafios e está trabalhando em melhorias para versões futuras.

A empresa também está trabalhando em maneiras de diferenciar imagens geradas por IA daquelas feitas por humanos, refletindo seu compromisso com a transparência e o uso responsável da IA.

DALL·E

DALL·E 3

O DALL-E 3, a versão mais recente, estará disponível em fases, começando com grupos de clientes específicos e, posteriormente, expandindo para laboratórios de pesquisa e serviços de API. No entanto, uma data de lançamento pública gratuita ainda não foi confirmada.

A OpenAI está realmente estabelecendo um novo padrão no campo da IA com o DALL-E 3, conectando de forma ininterrupta capacidades técnicas complexas e interfaces de usuário amigáveis. A integração do DALL-E 3 em plataformas amplamente utilizadas, como o Bing, reflete uma mudança de aplicações especializadas para formas mais amplas e acessíveis de entretenimento e utilidade.

O verdadeiro jogo mudador nos próximos anos provavelmente será o equilíbrio entre inovação e empoderamento do usuário. As empresas que prosperarão serão aquelas que não apenas empurrarão os limites do que a IA pode alcançar, mas também fornecerão aos usuários a autonomia e o controle que eles desejam. A OpenAI, com seu compromisso com a IA ética, está navegando nesse caminho com cuidado. O objetivo é claro: criar ferramentas de IA que não sejam apenas poderosas, mas também confiáveis e inclusivas, garantindo que os benefícios da IA sejam acessíveis a todos.

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contínua também me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.