Connect with us

Engenharia de prompts

Um Olhar Mais Profundo no DALL-E 3 da OpenAI

mm
DALL·E 3

No mundo da IA Geradora, manter-se atualizado é o nome do jogo. E quando se trata de gerar imagens, a Stable Diffusion e a Midjourney eram as plataformas sobre as quais todos estavam falando – até agora.

A OpenAI, apoiada pelo gigante da tecnologia Microsoft, apresentou o DALL·E 3 em 20 de setembro de 2023.

O DALL-E 3 não é apenas sobre criar imagens; é sobre dar vida às suas ideias, exatamente como você as imaginou. E o melhor de tudo? É rápido, tipo, realmente rápido. Você tem uma ideia, alimenta-a com o DALL-E 3, e pronto, sua imagem está pronta.

Então, neste artigo, vamos mergulhar fundo no que o DALL-E 3 é tudo sobre. Vamos falar sobre como ele funciona, o que o distingue do resto e por que ele pode ser a ferramenta que você não sabia que precisava. Seja você um designer, um artista ou apenas alguém com muitas ideias legais, você vai querer ficar por aqui. Vamos começar.

O que há de novo no DALL·E 3 é que ele entende o contexto muito melhor do que o DALL·E 2. As versões anteriores podem ter perdido alguns detalhes ou ignorado alguns detalhes aqui e ali, mas o DALL·E 3 está no ponto. Ele pega os detalhes exatos do que você está pedindo, dando-lhe uma imagem que está mais próxima do que você imaginou.

A parte legal? O DALL·E 3 e o ChatGPT agora estão integrados. Eles trabalham juntos para ajudar a refinar suas ideias. Você dispara um conceito, o ChatGPT ajuda a ajustar o prompt e o DALL·E 3 dá vida a ele. Se você não gosta da imagem, pode pedir ao ChatGPT para ajustar o prompt e fazer o DALL·E 3 tentar novamente. Por uma taxa mensal de 20$, você tem acesso ao GPT-4, DALL·E 3 e muitos outros recursos legais.

O Bing Chat da Microsoft conseguiu colocar as mãos no DALL·E 3 mesmo antes do ChatGPT da OpenAI, e agora não é apenas as grandes empresas, mas todos que podem brincar com ele de graça. A integração ao Bing Chat e ao Bing Image Creator torna muito mais fácil para qualquer um usá-lo.

A Ascensão dos Modelos de Difusão

Nos últimos 3 anos, a IA de visão testemunhou o surgimento dos modelos de difusão, dando um grande salto à frente, especialmente na geração de imagens. Antes dos modelos de difusão, as Redes Adversárias Geradoras (GANs) eram a tecnologia de ponta para gerar imagens realistas.

GANs

GANs

No entanto, elas tinham seus desafios, incluindo a necessidade de vastas quantidades de dados e poder computacional, o que as tornava difíceis de lidar.

Então, surgem os modelos de difusão. Eles surgiram como uma alternativa mais estável e eficiente às GANs. Ao contrário das GANs, os modelos de difusão operam adicionando ruído aos dados, obscurecendo-os até que apenas a aleatoriedade reste. Em seguida, eles trabalham de trás para frente para reverter esse processo, reconstruindo dados significativos a partir do ruído. Esse processo provou ser eficaz e menos intensivo em recursos, tornando os modelos de difusão um tópico quente na comunidade de IA.

O ponto de inflexão real veio por volta de 2020, com uma série de artigos inovadores e a introdução da tecnologia CLIP da OpenAI, que avançou significativamente as capacidades dos modelos de difusão. Isso tornou os modelos de difusão excepcionalmente bons na síntese de texto-para-imagem, permitindo que eles gerem imagens realistas a partir de descrições textuais. Essas quebras não foram apenas na geração de imagens, mas também em campos como composição de música e pesquisa biomédica.

Hoje, os modelos de difusão não são apenas um tópico de interesse acadêmico, mas estão sendo usados em cenários práticos e do mundo real.

Modelagem Geradora e Camadas de Autoatenção: DALL-E 3

Uma das principais evoluções neste campo foi a evolução da modelagem geradora, com abordagens baseadas em amostragem como modelagem geradora autoregressiva e processos de difusão liderando o caminho. Eles transformaram os modelos de texto-para-imagem, levando a melhorias drásticas no desempenho. Ao dividir a geração de imagens em etapas discretas, esses modelos se tornaram mais tratáveis e fáceis para redes neurais aprenderem.

Em paralelo, o uso de camadas de autoatenção desempenhou um papel crucial. Essas camadas, empilhadas, ajudaram na geração de imagens sem a necessidade de vieses espaciais implícitos, um problema comum com convoluções. Essa mudança permitiu que os modelos de texto-para-imagem escalassem e melhorassem de forma confiável, devido às propriedades de escalabilidade bem compreendidas dos transformadores.

Desafios e Soluções na Geração de Imagens

Apesar desses avanços, a controlabilidade na geração de imagens permanece um desafio. Problemas como o seguimento de prompts, onde o modelo pode não aderir de perto ao texto de entrada, têm sido prevalentes. Para abordar isso, novas abordagens, como a melhoria de legendas, foram propostas, visando melhorar a qualidade de pares de texto e imagem em conjuntos de dados de treinamento.

Melhoria de Legendas: Uma Abordagem Nova

A melhoria de legendas envolve a geração de legendas de melhor qualidade para imagens, o que, por sua vez, ajuda a treinar modelos de texto-para-imagem mais precisos. Isso é alcançado por meio de um robusto sistema de legendas de imagens que produz descrições detalhadas e precisas de imagens. Ao treinar com essas legendas melhoradas, o DALL-E 3 conseguiu resultados notáveis, muito semelhantes a fotografias e obras de arte produzidas por humanos.

Treinamento com Dados Sintéticos

O conceito de treinamento com dados sintéticos não é novo. No entanto, a contribuição única aqui está na criação de um sistema de legendas de imagens descritivo e novo. O impacto do uso de legendas sintéticas para treinar modelos geradores foi substancial, levando a melhorias na capacidade do modelo de seguir prompts com precisão.

Avaliação do DALL-E 3

Por meio de múltiplas avaliações e comparações com modelos anteriores, como o DALL-E 2 e a Stable Diffusion XL, o DALL-E 3 demonstrou desempenho superior, especialmente em tarefas relacionadas ao seguimento de prompts.

Comparação de modelos de texto-para-imagem em várias avaliações

Comparação de modelos de texto-para-imagem em várias avaliações

O uso de avaliações automatizadas e benchmarks forneceu evidências claras de suas capacidades, solidificando sua posição como um gerador de texto-para-imagem de ponta.

Comandos e Capacidades do DALL-E 3

O DALL-E 3 oferece uma abordagem mais lógica e refinada para criar visuais. À medida que você navega, você notará como o DALL-E cria cada imagem, com uma combinação de precisão e imaginação que ressoa com o prompt dado.

Ao contrário de seu antecessor, essa versão aprimorada se destaca em organizar objetos naturalmente dentro de uma cena e representar recursos humanos com precisão, até o número correto de dedos em uma mão. As melhorias se estendem a detalhes mais finos e agora estão disponíveis em uma resolução mais alta, garantindo uma saída mais realista e profissional.

As capacidades de renderização de texto também viram uma melhoria significativa. Onde as versões anteriores do DALL-E produziam texto sem sentido, o DALL-E 3 agora pode gerar letra legível e estilizada profissionalmente (às vezes), e até logotipos limpos ocasionalmente.

A compreensão do modelo de solicitações de imagem complexas e nuances foi significativamente aprimorada. O DALL-E 3 agora pode seguir descrições detalhadas com precisão, mesmo em cenários com múltiplos elementos e instruções específicas, demonstrando sua capacidade de produzir imagens coerentes e bem compostas. Vamos explorar alguns prompts e a saída que obtivemos:

Desenvolva o design da embalagem para uma linha de chás orgânicos. Inclua espaço para o nome do produto e descrição.

Imagens do DALL-E 3 com base em prompts de texto

Imagens do DALL-E 3 com base em prompts de texto (Observe que o poster da esquerda tem erro de ortografia)

Crie um banner da web anunciando uma venda de verão em móveis de exterior. A imagem apresenta um cenário de praia com diferentes peças de móveis de exterior, e texto anunciando 'Grandes Economias de Verão!'

Imagens do DALL-E 3 com base em prompts de texto

Imagens do DALL-E 3 com base em prompts de texto

Um pôster de viagem vintage de Paris com texto estilizado e ousado dizendo 'Visite Paris' na parte inferior.

Imagens do DALL-E 3 com base em prompts de texto

Imagens do DALL-E 3 com base em prompts de texto (Observe que ambos os posters têm erros de ortografia)

Uma cena movimentada do festival de Diwali na Índia, com famílias acendendo lâmpadas, fogos de artifício no céu e doces e decorações tradicionais.

Imagens do DALL-E 3 com base em prompts de texto

Imagens do DALL-E 3 com base em prompts de texto

Uma cena detalhada de um mercado na Roma antiga, com pessoas vestidas com roupas da época, várias mercadorias à venda e arquitetura da época.

Imagens do DALL-E 3 com base em prompts de texto

Imagens do DALL-E 3 com base em prompts de texto

Gere uma imagem de uma figura histórica famosa, como Cleópatra ou Leonardo da Vinci, colocada em um ambiente contemporâneo, usando tecnologia moderna como smartphones ou laptops.

Imagens do DALL-E 3 com base em prompts de texto

Imagens do DALL-E 3 com base em prompts de texto

Limitações e Riscos do DALL-E 3

A OpenAI deu passos significativos para filtrar conteúdo explícito dos dados de treinamento do DALL-E 3, visando reduzir vieses e melhorar a saída do modelo. Isso inclui a aplicação de filtros específicos para categorias de conteúdo sensível e uma revisão dos limiares para filtros mais amplos. A pilha de mitigação também inclui várias camadas de salvaguardas, como mecanismos de recusa no ChatGPT para tópicos sensíveis, classificadores de entrada de prompt para prevenir violações de política, listas de bloqueio para categorias de conteúdo específicas e transformações para garantir que os prompts estejam alinhados com asetrizes.

Apesar de seus avanços, o DALL-E 3 tem limitações na compreensão de relações espaciais, renderização de longos textos com precisão e geração de imagens específicas. A OpenAI reconhece esses desafios e está trabalhando em melhorias para versões futuras.

A empresa também está trabalhando em maneiras de diferenciar imagens geradas por IA daquelas feitas por humanos, refletindo seu compromisso com a transparência e o uso responsável da IA.

DALL·E

DALL·E 3

O DALL-E 3, a versão mais recente, estará disponível em fases, começando com grupos de clientes específicos e, posteriormente, expandindo para laboratórios de pesquisa e serviços de API. No entanto, uma data de lançamento público gratuita ainda não foi confirmada.

A OpenAI está realmente definindo um novo padrão no campo da IA com o DALL-E 3, conectando de forma perfeita capacidades técnicas complexas e interfaces de usuário amigáveis. A integração do DALL-E 3 em plataformas amplamente utilizadas, como o Bing, reflete uma mudança de aplicativos especializados para formas mais amplas e acessíveis de entretenimento e utilidade.

O jogo mudador de verdade nos próximos anos provavelmente será o equilíbrio entre inovação e empoderamento do usuário. As empresas que prosperarão serão aquelas que não apenas empurram os limites do que a IA pode alcançar, mas também fornecem aos usuários a autonomia e o controle que eles desejam. A OpenAI, com seu compromisso com a IA ética, está navegando nesse caminho com cuidado. O objetivo é claro: criar ferramentas de IA que não sejam apenas poderosas, mas também confiáveis e inclusivas, garantindo que os benefícios da IA sejam acessíveis a todos.

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.