Ingénierie rapide

Un examen plus approfondi du DALL-E 3 d'OpenAI

Publié le

il y a des mois 7

31 octobre 2023

Dans le IA générative monde, se tenir au courant des dernières nouveautés est le but du jeu. Et lorsqu'il s'agit de générer des images, Stable Diffusion et À mi-parcours étaient la plateforme dont tout le monde parlait – jusqu’à présent.

OpenAI, soutenu par le géant de la technologie Microsoft, a introduit DALLE E 3 Septembre 20th, 2023.

DALL-E 3 ne consiste pas seulement à créer des images ; il s'agit de donner vie à vos idées, exactement comme vous les avez imaginées. Et le meilleur ? C'est rapide, vraiment rapide. Vous avez une idée, vous la transmettez à DALL-E 3, et boum, votre image est prête.

Donc, dans cet article, nous allons approfondir ce qu'est DALL-E 3. Nous parlerons de son fonctionnement, de ce qui le distingue des autres et de la raison pour laquelle il pourrait s'agir simplement de l'outil dont vous ne saviez pas avoir besoin. Que vous soyez un designer, un artiste ou simplement quelqu'un avec beaucoup d'idées intéressantes, vous voudrez rester dans les parages. Commençons.

Ce qui est nouveau avec DALL·E 3, c'est qu'il offre un contexte bien meilleur que DALL·E 2. Les versions précédentes ont peut-être manqué certains détails ou ignoré quelques détails ici et là, mais DALL·E 3 est pertinent. Il reprend les détails exacts de ce que vous demandez, vous donnant une image plus proche de ce que vous imaginiez.

La partie cool ? DALL·E 3 et ChatGPT sont désormais intégrés ensemble. Ils travaillent ensemble pour vous aider à affiner vos idées. Vous photographiez un concept, ChatGPT vous aide à affiner l'invite et DALL·E 3 lui donne vie. Si vous n'êtes pas fan de l'image, vous pouvez demander à ChatGPT de modifier l'invite et demander à DALL·E 3 de réessayer. Pour un montant mensuel de 20 $, vous avez accès à GPT-4, DALL·E 3 et à de nombreuses autres fonctionnalités intéressantes.

Microsoft Chat Bing a mis la main sur DALL·E 3 avant même ChatGPT d'OpenAI, et désormais ce ne sont plus seulement les grandes entreprises, mais tout le monde qui peut jouer avec gratuitement. L'intégration dans Bing Chat et Bing Image Creator rend son utilisation beaucoup plus facile pour tout le monde.

L’essor des modèles de diffusion

Au cours des 3 dernières années, l’IA de vision a assisté à l’essor des modèles de diffusion, faisant un bond en avant significatif, notamment dans la génération d’images. Avant les modèles de diffusion, Réseaux Génératifs d'Adversariat (GAN) étaient la technologie de référence pour générer des images réalistes.

GAN

Cependant, ils ont eu leur part de défis, notamment le besoin de grandes quantités de données et de puissance de calcul, ce qui les rendait souvent difficiles à gérer.

Entrer la diffusion des modèles. Ils sont apparus comme une alternative plus stable et plus efficace aux GAN. Contrairement aux GAN, les modèles de diffusion fonctionnent en ajoutant du bruit aux données, en les masquant jusqu'à ce qu'il ne reste plus que le caractère aléatoire. Ils travaillent ensuite à rebours pour inverser ce processus, en reconstruisant des données significatives à partir du bruit. Ce processus s’est avéré efficace et moins gourmand en ressources, faisant des modèles de diffusion un sujet brûlant dans la communauté de l’IA.

Le véritable tournant s’est produit vers 2020, avec une série d’articles innovants et l’introduction de Le CLIP d'OpenAI technologie, qui a considérablement amélioré les capacités des modèles de diffusion. Cela a rendu les modèles de diffusion exceptionnellement efficaces pour la synthèse texte-image, leur permettant de générer des images réalistes à partir de descriptions textuelles. Ces avancées ne concernaient pas seulement la génération d'images, mais également dans des domaines tels que composition musicale et de recherche biomédicale.

Aujourd’hui, les modèles de diffusion ne sont pas seulement un sujet d’intérêt académique : ils sont également utilisés dans des scénarios pratiques et réels.

Modélisation générative et couches d'auto-attention : DALL-E 3

Identifier

L’une des avancées majeures dans ce domaine a été l’évolution de la modélisation générative, avec en tête des approches basées sur l’échantillonnage telles que la modélisation générative autorégressive et les processus de diffusion. Ils ont transformé les modèles de conversion texte-image, entraînant des améliorations drastiques des performances. En décomposant la génération d’images en étapes discrètes, ces modèles sont devenus plus faciles à maîtriser et à apprendre pour les réseaux neuronaux.

En parallèle, l’utilisation des couches d’auto-attention a joué un rôle crucial. Ces couches, empilées ensemble, ont aidé à générer des images sans avoir recours à des biais spatiaux implicites, un problème courant avec les convolutions. Ce changement a permis aux modèles texte-image d'évoluer et de s'améliorer de manière fiable, grâce aux propriétés de mise à l'échelle bien comprises des transformateurs.

Défis et solutions dans la génération d'images

Malgré ces progrès, la contrôlabilité de la génération d’images reste un défi. Des problèmes tels que le suivi rapide, où le modèle peut ne pas adhérer étroitement au texte saisi, sont répandus. Pour résoudre ce problème, de nouvelles approches telles que l'amélioration des légendes ont été proposées, visant à améliorer la qualité des paires texte et image dans les ensembles de données de formation.

Amélioration des sous-titres : une nouvelle approche

L'amélioration des légendes implique de générer des légendes de meilleure qualité pour les images, ce qui contribue à la formation de modèles texte-image plus précis. Ceci est réalisé grâce à un sous-titreur d’images robuste qui produit des descriptions détaillées et précises des images. En s'entraînant sur ces légendes améliorées, DALL-E 3 a pu obtenir des résultats remarquables, ressemblant étroitement à des photographies et des œuvres d'art produites par des humains.

Formation sur les données synthétiques

Le concept de formation sur des données synthétiques n’est pas nouveau. Cependant, la contribution unique ici réside dans la création d’un nouveau système de sous-titrage d’images descriptif. L'impact de l'utilisation de sous-titres synthétiques pour la formation de modèles génératifs a été considérable, conduisant à des améliorations de la capacité du modèle à suivre les invites avec précision.

Évaluation de DALL-E 3

Grâce à de multiples évaluations et comparaisons avec des modèles précédents tels que DALL-E 2 et Stable Diffusion XL, DALL-E 3 a démontré des performances supérieures, en particulier dans les tâches liées au suivi rapide.

Comparaison de modèles texte-image sur diverses évaluations

L'utilisation d'évaluations et de benchmarks automatisés a clairement démontré ses capacités, renforçant ainsi sa position en tant que générateur de texte en image de pointe.

Invites et capacités DALL-E 3

DALL-E 3 propose une approche plus logique et raffinée de la création de visuels. En parcourant la page, vous remarquerez comment DALL-E crée chaque image, avec un mélange de précision et d'imagination qui résonne avec l'invite donnée.

Contrairement à son prédécesseur, cette version améliorée excelle dans la disposition naturelle des objets dans une scène et dans la représentation précise des caractéristiques humaines, jusqu'au nombre correct de doigts sur une main. Les améliorations s'étendent aux détails les plus fins et sont désormais disponibles dans une résolution plus élevée, garantissant une sortie plus réaliste et professionnelle.

Les capacités de rendu de texte ont également connu des améliorations substantielles. Là où les versions précédentes de DALL-E produisaient du texte charabia, DALL-E 3 peut désormais générer des lettres lisibles et de style professionnel (parfois), et même des logos épurés à l'occasion.

La compréhension du modèle des demandes d'images complexes et nuancées a été considérablement améliorée. DALL-E 3 peut désormais suivre avec précision des descriptions détaillées, même dans des scénarios comportant plusieurs éléments et instructions spécifiques, démontrant sa capacité à produire des images cohérentes et bien composées. Explorons quelques invites et le résultat correspondant que nous avons obtenu :

Design the packaging for a line of organic teas. Include space for the product name and description.

Images DALL-E 3 basées sur des invites textuelles

DALL-E 3 images basées sur des invites textuelles (notez que l'affiche de gauche a une mauvaise orthographe)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

Images DALL-E 3 basées sur des invites textuelles

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 images basées sur des invites textuelles (notez que les deux affiches ont une orthographe incorrecte)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

Images DALL-E 3 basées sur des invites textuelles

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

Images DALL-E 3 basées sur des invites textuelles

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

Images DALL-E 3 basées sur des invites textuelles

Limites et risques de DALL-E 3

OpenAI a pris des mesures importantes pour filtrer le contenu explicite des données de formation de DALL-E 3, dans le but de réduire les biais et d'améliorer les résultats du modèle. Cela comprend l'application de filtres spécifiques pour les catégories de contenus sensibles et une révision des seuils pour des filtres plus larges. La pile d'atténuation comprend également plusieurs niveaux de protection, tels que des mécanismes de refus dans ChatGPT pour les sujets sensibles, des classificateurs d'entrée d'invite pour éviter les violations de politique, des listes de blocage pour des catégories de contenu spécifiques et des transformations pour garantir que les invites sont conformes aux directives.

Malgré ses progrès, DALL-E 3 présente des limites dans la compréhension des relations spatiales, le rendu précis des textes longs et la génération d'images spécifiques. OpenAI reconnaît ces défis et travaille sur des améliorations pour les futures versions.

L’entreprise travaille également sur les moyens de différencier les images générées par l’IA de celles créées par les humains, reflétant ainsi son engagement en faveur de la transparence et de l’utilisation responsable de l’IA.

DALLE E 3

DALL-E 3, la dernière version, sera disponible par phases, en commençant par des groupes de clients spécifiques et en s'étendant ensuite aux laboratoires de recherche et aux services API. Cependant, la date de sortie publique gratuite n’est pas encore confirmée.

OpenAI établit véritablement une nouvelle norme dans le domaine de l'IA avec DALL-E 3, reliant de manière transparente des capacités techniques complexes et des interfaces conviviales. L'intégration de DALL-E 3 dans des plateformes largement utilisées comme Bing reflète le passage d'applications spécialisées à des formes de divertissement et d'utilité plus larges et plus accessibles.

Le véritable changement dans les années à venir sera probablement l’équilibre entre l’innovation et l’autonomisation des utilisateurs. Les entreprises qui prospéreront seront celles qui non seulement repousseront les limites de ce que l’IA peut réaliser, mais qui offriront également aux utilisateurs l’autonomie et le contrôle qu’ils désirent. OpenAI, avec son engagement en faveur d’une IA éthique, emprunte cette voie avec prudence. L’objectif est clair : créer des outils d’IA non seulement puissants, mais également fiables et inclusifs, garantissant que les avantages de l’IA soient accessibles à tous.

Invites analogiques et pas en arrière : une plongée dans les avancées récentes de Google DeepMind

Ne manquez pas

Piratage rapide et utilisation abusive des LLM

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.

Unite.AI

Un examen plus approfondi du DALL-E 3 d'OpenAI

Ingénierie rapide

Un examen plus approfondi du DALL-E 3 d'OpenAI

Table des matières

L’essor des modèles de diffusion

Modélisation générative et couches d'auto-attention : DALL-E 3

Défis et solutions dans la génération d'images

Amélioration des sous-titres : une nouvelle approche

Formation sur les données synthétiques

Évaluation de DALL-E 3

Invites et capacités DALL-E 3

Limites et risques de DALL-E 3

Derniers Articles

Unite.AI

Un examen plus approfondi du DALL-E 3 d'OpenAI

Table des matières

L’essor des modèles de diffusion

Modélisation générative et couches d'auto-attention : DALL-E 3

Défis et solutions dans la génération d'images

Amélioration des sous-titres : une nouvelle approche

Formation sur les données synthétiques

Évaluation de DALL-E 3

Invites et capacités DALL-E 3

Limites et risques de DALL-E 3

Tu peux aimer

Derniers Articles