Connect with us

Un regard plus approfondi sur DALL-E 3 d’OpenAI

Prompt engineering

Un regard plus approfondi sur DALL-E 3 d’OpenAI

mm
DALL·E 3

Dans le monde de l’IA générative, rester à jour avec les dernières nouveautés est le nom du jeu. Et lorsqu’il s’agit de générer des images, Stable Diffusion et Midjourney étaient les plateformes dont tout le monde parlait – jusqu’à maintenant.

OpenAI, soutenue par le géant technologique Microsoft, a présenté DALL·E 3 le 20 septembre 2023.

DALL-E 3 ne concerne pas seulement la création d’images ; il s’agit de donner vie à vos idées, exactement comme vous les avez imaginées. Et le meilleur ? C’est rapide, très rapide. Vous avez une idée, vous la nourrissez DALL-E 3, et boom, votre image est prête.

Donc, dans cet article, nous allons plonger dans le fond de ce qu’est DALL-E 3. Nous allons discuter de son fonctionnement, de ce qui le distingue des autres et de pourquoi il pourrait être l’outil dont vous n’aviez pas conscience d’avoir besoin. Que vous soyez designer, artiste ou simplement quelqu’un avec beaucoup d’idées sympas, vous allez vouloir rester pour cela. Commençons.

Ce qui est nouveau avec DALL·E 3, c’est qu’il comprend mieux le contexte que DALL·E 2. Les versions précédentes auraient peut-être manqué certains détails ou ignoré quelques détails ici et là, mais DALL·E 3 est sur la bonne voie. Il capte les détails exacts de ce que vous demandez, vous donnant une image qui est plus proche de ce que vous aviez imaginé.

La partie cool ? DALL·E 3 et ChatGPT sont maintenant intégrés ensemble. Ils travaillent ensemble pour affiner vos idées. Vous tirez une concept, ChatGPT aide à affiner la invite, et DALL·E 3 la met en vie. Si vous n’êtes pas fan de l’image, vous pouvez demander à ChatGPT de modifier l’invite et faire essayer à nouveau DALL·E 3. Pour une charge mensuelle de 20 $, vous avez accès à GPT-4, DALL·E 3 et de nombreuses autres fonctionnalités sympas.

Le Bing Chat de Microsoft a obtenu DALL·E 3 même avant que ChatGPT d’OpenAI ne le fasse, et maintenant ce n’est pas seulement les grandes entreprises mais tout le monde qui peut jouer avec pour gratuit. L’intégration dans Bing Chat et Bing Image Creator le rend beaucoup plus facile à utiliser pour quiconque.

L’essor des modèles de diffusion

Au cours des trois dernières années, l’IA de vision a été témoin de l’essor des modèles de diffusion, faisant un bond en avant important, en particulier dans la génération d’images. Avant les modèles de diffusion, les réseaux antagonistes génératifs (GANs) étaient la technologie de choix pour générer des images réalistes.

GANs

GANs

Cependant, ils avaient leur part de défis, notamment la nécessité de vastes quantités de données et de puissance de calcul, ce qui les rendait souvent difficiles à gérer.

Entrez les modèles de diffusion. Ils sont apparus comme une alternative plus stable et efficace aux GANs. Contrairement aux GANs, les modèles de diffusion fonctionnent en ajoutant du bruit aux données, les obscurcissant jusqu’à ce que seul le hasard reste. Ils travaillent ensuite à rebours pour inverser ce processus, reconstruisant des données significatives à partir du bruit. Ce processus s’est avéré efficace et moins gourmand en ressources, ce qui fait des modèles de diffusion un sujet brûlant dans la communauté de l’IA.

Le véritable tournant est arrivé vers 2020, avec une série d’articles innovants et l’introduction de la technologie CLIP d’OpenAI, qui a considérablement amélioré les capacités des modèles de diffusion. Cela a rendu les modèles de diffusion exceptionnellement bons pour la synthèse d’images à partir de descriptions textuelles, leur permettant de générer des images réalistes à partir de descriptions textuelles. Ces avancées n’étaient pas seulement dans la génération d’images, mais également dans des domaines tels que la composition musicale et la recherche biomédicale.

Aujourd’hui, les modèles de diffusion ne sont pas seulement un sujet d’intérêt académique mais sont utilisés dans des scénarios pratiques et réels.

Modélisation générative et couches d’auto-attention : DALL-E 3

L’une des avancées critiques dans ce domaine a été l’évolution de la modélisation générative, avec des approches basées sur l’échantillonnage comme la modélisation générative autoregressive et les processus de diffusion qui mènent la way. Ils ont transformé les modèles d’images à partir de texte, conduisant à des améliorations de performances drastiques. En décomposant la génération d’images en étapes distinctes, ces modèles sont devenus plus faciles à apprendre pour les réseaux de neurones.

En parallèle, l’utilisation de couches d’auto-attention a joué un rôle crucial. Ces couches, empilées les unes sur les autres, ont aidé à générer des images sans besoin de biais spatiaux implicites, un problème courant avec les convolutions. Ce changement a permis aux modèles d’images à partir de texte de s’échelonner et de s’améliorer de manière fiable, grâce aux propriétés d’échelonnement bien comprises des transformateurs.

Défis et solutions dans la génération d’images

Malgré ces avancées, le contrôle dans la génération d’images reste un défi. Des problèmes tels que le suivi des invites, où le modèle pourrait ne pas adhérer étroitement au texte d’entrée, ont été prévalents. Pour résoudre cela, de nouvelles approches telles que l’amélioration des légendes ont été proposées, visant à améliorer la qualité des paires de texte et d’image dans les ensembles de données de formation.

Amélioration des légendes : une approche novatrice

L’amélioration des légendes consiste à générer des légendes de meilleure qualité pour les images, ce qui à son tour aide à former des modèles d’images à partir de texte plus précis. Cela est réalisé à l’aide d’un robuste système de légendage d’images qui produit des descriptions détaillées et précises des images. En formant sur ces légendes améliorées, DALL-E 3 a pu obtenir des résultats remarquables, ressemblant étroitement aux photographies et aux œuvres d’art produites par les humains.

Formation sur des données synthétiques

Le concept de formation sur des données synthétiques n’est pas nouveau. Cependant, la contribution unique ici réside dans la création d’un système de légendage d’images descriptif novateur. L’impact de l’utilisation de légendes synthétiques pour la formation de modèles génératifs a été considérable, conduisant à des améliorations de la capacité du modèle à suivre les invites avec précision.

Évaluation de DALL-E 3

Grâce à de multiples évaluations et comparaisons avec des modèles précédents comme DALL-E 2 et Stable Diffusion XL, DALL-E 3 a démontré des performances supérieures, en particulier dans les tâches liées au suivi des invites.

Comparison of text-to-image models on various evaluations

Comparison of text-to-image models on various evaluations

L’utilisation d’évaluations automatisées et de références a fourni des preuves claires de ses capacités, consolidant sa position en tant que générateur d’images à partir de texte de pointe.

Invites et capacités de DALL-E 3

DALL-E 3 offre une approche plus logique et raffinée pour créer des visuels. À mesure que vous faites défiler, vous remarquerez comment DALL-E crée chaque image, avec un mélange de précision et d’imagination qui résonne avec l’invite donnée.

Contrairement à son prédécesseur, cette version améliorée excelle dans l’agencement d’objets de manière naturelle dans une scène et dans la représentation précise des caractéristiques humaines, jusqu’au nombre correct de doigts sur une main. Les améliorations s’étendent à des détails plus fins et sont maintenant disponibles à une résolution plus élevée, garantissant une sortie plus réaliste et professionnelle.

Les capacités de rendu de texte ont également connu une amélioration considérable. Là où les versions précédentes de DALL-E produisaient du texte sans sens, DALL-E 3 peut maintenant générer un texte lisible et professionnellement stylisé (parfois), et même des logos propres à l’occasion.

La compréhension du modèle de demandes d’images complexes et nuancées a été considérablement améliorée. DALL-E 3 peut maintenant suivre avec précision des descriptions détaillées, même dans des scénarios avec plusieurs éléments et instructions spécifiques, démontrant sa capacité à produire des images cohérentes et bien composées. Explorons quelques invites et les sorties respectives que nous avons obtenues :

Concevez l'emballage pour une ligne de thés biologiques. Incluez un espace pour le nom du produit et la description.

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (Note that the left poster have wrong spelling)

Créez un banner Web pour une vente d'été de meubles de jardin. L'image présente un décor de plage avec différents meubles de jardin, et du texte annonçant 'Huge Summer Savings!'

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

Un affiche de voyage vintage de Paris avec du texte gras et stylisé disant 'Visitez Paris' en bas.

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (Note that both posters have wrong spellings)

Une scène animée de la fête de Diwali en Inde, avec des familles allumant des lampes, des feux d'artifice dans le ciel, et des décorations et des friandises traditionnelles.

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

Une scène animée d'un marché en plein air dans la Rome antique, avec des gens en vêtements de l'époque, diverses marchandises à vendre et de l'architecture de l'époque.

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

Générez une image d'une figure historique célèbre, comme Cléopâtre ou Léonard de Vinci, placée dans un contexte contemporain, en utilisant la technologie moderne comme des smartphones ou des ordinateurs portables.

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

Limitations et risques de DALL-E 3

OpenAI a pris des mesures importantes pour filtrer le contenu explicite des données de formation de DALL-E 3, visant à réduire les biais et améliorer la sortie du modèle. Cela inclut l’application de filtres spécifiques pour les catégories de contenu sensibles et une révision des seuils pour les filtres plus larges. La pile d’atténuation comprend également plusieurs couches de sauvegardes, telles que des mécanismes de refus dans ChatGPT pour les sujets sensibles, des classificateurs d’invite pour prévenir les violations de politique, des listes de blocage pour des catégories de contenu spécifiques et des transformations pour garantir que les invites sont conformes aux directives.

Malgré ses avancées, DALL-E 3 a des limites dans la compréhension des relations spatiales, le rendu de long texte avec précision et la génération d’imagerie spécifique. OpenAI reconnaît ces défis et travaille sur des améliorations pour les versions futures.

L’entreprise travaille également sur des moyens pour différencier les images générées par l’IA de celles créées par les humains, reflétant leur engagement en faveur de la transparence et d’une utilisation responsable de l’IA.

DALL·E

DALL·E 3

DALL-E 3, la dernière version, sera disponible par phases, en commençant par des groupes de clients spécifiques et s’étendant plus tard aux laboratoires de recherche et aux services d’API. Cependant, une date de sortie publique gratuite n’est pas encore confirmée.

OpenAI est vraiment en train de fixer de nouvelles normes dans le domaine de l’IA avec DALL-E 3, en reliant sans effort des capacités techniques complexes et des interfaces utilisateur conviviales. L’intégration de DALL-E 3 dans des plateformes largement utilisées comme Bing reflète un passage d’applications spécialisées à des formes plus larges et plus accessibles de divertissement et d’utilité.

Le véritable changement de jeu dans les années à venir sera probablement l’équilibre entre l’innovation et l’autonomisation de l’utilisateur. Les entreprises qui prospèrent seront celles qui non seulement repoussent les limites de ce que l’IA peut accomplir, mais qui fournissent également aux utilisateurs l’autonomie et le contrôle qu’ils souhaitent. OpenAI, avec son engagement en faveur d’une IA éthique, navigue prudemment sur ce chemin. L’objectif est clair : créer des outils d’IA qui ne sont pas seulement puissants, mais également fiables et inclusifs, en garantissant que les avantages de l’IA soient accessibles à tous.

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.