Intelligence artificielle

Modèles de diffusion en IA - Tout ce que vous devez savoir

Publié le

Il y a 1 année

31 mars 2023

Un collage de visages humains créé à l'aide d'un générateur d'images AI

Dans l'écosystème de l'IA, les modèles de diffusion déterminent la direction et le rythme des progrès technologiques. Ils révolutionnent la façon dont nous abordons les complexes IA générative Tâches. Ces modèles sont basés sur les mathématiques des principes gaussiens, de la variance, des équations différentielles et des séquences génératives. (Nous expliquerons le jargon technique ci-dessous)

Les produits et solutions modernes centrés sur l'IA développés par Nvidia, Google, Adobe et OpenAI ont mis les modèles de diffusion au centre de l'attention. DALL.E 2, Diffusion stableet À mi-parcours sont des exemples frappants de modèles de diffusion qui font récemment le tour d'Internet. Les utilisateurs fournissent une simple invite de texte en entrée, et ces modèles peuvent les convertir en images réalistes, telles que celle illustrée ci-dessous.

Une image générée avec Midjourney v5 à l'aide d'une invite de saisie : des coquelicots de Californie vibrants. Source: À mi-parcours

Explorons les principes de fonctionnement fondamentaux des modèles de diffusion et comment ils changent les directions et les normes du monde tel que nous le voyons aujourd'hui.

Que sont les modèles de diffusion ?

Selon la publication de recherche «Modèles probabilistes de diffusion de débruitage», les modèles de diffusion sont définis comme suit :

"Un modèle de diffusion ou un modèle de diffusion probabiliste est une chaîne de Markov paramétrée formée à l'aide d'inférence variationnelle pour produire des échantillons correspondant aux données après un temps fini"

En termes simples, les modèles de diffusion peuvent générer des données similaires à celles sur lesquelles ils sont entraînés. Si le modèle s'entraîne sur des images de chats, il peut générer des images réalistes similaires de chats.

Essayons maintenant de décomposer la définition technique mentionnée ci-dessus. Les modèles de diffusion s'inspirent du principe de fonctionnement et des fondements mathématiques d'un modèle probabiliste qui peut analyser et prédire le comportement d'un système qui varie dans le temps, comme prédire le rendement du marché boursier ou la propagation de la pandémie.

La définition indique qu'il s'agit de chaînes de Markov paramétrées entraînées avec l'inférence variationnelle. Les chaînes de Markov sont des modèles mathématiques qui définissent un système qui bascule entre différents états au fil du temps. L'état existant du système ne peut déterminer que la probabilité de transition vers un état spécifique. En d'autres termes, l'état actuel d'un système contient les états possibles qu'un système peut suivre ou acquérir à un moment donné.

La formation du modèle à l'aide de l'inférence variationnelle implique des calculs complexes pour les distributions de probabilité. Il vise à trouver les paramètres exacts de la chaîne de Markov qui correspondent aux données observées (connues ou réelles) après un temps spécifique. Ce processus minimise la valeur de la fonction de perte du modèle, qui est la différence entre l'état prédit (inconnu) et observé (connu).

Une fois formé, le modèle peut générer des échantillons correspondant aux données observées. Ces échantillons représentent des trajectoires possibles ou indiquent que le système pourrait suivre ou acquérir au fil du temps, et chaque trajectoire a une probabilité différente de se produire. Par conséquent, le modèle peut prédire le comportement futur du système en générant une gamme d'échantillons et en trouvant leurs probabilités respectives (probabilité que ces événements se produisent).

Comment interpréter les modèles de diffusion en IA ?

Les modèles de diffusion sont des modèles génératifs profonds qui fonctionnent en ajoutant du bruit (bruit gaussien) aux données d'apprentissage disponibles (également connu sous le nom de processus de diffusion directe), puis en inversant le processus (connu sous le nom de débruitage ou processus de diffusion inverse) pour récupérer les données. Le modèle apprend progressivement à supprimer le bruit. Ce processus de débruitage appris génère de nouvelles images de haute qualité à partir de graines aléatoires (images bruitées aléatoires), comme le montre l'illustration ci-dessous.

Processus de diffusion inverse : Une image bruitée est débruitée pour récupérer l'image d'origine (ou générer ses variations) via un modèle de diffusion entraîné. Source: Modèles probabilistes de diffusion de débruitage

3 catégories de modèles de diffusion

Il y a trois cadres mathématiques fondamentaux qui sous-tendent la science derrière les modèles de diffusion. Tous les trois fonctionnent sur les mêmes principes d'ajout de bruit puis de suppression pour générer de nouveaux échantillons. Discutons-en ci-dessous.

Un modèle de diffusion ajoute et supprime le bruit d'une image. Source: Modèles de diffusion dans la vision : une enquête

1. Modèles probabilistes de diffusion de débruitage (DDPM)

Comme expliqué ci-dessus, les DDPM sont des modèles génératifs principalement utilisés pour supprimer le bruit des données visuelles ou audio. Ils ont montré des résultats impressionnants sur diverses tâches de débruitage d'image et audio. Par exemple, l'industrie cinématographique utilise des outils modernes de traitement d'images et de vidéos pour améliorer la qualité de la production.

2. Modèles génératifs basés sur les scores (SGM) conditionnés par le bruit

Les SGM peuvent générer de nouveaux échantillons à partir d'une distribution donnée. Ils fonctionnent en apprenant une fonction de score d'estimation qui peut estimer la densité logarithmique de la distribution cible. L'estimation de la densité de journal fait des hypothèses pour les points de données disponibles qui font partie d'un ensemble de données inconnu (ensemble de test). Cette fonction de score peut alors générer de nouveaux points de données à partir de la distribution.

Par exemple, faux graves sont connus pour produire de fausses vidéos et audios de personnalités célèbres. Mais ils sont surtout attribués à Réseaux Génératifs d'Adversariat (GAN). Cependant, les SGM ont ont montré des capacités similaires - parfois surpassent – en générant des visages de célébrités de haute qualité. En outre, les SGM peuvent aider à étendre les ensembles de données sur les soins de santé, qui ne sont pas facilement disponibles en grande quantité en raison des réglementations strictes et des normes de l'industrie.

3. Équations différentielles stochastiques (SDE)

Les SDE décrivent les changements dans les processus aléatoires concernant le temps. Ils sont largement utilisés sur les marchés physiques et financiers impliquant des facteurs aléatoires qui ont un impact significatif sur les résultats du marché.

Par exemple, les prix des matières premières sont très dynamiques et impactés par une série de facteurs aléatoires. Les SDE calculent les dérivés financiers comme les contrats à terme (comme les contrats sur le pétrole brut). Ils peuvent modéliser les fluctuations et calculer avec précision les prix favorables pour donner un sentiment de sécurité.

Principales applications des modèles de diffusion en IA

Examinons quelques pratiques et utilisations largement adaptées des modèles de diffusion en IA.

Génération de vidéos de haute qualité

Création de vidéos haut de gamme à l'aide l'apprentissage en profondeur est difficile car il nécessite une grande continuité des images vidéo. C'est là que les modèles de diffusion sont utiles car ils peuvent générer un sous-ensemble d'images vidéo à combler entre les images manquantes, ce qui donne des vidéos fluides et de haute qualité sans latence.

Des chercheurs ont développé le Modèle de diffusion flexible et diffusion vidéo résiduelle techniques pour servir cet objectif. Ces modèles peuvent également produire des vidéos réalistes en ajoutant de manière transparente des images générées par l'IA entre les images réelles.

Ces modèles peuvent simplement étendre le FPS (images par seconde) d'une vidéo à faible FPS en ajoutant des images factices après avoir appris les modèles à partir des images disponibles. Avec presque aucune perte d'image, ces cadres peuvent aider davantage les modèles basés sur l'apprentissage en profondeur à générer à partir de zéro des vidéos basées sur l'IA qui ressemblent à des prises de vue naturelles à partir de configurations de caméras haut de gamme.

Une large gamme de remarquables Générateurs de vidéos d'IA est disponible en 2023 pour rendre la production et le montage de contenu vidéo rapides et simples.

Génération de texte en image

Les modèles texte-image utilisent des invites de saisie pour générer des images de haute qualité. Par exemple, donner une entrée "pomme rouge sur une assiette" et produire une image photoréaliste d'une pomme sur une assiette. Diffusion mixte ainsi que le déclipser sont deux exemples éminents de tels modèles qui peuvent générer des images très pertinentes et précises basées sur la saisie de l'utilisateur.

Aussi, les GLIDE par OpenAI est une autre solution largement connue publiée en 2021 qui produit des images photoréalistes à l'aide de la saisie de l'utilisateur. Plus tard, OpenAI a publié DALL.E-2, son modèle de génération d'images le plus avancé à ce jour.

De même, Google a également développé un modèle de génération d'images appelé Image, qui utilise un grand modèle de langage pour développer une compréhension textuelle approfondie du texte d'entrée, puis génère des images photoréalistes.

Nous avons mentionné d'autres outils de génération d'images populaires comme Midjourney et Stable Diffusion (Studio de rêve) au-dessus de. Jetez un œil à une image générée à l'aide de Stable Diffusion ci-dessous.

Un collage de visages humains créé avec Stable Diffusion 1.5

Une image créée avec Stable Diffusion 1.5 en utilisant l'invite suivante : "collages, hyper-réalistes, nombreuses variations portrait de très vieux thom yorke, variations de visage, auteur-compositeur-interprète, profil (latéral), âges variés, objectif macro, espace liminal, par lee bermejo, alphonse mucha et greg rutkowski, barbe grise, visage lisse, pommettes »

Modèles de diffusion dans l'IA - À quoi s'attendre à l'avenir ?

Les modèles de diffusion ont révélé un potentiel prometteur en tant qu'approche robuste pour générer des échantillons de haute qualité à partir d'ensembles de données d'images et de vidéos complexes. En améliorant la capacité humaine à utiliser et à manipuler les données, les modèles de diffusion peuvent potentiellement révolutionner le monde tel que nous le voyons aujourd'hui. Nous pouvons nous attendre à voir encore plus d'applications des modèles de diffusion devenir partie intégrante de notre vie quotidienne.

Cela dit, les modèles de diffusion ne sont pas la seule technique d'IA générative. Les chercheurs utilisent également les réseaux antagonistes génératifs (GAN), les réseaux variationnels Codeurs automatiques, et des modèles génératifs profonds basés sur les flux pour générer du contenu IA. Comprendre les caractéristiques fondamentales qui différencient les modèles de diffusion des autres modèles génératifs peut aider à produire des solutions plus efficaces dans les jours à venir.

Pour en savoir plus sur les technologies basées sur l'IA, visitez Unite.ai. Consultez nos ressources organisées sur les outils d'IA générative ci-dessous.