Kunstig intelligens
Dreamcraft3D: Hierarkisk 3D-generering med bootstrapped diffusjonsforut

Generative AI-modeller har vært et hett diskusjonstema i AI-industrien en stund. Den nylige suksessen med 2D generative modeller har banet vei for metodene vi bruker for å lage visuelt innhold i dag. Selv om AI-fellesskapet har oppnådd bemerkelsesverdig suksess med 2D-generative modeller, er generering av 3D-innhold fortsatt en stor utfordring for dype generative AI-rammeverk. Dette gjelder spesielt ettersom etterspørselen etter 3D-generert innhold når en all-time high, drevet av et bredt utvalg av visuelle spill, applikasjoner, virtuell virkelighet og til og med kino. Det er verdt å merke seg at selv om det er 3D-generative AI-rammeverk som gir akseptable resultater for visse kategorier og oppgaver, er de ikke i stand til å generere 3D-objekter effektivt. Denne mangelen kan tilskrives mangelen på omfattende 3D-data for opplæring av rammeverkene. Nylig har utviklere foreslått å utnytte veiledningen som tilbys av forhåndstrente tekst-til-bilde AI-generative modeller, en tilnærming som har vist lovende resultater.
I denne artikkelen vil vi diskutere DreamCraft3D-rammeverket, en hierarkisk modell for å generere 3D-innhold som produserer sammenhengende og høykvalitets 3D-objekter av høy kvalitet. DreamCraft3D-rammeverket bruker et 2D-referansebilde for å veilede scenen for geometriskulptering, og forbedrer teksturen med fokus på å adressere konsistensproblemer som nåværende rammeverk eller metoder møter. I tillegg bruker DreamCraft3D-rammeverket en visningsavhengig diffusjonsmodell for prøvetaking av poengdestillasjon, og hjelper til med skulpturgeometri som bidrar til koherent gjengivelse.
Vi vil ta et nærmere dykk inn i DreamCraft3D-rammeverket for generering av 3D-innhold. Videre vil vi utforske konseptet med å utnytte forhåndstrente Text-to-Image (T2I)-modeller for generering av 3D-innhold og undersøke hvordan DreamCraft3D-rammeverket tar sikte på å bruke denne tilnærmingen for å generere realistisk 3D-innhold.
DreamCraft3D: En introduksjon
DreafCraft3D er en hierarkisk pipeline for å generere 3D-innhold. DreamCraft3D-rammeverket forsøker å utnytte et toppmoderne T2I- eller tekst-til-bilde-generativt rammeverk for å lage 2D-bilder av høy kvalitet ved hjelp av en tekstmelding. Tilnærmingen lar DreamCraft3D-rammeverket maksimere mulighetene til toppmoderne 2D-diffusjonsmodeller for å representere den visuelle semantikken som beskrevet i tekstmeldingen, samtidig som de beholder den kreative friheten som tilbys av disse 2D AI-generative rammeverkene. Bildet som genereres blir deretter løftet til 3D ved hjelp av kaskadede geometriske teksturforsterkning og geometriske skulpturfaser, og de spesialiserte teknikkene brukes på hvert trinn ved hjelp av å dekomponere problemet.
For geometri fokuserer DreamCraft3D-rammeverket sterkt på den globale 3D-strukturen, og multi-view-konsistens, og gir dermed rom for kompromisser om de detaljerte teksturene i bildene. Når rammeverket blir kvitt geometrirelaterte problemer, skifter det fokus på å optimalisere koherente og realistiske teksturer ved å implementere en 3D-bevisst diffusjon som starter 3D-optimaliseringstilnærmingen. Det er to viktige designhensyn for de to optimaliseringsfasene, nemlig Geometric Sculpting og Texture Boosting.
Når alt er sagt, ville det være trygt å beskrive DreamCraft3D som en AI generativt rammeverk som utnytter en hierarkisk 3D-innholdsgenereringspipeline for i det vesentlige å transformere 2D-bilder til sine 3D-motstykker samtidig som den holistiske 3D-konsistensen opprettholdes.
Utnytte forhåndstrente T2I- eller tekst-til-bilde-modeller
Ideen om å utnytte forhåndstrente T2I- eller tekst-til-bilde-modeller for å generere 3D-innhold ble først introdusert av DreamFusion-rammeverket i 2022. DreamFusion-rammeverket forsøkte å håndheve et SDS- eller Score Destillation Sample-tap for å optimalisere 3D-rammeverket på en måte som gjengivelser ved tilfeldige synspunkter vil være på linje med de tekstbetingede bildedistribusjonene som tolket av et effektivt tekst-til-bilde-diffusjonsrammeverk. Selv om DreamFusion-tilnærmingen ga anstendige resultater, var det to store problemer, uskarphet og overmetning. For å takle disse problemene, implementerer nyere arbeider ulike trinnvise optimaliseringsstrategier i et forsøk på å forbedre 2D-destillasjonstapet, som til slutt fører til bedre kvalitet og realistiske 3D-genererte bilder.
Til tross for den nylige suksessen til disse rammeverkene, er de imidlertid ikke i stand til å matche evnen til 2D generative rammeverk for å syntetisere komplekst innhold. Dessuten er disse rammene ofte fulle av "Janus-utgaven”, en tilstand hvor 3D-gjengivelser som ser ut til å være plausible individuelt, viser stilistiske og semantiske inkonsekvenser når de undersøkes som en helhet.
For å takle problemene som tidligere arbeider står overfor, utforsker DreamCraft3D-rammeverket muligheten for å bruke en holistisk hierarkisk 3D-innholdsgenereringspipeline, og søker inspirasjon fra den manuelle kunstneriske prosessen der et konsept først skrives ned i et 2D-utkast, hvoretter kunstneren skulpturerer den grove geometrien, foredler de geometriske detaljene og maler teksturer med høy kvalitet. Etter samme tilnærming vil DreamCraft3D-rammeverket bryter ned det uttømmende 3D-innhold eller bildegenereringsoppgavene i forskjellige håndterbare trinn. Det starter med å generere et 2D-bilde av høy kvalitet ved hjelp av en tekstmelding, og fortsetter med å bruke teksturforsterkning og geometriskulptering for å løfte bildet inn i 3D-stadiene. Å dele opp prosessen i påfølgende stadier hjelper DreamCraft2D-rammeverket til å maksimere potensialet for hierarkisk generering som til slutt resulterer i generering av 3D-bilder av overlegen kvalitet.
I det første trinnet implementerer DreamCraft3D-rammeverket geometrisk skulptur for å produsere konsistente og plausible 3D-geometriske former ved å bruke 2D-bildet som referanse. Videre bruker scenen ikke bare SDS-tapet for fotometriske tap og nye visninger ved referansevisningen, men rammeverket introduserer også et bredt spekter av strategier for å fremme geometrisk konsistens. Rammeverket tar sikte på å utnytte Zero-1-to-3, en synspunkt-kondisjonert hylleoversettelsesmodell for å bruke referansebildet til å modellere distribusjonen av de nye synspunktene. I tillegg går rammeverket også over fra implisitt overflaterepresentasjon til mesh-representasjon for grov til fin geometrisk forfining.
Den andre fasen av DreamCraft3D-rammeverket bruker en bootstrapped score-destillasjonstilnærming for å øke teksturene til bildet ettersom de nåværende visningsbetingede diffusjonsmodellene trenes på en begrenset mengde 3D-data, og det er derfor de ofte sliter med å matche ytelsen eller troverdigheten til 2D diffusjonsmodeller. Takket være denne begrensningen finjusterer DreamCraft3D-rammeverket diffusjonsmodellen i samsvar med multi-view-bilder av 3D-forekomsten som blir optimalisert, og denne tilnærmingen hjelper rammeverket med å forsterke 3D-teksturene samtidig som det opprettholder multi-view-konsistens. Når diffusjonsmodellen trener på disse gjengivelsene med flere visninger, gir den bedre veiledning for 3D-teksturoptimalisering, og denne tilnærmingen hjelper DreamCraft3D-rammeverket med å oppnå en vanvittig mengde teksturdetaljer samtidig som visningskonsistensen opprettholdes.
Som kan observeres i bildene ovenfor, er DreamCraft3D-rammeverket i stand til å produsere kreative 3D-bilder og innhold med realistiske teksturer og intrikate geometriske strukturer. I det første bildet er kroppen til Son Goku, en anime-karakter blandet med hodet til et løpende villsvin, mens det andre bildet viser en Beagle kledd i antrekket til en detektiv. Følgende er noen ekstra eksempler.
DreamCraft3D: Arbeid og arkitektur
DreamCraft3D-rammeverket forsøker å utnytte et toppmoderne T2I- eller tekst-til-bilde-generativt rammeverk for å lage 2D-bilder av høy kvalitet ved hjelp av en tekstmelding. Tilnærmingen lar DreamCraft3D-rammeverket maksimere mulighetene til toppmoderne 2D-diffusjonsmodeller for å representere den visuelle semantikken som beskrevet i tekstmeldingen, samtidig som de beholder den kreative friheten som tilbys av disse 2D AI-generative rammeverkene. Bildet som genereres blir deretter løftet til 3D ved hjelp av kaskadede geometriske teksturforsterkning og geometriske skulpturfaser, og de spesialiserte teknikkene brukes på hvert trinn ved hjelp av å dekomponere problemet. Følgende bilde oppsummerer kort hvordan DreamCraft3D-rammeverket fungerer.
La oss ta en detaljert titt på de viktigste designhensynene for fasene for teksturforsterkning og geometrisk skulptur.
Geometriskulptering
Geometry Sculpting er det første trinnet der DreamCraft3D-rammeverket forsøker å lage en 3D-modell på en måte det er på linje med utseendet til referansebildet ved samme referansevisning, samtidig som det sikrer maksimal plausibilitet selv under forskjellige synsvinkler. For å sikre maksimal plausibilitet bruker rammeverket SDS-tap for å oppmuntre til plausibel bildegjengivelse for hver enkelt samplet visning som en forhåndstrent diffusjonsmodell kan gjenkjenne. Videre, for å utnytte veiledning fra referansebildet effektivt, straffer rammeverket fotometriske forskjeller mellom referansen og de gjengitte bildene ved referansebildet, og tapet beregnes kun innenfor forgrunnsområdet til visningen. I tillegg, for å oppmuntre til sparsom scene, implementerer rammeverket også et masketap som gjengir silhuetten. Til tross for dette er det fortsatt en utfordring å opprettholde utseende og semantikk på tvers av bakvisninger, og det er grunnen til at rammeverket bruker flere tilnærminger for å produsere detaljert og sammenhengende geometri.
3D Aware Diffusion Prior
3D-optimaliseringsmetodene som bruker per-view-tilsyn alene, er underbegrensede, noe som er den primære grunnen til at DreamCraft3D-rammeverket bruker Zero-1-to-3, en visningsbetinget diffusjonsmodell, som Zero-1-to -3-rammeverket tilbyr en forbedret synspunktbevissthet siden det har blitt trent i en større skala av 3D-dataressurser. Videre er Zero-1-to-3-rammeverket en finjustert diffusjonsmodell som hallusinerer bildet i forhold til kameraposisjonen gitt referansebildet.
Progressive View Training
Å utlede frie visninger direkte i 360 grader kan føre til geometriske artefakter eller avvik som et ekstra ben på stolen, en hendelse som kan krediteres tvetydigheten til et enkelt referansebilde. For å takle denne hindringen, utvider DreamCraft3D-rammeverket treningsvisningene gradvis, hvoretter den veletablerte geometrien gradvis forplantes for å oppnå resultater i 360 grader.
Diffusjonstid Trinn Gløding
DreamCraft3D-rammeverket bruker en diffusjons-tidstrinn-glødingsstrategi i et forsøk på å tilpasse seg 3D-optimaliseringens grov-til-fin-progresjon. Ved starten av optimaliseringsprosessen prioriterer rammeverket å prøve et større diffusjonstidssteg, i et forsøk på å gi den globale strukturen. Ettersom rammeverket fortsetter med treningsprosessen, utgløder det prøvetakingsområdet lineært i løpet av hundrevis av iterasjoner. Takket være annealing-strategien klarer rammeverket å etablere en plausibel global geometri under tidlige optimaliseringstrinn før raffinering av de strukturelle detaljene.
Detaljert strukturell forbedring
DreamCraft3D-rammeverket optimerer en implisitt overflaterepresentasjon i utgangspunktet for å etablere en grov struktur. Rammeverket bruker deretter dette resultatet, og kobler det sammen med et deformerbart tetraedrisk rutenett eller DMTet for å initialisere en teksturert 3D mesh-representasjon, som fjerner læringen av tekstur og geometri. Når rammeverket er ferdig med den strukturelle forbedringen, er modellen i stand til å bevare høyfrekvente detaljer hentet fra referansebildet ved å foredle teksturene utelukkende.
Teksturforsterkning ved hjelp av Bootstrapped Score Sampling
Selv om geometriskulpteringstadiet legger vekt på å lære detaljert og sammenhengende geometri, gjør det teksturen uskarp til en viss grad som kan være et resultat av rammeverkets avhengighet av en tidligere 2D-modell som opererer med en grov oppløsning sammen med begrenset skarphet som tilbys av 3D diffusjonsmodell. Videre oppstår vanlige teksturproblemer, inkludert overmetning og overutjevning, som et resultat av en stor klassifiseringsfri veiledning.
Rammeverket bruker et VSD- eller Variational Score Destillation-tap for å øke realismen til teksturene. Rammeverket velger en stabil diffusjonsmodell i denne spesielle fasen for å få høyoppløselige gradienter. Videre holder rammeverket det tetraedriske rutenettet fast for å fremme realistisk gjengivelse for å optimalisere den generelle strukturen til nettet. Under læringsstadiet bruker ikke DreamCraft3D-rammeverket Zero-1-to-3-rammeverket siden det har en negativ effekt på kvaliteten på teksturene, og disse inkonsekvente teksturene kan gjenta seg, og dermed føre til bisarre 3D-utdata.
Eksperimenter og resultater
For å evaluere ytelsen til DreamCraft3D-rammeverket, sammenlignes det med gjeldende rammeverk, og de kvalitative og kvantitative resultatene blir analysert.
Sammenligning med basismodeller
For å evaluere ytelsen blir DreamCraft3D-rammeverket sammenlignet med 5 toppmoderne rammeverk inkludert DreamFusion, Magic3D, ProlificDreamer, Magic123 og Make-it-3D. Testreferansen omfatter 300 inndatabilder som er en blanding av bilder fra den virkelige verden, og de som er generert av rammeverket for stabil diffusjon. Hvert bilde i testreferansen har en tekstmelding, et forutsagt dybdekart og en alfamaske for forgrunnen. Rammeverket henter tekstmeldingene for de virkelige bildene fra et rammeverk for bildetekst.
Kvalitativ analyse
Følgende bilde sammenligner DreamCraft3D-rammeverket med gjeldende grunnlinjemodeller, og som det kan sees, møter rammeverket som er avhengig av tekst-til-3D-tilnærming, ofte konsistensproblemer med flere visninger.
På den ene siden har du ProlificDreamer-rammeverket som tilbyr realistiske teksturer, men det kommer til kort når det kommer til å generere et plausibelt 3D-objekt. Rammer som Make-it-3D-rammeverket som er avhengige av Image-to-3D-metoder, klarer å lage frontalvisninger av høy kvalitet, men de kan ikke opprettholde den ideelle geometrien for bildene. Bildene generert av Magic123-rammeverket tilbyr bedre geometrisk regularisering, men de genererer altfor mettede og jevne geometriske teksturer og detaljer. Sammenlignet med disse rammeverkene, opprettholder DreamCraft3D-rammeverket som bruker en bootstrapped score-destillasjonsmetode, ikke bare semantisk konsistens, men det forbedrer også det generelle fantasimangfoldet.
Kvantitativ analyse
I et forsøk på å generere overbevisende 3D-bilder som ikke bare ligner inndatareferansebildet, men også formidler semantikk fra ulike perspektiver konsekvent, blir teknikkene som brukes av DreamCraft3D-rammeverket sammenlignet med grunnlinjemodeller, og evalueringsprosessen bruker fire beregninger: PSNR og LPIPS for måling av troskap ved referansepunktet, Contextual Distance for å vurdere pikselnivåkongruens, og CLIP for å estimere den semantiske koherensen. Resultatene er vist i bildet nedenfor.
Konklusjon
I denne artikkelen har vi diskutert DreamCraft3D, en hierarkisk pipeline for å generere 3D-innhold. DreamCraft3D-rammeverket tar sikte på å utnytte et topp moderne tekst-til-bilde (T2I) generativt rammeverk for å lage 2D-bilder av høy kvalitet ved hjelp av en tekstmelding. Denne tilnærmingen lar DreamCraft3D-rammeverket maksimere mulighetene til banebrytende 2D-diffusjonsmodeller når det gjelder å representere den visuelle semantikken beskrevet i tekstmeldingen, samtidig som de beholder den kreative friheten som tilbys av disse 2D AI-generative rammeverkene. Det genererte bildet blir deretter transformert til 3D gjennom kaskadede geometriske teksturforsterkning og geometriske skulpturfaser. Spesialiserte teknikker brukes på hvert trinn, hjulpet av dekomponering av problemet. Som et resultat av denne tilnærmingen kan DreamCraft3D-rammeverket produsere høy-fidelitet og konsistente 3D-elementer med overbevisende teksturer, synlig fra flere vinkler.