AI-verktøy 101

Flux fra Black Forest Labs: Det neste skrittet i tekst-til-bilde-modeller. Er det bedre enn Midjourney?

Published August 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Black Forest Labs Open-Source FLUX.1: A 12 Billion Parameter Transformer Capable of Generating Images

Black Forest Labs, teamet bak den banebrytende Stable Diffusion-modellen, har lansert Flux – en samling av state-of-the-art-modeller som lover å omdefinere kapasitetene til AI-generert bilde. Men representerer Flux virkelig et sprang fremover i feltet, og hvordan stiller det seg i forhold til bransjeledere som Midjourney? La oss dykke dypt inn i Flux-verdenen og utforske dens potensiale til å forme fremtiden for AI-generert kunst og media.

Fødselen til Black Forest Labs

Black Forest Labs er ikke bare en annen AI-startup; det er en kraftsentral med en rekord av å utvikle grunnleggende generative AI-modeller. Teamet inkluderer skaperne av VQGAN, Latent Diffusion og Stable Diffusion-familien av modeller som har tatt AI-kunstverdenen med storm.

Black Forest Labs Open-Source FLUX.1

Med en vellykket Series Seed-finansieringsrunde på $31 million ledet av Andreessen Horowitz og støtte fra bemerkelsesverdige engelinvestorer, har Black Forest Labs posisjonert seg selv i forkant av generativ AI-forskning. Deres misjon er klar: å utvikle og fremme state-of-the-art generative dybde-læringsmodeller for media som bilder og videoer, samtidig som de presses grensene for kreativitet, effisiens og mangfold.

Introduksjon til Flux-modellfamilien

Black Forest Labs har introdusert FLUX.1-suiten av tekst-til-bilde-modeller, designet for å sette nye standarder for bilde-detall, prompt-overholdelse, stil-mangfold og scenekompleksitet. Flux-familien består av tre varianter, hver tilpasset ulike bruksområder og tilgjengelighetsnivåer:

FLUX.1 [pro]: Flaggskipet-modellen, som tilbyr topp-kvalitet i bilde-generering med overlegen prompt-følging, visuell kvalitet, bilde-detall og utgangs-mangfold. Tilgjengelig gjennom en API, er det posisjonert som det premium-valget for profesjonell og bedriftsbruk.
FLUX.1 [dev]: En åpen-vekt, guidet-modell for ikke-kommersiell bruk. Den er designet for å oppnå lignende kvalitet og prompt-overholdelse som pro-versjonen, samtidig som den er mer effektiv.
FLUX.1 [schnell]: Den raskeste modellen i suiten, optimalisert for lokal utvikling og personlig bruk. Den er åpen tilgjengelig under en Apache 2.0-lisens, noe som gjør den tilgjengelig for en rekke anvendelser og eksperimenter.

Jeg vil gi noen unike og kreative prompt-eksempler som viser FLUX.1s kapasiteter. Disse promptene vil høydepunkte modellens styrker i tekst-generering, komplekse komposisjoner og detaljerte objekt-oppbygging, samt også vise dens potensiale for kreativ og unik bilde-generering.

Tekniske innovasjoner bak Flux

I hjertet av Flux’ imponerende kapasiteter ligger en rekke tekniske innovasjoner som skiller det fra sine forgjengere og samtids-modeller:

Transformer-drevne Flow-modeller i stor skala

Alle offentlige FLUX.1-modeller er bygget på en hybrid-arkitektur som kombinerer multimodale og parallele diffusjons-transformator-blokker, skalert opp til en imponerende 12 milliarder parametre. Dette representerer et betydelig sprang i modell-størrelse og kompleksitet sammenlignet med mange eksisterende tekst-til-bilde-modeller.

Flux-modellene forbedrer tidligere state-of-the-art diffusjons-modeller ved å inkorporere flow-matching, en generell og konseptuelt enkel metode for å trene generative modeller. Flow-matching gir en mer fleksibel ramme for generativ modellering, med diffusjons-modeller som en spesialtilfelle innenfor denne bredere tilnærmingen.

For å forbedre modell-prestasjonen og håndteringseffisiensen, har Black Forest Labs integrert rotary-posisjons-embeddings og parallele oppmerksomhetslag. Disse teknikkene tillater bedre håndtering av romlige relasjoner i bilder og mer effektiv prosessering av stor-skala data.

Arkitektoniske innovasjoner

La oss bryte ned noen av de viktigste arkitektoniske elementene som bidrar til Flux’ prestasjon:

Hybrid-arkitektur: Ved å kombinere multimodale og parallele diffusjons-transformator-blokker, kan Flux effektivt prosessere både tekst- og visuell informasjon, noe som leder til bedre sammenstilling mellom prompter og genererte bilder.
Flow-matching: Denne tilnærmingen tillater mer fleksible og effektive trening av generative modeller. Den gir en samlet ramme som omfatter diffusjons-modeller og andre generative teknikker, potensielt ledende til mer robuste og versatile bilde-generering.
Rotary-posisjons-embeddings: Disse embeddings hjelper modellen bedre å forstå og opprettholde romlige relasjoner innen bilder, noe som er avgjørende for å generere kohesive og detaljerte visuelle innhold.
Parallele oppmerksomhetslag: Denne teknikken tillater mer effektiv prosessering av oppmerksomhets-mekanismer, som er kritiske for å forstå relasjoner mellom ulike elementer i både tekst-prompter og genererte bilder.
Skalering til 12B parametre: Den rene størrelsen på modellen tillater den å fange og syntetisere mer komplekse mønster og relasjoner, potensielt ledende til høyere kvalitet og mer diverse utgang.

Benchmarking Flux: En ny standard i bilde-syntese

https://blackforestlabs.ai/announcing-black-forest-labs/

Black Forest Labs hevder at FLUX.1 setter nye standarder i bilde-syntese, overgående populære modeller som Midjourney v6.0, DALL·E 3 (HD) og SD3-Ultra i flere nøkkel-aspekter:

Visuell kvalitet: Flux har som mål å produsere bilder med høyere trofasthet, mer realistiske detaljer og bedre overordnet estetisk appel.
Prompt-følging: Modellen er designet for å følge gitt tekst-prompter mer nøyaktig, genererende bilder som mer nøyaktig reflekterer brukerens intensjoner, spesielt for komplekse eller nyanserte forespørsler.
Størrelse/Aspekt-variabilitet: Flux støtter en rekke aspekt-forhold og oppløsninger, fra 0,1 til 2,0 megapiksler, og tilbyr fleksibilitet for ulike bruksområder.
Typografi: Modellen viser forbedrede kapasiteter i generering og rendering av tekst innen bilder, en vanlig utfordring for mange tekst-til-bilde-modeller.
Utgangs-mangfold: Flux er spesifikt finjustert for å bevare hele utgangs-mangfoldet fra fortrening, og tilbyr en rekke kreative muligheter.

Flux vs. Midjourney: En sammenlignende analyse

https://blackforestlabs.ai/announcing-black-forest-labs/

Nå, la oss adresse det brennende spørsmålet: Er Flux bedre enn Midjourney? For å svare på dette, må vi vurdere flere faktorer:

Bilde-kvalitet og estetikk

Både Flux og Midjourney er kjent for å produsere høykvalitets, visuelt imponerende bilder. Midjourney har blitt rost for sin kunstneriske flær og evne til å skape bilder med en distinkt estetisk appel. Flux, med sin avanserte arkitektur og større parameter-telling, har som mål å matche eller overgå dette kvalitetsnivået.

Tidlige eksempler fra Flux viser imponerende detaljer, realistiske teksturer og en sterk forståelse av lys og komposisjon. Imidlertid gjør den subjektive naturen av kunst det vanskelig å definitivt hevde overlegenhet i dette området. Brukere kan finne at hver modell har sine styrker i ulike stiler eller typer av bilde.

Prompt-følging

Et område hvor Flux potensielt overgår Midjourney er i prompt-følging. Black Forest Labs har betonet sin fokus på å forbedre modellens evne til å nøyaktig tolke og utføre gitt prompter. Dette kan resultere i genererte bilder som mer nøyaktig reflekterer brukerens intensjoner, spesielt for komplekse eller nyanserte forespørsler.

Midjourney har noen ganger blitt kritisert for å ta kreative friheter med prompter, noe som kan lede til vakre men uventede resultater. Flux’ tilnærming kan tilby mer presis kontroll over generert utgang.

Hastighet og effisiens

Med introduksjonen av FLUX.1 [schnell] retter Black Forest Labs seg mot en av Midjourneys nøkkel-fortrinn: hastighet. Midjourney er kjent for sin rask genererings-tid, noe som har gjort det populært for iterative kreative prosesser. Hvis Flux kan matche eller overgå denne hastigheten samtidig som det opprettholder kvaliteten, kan det være et betydelig salgsargument.

Tilgjengelighet og brukervennlighet

Midjourney har vunnet popularitet delvis på grunn av sin brukervennlige grensesnitt og integrasjon med Discord. Flux, som er nyere, kan trenge tid til å utvikle lignende tilgjengelige grensesnitt. Imidlertid kan den åpne kilden til FLUX.1 [schnell] og [dev]-modellene føre til en rekke community-utviklede verktøy og integrasjoner, potensielt overgående Midjourney i forhold til fleksibilitet og tilpasningsmuligheter.

Tekniske kapasiteter

Flux’ avanserte arkitektur og større modell-størrelse antyder at det kan ha mer rå-kapasitet i forhold til å forstå komplekse prompter og generere intrikate detaljer. Flow-matching-tilnærmingen og hybrid-arkitekturen kan tillate Flux å håndtere en rekke oppgaver og generere mer diverse utgang.

Etiske overveielser og bias-mildring

Både Flux og Midjourney står overfor utfordringen med å adresse etiske bekymringer i AI-generert bilde, som bias, desinformasjon og opphavsretts-problemer. Black Forest Labs’ fokus på åpenhet og deres forpliktelse til å gjøre modellene bredt tilgjengelige kan potensielt føre til mer robust community-overvåking og raskere forbedringer i disse områdene.

Kode-implementering og deployering

Bruk av Flux med Diffusers

Flux-modeller kan lett integreres i eksisterende arbeidsflyter ved hjelp av Hugging Face Diffusers-biblioteket. Her er en steg-for-steg-guide til å bruke FLUX.1 [dev] eller FLUX.1 [schnell] med Diffusers:

Først, installer eller oppgrader Diffusers-biblioteket:

!pip install git+https://github.com/huggingface/diffusers.git

Deretter kan du bruke FluxPipeline for å kjøre modellen:

import torch
from diffusers import FluxPipeline

# Last modellen
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)

# Aktiver CPU-offloading for å spare VRAM (valgfritt)
pipe.enable_model_cpu_offload()

# Generer et bilde
prompt = "A cat holding a sign that says hello world"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
output_type="pil",
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# Lagre det genererte bildet
image.save("flux-dev.png")

Dette kode-utdrag demonstrerer hvordan du kan laste FLUX.1 [dev]-modellen, generere et bilde fra en tekst-prompt og lagre resultatet.

Deployering av Flux som en API med LitServe

For de som ønsker å deployere Flux som en skalerbar API-tjeneste, tilbyr Black Forest Labs et eksempel med LitServe, en høy-ytelses-inferens-motor. Her er en gjennomgang av deployerings-prosessen:

Definer modell-serveren:

from io import BytesIO
from fastapi import Response
import torch
import time
import litserve as ls
from optimum.quanto import freeze, qfloat8, quantize
from diffusers import FlowMatchEulerDiscreteScheduler, AutoencoderKL
from diffusers.models.transformers.transformer_flux import FluxTransformer2DModel
from diffusers.pipelines.flux.pipeline_flux import FluxPipeline
from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5TokenizerFast

class FluxLitAPI(ls.LitAPI):
def setup(self, device):
# Last modell-komponenter
scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="scheduler")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
text_encoder_2 = T5EncoderModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="text_encoder_2", torch_dtype=torch.bfloat16)
tokenizer_2 = T5TokenizerFast.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="tokenizer_2", torch_dtype=torch.bfloat16)
vae = AutoencoderKL.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="vae", torch_dtype=torch.bfloat16)
transformer = FluxTransformer2DModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="transformer", torch_dtype=torch.bfloat16)

# Kvantiser til 8-bit for å passe på mindre kraftfulle maskiner
quantize(transformer, weights=qfloat8)
freeze(transformer)
quantize(text_encoder_2, weights=qfloat8)
freeze(text_encoder_2)

# Initialiser Flux-pipeline
self.pipe = FluxPipeline(
scheduler=scheduler,
text_encoder=text_encoder,
tokenizer=tokenizer,
text_encoder_2=None,
tokenizer_2=tokenizer_2,
vae=vae,
transformer=None,
)
self.pipe.text_encoder_2 = text_encoder_2
self.pipe.transformer = transformer
self.pipe.enable_model_cpu_offload()

def decode_request(self, request):
return request["prompt"]

def predict(self, prompt):
image = self.pipe(
prompt=prompt,
width=1024,
height=1024,
num_inference_steps=4,
generator=torch.Generator().manual_seed(int(time.time())),
guidance_scale=3.5,
).images[0]
return image

def encode_response(self, image):
buffered = BytesIO()
image.save(buffered, format="PNG")
return Response(content=buffered.getvalue(), headers={"Content-Type": "image/png"})

# Start serveren
if __name__ == "__main__":
api = FluxLitAPI()
server = ls.LitServer(api, timeout=False)
server.run(port=8000)

Dette kode-utdrag setter opp en LitServe-API for Flux, inkludert modell-lastning, forespørsels-håndtering, bilde-generering og respons-koding.

Start serveren:

python server.py

Bruk modell-API-en:

Du kan teste API-en med et enkelt klient-skript:

import requests
import json

url = "http://localhost:8000/predict"
prompt = "a robot sitting in a chair painting a picture on an easel of a futuristic cityscape, pop art"

response = requests.post(url, json={"prompt": prompt})
with open("generated_image.png", "wb") as f:
f.write(response.content)

print("Bilde generert og lagret som generated_image.png")

Nøkkel-egenskaper ved deployeringen

Serverless-arkitektur: LitServe-oppssettet tillater skalerbar, serverless deployering som kan skaleres ned til null når den ikke er i bruk.
Privat API: Du kan deployere Flux som en privat API på egen infrastruktur.
Flere GPU-er: Oppsettet er designet for å fungere effektivt over flere GPU-er.
Kvantisering: Koden demonstrerer hvordan du kan kvantisere modellen til 8-bit presisjon, noe som tillater den å kjøre på mindre kraftfulle maskiner som NVIDIA L4-GPU-er.
CPU-offloading: enable_model_cpu_offload()-metoden brukes til å konservere GPU-minne ved å offloade deler av modellen til CPU når den ikke er i bruk.

Praktiske anvendelser av Flux

Flux’ fleksibilitet og kraft åpner opp en rekke potensielle anvendelser over ulike bransjer:

Kreative industrier: Grafiske designere, illustratører og kunstnere kan bruke Flux til å raskt generere konsept-kunst, mood-boards og visuelle inspirasjoner.
Markedsføring og reklame: Markedsførere kan lage tilpassede visuelle effekter for kampanjer, sosiale medier-innhold og produkt-mockups med utenforliggende hastighet og kvalitet.
Spill-utvikling: Spill-designere kan bruke Flux til å raskt prototypere miljøer, karakterer og aktiver, og strømlinje-forme for-prosessene.
Arkitektur og interiør-design: Arkitekter og designere kan generere realistiske visualiseringer av rom og strukturer basert på tekst-beskrivelser.
Utdanning: Lærere kan lage tilpassede visuelle hjelpemidler og illustrasjoner for å forbedre læringsmaterialet og gjøre komplekse konsepter mer tilgjengelige.
Film og animasjon: Storyboard-kunstnere og animatører kan bruke Flux til å raskt visualisere scener og karakterer, og akselerere for-visualiserings-prosessen.

Fremtiden for Flux og tekst-til-bilde-generering

Black Forest Labs har gjort det klart at Flux bare er begynnelsen på deres ambisjoner i generativ AI-rommet. De har annonsert planer om å utvikle konkurranse-tekst-til-video-systemer, som lover presis skapelse og redigering av høydefinisjons-innhold med utenforliggende hastighet.

Dette veikartet antyder at Flux ikke bare er et enkeltprodukt, men en del av en bredere økosystem av generative AI-verktøy. Etterhvert som teknologien utvikles, kan vi forvente å se:

Forbedret integrasjon: Utenriktede arbeidsflyter mellom tekst-til-bilde- og tekst-til-video-generering, som tillater mer kompleks og dynamisk innholdsskapelse.
Forbedret tilpasning: Mer finmasket kontroll over generert innhold, muligens gjennom avanserte prompt-engineering-teknikker eller intuitive brukergrensesnitt.
Sanntids-generering: Etterhvert som modeller som FLUX.1 [schnell] fortsetter å forbedres, kan vi se sanntids-bilde-generering som kan revolusjonere live-innholdsskapelse og interaktive medier.
Flere modi-generering: Evnen til å generere og manipulere innhold over flere modi (tekst, bilde, video, lyd) på en samlet og integrert måte.
Etisk AI-utvikling: Fortsatt fokus på å utvikle AI-modeller som ikke bare er kraftfulle, men også ansvarlige og etisk lydige.

Konklusjon: Er Flux bedre enn Midjourney?

Spørsmålet om Flux er “bedre” enn Midjourney er ikke enkelt å besvare med et enkelt ja eller nei. Begge modellene representerer banebrytende teknologi i tekst-til-bilde-generering, hver med sine unike styrker og karakteristika.

Flux, med sin avanserte arkitektur og fokus på prompt-følging, kan tilby mer presis kontroll og potensielt høyere kvalitet i visse scenarioer. De åpne kilde-variantene tilbyr også muligheter for tilpasning og integrasjon som kan være svært verdifulle for utviklere og forskere.

Midjourney på den andre siden, har en etablert rekord, en stor og aktiv brukerbase, og en distinkt kunstnerisk stil som mange brukere har kommet til å elske. Integreringen med Discord og brukervennlig grensesnitt har gjort det svært tilgjengelig for kreative av alle tekniske ferdighetsnivåer.

Til slutt kan det “bedre” modellen avhenge av det spesifikke bruksområdet, personlige preferanser og de utviklende kapasitetene til hver plattform. Det som er klart er at Flux representerer et betydelig skritt fremover i feltet generativ AI, og introduserer innovative tekniker som presser grensene for hva som er mulig i tekst-til-bilde-syntese.

Aayush Mittal

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.