KI Tools 101

Flux deur Black Forest Labs: The Next Leap in Text-to-Image-modelle. Is dit beter as Midjourney?

Opgedateer on November 15, 2024

Aayush Mittal

Swartwoud Labs Oopbron FLUX.1: 'n 12 miljard parameter transformator wat in staat is om beelde te genereer

Swartwoud Labs, die span agter die baanbrekende Stable Diffusion-model, het vrygestel Flux – 'n reeks moderne modelle wat beloof om die vermoëns van KI-gegenereerde beelde te herdefinieer. Maar verteenwoordig Flux werklik 'n sprong vorentoe in die veld, en hoe staan dit teen bedryfsleiers soos Midjourney? Kom ons duik diep in die wêreld van Flux en ondersoek die potensiaal daarvan om die toekoms van KI-gegenereerde kuns en media te hervorm.

Die geboorte van Swartwoud Labs

Black Forest Labs is nie net nog 'n KI-opstart nie; dit is 'n kragbron van talent met 'n rekord van die ontwikkeling van fundamentele generatiewe KI-modelle. Die span sluit die skeppers van VQGAN, Latent Diffusion en die Stable Diffusion-familie van modelle in wat die KI-kunswêreld met storm geneem het.

Swartwoud Labs Oopbron FLUX.1

Met 'n suksesvolle Series Seed-befondsingsronde van $31 miljoen gelei deur Andreessen Horowitz en ondersteuning van noemenswaardige engelbeleggers, het Black Forest Labs hom aan die voorpunt van generatiewe KI-navorsing geposisioneer. Hul missie is duidelik: om moderne generatiewe diepleermodelle vir media soos beelde en video's te ontwikkel en te bevorder, terwyl die grense van kreatiwiteit, doeltreffendheid en diversiteit verskuif word.

Stel die Flux Model Familie bekend

Black Forest Labs het die FLUX.1-reeks teks-na-beeld-modelle bekendgestel, wat ontwerp is om nuwe maatstawwe in beelddetail, vinnige nakoming, styldiversiteit en toneelkompleksiteit te stel. Die Flux-familie bestaan uit drie variante, elkeen aangepas vir verskillende gebruiksgevalle en toeganklikheidsvlakke:

FLUX.1 [pro]: Die vlagskipmodel, wat topvlakprestasie in beeldgenerering bied met voortreflike vinnige volg, visuele kwaliteit, beelddetail en uitsetdiversiteit. Beskikbaar deur 'n API, is dit geposisioneer as die premium opsie vir professionele en ondernemingsgebruik.
FLUX.1 [dev]: 'n Oopgewig, leidinggedistilleerde model vir nie-kommersiële toepassings. Dit is ontwerp om soortgelyke kwaliteit en vinnige nakomingsvermoëns as die pro-weergawe te bereik, terwyl dit meer doeltreffend is.
FLUX.1 [schnell]: Die vinnigste model in die suite, geoptimaliseer vir plaaslike ontwikkeling en persoonlike gebruik. Dit is openlik beskikbaar onder 'n Apache 2.0-lisensie, wat dit toeganklik maak vir 'n wye reeks toepassings en eksperimente.

Ek sal 'n paar unieke en kreatiewe vinnige voorbeelde verskaf wat FLUX.1 se vermoëns ten toon stel. Hierdie aanwysings sal die model se sterkpunte in die hantering van teks, komplekse komposisies en uitdagende elemente soos hande beklemtoon.

Artistieke styl wat met teks gemeng word: "Skep 'n portret van Vincent van Gogh in sy kenmerkende styl, maar vervang sy baard met kolkende kwashale wat die woorde 'Sterrenag' in kursief vorm."

Swartwoud Labs Oopbron FLUX.1

Dinamiese aksietoneel met teksintegrasie: “'n Superheld wat deur 'n strokiesprentbladsy bars. Die aksielyne en klankeffekte moet die held se naam 'FLUX FORCE' in vet, dinamiese tipografie vorm.”

Swartwoud Labs Oopbron FLUX.1

Surrealistiese konsep met presiese objekplasing: “Nabyskoot van ’n oulike kat met bruin en wit kleure onder venstersonlig. Skerp fokus op oogtekstuur en kleur. Natuurlike beligting om outentieke oogskyn en diepte vas te vang.”

Swartwoud Labs Oopbron FLUX.1

Hierdie aansporings is ontwerp om FLUX.1 se vermoëns in teksweergawe, komplekse toneelsamestelling en gedetailleerde voorwerpskepping uit te daag, terwyl dit ook die potensiaal daarvan vir kreatiewe en unieke beeldgenerering ten toon stel.

Tegniese innovasies agter Flux

Die kern van Flux se indrukwekkende vermoëns lê 'n reeks tegniese innovasies wat hom van sy voorgangers en tydgenote onderskei:

Transformator-aangedrewe vloeimodelle op skaal

Alle openbare FLUX.1-modelle is gebou op 'n hibriede argitektuur wat multimodale en parallelle diffusietransformatorblokke kombineer, afgeskaal tot 'n indrukwekkende 12 miljard parameters. Dit verteenwoordig 'n beduidende sprong in modelgrootte en kompleksiteit in vergelyking met baie bestaande teks-na-beeld-modelle.

Die Flux-modelle verbeter op vorige state-of-the-art diffusiemodelle deur vloeipassing in te sluit, 'n algemene en konseptueel eenvoudige metode vir die opleiding van generatiewe modelle. Vloeipassing bied 'n meer buigsame raamwerk vir generatiewe modellering, met diffusiemodelle wat 'n spesiale geval binne hierdie breër benadering is.

Om modelwerkverrigting en hardewaredoeltreffendheid te verbeter, het Black Forest Labs geïntegreerde roterende posisionele inbeddings en parallelle aandaglae. Hierdie tegnieke maak voorsiening vir beter hantering van ruimtelike verhoudings in beelde en meer doeltreffende verwerking van grootskaalse data.

Argitektoniese innovasies

Kom ons breek 'n paar van die sleutel argitektoniese elemente af wat bydra tot Flux se prestasie:

Hibriede argitektuur: Deur multimodale en parallelle diffusie-transformatorblokke te kombineer, kan Flux beide tekstuele en visuele inligting effektief verwerk, wat lei tot beter belyning tussen opdragte en gegenereerde beelde.
Vloeipassing: Hierdie benadering maak voorsiening vir meer buigsame en doeltreffende opleiding van generatiewe modelle. Dit bied 'n verenigde raamwerk wat diffusiemodelle en ander generatiewe tegnieke insluit, wat moontlik lei tot meer robuuste en veelsydige beeldgenerering.
Roterende Posisionele Inbeddings: Hierdie inbeddings help die model om ruimtelike verhoudings binne beelde beter te verstaan en in stand te hou, wat noodsaaklik is vir die generering van samehangende en gedetailleerde visuele inhoud.
Parallelle aandaglae: Hierdie tegniek maak voorsiening vir meer doeltreffende verwerking van aandagmeganismes, wat krities is vir die verstaan van verwantskappe tussen verskillende elemente in beide teksaanwysings en gegenereerde beelde.
Skaal na 12B-parameters: Die blote grootte van die model laat dit toe om meer komplekse patrone en verhoudings vas te vang en te sintetiseer, wat moontlik lei tot hoër kwaliteit en meer diverse uitsette.

Benchmarking Flux: 'n Nuwe standaard in beeldsintese

https://blackforestlabs.ai/announcing-black-forest-labs/

Black Forest Labs beweer dat FLUX.1 nuwe standaarde in beeldsintese stel, wat gewilde modelle soos middel van die reis v6.0, DALL·E 3 (HD) en SD3-Ultra in verskeie sleutelaspekte:

Visuele kwaliteit: Flux poog om beelde te produseer met hoër getrouheid, meer realistiese besonderhede en beter algehele estetiese aantrekkingskrag.
Vinnige volg: Die model is ontwerp om nouer aan die gegewe teksaanwysings te voldoen, wat beelde genereer wat die gebruiker se bedoelings meer akkuraat weerspieël.
Grootte/Aspek Veranderlikheid: Flux ondersteun 'n uiteenlopende reeks aspekverhoudings en resolusies, van 0.1 tot 2.0 megapixels, wat buigsaamheid bied vir verskeie gebruiksgevalle.
Tipografie: Die model toon verbeterde vermoëns om teks binne beelde te genereer en weer te gee, 'n algemene uitdaging vir baie teks-na-beeld-modelle.
Uitset diversiteit: Flux is spesifiek verfyn om die hele uitsetdiversiteit van vooropleiding te bewaar, wat 'n wyer reeks kreatiewe moontlikhede bied.

Flux vs Midjourney: 'n Vergelykende Analise

https://blackforestlabs.ai/announcing-black-forest-labs/

Kom ons spreek nou die brandende vraag aan: Is Flux beter as middel van die reis? Om dit te beantwoord, moet ons verskeie faktore oorweeg:

Beeldkwaliteit en estetika

Beide Flux en Midjourney is bekend vir die vervaardiging van hoë kwaliteit, visueel pragtige beelde. Midjourney is geprys vir sy artistieke aanvoeling en vermoë om beelde te skep met 'n duidelike estetiese aantrekkingskrag. Flux, met sy gevorderde argitektuur en groter parametertelling, poog om hierdie vlak van kwaliteit te pas of te oorskry.

Vroeë voorbeelde van Flux toon indrukwekkende detail, realistiese teksture en 'n sterk begrip van beligting en komposisie. Die subjektiewe aard van kuns maak dit egter moeilik om definitief aanspraak te maak op meerderwaardigheid op hierdie gebied. Gebruikers kan vind dat elke model sy sterkpunte het in verskillende style of soorte beelde.

Vinnige nakoming

Een area waar Flux moontlik uitsteek middel van die reis is in spoedige nakoming. Black Forest Labs het hul fokus daarop beklemtoon om die model se vermoë om akkuraat te interpreteer en uit te voer op gegewe opdragte te verbeter. Dit kan lei tot gegenereerde beelde wat meer ooreenstem met die gebruiker se bedoelings, veral vir komplekse of genuanseerde versoeke.

middel van die reis is soms gekritiseer om kreatiewe vryhede te neem met aansporings, wat tot pragtige maar onverwagte resultate kan lei. Flux se benadering kan meer presiese beheer oor die gegenereerde uitset bied.

Spoed en doeltreffendheid

Met die bekendstelling van FLUX.1 [schnell] mik Black Forest Labs op een van Midjourney se belangrikste voordele: spoed. Midjourney is bekend vir sy vinnige generasietye, wat dit gewild gemaak het vir iteratiewe kreatiewe prosesse. As Flux hierdie spoed kan ooreenstem of oorskry terwyl kwaliteit gehandhaaf word, kan dit 'n beduidende verkoopspunt wees.

Toeganklikheid en gebruiksgemak

Midjourney het gewild geword deels vanweë sy gebruikersvriendelike koppelvlak en integrasie met Discord. Flux, wat nuwer is, kan tyd nodig hê om soortgelyke toeganklike koppelvlakke te ontwikkel. Die oopbron-aard van FLUX.1 [schnell] en [dev] modelle kan egter lei tot 'n wye reeks gemeenskaps-ontwikkelde gereedskap en integrasies, wat Midjourney moontlik oortref in terme van buigsaamheid en aanpassingsopsies.

Tegniese vermoëns

Flux se gevorderde argitektuur en groter modelgrootte dui daarop dat dit dalk meer rou vermoë het in terme van die verstaan van komplekse opdragte en die generering van ingewikkelde besonderhede. Die vloeipassingsbenadering en hibriede argitektuur kan Flux in staat stel om 'n wyer reeks take te hanteer en meer uiteenlopende uitsette te genereer.

Etiese oorwegings en vooroordeelversagting

Beide Flux en Midjourney staan voor die uitdaging om etiese kwessies in KI-gegenereerde beelde aan te spreek, soos vooroordeel, verkeerde inligting en kopieregkwessies. Black Forest Labs se klem op deursigtigheid en hul verbintenis om modelle wyd toeganklik te maak, kan moontlik lei tot meer robuuste gemeenskapstoesig en vinniger verbeterings in hierdie gebiede.

Kode-implementering en -ontplooiing

Gebruik Flux met Diffusers

Flux-modelle kan maklik geïntegreer word in bestaande werkstrome met behulp van die Hugging Face Diffusers-biblioteek. Hier is 'n stap-vir-stap gids vir die gebruik van FLUX.1 [dev] of FLUX.1 [schnell] met diffusers:

Installeer of gradeer eers die Diffusers-biblioteek op:

!pip install git+https://github.com/huggingface/diffusers.git

Dan kan jy die FluxPipeline om die model te laat loop:

import torch
from diffusers import FluxPipeline

# Load the model
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)

# Enable CPU offloading to save VRAM (optional)
pipe.enable_model_cpu_offload()

# Generate an image
prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    output_type="pil",
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# Save the generated image
image.save("flux-dev.png")

Hierdie kodebrokkie demonstreer hoe om die FLUX.1 [dev]-model te laai, 'n prent vanaf 'n teksaanvraag te genereer en die resultaat te stoor.

Die implementering van Flux as 'n API met LitServe

Vir diegene wat Flux as 'n skaalbare API-diens wil ontplooi, bied Black Forest Labs 'n voorbeeld met LitServe, 'n hoëprestasie-afleidingsenjin. Hier is 'n uiteensetting van die ontplooiingsproses:

Definieer die modelbediener:

from io import BytesIO
from fastapi import Response
import torch
import time
import litserve as ls
from optimum.quanto import freeze, qfloat8, quantize
from diffusers import FlowMatchEulerDiscreteScheduler, AutoencoderKL
from diffusers.models.transformers.transformer_flux import FluxTransformer2DModel
from diffusers.pipelines.flux.pipeline_flux import FluxPipeline
from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5TokenizerFast

class FluxLitAPI(ls.LitAPI):
    def setup(self, device):
        # Load model components
        scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="scheduler")
        text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
        tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
        text_encoder_2 = T5EncoderModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="text_encoder_2", torch_dtype=torch.bfloat16)
        tokenizer_2 = T5TokenizerFast.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="tokenizer_2", torch_dtype=torch.bfloat16)
        vae = AutoencoderKL.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="vae", torch_dtype=torch.bfloat16)
        transformer = FluxTransformer2DModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="transformer", torch_dtype=torch.bfloat16)

        # Quantize to 8-bit to fit on an L4 GPU
        quantize(transformer, weights=qfloat8)
        freeze(transformer)
        quantize(text_encoder_2, weights=qfloat8)
        freeze(text_encoder_2)

        # Initialize the Flux pipeline
        self.pipe = FluxPipeline(
            scheduler=scheduler,
            text_encoder=text_encoder,
            tokenizer=tokenizer,
            text_encoder_2=None,
            tokenizer_2=tokenizer_2,
            vae=vae,
            transformer=None,
        )
        self.pipe.text_encoder_2 = text_encoder_2
        self.pipe.transformer = transformer
        self.pipe.enable_model_cpu_offload()

    def decode_request(self, request):
        return request["prompt"]

    def predict(self, prompt):
        image = self.pipe(
            prompt=prompt, 
            width=1024,
            height=1024,
            num_inference_steps=4, 
            generator=torch.Generator().manual_seed(int(time.time())),
            guidance_scale=3.5,
        ).images[0]
        return image

    def encode_response(self, image):
        buffered = BytesIO()
        image.save(buffered, format="PNG")
        return Response(content=buffered.getvalue(), headers={"Content-Type": "image/png"})

# Start the server
if __name__ == "__main__":
    api = FluxLitAPI()
    server = ls.LitServer(api, timeout=False)
    server.run(port=8000)

Hierdie kode stel 'n LitServe API vir Flux op, insluitend modellaai, versoekhantering, beeldgenerering en reaksie-kodering.

Begin die bediener:

</pre>
python server.py
<pre>

Gebruik die model API:

U kan die API toets deur 'n eenvoudige kliëntskrip te gebruik:

import requests
import json

url = "http://localhost:8000/predict"
prompt = "a robot sitting in a chair painting a picture on an easel of a futuristic cityscape, pop art"

response = requests.post(url, json={"prompt": prompt})
with open("generated_image.png", "wb") as f:
    f.write(response.content)

print("Image generated and saved as generated_image.png")

Sleutelkenmerke van die ontplooiing

Bedienerlose argitektuur: Die LitServe opstelling maak voorsiening vir skaalbare, bedienerlose ontplooiing wat tot nul kan skaal wanneer dit nie gebruik word nie.
Privaat API: Jy kan Flux as 'n private API op jou eie infrastruktuur ontplooi.
Multi-GPU Ondersteuning: Die opstelling is ontwerp om doeltreffend oor verskeie GPU's te werk.
kwantisering: Die kode demonstreer hoe om die model tot 8-bis-presisie te kwantifiseer, sodat dit op minder kragtige hardeware soos NVIDIA L4 GPU's kan loop.
SVE aflaai: Die enable_model_cpu_offload() metode word gebruik om GPU-geheue te bespaar deur dele van die model na SVE af te laai wanneer dit nie gebruik word nie.

Praktiese toepassings van Flux

Die veelsydigheid en krag van Flux maak 'n wye reeks potensiële toepassings oor verskeie industrieë oop:

Creative Industries: Grafiese ontwerpers, illustreerders en kunstenaars kan Flux gebruik om vinnig konsepkuns, buiborde en visuele inspirasies te genereer.
Bemarking en advertering: Bemarkers kan pasgemaakte beeldmateriaal vir veldtogte, sosiale media-inhoud en produkmodelle met ongekende spoed en kwaliteit skep.
game Ontwikkeling: Speletjieontwerpers kan Flux gebruik om omgewings, karakters en bates vinnig te prototipeer, wat die voorproduksieproses vaartbelyn maak.
Argitektuur en binne-ontwerp: Argitekte en ontwerpers kan realistiese visualiserings van ruimtes en strukture genereer gebaseer op tekstuele beskrywings.
Onderwys: Opvoeders kan pasgemaakte visuele hulpmiddels en illustrasies skep om leermateriaal te verbeter en komplekse konsepte meer toeganklik te maak.
Film en animasie: Storiebordkunstenaars en animeerders kan Flux gebruik om tonele en karakters vinnig te visualiseer, wat die voorvisualiseringsproses versnel.

Die toekoms van vloei en teks-na-beeld-generering

Black Forest Labs het dit duidelik gemaak dat Flux net die begin is van hul ambisies in die generatiewe KI-ruimte. Hulle het aangekondig planne om mededingende generatiewe teks-na-video-stelsels te ontwikkel, wat presiese skeppings- en redigeervermoëns teen hoë definisie en ongekende spoed belowe.

Hierdie padkaart dui daarop dat Flux nie net 'n selfstandige produk is nie, maar deel is van 'n breër ekosisteem van generatiewe KI-gereedskap. Soos die tegnologie ontwikkel, kan ons verwag om te sien:

Verbeterde integrasie: Naatlose werkvloei tussen teks-na-beeld en teks-na-video generering, wat meer komplekse en dinamiese inhoudskepping moontlik maak.
Verbeterde aanpassing: Meer fyn beheer oor gegenereerde inhoud, moontlik deur gevorderde vinnige ingenieurstegnieke of intuïtiewe gebruikerskoppelvlakke.
Intydse generasie: Soos modelle soos FLUX.1 [schnell] aanhou verbeter, kan ons moontlike intydse beeldgenerering sien wat die skepping van lewendige inhoud en interaktiewe media kan verander.
Kruis-modale generasie: Die vermoë om inhoud oor verskeie modaliteite (teks, beeld, video, oudio) op 'n samehangende en geïntegreerde wyse te genereer en te manipuleer.
Etiese KI-ontwikkeling: Voortgesette fokus op die ontwikkeling van KI-modelle wat nie net kragtig is nie, maar ook verantwoordelik en eties gesond is.

Gevolgtrekking: Is Flux beter as Midjourney?

Die vraag of Flux “beter” as Midjourney is, word nie maklik met ’n eenvoudige ja of nee beantwoord nie. Albei modelle verteenwoordig die voorpunt van teks-na-beeld-generering tegnologie, elk met sy eie sterk punte en unieke eienskappe.

Flux, met sy gevorderde argitektuur en klem op vinnige nakoming, kan in sekere scenario's meer akkurate beheer en moontlik hoër gehalte bied. Sy oopbronvariante bied ook geleenthede vir aanpassing en integrasie wat hoogs waardevol kan wees vir ontwikkelaars en navorsers.

middel van die reis, aan die ander kant, het 'n bewese rekord, 'n groot en aktiewe gebruikersbasis, en 'n kenmerkende artistieke styl wat baie gebruikers begin hou het. Die integrasie daarvan met Discord en gebruikersvriendelike koppelvlak het dit hoogs toeganklik gemaak vir kreatiewe van alle tegniese vaardigheidsvlakke.

Uiteindelik kan die "beter" model afhang van die spesifieke gebruiksgeval, persoonlike voorkeure en die ontwikkelende vermoëns van elke platform. Wat duidelik is, is dat Flux 'n belangrike stap vorentoe verteenwoordig op die gebied van generatiewe KI, wat innoverende tegnieke bekendstel en die grense verskuif van wat moontlik is in teks-na-beeld-sintese.

Verwante onderwerpe:KI kunsskepping AI beeld generering Swartwoud Labs Digitale kuns vloed FLUKS.1 natuurlike taalverwerking oopbron AI Stabiele verspreiding Teks-na-beeld-model

Deepswap Review: Skep 4K Face Swaps vir video's en prente

Moenie mis nie

Claude AI Review: Hoe is weergawe 3.7 beter as 3.5?

Aayush Mittal

Ek het die afgelope vyf jaar my verdiep in die fassinerende wêreld van Masjienleer en Deep Learning. My passie en kundigheid het daartoe gelei dat ek bygedra het tot meer as 50 diverse sagteware-ingenieursprojekte, met 'n spesifieke fokus op KI/ML. My voortdurende nuuskierigheid het my ook na natuurlike taalverwerking gelok, 'n veld wat ek gretig is om verder te verken.