Alat AI 101

Flux oleh Black Forest Labs: Lompatan Berikutnya dalam Model Teks-ke-Gambar. Apakah ini lebih baik dari Midjourney?

Diterbitkan 12 Agustus 2024

Updated November 15, 2024

Aayush Mittal Mital

FLUX.1 Sumber Terbuka Black Forest Labs: Transformator 12 Miliar Parameter yang Mampu Menghasilkan Gambar

Lab Hutan Hitam, tim di balik model Difusi Stabil yang inovatif, telah merilis Aliran – serangkaian model canggih yang menjanjikan untuk mendefinisikan kembali kemampuan citra yang dihasilkan AI. Namun apakah Flux benar-benar mewakili sebuah lompatan maju dalam bidang ini, dan bagaimana Flux mampu bersaing dengan para pemimpin industri seperti Midjourney? Mari selami dunia Flux dan jelajahi potensinya untuk membentuk kembali masa depan seni dan media yang dihasilkan oleh AI.

Kelahiran Lab Black Forest

Black Forest Labs bukan sekadar perusahaan rintisan AI biasa; perusahaan ini merupakan pusat bakat dengan rekam jejak pengembangan model AI generatif yang mendasar. Tim ini mencakup para kreator VQGAN, Latent Diffusion, dan keluarga model Stable Diffusion yang telah menggemparkan dunia seni AI.

FLUX Sumber Terbuka Black Forest Labs.1

Dengan putaran pendanaan Series Seed yang sukses $31 juta dipimpin oleh Andreessen Horowitz dan dukungan dari angel investor terkemuka, Black Forest Labs telah memposisikan dirinya sebagai yang terdepan dalam penelitian AI generatif. Misi mereka jelas: mengembangkan dan memajukan model pembelajaran mendalam generatif yang canggih untuk media seperti gambar dan video, sambil mendorong batas-batas kreativitas, efisiensi, dan keragaman.

Memperkenalkan Keluarga Model Fluks

Black Forest Labs telah memperkenalkan rangkaian model teks-ke-gambar FLUX.1, yang dirancang untuk menetapkan tolok ukur baru dalam detail gambar, kepatuhan yang cepat, keragaman gaya, dan kompleksitas pemandangan. Keluarga Flux terdiri dari tiga varian, masing-masing disesuaikan dengan kasus penggunaan dan tingkat aksesibilitas yang berbeda:

FLUX.1 [pro]: Model andalan, menawarkan kinerja tingkat atas dalam pembuatan gambar dengan tindak lanjut yang unggul, kualitas visual, detail gambar, dan keragaman keluaran. Tersedia melalui API, ini diposisikan sebagai opsi premium untuk penggunaan profesional dan perusahaan.
FLUX.1 [pengembangan]: Model dengan bobot terbuka dan penyulingan panduan untuk aplikasi non-komersial. Ini dirancang untuk mencapai kualitas yang sama dan kemampuan kepatuhan yang cepat seperti versi pro sekaligus lebih efisien.
FLUX.1 [schnell]: Model tercepat di suite, dioptimalkan untuk pengembangan lokal dan penggunaan pribadi. Ini tersedia secara terbuka di bawah lisensi Apache 2.0, sehingga dapat diakses untuk berbagai aplikasi dan eksperimen.

Saya akan memberikan beberapa contoh cepat unik dan kreatif yang menampilkan kemampuan FLUX.1. Petunjuk ini akan menyoroti kekuatan model dalam menangani teks, komposisi kompleks, dan elemen menantang seperti tangan.

Perpaduan Gaya Artistik dengan Teks: “Buatlah potret Vincent van Gogh dengan gaya khasnya, namun ganti janggutnya dengan sapuan kuas berputar-putar yang membentuk tulisan 'Starry Night' dalam bentuk kursif.”

FLUX Sumber Terbuka Black Forest Labs.1

Adegan Aksi Dinamis dengan Integrasi Teks: “Seorang pahlawan super menerobos halaman buku komik. Garis aksi dan efek suara harus membentuk nama pahlawan 'FLUX FORCE' dalam tipografi yang berani dan dinamis.”

FLUX Sumber Terbuka Black Forest Labs.1

Konsep Surreal dengan Penempatan Objek yang Tepat: “Gambar close-up seekor kucing lucu dengan warna coklat dan putih di bawah sinar matahari jendela. Fokus tajam pada tekstur dan warna mata. Pencahayaan alami untuk menangkap kilau dan kedalaman mata yang autentik.”

FLUX Sumber Terbuka Black Forest Labs.1

Perintah ini dirancang untuk menantang kemampuan FLUX.1 dalam rendering teks, komposisi pemandangan kompleks, dan pembuatan objek mendetail, sekaligus menunjukkan potensinya dalam menghasilkan gambar yang kreatif dan unik.

Inovasi Teknis di Balik Fluks

Inti dari kemampuan Flux yang mengesankan terletak pada serangkaian inovasi teknis yang membedakannya dari pendahulunya dan produk sezamannya:

Model Aliran bertenaga transformator dalam Skala Besar

Semua model FLUX.1 publik dibangun pada arsitektur hybrid yang menggabungkan blok transformator difusi multimodal dan paralel, yang diskalakan hingga 12 miliar parameter yang mengesankan. Hal ini menunjukkan lompatan signifikan dalam ukuran dan kompleksitas model dibandingkan dengan banyak model text-to-image yang sudah ada.

Model Flux menyempurnakan model difusi canggih sebelumnya dengan menggabungkan pencocokan aliran, metode umum dan sederhana secara konseptual untuk melatih model generatif. Pencocokan aliran memberikan kerangka kerja yang lebih fleksibel untuk pemodelan generatif, dengan model difusi menjadi kasus khusus dalam pendekatan yang lebih luas ini.

Untuk meningkatkan kinerja model dan efisiensi perangkat keras, Black Forest Labs telah mengintegrasikan penyematan posisi putar dan lapisan perhatian paralel. Teknik-teknik ini memungkinkan penanganan hubungan spasial dalam gambar dengan lebih baik dan pemrosesan data skala besar yang lebih efisien.

Inovasi Arsitektur

Mari kita uraikan beberapa elemen arsitektur utama yang berkontribusi terhadap kinerja Flux:

Arsitektur Hibrida: Dengan menggabungkan blok transformator difusi multimodal dan paralel, Flux dapat secara efektif memproses informasi tekstual dan visual, sehingga menghasilkan keselarasan yang lebih baik antara perintah dan gambar yang dihasilkan.
Pencocokan Aliran: Pendekatan ini memungkinkan pelatihan model generatif yang lebih fleksibel dan efisien. Hal ini memberikan kerangka terpadu yang mencakup model difusi dan teknik generatif lainnya, yang berpotensi menghasilkan generasi gambar yang lebih kuat dan serbaguna.
Penyematan Posisi Putar: Penyematan ini membantu model lebih memahami dan memelihara hubungan spasial dalam gambar, yang sangat penting untuk menghasilkan konten visual yang koheren dan mendetail.
Lapisan Perhatian Paralel: Teknik ini memungkinkan pemrosesan mekanisme perhatian yang lebih efisien, yang sangat penting untuk memahami hubungan antara berbagai elemen baik dalam perintah teks maupun gambar yang dihasilkan.
Penskalaan ke Parameter 12B: Ukuran model yang besar memungkinkannya menangkap dan mensintesis pola dan hubungan yang lebih kompleks, sehingga berpotensi menghasilkan keluaran yang lebih berkualitas dan beragam.

Fluks Pembandingan: Standar Baru dalam Sintesis Gambar

https://blackforestlabs.ai/announcing-black-forest-labs/

Black Forest Labs mengklaim bahwa FLUX.1 menetapkan standar baru dalam sintesis gambar, melampaui model populer sejenisnya tengah perjalanan v6.0, DALL·E 3 (HD), dan SD3-Ultra dalam beberapa aspek utama:

Kualitas Visual: Flux bertujuan untuk menghasilkan gambar dengan fidelitas lebih tinggi, detail lebih realistis, dan daya tarik estetika keseluruhan yang lebih baik.
Mengikuti Segera: Model ini dirancang untuk lebih mematuhi petunjuk teks yang diberikan, menghasilkan gambar yang lebih akurat mencerminkan maksud pengguna.
Variabilitas Ukuran/Aspek: Flux mendukung beragam rasio aspek dan resolusi, dari 0.1 hingga 2.0 megapiksel, menawarkan fleksibilitas untuk berbagai kasus penggunaan.
Tipografi: Model ini menunjukkan peningkatan kemampuan dalam menghasilkan dan merender teks dalam gambar, sebuah tantangan umum bagi banyak model text-to-image.
Keanekaragaman Keluaran: Flux secara khusus disesuaikan untuk mempertahankan seluruh keragaman keluaran dari pra-pelatihan, menawarkan kemungkinan kreatif yang lebih luas.

Fluks vs. Tengah Perjalanan: Analisis Perbandingan

https://blackforestlabs.ai/announcing-black-forest-labs/

Sekarang, mari kita jawab pertanyaan penting: Apakah Flux lebih baik daripada Flux tengah perjalanan? Untuk menjawabnya, kita perlu mempertimbangkan beberapa faktor:

Kualitas Gambar dan Estetika

Flux dan Midjourney dikenal menghasilkan gambar berkualitas tinggi dan menakjubkan secara visual. Midjourney dipuji karena bakat artistiknya dan kemampuannya menciptakan gambar dengan daya tarik estetika yang berbeda. Flux, dengan arsitektur canggih dan jumlah parameter yang lebih besar, bertujuan untuk menyamai atau melampaui tingkat kualitas ini.

Contoh awal dari Flux menunjukkan detail yang mengesankan, tekstur realistis, dan pemahaman yang kuat tentang pencahayaan dan komposisi. Namun, sifat subjektif seni membuat sulit untuk mengklaim superioritas secara pasti di bidang ini. Pengguna mungkin menemukan bahwa setiap model memiliki kelebihannya dalam gaya atau jenis citra yang berbeda.

Kepatuhan yang Cepat

Satu area di mana Flux berpotensi tersingkir tengah perjalanan berada dalam kepatuhan yang cepat. Black Forest Labs menekankan fokus mereka pada peningkatan kemampuan model untuk menafsirkan dan mengeksekusi perintah tertentu secara akurat. Hal ini dapat menghasilkan gambar yang dihasilkan lebih sesuai dengan maksud pengguna, terutama untuk permintaan yang kompleks atau bernuansa.

tengah perjalanan terkadang dikritik karena mengambil kebebasan kreatif dengan petunjuk, yang dapat memberikan hasil yang indah namun tidak terduga. Pendekatan Flux mungkin menawarkan kontrol yang lebih tepat atas keluaran yang dihasilkan.

Kecepatan dan Efisiensi

Dengan diperkenalkannya FLUX.1 [schnell], Black Forest Labs menargetkan salah satu keunggulan utama Midjourney: kecepatan. Midjourney dikenal dengan waktu pembuatannya yang cepat, yang membuatnya populer karena proses kreatifnya yang berulang. Jika Flux dapat menyamai atau melampaui kecepatan ini dengan tetap menjaga kualitas, hal ini dapat menjadi nilai jual yang signifikan.

Aksesibilitas dan Kemudahan Penggunaan

Midjourney mendapatkan popularitas sebagian karena antarmukanya yang ramah pengguna dan integrasi dengan Discord. Flux, karena lebih baru, mungkin memerlukan waktu untuk mengembangkan antarmuka yang dapat diakses serupa. Namun, sifat open-source dari model FLUX.1 [schnell] dan [dev] dapat menghasilkan berbagai alat dan integrasi yang dikembangkan komunitas, yang berpotensi melampaui Midjourney dalam hal fleksibilitas dan opsi penyesuaian.

Kemampuan Teknis

Arsitektur Flux yang canggih dan ukuran model yang lebih besar menunjukkan bahwa Flux mungkin memiliki kemampuan yang lebih mentah dalam hal memahami perintah yang kompleks dan menghasilkan detail yang rumit. Pendekatan pencocokan aliran dan arsitektur hibrid memungkinkan Flux menangani tugas yang lebih luas dan menghasilkan keluaran yang lebih beragam.

Pertimbangan Etis dan Mitigasi Bias

Baik Flux maupun Midjourney menghadapi tantangan dalam mengatasi masalah etika dalam citra yang dihasilkan AI, seperti bias, misinformasi, dan masalah hak cipta. Penekanan Black Forest Labs pada transparansi dan komitmen mereka untuk membuat model dapat diakses secara luas berpotensi menghasilkan pengawasan masyarakat yang lebih kuat dan perbaikan yang lebih cepat di bidang-bidang ini.

Implementasi dan Penerapan Kode

Menggunakan Fluks dengan Diffuser

Model Flux dapat dengan mudah diintegrasikan ke dalam alur kerja yang ada menggunakan Perpustakaan Memeluk Wajah Diffusers. Berikut panduan langkah demi langkah untuk menggunakan FLUX.1 [dev] atau FLUX.1 [schnell] dengan Diffuser:

Pertama, instal atau tingkatkan perpustakaan Diffusers:

!pip install git+https://github.com/huggingface/diffusers.git

Kemudian, Anda dapat menggunakan FluxPipeline untuk menjalankan model:

import torch
from diffusers import FluxPipeline

# Load the model
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)

# Enable CPU offloading to save VRAM (optional)
pipe.enable_model_cpu_offload()

# Generate an image
prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    output_type="pil",
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# Save the generated image
image.save("flux-dev.png")

Cuplikan kode ini menunjukkan cara memuat model FLUX.1 [dev], menghasilkan gambar dari prompt teks, dan menyimpan hasilnya.

Menerapkan Flux sebagai API dengan LitServe

Bagi mereka yang ingin menerapkan Flux sebagai layanan API yang dapat diskalakan, Black Forest Labs memberikan contoh penggunaan LitServe, mesin inferensi berkinerja tinggi. Berikut rincian proses penerapan:

Tentukan server model:

from io import BytesIO
from fastapi import Response
import torch
import time
import litserve as ls
from optimum.quanto import freeze, qfloat8, quantize
from diffusers import FlowMatchEulerDiscreteScheduler, AutoencoderKL
from diffusers.models.transformers.transformer_flux import FluxTransformer2DModel
from diffusers.pipelines.flux.pipeline_flux import FluxPipeline
from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5TokenizerFast

class FluxLitAPI(ls.LitAPI):
    def setup(self, device):
        # Load model components
        scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="scheduler")
        text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
        tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
        text_encoder_2 = T5EncoderModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="text_encoder_2", torch_dtype=torch.bfloat16)
        tokenizer_2 = T5TokenizerFast.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="tokenizer_2", torch_dtype=torch.bfloat16)
        vae = AutoencoderKL.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="vae", torch_dtype=torch.bfloat16)
        transformer = FluxTransformer2DModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="transformer", torch_dtype=torch.bfloat16)

        # Quantize to 8-bit to fit on an L4 GPU
        quantize(transformer, weights=qfloat8)
        freeze(transformer)
        quantize(text_encoder_2, weights=qfloat8)
        freeze(text_encoder_2)

        # Initialize the Flux pipeline
        self.pipe = FluxPipeline(
            scheduler=scheduler,
            text_encoder=text_encoder,
            tokenizer=tokenizer,
            text_encoder_2=None,
            tokenizer_2=tokenizer_2,
            vae=vae,
            transformer=None,
        )
        self.pipe.text_encoder_2 = text_encoder_2
        self.pipe.transformer = transformer
        self.pipe.enable_model_cpu_offload()

    def decode_request(self, request):
        return request["prompt"]

    def predict(self, prompt):
        image = self.pipe(
            prompt=prompt, 
            width=1024,
            height=1024,
            num_inference_steps=4, 
            generator=torch.Generator().manual_seed(int(time.time())),
            guidance_scale=3.5,
        ).images[0]
        return image

    def encode_response(self, image):
        buffered = BytesIO()
        image.save(buffered, format="PNG")
        return Response(content=buffered.getvalue(), headers={"Content-Type": "image/png"})

# Start the server
if __name__ == "__main__":
    api = FluxLitAPI()
    server = ls.LitServer(api, timeout=False)
    server.run(port=8000)

Kode ini menyiapkan LitServe API untuk Flux, termasuk pemuatan model, penanganan permintaan, pembuatan gambar, dan pengkodean respons.

Mulai server:

</pre>
python server.py
<pre>

Gunakan API model:

Anda dapat menguji API menggunakan skrip klien sederhana:

import requests
import json

url = "http://localhost:8000/predict"
prompt = "a robot sitting in a chair painting a picture on an easel of a futuristic cityscape, pop art"

response = requests.post(url, json={"prompt": prompt})
with open("generated_image.png", "wb") as f:
    f.write(response.content)

print("Image generated and saved as generated_image.png")

Fitur Utama Penerapan

Arsitektur Tanpa Server: Para LitServe Penyiapan memungkinkan penerapan tanpa server yang skalabel dan dapat diskalakan ke nol saat tidak digunakan.
API Pribadi: Anda dapat menerapkan Flux sebagai API pribadi di infrastruktur Anda sendiri.
Dukungan Multi-GPU: Pengaturan ini dirancang untuk bekerja secara efisien di beberapa GPU.
Kuantisasi: Kode ini menunjukkan cara mengkuantisasi model hingga presisi 8-bit, sehingga memungkinkannya berjalan pada perangkat keras yang kurang bertenaga seperti GPU NVIDIA L4.
Pembongkaran CPU: Para enable_model_cpu_offload() metode ini digunakan untuk menghemat memori GPU dengan memindahkan bagian model ke CPU saat tidak digunakan.

Aplikasi Praktis Fluks

Fleksibilitas dan kekuatan Flux membuka berbagai potensi penerapan di berbagai industri:

Industri kreatif: Desainer grafis, ilustrator, dan seniman dapat menggunakan Flux untuk menghasilkan seni konsep, papan suasana hati, dan inspirasi visual dengan cepat.
Pemasaran dan Periklanan: Pemasar dapat membuat visual khusus untuk kampanye, konten media sosial, dan maket produk dengan kecepatan dan kualitas yang belum pernah terjadi sebelumnya.
Game Development: Desainer game dapat menggunakan Flux untuk membuat prototipe lingkungan, karakter, dan aset dengan cepat, sehingga menyederhanakan proses praproduksi.
Arsitektur dan Desain Interior: Arsitek dan desainer dapat menghasilkan visualisasi ruang dan struktur yang realistis berdasarkan deskripsi tekstual.
Pendidikan: Pendidik dapat membuat alat bantu visual dan ilustrasi khusus untuk menyempurnakan materi pembelajaran dan membuat konsep kompleks lebih mudah diakses.
Film dan Animasi: Seniman dan animator papan cerita dapat menggunakan Flux untuk memvisualisasikan adegan dan karakter dengan cepat, sehingga mempercepat proses pra-visualisasi.

Masa Depan Fluks dan Generasi Teks-ke-Gambar

Black Forest Labs telah memperjelas bahwa Flux hanyalah awal dari ambisi mereka di bidang AI generatif. Mereka sudah Mengumumkan rencana untuk mengembangkan sistem teks-ke-video generatif yang kompetitif, menjanjikan kemampuan pembuatan dan pengeditan yang presisi pada definisi tinggi dan kecepatan yang belum pernah terjadi sebelumnya.

Peta jalan ini menunjukkan bahwa Flux bukan hanya produk mandiri tetapi juga bagian dari ekosistem alat AI generatif yang lebih luas. Seiring berkembangnya teknologi, kita dapat melihat:

Integrasi yang Ditingkatkan: Alur kerja yang mulus antara pembuatan teks-ke-gambar dan teks-ke-video, memungkinkan pembuatan konten yang lebih kompleks dan dinamis.
Kustomisasi yang Ditingkatkan: Kontrol yang lebih menyeluruh atas konten yang dihasilkan, mungkin melalui teknik rekayasa cepat yang canggih atau antarmuka pengguna yang intuitif.
Generasi Waktu Nyata: Seiring dengan peningkatan model seperti FLUX.1 [schnell], kita mungkin melihat kemampuan pembuatan gambar real-time yang dapat merevolusi pembuatan konten langsung dan media interaktif.
Generasi Lintas Modal: Kemampuan untuk menghasilkan dan memanipulasi konten dalam berbagai modalitas (teks, gambar, video, audio) secara kohesif dan terintegrasi.
Pengembangan AI Etis: Melanjutkan fokus pada pengembangan model AI yang tidak hanya kuat namun juga bertanggung jawab dan sehat secara etika.

Kesimpulan: Apakah Fluks Lebih Baik Daripada Perjalanan Tengah?

Pertanyaan apakah Flux “lebih baik” daripada Midjourney tidak mudah dijawab dengan jawaban ya atau tidak. Kedua model ini mewakili teknologi generasi teks-ke-gambar yang mutakhir, masing-masing memiliki kekuatan dan karakteristik uniknya sendiri.

Flux, dengan arsitektur canggih dan penekanan pada kepatuhan yang cepat, mungkin menawarkan kontrol yang lebih presisi dan potensi kualitas yang lebih tinggi dalam skenario tertentu. Varian sumber terbukanya juga memberikan peluang penyesuaian dan integrasi yang dapat sangat bermanfaat bagi pengembang dan peneliti.

tengah perjalanan, di sisi lain, memiliki rekam jejak yang terbukti, basis pengguna yang besar dan aktif, serta gaya artistik khas yang disukai banyak pengguna. Integrasinya dengan Discord dan antarmuka yang ramah pengguna membuatnya sangat mudah diakses oleh materi iklan dari semua tingkat keahlian teknis.

Pada akhirnya, model yang “lebih baik” mungkin bergantung pada kasus penggunaan spesifik, preferensi pribadi, dan kemampuan setiap platform yang terus berkembang. Yang jelas adalah bahwa Flux mewakili langkah maju yang signifikan dalam bidang AI generatif, memperkenalkan teknik-teknik inovatif dan mendorong batas-batas dari apa yang mungkin dilakukan dalam sintesis teks-ke-gambar.

Topik-topik terkait:Penciptaan seni AI Pembuatan gambar AI Lab Hutan Hitam Seni digital aliran FLUKS.1 pemrosesan bahasa alami AI sumber terbuka Difusi Stabil Model teks-ke-gambar

Berikutnya

Ulasan Deepswap: Membuat Pertukaran Wajah 4K untuk Video & Gambar

Jangan Miss

Ulasan Claude AI: Bagaimana Versi 3.7 Lebih Baik Dari 3.5?

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.