Connect with us

Black Forest Labs tarafından geliştirilen Flux: Metin-Resim Modellerindeki Son Advantaj. Midjourney’den daha iyi mi?

Yapay Zekâ Araçları 101

Black Forest Labs tarafından geliştirilen Flux: Metin-Resim Modellerindeki Son Advantaj. Midjourney’den daha iyi mi?

mm
Black Forest Labs Open-Source FLUX.1: A 12 Billion Parameter Transformer Capable of Generating Images

Black Forest Labs, Stable Diffusion modelinin arkasındaki ekip, Flux adlı bir dizi state-of-the-art modeli piyasaya sürdü – AI tarafından oluşturulan görsellerin yeteneklerini yeniden tanımlamak vaat eden. Ancak Flux gerçekten bu alanda bir sıçrama mı temsil ediyor ve endüstri liderleri gibi Midjourney’e nasıl karşılaştırılıyor? Flux’un dünyasına derinlemesine dalmaya ve AI tarafından oluşturulan sanat ve medya geleceğini yeniden şekillendirebilme potansiyelini keşfetecek.

Black Forest Labs’in Doğuşu

Black Forest Labs sadece başka bir AI startup değil; temel generatif AI modelleri geliştiren yeteneklerin bir güç merkezi. Ekibin üyeleri arasında VQGAN, Latent Diffusion ve AI sanat dünyasını fırtınaya sürükleyen Stable Diffusion model ailesinin yaratıcıları yer alıyor.

Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

Andreessen Horowitz’ın liderliğindeki 31 milyon dolarlık bir Series Seed finansman turu ve önde gelen melek yatırımcıların desteğiyle Black Forest Labs, generatif AI araştırmalarının ön saflarına yerleşti. Misyonları net: medya gibi resimler ve videolar için state-of-the-art generatif derin öğrenme modellerini geliştirmek ve yaratıcılık, verimlilik ve çeşitlilik sınırlarını genişletmek.

Flux Model Ailesinin Tanıtımı

Black Forest Labs, FLUX.1 adlı bir metin-resim modeli setini tanıttı; bu set, resim ayrıntısı,.prompt uyumu, stil çeşitliliği ve sahne karmaşıklığı açısından yeni standartlar koymayı amaçlıyor. Flux ailesi, her biri farklı kullanım durumlarına ve erişilebilirlik seviyelerine uyarlanmış üç varyanta sahiptir:

  1. FLUX.1 [pro]: Bayrak gemisi modeli, API aracılığıyla sunulan profesyonel ve kurumsal kullanım için üst düzey performans sunuyor.
  2. FLUX.1 [dev]: Ticari olmayan uygulamalar için bir açık ağırlıklı, rehberleştirilmiş model. Kalite ve prompt uyumu yetenekleri açısından profesyonel sürüme benzer özellikler sunuyor ancak daha verimlidir.
  3. FLUX.1 [schnell]: Suite中的 en hızlı model, yerel geliştirme ve kişisel kullanım için optimize edilmiştir. Apache 2.0 lisansı altında açık kaynak olarak sunulmaktadır ve çeşitli uygulamalar ve deneyler için erişilebilir durumdadır.

FLUX.1’in yeteneklerini vurgulamak için bazı benzersiz ve yaratıcı prompt örnekleri sunacağım. Bu prompler, modelin metin işleme, karmaşık kompozisyonlar ve zorlu unsurlar gibi el ve diğer detaylar üzerindeki yeteneklerini vurgulayacaktır.

  • Sanatsal Stil Karışımı ile Metin: “Vincent van Gogh’un portresini, onun imza stilinde ancak sakalının yerine ‘Starry Night’ cümlesini oluşturan kıvranan fırça darbeleri ile yaratın.”
Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

  • Dinamik Aksiyon Sahnesi ile Metin Entegrasyonu: “Bir süper kahraman, bir çizgi roman sayfasından fırlıyor. Eylem çizgileri ve ses efektleri, ‘FLUX FORCE’ adlı kahramanın adını büyük, dinamik bir tipografi ile oluşturmalıdır.”
Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

  • Sürreal Konsept ile Precise Nesne Yerleştirme: “Pencere ışığında, kahverengi ve beyaz renkli bir kedinin yakın çekimi. Göz dokusu ve rengi üzerinde net bir odaklanma ve doğal aydınlatma ile göz parıltısı ve derinliği yakalamak.”
Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

Bu prompler, FLUX.1’in metin işleme, karmaşık kompozisyonlar ve ayrıntılı nesne oluşturma yeteneklerini vurgulamak amacıyla tasarlandı ve aynı zamanda yaratıcı ve benzersiz resim oluşturma potansiyelini göstermeyi amaçlıyor.

Flux’in Arkasındaki Teknik İnovasyonlar

Flux’in etkileyici yeteneklerinin temelinde, onu seleflerinden ve çağdaşlarından ayıran bir dizi teknik inovasyon yatıyor:

Ölçeklenebilir Transformer Güçlü Akış Modelleri

Tüm kamu FLUX.1 modelleri, 12 milyar parametreye ulaşan bir hibrit mimari üzerine kuruludur; bu, multimodal ve paralel difüzyon transformer bloklarının birleşimidir. Bu, birçok mevcut metin-resim modeline kıyasla model boyutu ve karmaşıklığında önemli bir sıçramayı temsil ediyor.

Flux modelleri, akış eşleştirmesini entegre ederek, önceki state-of-the-art difüzyon modellerini geliştiriyor. Akış eşleştirmesi, daha esnek ve kavramsal olarak basit bir çerçeve sunar ve difüzyon modelleri bu yaklaşımın özel bir durumu olarak düşünülebilir.

Model performansı ve donanım verimliliğini artırmak için Black Forest Labs, döner konumlandırıcı gömme ve paralel dikkat katmanlarını entegre etti. Bu teknikler, resimlerdeki mekansal ilişkilerin daha iyi işlenmesini ve büyük ölçekli verilerin daha verimli işlenmesini sağlıyor.

Mimari İnovasyonlar

Flux’in performansı katkıda bulunan bazı ana mimari öğeleri inceleyelim:

  1. Hibrit Mimari: Metin ve görsel bilgileri işleyebilmesi için multimodal ve paralel difüzyon transformer bloklarını birleştirmesi, Flux’e daha iyi bir prompt uyumu ve resim kalitesi sağlar.
  2. Akış Eşleştirmesi: Bu yaklaşım, daha esnek ve verimli generatif model eğitimi sağlar. Difüzyon modellerini ve diğer generatif teknikleri kapsayan birleşik bir çerçeve sunar; bu da daha güçlü ve çeşitli resim oluşturma potansiyeli anlamına gelir.
  3. Döner Konumlandırıcı Gömmeler: Bu gömmeler, resimlerdeki mekansal ilişkilerin daha iyi anlaşılmasını ve korunmasını sağlar; bu, görsel içerik oluştururken kritik öneme sahiptir.
  4. Paralel Dikkat Katmanları: Bu teknik, dikkat mekanizmalarının daha verimli işlenmesini sağlar; bu da metin prompleri ve oluşturulan resimler arasındaki ilişkileri anlamak için kritik öneme sahiptir.
  5. 12 Milyar Parametre Ölçeği: Modelin büyüklüğü, daha karmaşık desenleri ve ilişkileri yakalama ve daha yüksek kaliteli, daha çeşitli çıktılar üretme potansiyelini sağlar.

Flux’in Benchmarklenmesi: Resim Sentezinde Yeni Bir Standard

https://blackforestlabs.ai/announcing-black-forest-labs/

https://blackforestlabs.ai/announcing-black-forest-labs/

Black Forest Labs, FLUX.1’in Midjourney v6.0, DALL·E 3 (HD) ve SD3-Ultra gibi popüler modelleri several ana alanda geçtiğini iddia ediyor:

  1. Görsel Kalite: Flux, daha yüksek doğrulukta, daha gerçekçi ayrıntılara ve daha iyi genel estetik çekiciliğe sahip resimler üretmeyi amaçlıyor.
  2. Prompt Uyum: Model, verilen metin promplerine daha yakın bir şekilde uymak üzere tasarlandı; bu da kullanıcıların niyetlerini daha doğru bir şekilde yansıtan resimler oluşturur.
  3. Boyut/En Boy Oranı Değişkenliği: Flux, 0.1 ila 2.0 megapiksel arasında çeşitli en boy oranları ve çözünürlükleri destekleyerek farklı kullanım durumları için esneklik sunuyor.
  4. Tipografi: Model, resimlerde metin oluşturma ve işleme yeteneğini geliştirdi; bu, birçok metin-resim modeli için ortak bir zorluktur.
  5. Çıktı Çeşitliliği: Flux, ön eğitimden tüm çıktı çeşitliliğini korumak için özel olarak ayarlandı; bu da daha geniş bir yaratıcı olasılık yelpazesi sunar.

Flux vs. Midjourney: Karşılaştırmalı Analiz

https://blackforestlabs.ai/announcing-black-forest-labs/

Şimdi, Flux’in Midjourney’den daha iyi olup olmadığını sorgulayalım. Bunu cevaplamak için several faktörü dikkate almamız gerekiyor:

Resim Kalitesi ve Estetik

Hem Flux hem de Midjourney, yüksek kaliteli, görsel olarak çarpıcı resimler üretme yeteneğiyle bilinir. Midjourney, sanatsal bir hava ve resimlere özel bir estetik çekicilik kazandırma yeteneğiyle övgü almıştır. Flux, gelişmiş mimarisi ve daha büyük model boyutu ile bu kalite seviyesini eşleştirebilir veya geçebilir.

Flux’ten alınan erken örnekler, etkileyici ayrıntılara, gerçekçi metinlere ve güçlü bir ışık ve kompozisyon anlayışına sahip. Ancak, sanatın subjektif doğası, bu alanda kesin bir üstünlük iddiasını zorlaştırıyor. Kullanıcılar, her modelin farklı stiller veya resim türlerinde güçlü ve zayıf yanları olabileceğini keşfedebilir.

Prompt Uyum

Flux, prompt uyumu alanında Midjourney’i geçebilir. Black Forest Labs, modelin verilen prompleri daha doğru bir şekilde yorumlayabilme ve uygulama yeteneğine odaklandığını vurguladı. Bu, özellikle karmaşık veya nüanslı talepler için daha doğru sonuçlar üretebilir.

Midjourney, bazen promplere karşı yaratıcı özgürlükler aldığı için eleştirildi; bu da güzel ancak beklenmedik sonuçlara yol açabilir. Flux’in yaklaşımı, oluşturulan çıktı üzerinde daha kesin bir kontrol sunabilir.

Hız ve Verimlilik

FLUX.1 [schnell]’in tanıtılmasıyla birlikte Black Forest Labs, Midjourney’in bir diğer önemli avantajına yöneliyor: hız. Midjourney, hızlı üretim süreleri ile bilinir ve bu da onu iteratif yaratıcı süreçler için popüler kılar. Flux, kaliteyi korurken bu hızı eşleştirebilirse veya geçebilirse, bu önemli bir satış noktası olabilir.

Erişilebilirlik ve Kullanım Kolaylığı

Midjourney, kullanıcı dostu arayüzü ve Discord entegrasyonu sayesinde popülerlik kazandı. Flux, daha yeni bir model olarak, benzer şekilde erişilebilir arayüzler geliştirmek için zaman benötirebilir. Ancak, FLUX.1 [schnell] ve [dev] modellerinin açık kaynak doğası, geniş bir yelpazedeki topluluk tarafından geliştirilen araçlar ve entegrasyonlara yol açabilir; bu da Midjourney’i esneklik ve özelleştirme seçenekleri açısından geçebilir.

Teknik Kabiliyetler

Flux’in gelişmiş mimarisi ve daha büyük model boyutu, karmaşık prompleri anlamak ve ayrıntılı unsurları oluşturmak için daha fazla ham güce sahip olabileceğini öne sürüyor. Akış eşleştirmesi yaklaşımı ve hibrit mimari, daha geniş bir görev ve daha çeşitli çıktılar yelpazesi ile başa çıkma yeteneği sunabilir.

Etik Düşünceler ve Önyargı Azaltma

Hem Flux hem de Midjourney, AI tarafından oluşturulan görsellerde etik endişeleri ele almak zorundadır; bunlar önyargı, yanlış bilgi ve telif hakkı sorunlarını içerir. Black Forest Labs’in şeffaflık vurgusu ve modellerin geniş bir şekilde erişilebilir kılınması, bu konularda daha güçlü topluluk denetimi ve daha hızlı gelişmelere yol açabilir.

Kod Uygulaması ve Dağıtım

Diffusers ile Flux Kullanma

Flux modelleri, Hugging Face Diffusers kütüphanesi kullanılarak mevcut iş akışlarına kolayca entegre edilebilir. FLUX.1 [dev] veya FLUX.1 [schnell] ile Diffusers kullanarak adım adım bir rehber:

  1. İlk olarak, Diffusers kütüphanesini kurun veya güncelleyin:
!pip install git+https://github.com/huggingface/diffusers.git
  1. Sonra, FluxPipeline kullanarak modeli çalıştırabilirsiniz:
import torch
from diffusers import FluxPipeline

# Modeli yükleyin
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)

# CPU ऑफloading'i etkinleştirin (isteğe bağlı)
pipe.enable_model_cpu_offload()

# Bir resim oluşturun
prompt = "Bir kedi, bir tabela tutuyor ve 'merhaba dünya' diyor"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
output_type="pil",
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# Oluşturulan resmi kaydedin
image.save("flux-dev.png")

Bu kod parçacığı, FLUX.1 [dev] modelini yüklemeyi, bir metin prompt’inden resim oluşturmayı ve sonucu kaydetmeyi gösteriyor.

LitServe ile Flux’u API Olarak Dağıtma

Flux’u ölçeklenebilir bir API hizmeti olarak dağıtmak isteyenler için Black Forest Labs, LitServe kullanarak bir örnek sunuyor. Dağıtım süreci hakkında bir açıklama:

Model Sunucusunu Tanımlama:

from io import BytesIO
from fastapi import Response
import torch
import time
import litserve as ls
from optimum.quanto import freeze, qfloat8, quantize
from diffusers import FlowMatchEulerDiscreteScheduler, AutoencoderKL
from diffusers.models.transformers.transformer_flux import FluxTransformer2DModel
from diffusers.pipelines.flux.pipeline_flux import FluxPipeline
from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5TokenizerFast

class FluxLitAPI(ls.LitAPI):
def setup(self, device):
# Model bileşenlerini yükleyin
scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="scheduler")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
text_encoder_2 = T5EncoderModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="text_encoder_2", torch_dtype=torch.bfloat16)
tokenizer_2 = T5TokenizerFast.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="tokenizer_2", torch_dtype=torch.bfloat16)
vae = AutoencoderKL.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="vae", torch_dtype=torch.bfloat16)
transformer = FluxTransformer2DModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="transformer", torch_dtype=torch.bfloat16)

# Modeli 8-bit precisa quantize edin
quantize(transformer, weights=qfloat8)
freeze(transformer)
quantize(text_encoder_2, weights=qfloat8)
freeze(text_encoder_2)

# Flux pipeline'ini başlatın
self.pipe = FluxPipeline(
scheduler=scheduler,
text_encoder=text_encoder,
tokenizer=tokenizer,
text_encoder_2=None,
tokenizer_2=tokenizer_2,
vae=vae,
transformer=None,
)
self.pipe.text_encoder_2 = text_encoder_2
self.pipe.transformer = transformer
self.pipe.enable_model_cpu_offload()

def decode_request(self, request):
return request["prompt"]

def predict(self, prompt):
image = self.pipe(
prompt=prompt,
width=1024,
height=1024,
num_inference_steps=4,
generator=torch.Generator().manual_seed(int(time.time())),
guidance_scale=3.5,
).images[0]
return image

def encode_response(self, image):
buffered = BytesIO()
image.save(buffered, format="PNG")
return Response(content=buffered.getvalue(), headers={"Content-Type": "image/png"})

# Sunucuyu başlatın
if __name__ == "__main__":
api = FluxLitAPI()
server = ls.LitServer(api, timeout=False)
server.run(port=8000)

Bu kod, Flux’u LitServe kullanarak bir API hizmeti olarak nasıl dağıtabileceğinizi gösteriyor.

Sunucuyu Başlatın:

python server.py

API’yi Kullanın:

API’yi test etmek için basit bir istemci betiği kullanabilirsiniz:

import requests
import json

url = "http://localhost:8000/predict"
prompt = "Bir robot, bir sandalyede oturuyor ve bir resim çiziyor, bir masaüstü"

response = requests.post(url, json={"prompt": prompt})
with open("generated_image.png", "wb") as f:
f.write(response.content)

print("Resim oluşturuldu ve generated_image.png olarak kaydedildi")

Dağıtımın Ana Özellikleri

  1. Sunucusuz Mimarisi: LitServe kurulumu, ölçeklenebilir ve sunucusuz bir dağıtım sağlar; bu da kullanımda değilse kaynakları boşaltabilir.
  2. Özel API: Flux’u kendi altyapınızda özel bir API olarak dağıtabilirsiniz.
  3. Çoklu GPU Desteği: Kurulum, birden fazla GPU’da verimli çalışacak şekilde tasarlanmıştır.
  4. Quantization: Kod, modeli 8-bit precisa quantize etmeyi gösteriyor; bu, daha az güçlü donanımlarda çalışabilmesini sağlar.
  5. CPU Offloading: enable_model_cpu_offload() yöntemi, GPU belleğini korumak için modelin belirli kısımlarını CPU’ya offload etmeyi sağlar.

Pratik Uygulamalar

Flux’in esnekliği ve gücü, çeşitli endüstrilerde geniş bir uygulama yelpazesi sunar:

  1. Yaratıcı Endüstriler: Grafik tasarımcılar, illüstratörler ve sanatçılar, Flux’i kullanarak hızlıca konsept sanatları, mood board’ları ve görsel ilhamları oluşturabilir.
  2. Pazarlama ve Reklamcılık: Pazarlamacılar, kampanyalar, sosyal medya içeriği ve ürün mockup’ları için özel görseller oluşturmak için Flux’i kullanabilir.
  3. Oyun Geliştirme: Oyun tasarımcıları, Flux’i kullanarak hızlıca çevreleri, karakterleri ve varlıkları prototip olarak oluşturabilir; bu da ön üretim sürecini hızlandırır.
  4. Mimari ve İç Mekan Tasarımı: Mimarlar ve tasarımcılar, metin tanımlarına dayalı olarak gerçekçi mekan vizyonlarını oluşturmak için Flux’i kullanabilir.
  5. Eğitim: Eğitimciler, öğrenme materyallerini zenginleştirmek ve karmaşık kavramları daha erişilebilir kılmak için özel görseller oluşturabilir.
  6. Film ve Animasyon: Hikaye tahtacıları ve animatörler, Flux’i kullanarak sahneleri ve karakterleri hızlıca vizyonlayabilir; bu da ön-vizyonlama sürecini hızlandırır.

Flux ve Metin-Resim Oluşturmanın Geleceği

Black Forest Labs, Flux’un yalnızca generatif AI alanında ilk adım olduğunu net bir şekilde belirtti. Yüksek çözünürlüklü ve önceden görülmemiş hızlarda metin-den-video sistemleri geliştirme planlarını açıkladılar.

Bu yol haritası, Flux’un tek başına bir ürün değil, bir dizi generatif AI aracının parçası olduğunu gösteriyor. Teknoloji geliştikçe, aşağıdaki gelişmeleri bekleyebiliriz:

  1. İyileştirilmiş Entegrasyon: Metin-resim ve metin-video oluşturma arasında sorunsuz iş akışları, daha karmaşık ve dinamik içerik oluşturmayı mümkün kılabilir.
  2. Geliştirilmiş Özelleştirme: Oluşturulan içeriği daha ince bir şekilde kontrol etmek için gelişmiş prompt mühendisliği teknikleri veya kullanıcı dostu arayüzler.
  3. Gerçek Zamanlı Oluşturma: FLUX.1 [schnell] gibi modellerin gelişmesiyle, gerçek zamanlı resim oluşturma yetenekleri ortaya çıkabilir; bu da canlı içerik oluşturma ve etkileşimli medyayı devrimleştirir.
  4. Çoklu Modalite Oluşturma: Metin, resim, video ve ses gibi çeşitli modaliteler arasında birleşik ve entegre bir şekilde içerik oluşturabilme yeteneği.
  5. Sorumlu AI Geliştirme: Güçlü ancak aynı zamanda sorumlu ve etik olarak geliştirilmiş AI modellerine odaklanma.

Sonuç: Flux Midjourney’den Daha İyi mi?

Flux’in Midjourney’den daha iyi olup olmadığı sorusuna basit bir evet veya hayır cevabı vermek zor. Her iki model de metin-resim oluşturma teknolojisindeki en son gelişmeleri temsil ediyor; her biri kendine özgü güçlü yönleri ve özelliklere sahip.

Flux, gelişmiş mimarisi ve prompt uyumu vurgusu ile belirli senaryolarda daha kesin kontrol ve daha yüksek kalite sunabilir. Açık kaynak varyantları, geliştiriciler ve araştırmacılar için özelleştirme ve entegrasyon fırsatları sunar.

Midjourney ise kanıtlanmış bir geçmişe, büyük ve aktif bir kullanıcı kitlesine ve birçok kullanıcı tarafından sevilen独特 bir sanatsal hava sahiptir. Discord ile entegrasyonu ve kullanıcı dostu arayüzü, teknik beceri seviyesi ne olursa olsun yaratıcılar için erişilebilir kıldı.

Nihayetinde, “daha iyi” model, spesifik kullanım durumu, kişisel tercihler ve her platformun gelişen yeteneklerine bağlı olabilir. Açık olan şey, Flux’in metin-resim sentezinde önemli bir adım attığı ve generatif AI alanının sınırlarını genişlettiği.

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.