AI 도구 101

블랙 포리스트 랩스에서 만든 Flux: 텍스트-이미지 모델의 새로운 도약. 미드저니보다 나을까?

게시일 2024년 8월 12일

업데이트일 2026년 5월 21일

작성자

Aayush Mittal Mittal

Black Forest Labs Open-Source FLUX.1: A 12 Billion Parameter Transformer Capable of Generating Images

블랙 포리스트 랩스는 Stable Diffusion 모델을 개발한 팀으로, Flux – 상태 오토 텍스트-이미지 모델을 출시했습니다. 하지만 Flux는真正로 이 분야에서 도약을 나타내는 것일까요? 그리고 미드저니와 비교했을 때 어떻게 될까요? Flux의 세계를 깊이 들어가서 AI 생성 이미지와 미디어의 미래를 재정의하는 잠재력을探索해 보겠습니다.

블랙 포리스트 랩스의 탄생

블랙 포리스트 랩스는 단순한 AI 스타트업이 아닙니다. 그것은 재능이 넘치는 팀으로, 기초적인 생성 모델을 개발한 역사를 가지고 있습니다. 팀에는 VQGAN, Latent Diffusion, Stable Diffusion 모델의 창시자들이 포함되어 있습니다.

블랙 포리스트 랩스 오픈소스 FLUX.1

안드레센 호로위츠가 주도한 3,100만 달러의 시리즈 시드 자금과 유명한 천사 투자자들의 지원을 받은 블랙 포리스트 랩스는 생성적 AI 연구의 최전선에 서 있습니다. 그들의 목표는 명확합니다: 이미지와 비디오와 같은 미디어를 위한 최첨단 생성적 딥 러닝 모델을 개발하고 발전시키는 것입니다.

Flux 모델 패밀리의 소개

블랙 포리스트 랩스는 FLUX.1 텍스트-이미지 모델을 출시했습니다. 이 모델은 이미지 세부 사항, 프롬프트 순응도, 스타일 다양성, 장면 복잡성에서 새로운 벤치마크를 설정하도록 설계되었습니다. Flux 패밀리는 세 가지 변형으로 구성되어 있습니다. 각 변형은 다른 사용 사례와 접근성 수준에 맞게 조정되었습니다:

FLUX.1 [pro]: 상위 모델로, 이미지 생성에서 최고의 성능을 제공하며 우수한 프롬프트 순응도, 시각적 품질, 이미지 세부 사항, 출력 다양성을 제공합니다. API를 통해 제공되며, 전문가와 기업용으로 포지셔닝됩니다.
FLUX.1 [dev]: 비상업적 용도로 사용되는 오픈 웨이트, 가이던스 디스틸드 모델입니다. 프로 버전과 유사한 품질과 프롬프트 순응도 기능을 제공하는 동시에 효율성을 높입니다.
FLUX.1 [schnell]: 가장 빠른 모델로, 로컬 개발과 개인용으로 최적화되었습니다. 아파치 2.0 라이선스하에 공개되며, 다양한 용도와 실험에 사용할 수 있습니다.

FLUX.1의 기능을 보여주는 몇 가지 독 đáo하고 창의적인 프롬프트 예시를 제공하겠습니다. 이러한 프롬프트는 텍스트 렌더링, 복잡한 구성, 그리고 손과 같은 도전적인 요소에서 FLUX.1의 강점을 강조합니다.

예술적 스타일 블렌딩과 텍스트: “빈센트 반 고흐의肖像를 그의 특징적인 스타일로 생성하되, 그의 수염을 ‘Starry Night’라는 단어가 커서체로 형성된 브러시 스트로크로 대체합니다.”

블랙 포리스트 랩스 오픈소스 FLUX.1

다이내믹 액션 장면과 텍스트 통합: “슈퍼히어로가 코믹북 페이지를 뚫고 나옵니다. 액션 라인과 사운드 이펙트는 ‘FLUX FORCE’라는 이름을 볼드하고 다이내믹한 타이포그래피로 형성해야 합니다.”

블랙 포리스트 랩스 오픈소스 FLUX.1

초현실적 개념과 정교한 객체 배치: “かわいい 고양이의 클로즈업. 창가의 자연광 아래 브라운과 화이트 색상의 고양이를 렌더링합니다. 눈의 질감과 색상에 대한 선명한 초점을 유지하고, 자연스러운 조명을 통해 실제적인 눈 광과 깊이를 포착합니다.”

블랙 포리스트 랩스 오픈소스 FLUX.1

이러한 프롬프트는 FLUX.1의 텍스트 렌더링, 복잡한 구성, 그리고 세부적인 객체 생성 능력을 테스트하기 위해 설계되었습니다. 또한 창의적이고 고유한 이미지 생성 능력을 보여줍니다.

Flux의 기술적 혁신

Flux의 인상적인 기능은 일련의 기술적 혁신에 기반합니다. 이러한 혁신은 Flux를 이전 모델과 구별합니다:

트랜스포머 기반 플로우 모델

모든 공개 FLUX.1 모델은 멀티모달과 병렬 확산 트랜스포머 블록을 결합한 하이브리드 아키텍처로 구성되어 있습니다. 이 아키텍처는 12억 매개변수로 확장되었습니다. 이는 많은 기존 텍스트-이미지 모델보다 모델 크기와 복잡성이 크게 증가한 것입니다.

Flux 모델은 이전의 최첨단 확산 모델을 개선하여 플로우 매칭을 통합했습니다. 플로우 매칭은 생성 모델을 훈련하기 위한 일반적이고 개념적으로 간단한 방법입니다. 이는 확산 모델을 포함하는 더广泛한 접근 방식을 제공합니다.

로터리 위치 임베딩과 병렬 어텐션 레이어를 통합하여 모델 성능과 하드웨어 효율성을 향상시켰습니다. 이러한 기술은 이미지 내의 공간적 관계를 더 잘 처리하고, 대규모 데이터를 더 효율적으로 처리할 수 있게 합니다.

아키텍처 혁신

Flux의 성능에 기여하는 몇 가지 핵심 아키텍처 요소를 살펴보겠습니다:

하이브리드 아키텍처: 멀티모달과 병렬 확산 트랜스포머 블록을 결합하여 텍스트와 이미지 정보를 모두 효과적으로 처리할 수 있습니다. 이는 프롬프트와 생성된 이미지 사이의 더 나은 정렬을 제공합니다.
플로우 매칭: 이는 생성 모델을 훈련하기 위한 더 유연하고 효율적인 방법을 제공합니다. 이는 확산 모델과 다른 생성 기술을 포함하는統一된 프레임워크를 제공하여, 더 강력하고 다재다능한 이미지 생성을 가능하게 합니다.
로터리 위치 임베딩: 이러한 임베딩은 이미지 내의 공간적 관계를 더 잘 이해하고 유지할 수 있게 합니다. 이는 세부적인 시각적 콘텐츠를 생성하는 데 필수적입니다.
병렬 어텐션 레이어: 이는 어텐션 메커니즘을 더 효율적으로 처리할 수 있게 합니다. 이는 텍스트 프롬프트와 생성된 이미지의 요소 간의 관계를 이해하는 데 중요한 역할을 합니다.
12B 매개변수: 모델의 크기가 커지면 더 복잡한 패턴과 관계를 캡처하고 합성할 수 있게 됩니다. 이는 더 높은 품질과 더 다양한 출력을 가능하게 합니다.

Flux 벤치마크: 이미지 합성의 새로운 표준

https://blackforestlabs.ai/announcing-black-forest-labs/

블랙 포리스트 랩스는 FLUX.1이 이미지 합성에서 새로운 표준을 설정한다고 주장합니다. 미드저니 v6.0, DALL·E 3 (HD), SD3-Ultra를 포함한 인기 모델을 몇 가지 주요 측면에서 능가합니다:

시각적 품질: Flux는 더 높은忠実도, 더 현실적인 세부 사항, 그리고 전반적인 미적 매력의 이미지를 생성하는 것을 목표로 합니다.
프롬프트 순응도: 모델은 주어진 텍스트 프롬프트를 더 정확하게 해석하고 실행하는 것을 목표로 합니다. 이는 사용자의 의도와 더 잘 일치하는 이미지를 생성할 수 있습니다.
크기/비율 가변성: Flux는 0.1에서 2.0 메가픽셀까지 다양한 종횡비와 해상도를 지원하여, 다양한 사용 사례에 유연성을 제공합니다.
타이포그래피: 모델은 이미지 내에서 텍스트를 생성하고 렌더링하는 능력을 개선했습니다. 이는 많은 텍스트-이미지 모델에서 일반적인 도전입니다.
출력 다양성: Flux는 사전 훈련에서 전체 출력 다양성을 유지하도록 세부적으로 조정되었습니다. 이는 더 넓은 창의적 가능성을 제공합니다.

Flux vs. 미드저니: 비교 분석

https://blackforestlabs.ai/announcing-black-forest-labs/

이제 Flux와 미드저니를 비교해 볼 때, Flux가 미드저니보다 나은지 여부를 살펴보겠습니다. 이를 위해서는 여러 가지 요소를 고려해야 합니다:

이미지 품질과 미적 매력

Flux와 미드저니는 모두 높은 품질의 시각적으로 매력적인 이미지를 생성하는 것으로 알려져 있습니다. 미드저니는 예술적 매력과 특징적인 미적 매력을 생성하는 능력으로 인해赞扬을 받았습니다. Flux는 더 나은 아키텍처와 더 큰 매개변수 수로, 이러한 수준의 품질을 따라가거나 능가할 수 있습니다.

Flux의 초기 예제는 인상적인 세부 사항, 현실적인 텍스처, 그리고 빛과 구성의 강한 이해를 보여줍니다. 그러나, 예술의 주관적인 성질로 인해, 이 영역에서 우월성을 명확하게 주장하기는 어렵습니다. 사용자들은 각 모델이 다른 스타일이나 이미지 유형에서 강점을 가지는 것을 발견할 수 있습니다.

프롬프트 순응도

Flux는 프롬프트 순응도에서 미드저니를 능가할 수 있는 영역입니다. 블랙 포리스트 랩스는 모델의 프롬프트 해석과 실행 능력을 개선하는 데 중점을 두었습니다. 이는 사용자의 의도와 더 잘 일치하는 이미지를 생성할 수 있습니다. 특히, 복잡하거나 미묘한 요청에서 더 정확한 결과를 제공할 수 있습니다.

미드저니는 때때로 프롬프트에 대한 창의적인 자유를 취하는 것으로 알려져 있습니다. 이는 아름답지만 예상치 못한 결과를 생성할 수 있습니다. Flux의 접근 방식은 더 정확한 출력 제어를 제공할 수 있습니다.

속도와 효율성

FLUX.1 [schnell]의 도입으로, 블랙 포리스트 랩스는 미드저니의 주요优势 중 하나인 속도를 목표로 합니다. 미드저니는 빠른 생성 시간으로 인해 인기があり, 이터레이티브한 창의적 프로세스에서 유용합니다. Flux가 품질을 유지하면서 이러한 속도에 도달할 수 있다면, 이는 중요한 판매 포인트가 될 수 있습니다.

접근성과 사용 편의성

미드저니는 사용자 친화적인 인터페이스와 디스코드 통합으로 인해 인기를 얻었습니다. Flux는 아직 더 접근성이 높은 인터페이스를 개발해야 할 수 있습니다. 그러나, FLUX.1 [schnell]와 [dev] 모델의 오픈소스 특성으로 인해, 커뮤니티 개발 도구와 통합이 다양하게 나타날 수 있습니다. 이는 미드저니를 능가하는 유연성과 사용자 지정 옵션을 제공할 수 있습니다.

기술적 능력

Flux의 고급 아키텍처와 더 큰 매개변수 수는, 복잡한 프롬프트를 이해하고, 세부적인 세부 사항을 생성하는 능력에서 더 강력한 기술적 능력을 가질 수 있습니다. 플로우 매칭 접근 방식과 하이브리드 아키텍처는 Flux가 더 다양한 작업을 처리하고, 더 다양한 출력을 생성할 수 있게 할 수 있습니다.

윤리적 고려와 편향 완화

Flux와 미드저니는 모두 AI 생성 이미지에서 윤리적 문제를 해결해야 합니다. 블랙 포리스트 랩스의 투명성 강조와 모델을 널리 사용할 수 있도록 하는 의지는, 더 강력한 커뮤니티 감시와 이러한 영역에서 더 빠른 개선을 가능하게 할 수 있습니다.

코드 구현과 배포

Diffusers를 사용한 Flux

Flux 모델은 Hugging Face Diffusers 라이브러리를 사용하여 기존 워크플로에 쉽게 통합할 수 있습니다. FLUX.1 [dev] 또는 FLUX.1 [schnell]를 사용하여 Diffusers와 함께 사용하는 단계별 가이드입니다:

Diffusers 라이브러리를 설치하거나 업그레이드합니다:

!pip install git+https://github.com/huggingface/diffusers.git

그런 다음 FluxPipeline을 사용하여 모델을 실행할 수 있습니다:

import torch
from diffusers import FluxPipeline

<p># 모델을 로드합니다
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)</p>

<p># CPU 오프로딩을 활성화하여 VRAM을 절약합니다(선택 사항)
pipe.enable_model_cpu_offload()</p>

<p># 이미지를 생성합니다
prompt = "고양이가 손에拿은 표지판을 들고 있는 그림"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
output_type="pil",
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]</p>

<p># 생성된 이미지를 저장합니다
image.save("flux-dev.png")

이 코드 조각은 FLUX.1 [dev] 모델을 로드하고, 텍스트 프롬프트에서 이미지를 생성하고, 결과를 저장하는 방법을 보여줍니다.

LitServe를 사용한 Flux 배포

Flux를 확장 가능한 API 서비스로 배포하려는 경우, 블랙 포리스트 랩스는 LitServe를 사용한 예시를 제공합니다. 여기 배포 프로세스의 개요가 있습니다:

모델 서버 정의:

from io import BytesIO
from fastapi import Response
import torch
import time
import litserve as ls
from optimum.quanto import freeze, qfloat8, quantize
from diffusers import FlowMatchEulerDiscreteScheduler, AutoencoderKL
from diffusers.models.transformers.transformer_flux import FluxTransformer2DModel
from diffusers.pipelines.flux.pipeline_flux import FluxPipeline
from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5TokenizerFast

<p>class FluxLitAPI(ls.LitAPI):
def setup(self, device):
# 모델 구성 요소를 로드합니다
scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="scheduler")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
text_encoder_2 = T5EncoderModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="text_encoder_2", torch_dtype=torch.bfloat16)
tokenizer_2 = T5TokenizerFast.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="tokenizer_2", torch_dtype=torch.bfloat16)
vae = AutoencoderKL.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="vae", torch_dtype=torch.bfloat16)
transformer = FluxTransformer2DModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="transformer", torch_dtype=torch.bfloat16)</p>

<p># 8비트 정밀도로 양자화하여 L4 GPU에 적합합니다
quantize(transformer, weights=qfloat8)
freeze(transformer)
quantize(text_encoder_2, weights=qfloat8)
freeze(text_encoder_2)</p>

<p># Flux 파이프라인을 초기화합니다
self.pipe = FluxPipeline(
scheduler=scheduler,
text_encoder=text_encoder,
tokenizer=tokenizer,
text_encoder_2=None,
tokenizer_2=tokenizer_2,
vae=vae,
transformer=None,
)
self.pipe.text_encoder_2 = text_encoder_2
self.pipe.transformer = transformer
self.pipe.enable_model_cpu_offload()</p>

<p>def decode_request(self, request):
return request["prompt"]</p>

<p>def predict(self, prompt):
image = self.pipe(
prompt=prompt,
width=1024,
height=1024,
num_inference_steps=4,
generator=torch.Generator().manual_seed(int(time.time())),
guidance_scale=3.5,
).images[0]
return image</p>

<p>def encode_response(self, image):
buffered = BytesIO()
image.save(buffered, format="PNG")
return Response(content=buffered.getvalue(), headers={"Content-Type": "image/png"})</p>

<p># 서버를 시작합니다
if __name__ == "__main__":
api = FluxLitAPI()
server = ls.LitServer(api, timeout=False)
server.run(port=8000)</p>

이 코드는 LitServe를 사용하여 Flux를 설정하고, 요청을 처리하고, 이미지를 생성하고, 응답을 인코딩하는 방법을 보여줍니다.

서버 시작:

python server.py

모델 API 사용:

테스트 클라이언트 스크립트를 사용하여 API를 테스트할 수 있습니다:

import requests
import json

<p>url = "http://localhost:8000/predict"
prompt = "로봇이 의자에 앉아 그림을 그리며, 미래의 도시 풍경을 그리는 그림"</p>

<p>response = requests.post(url, json={"prompt": prompt})
with open("generated_image.png", "wb") as f:
f.write(response.content)</p>

<p>print("이미지 생성 및 저장 완료: generated_image.png")</p>

배포의 주요 기능

서버리스 아키텍처: LitServe 설정은 확장 가능한 서버리스 아키텍처를 제공하여, 사용되지 않을 때 스케일을 0으로 조정할 수 있습니다.
프라이빗 API: Flux를 자체 인프라에서 프라이빗 API로 배포할 수 있습니다.
다중 GPU 지원: 설정은 여러 GPU에서 효율적으로 작동하도록 설계되었습니다.
양자화: 코드는 모델을 8비트 정밀도로 양자화하는 방법을 보여줍니다. 이는 모델을 Less 강력한 하드웨어에서 실행할 수 있도록 합니다.
CPU 오프로딩: `enable_model_cpu_offload()` 메서드는 GPU 메모리를 절약하기 위해 모델의 일부를 CPU로 오프로드하는 데 사용됩니다.

Flux의 실제 적용

Flux의 다재다능성과 강력함으로 인해 다양한 산업에서 잠재적인 적용이 있습니다:

창의적 산업: 그래픽 디자이너, 일러스트레이터, 아티스트는 Flux를 사용하여 개념 아트, 무드 보드, 시각적 영감을 빠르게 생성할 수 있습니다.
마케팅 및 광고: 마케터는 Flux를 사용하여 맞춤형 시각적 콘텐츠를 캠페인, 소셜 미디어 콘텐츠, 제품 모의업을 위한 시각적 콘텐츠를 생성할 수 있습니다.
게임 개발: 게임 디자이너는 Flux를 사용하여 환경, 캐릭터, 자산을 빠르게 프로토타입화할 수 있습니다. 이는 프리 프로덕션 프로세스를 간소화합니다.
건축 및 인테리어 디자인: 건축가와 디자이너는 Flux를 사용하여 텍스트 설명에 기반한 공간과 구조의 실감나는 시각화를 생성할 수 있습니다.
교육: 교육자는 Flux를 사용하여 맞춤형 시각적 도구와 일러스트레이션을 생성하여, 복잡한 개념을 더 쉽게 이해할 수 있습니다.
영화 및 애니메이션: 스토리보드 아티스트와 애니메이터는 Flux를 사용하여 장면과 캐릭터를 빠르게 시각화하여, 프리 비주얼라이제이션 프로세스를 가속화할 수 있습니다.

Flux와 텍스트-이미지 생성의 미래

블랙 포리스트 랩스는 Flux가 생성적 AI 공간에서 그들의 야망의 시작에 불과하다고 밝혔습니다. 그들은 경쟁력 있는 생성적 텍스트-비디오 시스템을 개발할 계획을 발표했으며, 고해상도와 전례 없는 속도에서 정밀한 생성 및 편집 기능을 제공할 것입니다.

이 로드맵은 Flux가 단독 제품이 아니라, 생성적 AI 도구의 더广泛한 생태계의 일부임을 시사합니다. 기술이 발전함에 따라, 우리는 다음을 기대할 수 있습니다:

향상된 통합: 텍스트-이미지 및 텍스트-비디오 생성 사이의 무결한 워크플로우를 제공하여, 더 복잡하고 다이나믹한 콘텐츠 생성을 가능하게 합니다.
고급 사용자 지정: 생성된 콘텐츠에 대한 더 세부적인 제어를 제공합니다. 이는 고급 프롬프트 엔지니어링 기술이나 사용자 친화적인 인터페이스를 통해 가능할 수 있습니다.
실시간 생성: FLUX.1 [schnell]와 같은 모델이 계속 개선됨에 따라, 라이브 콘텐츠 생성과 상호작용 미디어를 혁신할 수 있는 실시간 이미지 생성 능력이 가능할 수 있습니다.
크로스 모달 생성: 텍스트, 이미지, 비디오, 오디오를 포함한 여러 모달리티에서 콘텐츠를 생성하고 조작하는 능력입니다.
윤리적 AI 개발: 강력하지만 책임감 있고 윤리적으로 개발된 AI 모델에 대한 지속적인 초점입니다.

결론: Flux는 미드저니보다 나을까?

Flux가 미드저니보다 “더 나은”지 여부는 간단한 예나 아니요로 대답할 수 없습니다. 두 모델은 모두 텍스트-이미지 생성 기술의 최전선에 있으며, 각기 고유한 강점과 특징을 가지고 있습니다.

Flux는 고급 아키텍처와 프롬프트 순응도에 대한 강조로, 특정 시나리오에서 더 정확한 제어와 더 높은 품질을 제공할 수 있습니다. 오픈소스 변형은 개발자와 연구자에게 유용한 사용자 지정 및 통합 기회를 제공합니다.

미드저니는 검증된 기록, 대규모 사용자 기반, 그리고 많은 사용자가 좋아하는 특징적인 예술적 스타일을 가지고 있습니다. 디스코드와의 통합과 사용자 친화적인 인터페이스는 모든 기술 수준의 창의적 인에게 접근성을 제공합니다.

궁극적으로, “더 나은” 모델은 특정 사용 사례, 개인적 선호도, 그리고 각 플랫폼의 발전하는 능력에 따라 다를 수 있습니다. 분명한 것은 Flux가 생성적 AI 분야에서 중요한 발전을 나타내며, 혁신적인 기술을 도입하고, 텍스트-이미지 합성의 경계를 넓히고 있다는 것입니다.

Aayush Mittal, Mittal

지난 5년 동안私は Machine Learning과 Deep Learning의 매혹적인 세계에 몰두해 왔습니다.私の熱情と専門知識は私を50以上의多様한 소프트웨어 엔지니어링 프로젝트에 기여하게 했으며, 특히 AI/ML에 중점을 두었습니다.私の継続的な 호기심은 또한私를自然어 처리로 끌어들였습니다.私は이 분야를さらに 탐구하기를熱望합니다.