Connect with us

Flux โดย Black Forest Labs: ขั้นตอนต่อไปในโมเดล Text-to-Image

เครื่องมือ AI 101

Flux โดย Black Forest Labs: ขั้นตอนต่อไปในโมเดล Text-to-Image

mm
Black Forest Labs Open-Source FLUX.1: A 12 Billion Parameter Transformer Capable of Generating Images

Black Forest Labs ทีมที่อยู่เบื้องหลังโมเดล Stable Diffusion ที่ก่อให้เกิดการเปลี่ยนแปลง ได้เปิดตัว Flux – ชุดโมเดลรัฐของศิลป์ที่สัญญาว่าจะเปลี่ยนความสามารถของภาพที่สร้างโดย AI แต่ Flux จริงๆ แล้วเป็นตัวแทนของขั้นตอนต่อไปในด้านนี้หรือไม่ และมันแข็งแกร่งกว่า Midjourney หรือไม่ มาเจาะลึกไปกับ Flux และสำรวจศักยภาพในการเปลี่ยนแปลงอนาคตของศิลปะและสื่อที่สร้างโดย AI

การเกิดของ Black Forest Labs

Black Forest Labs ไม่ใช่เพียงสตาร์ทอัพ AI อีกแห่งหนึ่ง แต่เป็นศูนย์รวมของความสามารถที่มีประวัติการพัฒนาโมเดล AI ที่สร้างสรรค์ ทีมนี้รวมถึงผู้สร้าง VQGAN, Latent Diffusion และตระกูลโมเดล Stable Diffusion ที่ทำให้โลกศิลปะ AI ตื่นตะลึง

Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

ด้วยการระดมทุน Series Seed มูลค่า 31 ล้านดอลลาร์นำโดย Andreessen Horowitz และการสนับสนุนจากนักลงทุนมีชื่อเสียง Black Forest Labs ได้ตำแหน่งตัวเองอยู่ที่แนวหน้าของการวิจัย AI ที่สร้างสรรค์ พวกเขามีภารกิจที่ชัดเจน: พัฒนาและขยายโมเดลการเรียนรู้ลึกที่สร้างสรรค์สำหรับสื่อต่างๆ เช่น ภาพและวิดีโอ ขณะเดียวกันก็ผลักดันขอบเขตของความสร้างสรรค์ ความมีประสิทธิภาพ และความหลากหลาย

การแนะนำโมเดล Flux

Black Forest Labs ได้แนะนำชุดโมเดล FLUX.1 ที่ออกแบบมาเพื่อตั้งมาตรฐานใหม่ในด้านรายละเอียดของภาพ การปฏิบัติตามคำสั่ง และความหลากหลายของสไตล์ และความซับซ้อนของฉาก โมเดล Flux ประกอบด้วยสามรุ่น แต่ละรุ่นเหมาะสำหรับการใช้งานและระดับการเข้าถึงที่แตกต่างกัน:

  1. FLUX.1 [pro]: โมเดลธงซึ่งให้ประสิทธิภาพสูงสุดในการสร้างภาพพร้อมการปฏิบัติตามคำสั่งที่เหนือกว่า คุณภาพการมองเห็น และความหลากหลายของผลลัพธ์ มีให้ใช้งานผ่าน API และถูกวางตำแหน่งเป็นตัวเลือกพรีเมียมสำหรับการใช้งานระดับมืออาชีพและองค์กร
  2. FLUX.1 [dev]: โมเดลที่มีน้ำหนักเปิดสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ ได้รับการออกแบบมาเพื่อให้ได้คุณภาพและความสามารถในการปฏิบัติตามคำสั่งที่คล้ายกับเวอร์ชัน Pro แต่มีประสิทธิภาพมากกว่า
  3. FLUX.1 [schnell]: โมเดลที่เร็วที่สุดในซีรีส์นี้ ซึ่งได้รับการปรับให้เหมาะสมสำหรับการพัฒนาท้องถิ่นและการใช้งานส่วนบุคคล มีให้ใช้งานภายใต้ใบอนุญาต Apache 2.0 ทำให้สามารถเข้าถึงได้สำหรับการใช้งานและทดลองหลากหลาย

ฉันจะให้ตัวอย่างคำสั่งพิเศษที่แสดงถึงความสามารถของ FLUX.1 เหล่านี้คำสั่งจะเน้นย้ำจุดแข็งของโมเดลในการจัดการข้อความ การสร้างฉากที่ซับซ้อน และการสร้างวัตถุที่มีรายละเอียด

  • การผสมผสานสไตล์ศิลปะด้วยข้อความ: “สร้างภาพเหมือนของวินเซนต์ ฟัน โกห์ ในสไตล์ที่เป็นลักษณะของเขา แต่แทนที่เคราโดยการวาดสีเป็นรูปทรงที่ก่อตัวเป็นคำว่า ‘Starry Night’ ในตัวอักษรซึ่งเชื่อมต่อกัน”
Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

  • ฉากการกระทำที่มีการเคลื่อนไหวด้วยการผสมผสานข้อความ: “ซูเปอร์ฮีโร่พุ่งผ่านหน้าจอหนังสือการ์ตูน เส้นการเคลื่อนไหวและเสียงเอฟเฟกต์ควรก่อตัวเป็นชื่อ ‘FLUX FORCE’ ในตัวอักษรที่มีพลังและเคลื่อนไหว”
Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

  • แนวคิดที่เหนือจริงพร้อมการวางตำแหน่งวัตถุที่แม่นยำ: “ภาพใกล้ชิดของแมวที่มีสีน้ำตาลและขาวภายใต้แสงแดดจากหน้าต่าง โฟกัสที่เนื้อเยื่อและความลึกของดวงตา โดยใช้แสงธรรมชาติเพื่อจับภาพความเงางามและความลึกของดวงตาอย่างแท้จริง”
Black Forest Labs Open-Source FLUX.1

Black Forest Labs Open-Source FLUX.1

คำสั่งเหล่านี้ได้รับการออกแบบมาเพื่อทดสอบความสามารถของ FLUX.1 ในการประมวลผลข้อความ การสร้างฉากที่ซับซ้อน และการสร้างวัตถุที่มีรายละเอียด,同时ยังแสดงให้เห็นถึงศักยภาพในการสร้างภาพที่สร้างสรรค์และเป็นเอกลักษณ์

นวัตกรรมทางเทคนิคเบื้องหลัง Flux

ที่ใจกลางของความสามารถที่น่าประทับใจของ Flux คือชุดนวัตกรรมทางเทคนิคที่ทำให้มันแตกต่างจากตัวนำหน้าและร่วมสมัย:

โมเดล Flow ที่ขับเคลื่อนด้วย Transformer ในระดับใหญ่

ทุกโมเดล FLUX.1 ที่เปิดเผยต่อสาธารณะถูกสร้างขึ้นบนโครงสร้างไฮบริดที่รวมบล็อกการแพร่กระจายแบบหลายรูปแบบและขนานกัน สเกลขึ้นไปถึง 12 พันล้านพารามิเตอร์ ซึ่งแสดงถึงการกระโดดครั้งสำคัญในขนาดและความซับซ้อนของโมเดลเมื่อเทียบกับโมเดลการสร้างภาพข้อความส่วนใหญ่

โมเดล Flux มีการปรับปรุงจากโมเดลการแพร่กระจายที่มีอยู่แล้วโดยการรวมการผสมผสานการไหล ซึ่งเป็นวิธีการทั่วไปและง่ายต่อการเข้าใจสำหรับการฝึกโมเดลที่สร้างสรรค์ การผสมผสานการไหลให้โครงสร้างที่ยืดหยุ่นกว่าสำหรับการสร้างแบบจำลองที่สร้างสรรค์ โดยมีโมเดลการแพร่กระจายเป็นกรณีพิเศษภายในแนวทางนี้

เพื่อเพิ่มประสิทธิภาพของโมเดลและประสิทธิภาพของฮาร์ดแวร์ Black Forest Labs ได้บูรณาการการฝังตัวตำแหน่งแบบโรตารี่และชั้นความสนใจแบบขนาน ซึ่งช่วยให้สามารถจัดการความสัมพันธ์เชิงพื้นที่ในภาพได้ดีขึ้นและประมวลผลข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ

นวัตกรรมทางสถาปัตยกรรม

มาวิเคราะห์องค์ประกอบทางสถาปัตยกรรมหลักที่ช่วยให้ Flux มีประสิทธิภาพ:

  1. สถาปัตยกรรมไฮบริด: การรวมบล็อกการแพร่กระจายแบบหลายรูปแบบและขนานกัน ช่วยให้ Flux สามารถประมวลผลข้อมูลทั้งทางข้อความและภาพได้อย่างมีประสิทธิภาพ ส่งผลให้การสร้างภาพที่สอดคล้องกับคำสั่งมากขึ้น
  2. การผสมผสานการไหล: วิธีการนี้ช่วยให้สามารถฝึกโมเดลที่สร้างสรรค์ได้อย่างยืดหยุ่นและ効率มากขึ้น โดยให้โครงสร้างที่รวมโมเดลการแพร่กระจายและเทคนิคการสร้างแบบจำลองอื่นๆ ซึ่งอาจนำไปสู่การสร้างภาพที่มีคุณภาพและความหลากหลายมากขึ้น
  3. การฝังตัวตำแหน่งแบบโรตารี่: การฝังตัวเหล่านี้ช่วยให้โมเดลเข้าใจและรักษาความสัมพันธ์เชิงพื้นที่ภายในภาพได้ดีขึ้น ซึ่งจำเป็นสำหรับการสร้างเนื้อหาที่มองเห็นได้และเชื่อมโยง
  4. ชั้นความสนใจแบบขนาน: เทคนิคนี้ช่วยให้สามารถประมวลผลกลไกความสนใจได้อย่างมีประสิทธิภาพมากขึ้น ซึ่งเป็นสิ่งสำคัญสำหรับการทำความเข้าใจความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ในทั้งคำสั่งและภาพที่สร้างขึ้น
  5. การขยายขนาดถึง 12B พารามิเตอร์: ขนาดของโมเดลที่มากขึ้นช่วยให้สามารถจับและสร้างรูปแบบที่ซับซ้อนและความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ได้ดีขึ้น ซึ่งอาจนำไปสู่คุณภาพและความหลากหลายของผลลัพธ์ที่สูงขึ้น

การเปรียบเทียบ Flux: มาตรฐานใหม่ในการสังเคราะห์ภาพ

https://blackforestlabs.ai/announcing-black-forest-labs/

https://blackforestlabs.ai/announcing-black-forest-labs/

Black Forest Labs อ้างว่า FLUX.1 ตั้งมาตรฐานใหม่ในการสังเคราะห์ภาพ โดยเหนือกว่าโมเดลยอดนิยมอย่าง Midjourney v6.0, DALL·E 3 (HD) และ SD3-Ultra ในหลายด้าน:

  1. คุณภาพการมองเห็น: Flux มุ่งเป้าไปที่การผลิตภาพที่มีคุณภาพสูงกว่า รายละเอียดที่สมจริง และความสวยงามโดยรวมที่ดีกว่า
  2. การปฏิบัติตามคำสั่ง: โมเดลนี้ได้รับการออกแบบมาเพื่อปฏิบัติตามคำสั่งทางข้อความที่ให้มาอย่างใกล้ชิด โดยสร้างภาพที่สะท้อนถึงความตั้งใจของผู้ใช้ได้แม่นยำยิ่งขึ้น
  3. ความหลากหลายของขนาด/อัตราส่วน: Flux รองรับช่วงกว้างของอัตราส่วนและความละเอียดตั้งแต่ 0.1 ถึง 2.0 เมกะพิกเซล โดยให้ความยืดหยุ่นสำหรับการใช้งานต่างๆ
  4. การแสดงตัวอักษร: โมเดลนี้แสดงความสามารถที่ดีขึ้นในการสร้างและแสดงตัวอักษรภายในภาพ ซึ่งเป็นความท้าทายทั่วไปสำหรับโมเดลการสร้างภาพข้อความหลายรูปแบบ
  5. ความหลากหลายของผลลัพธ์: Flux ได้รับการปรับให้ละเอียดเพื่อรักษาความหลากหลายของผลลัพธ์ทั้งหมดจากการฝึกแบบ pre-training โดยให้โอกาสในการสร้างสรรค์ที่กว้างขึ้น

Flux เทียบกับ Midjourney: การวิเคราะห์เปรียบเทียบ

https://blackforestlabs.ai/announcing-black-forest-labs/

ตอนนี้ มาคำตอบคำถามที่ทุกคนอยากรู้: Flux ดีกว่า Midjourney หรือไม่? เพื่อตอบคำถามนี้ เราต้องพิจารณาปัจจัยหลายอย่าง:

คุณภาพภาพและความสวยงาม

ทั้ง Flux และ Midjourney มีชื่อเสียงในเรื่องของการผลิตภาพที่มีคุณภาพสูงและสวยงาม Midjourney ได้รับการยกย่องในเรื่องของความสามารถในการสร้างภาพที่มีสไตล์ศิลปะและความสวยงามที่โดดเด่น Flux ด้วยสถาปัตยกรรมที่ทันสมัยและจำนวนพารามิเตอร์ที่มากขึ้น มุ่งเป้าไปที่การเทียบหรือเหนือกว่าคุณภาพนี้

ตัวอย่างแรกจาก Flux แสดงรายละเอียดที่น่าประทับใจ เนื้อเยื่อที่สมจริง และการควบคุมแสงและองค์ประกอบที่แข็งแกร่ง อย่างไรก็ตาม สิ่งที่เป็นศิลปะมีลักษณะที่เป็น主관 ทำให้ยากที่จะอ้างว่าโมเดลหนึ่งดีกว่าอีกโมเดลหนึ่งโดยไม่มีการพิจารณาในหลายๆ ด้าน ผู้ใช้อาจพบว่าแต่ละโมเดลมีจุดแข็งในหลายๆ สไตล์หรือประเภทของภาพ

การปฏิบัติตามคำสั่ง

พื้นที่หนึ่งที่ Flux อาจมีเหนือกว่า Midjourney คือการปฏิบัติตามคำสั่ง Black Forest Labs เน้นย้ำถึงการปรับปรุงความสามารถของโมเดลในการตีความและดำเนินการตามคำสั่งทางข้อความที่ให้มาอย่างแม่นยำ ซึ่งอาจส่งผลให้ได้ภาพที่สะท้อนถึงความตั้งใจของผู้ใช้ได้แม่นยำยิ่งขึ้น โดยเฉพาะสำหรับการร้องขอที่ซับซ้อนหรือซับซ้อน

Midjourney มีการวิพากษ์วิจารณ์บางครั้งว่าใช้ความสร้างสรรค์ในการตีความคำสั่ง ซึ่งอาจนำไปสู่ผลลัพธ์ที่สวยงามแต่ไม่คาดคิด Flux ด้วยการเน้นไปที่การควบคุมที่แม่นยำยิ่งขึ้น อาจให้ความสามารถในการควบคุมผลลัพธ์ที่สร้างขึ้นได้ดีขึ้น

ความเร็วและประสิทธิภาพ

ด้วยการแนะนำ FLUX.1 [schnell] Black Forest Labs มุ่งเป้าไปที่จุดแข็งหลักของ Midjourney: ความเร็ว Midjourney เป็นที่รู้จักในเรื่องของเวลาการสร้างภาพที่รวดเร็ว ซึ่งทำให้มันเป็นที่นิยมสำหรับกระบวนการสร้างสรรค์ที่ต้องทำซ้ำๆ หาก Flux สามารถเทียบหรือเหนือกว่าความเร็วนี้โดยยังคงรักษาคุณภาพไว้ มันจะกลายเป็นจุดขายที่สำคัญ

ความสามารถในการเข้าถึงและความง่ายในการใช้งาน

Midjourney ได้รับความนิยมส่วนหนึ่งจากอินเทอร์เฟซที่ใช้งานง่ายและรวมเข้ากับ Discord Flux ในฐานะโมเดลใหม่อาจต้องใช้เวลาในการพัฒนาเช่นเดียวกัน อย่างไรก็ตาม โมเดลที่เปิดเผยต่อสาธารณะของ FLUX.1 [schnell] และ [dev] อาจนำไปสู่เครื่องมือและอินเทอร์เฟซที่หลากหลายซึ่งพัฒนาโดยชุมชน ซึ่งอาจทำให้ Flux มีความยืดหยุ่นและความสามารถในการปรับแต่งที่มากกว่า Midjourney

ความสามารถทางเทคนิค

สถาปัตยกรรมที่ทันสมัยและขนาดโมเดลที่ใหญ่ขึ้นของ Flux ชี้ให้เห็นว่าอาจมีความสามารถในการเข้าใจคำสั่งที่ซับซ้อนและสร้างรายละเอียดที่ซับซ้อนได้ดีขึ้น การใช้วิธีการผสมผสานการไหลและสถาปัตยกรรมไฮบริดอาจช่วยให้ Flux จัดการกับงานที่หลากหลายและสร้างผลลัพธ์ที่มีความหลากหลายมากขึ้น

การคำนึงถึงจริยธรรมและการลดความเอนเอียง

ทั้ง Flux และ Midjourney ต้องเผชิญกับความท้าทายในการจัดการกับข้อกังวลด้านจริยธรรมในภาพที่สร้างโดย AI เช่น ความเอนเอียง การให้ข้อมูลที่ไม่ถูกต้อง และปัญหาด้านลิขสิทธิ์ การเน้นของ Black Forest Labs ในเรื่องความโปร่งใสและความมุ่งมั่นที่จะทำให้โมเดลสามารถเข้าถึงได้กว้างขวางอาจนำไปสู่การกำกับดูแลชุมชนและความก้าวหน้าอย่างรวดเร็วในด้านเหล่านี้

การนำไปใช้งานและติดตั้ง

การใช้ Flux กับ Diffusers

โมเดล Flux สามารถรวมเข้ากับเวิร์กโฟลว์ที่มีอยู่ได้ง่ายๆ โดยใช้ไลบรารี Hugging Face Diffusers ต่อไปนี้คือขั้นตอนในการใช้ FLUX.1 [dev] หรือ FLUX.1 [schnell] กับ Diffusers:

  1. ก่อนอื่น ติดตั้งหรืออัปเดตไลบรารี Diffusers:
!pip install git+https://github.com/huggingface/diffusers.git
  1. จากนั้น คุณสามารถใช้ FluxPipeline เพื่อทำงานกับโมเดล:
import torch
from diffusers import FluxPipeline

# โหลดโมเดล
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)

# เปิดใช้งานการออฟโหลด CPU เพื่อประหยัด VRAM (ไม่จำเป็น)
pipe.enable_model_cpu_offload()

# สร้างภาพ
prompt = "แมวถือป้ายที่เขียนว่าสวัสดีโลก"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
output_type="pil",
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# บันทึกภาพที่สร้าง
image.save("flux-dev.png")

โค้ดส่วนนี้แสดงวิธีการโหลดโมเดล FLUX.1 [dev] สร้างภาพจากข้อความ และบันทึกผลลัพธ์

การปรับใช้ Flux เป็น API ด้วย LitServe

สำหรับผู้ที่ต้องการปรับใช้ Flux เป็นบริการ API ที่มีการปรับขนาด Black Forest Labs ให้คำแนะนำในการใช้ LitServe ซึ่งเป็นเครื่องมือการอนุมานประสิทธิภาพสูง ต่อไปนี้คือขั้นตอนในการปรับใช้:

กำหนดเซิร์ฟเวอร์โมเดล:

from io import BytesIO
from fastapi import Response
import torch
import time
import litserve as ls
from optimum.quanto import freeze, qfloat8, quantize
from diffusers import FlowMatchEulerDiscreteScheduler, AutoencoderKL
from diffusers.models.transformers.transformer_flux import FluxTransformer2DModel
from diffusers.pipelines.flux.pipeline_flux import FluxPipeline
from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5TokenizerFast

class FluxLitAPI(ls.LitAPI):
def setup(self, device):
# โหลดส่วนประกอบของโมเดล
scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="scheduler")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
text_encoder_2 = T5EncoderModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="text_encoder_2", torch_dtype=torch.bfloat16)
tokenizer_2 = T5TokenizerFast.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="tokenizer_2", torch_dtype=torch.bfloat16)
vae = AutoencoderKL.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="vae", torch_dtype=torch.bfloat16)
transformer = FluxTransformer2DModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="transformer", torch_dtype=torch.bfloat16)

# ปรับโมเดลให้เหมาะสมกับการใช้งาน
quantize(transformer, weights=qfloat8)
freeze(transformer)
quantize(text_encoder_2, weights=qfloat8)
freeze(text_encoder_2)

# ตั้งค่า FluxPipeline
self.pipe = FluxPipeline(
scheduler=scheduler,
text_encoder=text_encoder,
tokenizer=tokenizer,
text_encoder_2=None,
tokenizer_2=tokenizer_2,
vae=vae,
transformer=None,
)
self.pipe.text_encoder_2 = text_encoder_2
self.pipe.transformer = transformer
self.pipe.enable_model_cpu_offload()

def decode_request(self, request):
return request["prompt"]

def predict(self, prompt):
image = self.pipe(
prompt=prompt,
width=1024,
height=1024,
num_inference_steps=4,
generator=torch.Generator().manual_seed(int(time.time())),
guidance_scale=3.5,
).images[0]
return image

def encode_response(self, image):
buffered = BytesIO()
image.save(buffered, format="PNG")
return Response(content=buffered.getvalue(), headers={"Content-Type": "image/png"})

# เริ่มต้นเซิร์ฟเวอร์
if __name__ == "__main__":
api = FluxLitAPI()
server = ls.LitServer(api, timeout=False)
server.run(port=8000)

โค้ดนี้ตั้งค่าเซิร์ฟเวอร์ API สำหรับ Flux รวมถึงการโหลดโมเดล การจัดการคำร้อง การสร้างภาพ และการเข้ารหัสคำตอบ

เริ่มต้นเซิร์ฟเวอร์:

python server.py

ใช้โมเดล API:

คุณสามารถทดสอบ API โดยใช้สคริปต์ไคลเอ็นต์ง่ายๆ:

import requests
import json

url = "http://localhost:8000/predict"
prompt = "หุ่นยนต์นั่งอยู่ในเก้าอี้กำลังวาดภาพบนจิตรกรรมของเมืองในอนาคต สไตล์ป๊อปอาร์ต"

response = requests.post(url, json={"prompt": prompt})
with open("generated_image.png", "wb") as f:
f.write(response.content)

print("ภาพถูกสร้างและบันทึกเป็น generated_image.png")

คุณลักษณะหลักของการปรับใช้

  1. สถาปัตยกรรมแบบไม่มีเซิร์ฟเวอร์: การตั้งค่า LitServe ช่วยให้สามารถปรับใช้แบบไม่มีเซิร์ฟเวอร์ ซึ่งสามารถปรับขนาดลงไปถึงศูนย์เมื่อไม่ใช้งาน
  2. API ส่วนตัว: คุณสามารถปรับใช้ Flux เป็น API ส่วนตัวบนโครงสร้างพื้นฐานของคุณเอง
  3. การสนับสนุนหลาย GPU: การตั้งค่านี้ได้รับการออกแบบมาเพื่อทำงานอย่างมีประสิทธิภาพบนหลายๆ GPU
  4. การปรับให้เหมาะสม: โค้ดแสดงให้เห็นวิธีการปรับโมเดลให้เหมาะสมกับการใช้งาน 8 บิต เพื่อให้สามารถทำงานบนฮาร์ดแวร์ที่มีพลังการประมวลผลน้อยลง เช่น GPU L4 ของ NVIDIA
  5. การออฟโหลด CPU: การใช้ enable_model_cpu_offload() ช่วยประหยัดหน่วยความจำ GPU โดยการโอนส่วนของโมเดลไปยัง CPU เมื่อไม่ได้ใช้งาน

การประยุกต์ใช้งานจริงของ Flux

ความสามารถและความยืดหยุ่นของ Flux เปิดโอกาสให้ใช้งานในหลายอุตสาหกรรม:

  1. อุตสาหกรรมสร้างสรรค์: นักออกแบบกราฟิก ผู้สร้างภาพประกอบ และศิลปินสามารถใช้ Flux เพื่อสร้างงานศิลปะแนวคิด บอร์ดอาร์ต และแรงบันดาลใจทางภาพอย่างรวดเร็ว
  2. การตลาดและการโฆษณา: ผู้ทำการตลาดสามารถสร้างภาพที่กำหนดเองสำหรับการรณรงค์ เนื้อหาสื่อสังคม และภาพตัวอย่างผลิตภัณฑ์อย่างรวดเร็วและคุณภาพสูง
  3. พัฒนาเกม: ผู้ออกแบบเกมสามารถใช้ Flux เพื่อสร้างต้นแบบสภาพแวดล้อม ตัวละคร และสินทรัพย์ได้อย่างรวดเร็ว ช่วยให้กระบวนการก่อนการผลิตมีประสิทธิภาพมากขึ้น
  4. สถาปัตยกรรมและการออกแบบภายใน: สถาปนิกและผู้ออกแบบสามารถสร้างภาพจำลองที่สมจริงของพื้นที่และโครงสร้างตามคำอธิบายทางข้อความ
  5. การศึกษา: ครูสามารถสร้างภาพช่วยสอนและภาพประกอบที่กำหนดเองเพื่อเพิ่มความน่าสนใจของวัสดุการเรียนรู้และทำให้แนวคิดที่ซับซ้อนเข้าใจได้ง่ายขึ้น
  6. ภาพยนตร์และแอนิเมชัน: ศิลปินในการสร้างเรื่องและผู้สร้างแอนิเมชันสามารถใช้ Flux เพื่อสร้างภาพต้นแบบฉากและตัวละครได้อย่างรวดเร็ว ทำให้กระบวนการสร้างภาพเคลื่อนไหวก่อนการผลิตเร็วขึ้น

อนาคตของ Flux และการสังเคราะห์ภาพจากข้อความ

Black Forest Labs ได้ประกาศว่า Flux เป็นเพียงจุดเริ่มต้นของความทะเยอทะยานในพื้นที่ AI ที่สร้างสรรค์ โดยมีแผนในการพัฒนาระบบสังเคราะห์ข้อความเป็นวิดีโอที่สามารถแข่งขันได้ โดยมุ่งเน้นไปที่การสร้างและแก้ไขที่แม่นยำในความละเอียดสูงและความเร็วที่ไม่เคยเกิดขึ้นมาก่อน

แผนการนี้ชี้ให้เห็นว่า Flux ไม่ใช่ผลิตภัณฑ์ที่โดดเดี่ยว แต่เป็นส่วนหนึ่งของระบบเครื่องมือ AI ที่สร้างสรรค์ เมื่อเทคโนโลยีนี้พัฒนาไป เราคาดว่าจะเห็น:

  1. การรวมเข้าด้วยกัน: การทำงานร่วมกันอย่างไร้รอยต่อระหว่างการสังเคราะห์ภาพจากข้อความและวิดีโอ ช่วยให้สามารถสร้างเนื้อหาที่ซับซ้อนและไดนามิกได้
  2. การปรับแต่งที่ดีขึ้น: การควบคุมที่แม่นยำยิ่งขึ้นในการสร้างเนื้อหา โดยอาจผ่านเทคนิคการเขียนคำสั่งที่ซับซ้อนหรืออินเทอร์เฟซผู้ใช้ที่ใช้งานง่าย
  3. การสังเคราะห์แบบเรียลไทม์: เมื่อโมเดลอย่าง FLUX.1 [schnell] ดีขึ้น เราอาจเห็นความสามารถในการสร้างภาพแบบเรียลไทม์ ซึ่งสามารถปฏิวัติกระบวนการสร้างเนื้อหาที่มีการโต้ตอบและแบบสด
  4. การสังเคราะห์ข้ามโหมด: ความสามารถในการสร้างและจัดการเนื้อหาหลายรูปแบบ (ข้อความ ภาพ วิดีโอ เสียง) ในลักษณะที่สอดคล้องกันและรวมกัน
  5. การพัฒนาอีไอที่มีจริยธรรม: การมุ่งเน้นต่อการสร้างโมเดล AI ที่ไม่เพียงแต่มีประสิทธิภาพเท่านั้น แต่ยังมีความรับผิดชอบและยึดมั่นในหลักจริยธรรม

สรุป: Flux ดีกว่า Midjourney หรือไม่?

คำถามว่า Flux ดีกว่า Midjourney หรือไม่นั้นไม่สามารถตอบได้ด้วยคำว่า “ใช่” หรือ “ไม่” ทั้งสองโมเดลเป็นตัวแทนของจุดสูงสุดของเทคโนโลยีการสังเคราะห์ภาพจากข้อความ โดยมีจุดแข็งและลักษณะเฉพาะที่แตกต่างกัน

Flux ด้วยสถาปัตยกรรมที่ทันสมัยและความสำคัญของการปฏิบัติตามคำสั่ง อาจให้การควบคุมที่แม่นยำยิ่งขึ้นและคุณภาพที่สูงกว่าในบางสถานการณ์ รุ่นที่เปิดเผยต่อสาธารณะของมันให้โอกาสในการปรับแต่งและรวมเข้ากับเครื่องมือของชุมชน ซึ่งอาจมีคุณค่าอย่างมากสำหรับนักพัฒนาและนักวิจัย

Midjourney ในทางกลับกัน มีประวัติที่พิสูจน์แล้ว มีฐานผู้ใช้ที่ใหญ่และกระตือรือร้น และมีสไตล์ศิลปะที่ผู้ใช้หลายคนชื่นชอบ การรวมเข้ากับ Discord และอินเทอร์เฟซที่ใช้งานง่ายทำให้มันเป็นที่นิยมในหมู่ผู้สร้างสรรค์ทุกระดับทักษะ

สิ่งที่ชัดเจนคือ Flux เป็นตัวแทนของก้าวสำคัญในพื้นที่ AI ที่สร้างสรรค์ โดยการแนะนำเทคนิคใหม่ๆ และการขยายขอบเขตของสิ่งที่เป็นไปได้ในการสังเคราะห์ภาพจากข้อความ

ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม