Connect with us

Stable Diffusion 3.5: การพัฒนาสถาปัตยกรรมใน Text-to-Image AI

ปัญญาประดิษฐ์

Stable Diffusion 3.5: การพัฒนาสถาปัตยกรรมใน Text-to-Image AI

mm

Stability AI ได้เปิดตัว Stable Diffusion 3.5 ซึ่งเป็นอีก一步หนึ่งในการพัฒนาของโมเดล Text-to-Image AI การเปิดตัวครั้งนี้เป็นการปรับปรุงอย่างครอบคลุมซึ่งได้รับแรงบันดาลใจจากคำติชมของชุมชนและความมุ่งมั่นในการผลักดันขอบเขตของเทคโนโลยี AI ที่สร้างสรรค์

หลังจากการเปิดตัว Stable Diffusion 3 Medium ในเดือนมิถุนายน Stability AI ได้ทราบว่าโมเดลนี้ไม่ได้ตรงตามมาตรฐานหรือความคาดหวังของชุมชนอย่างเต็มที่ แทนที่จะรีบแก้ไขปัญหาอย่างรวดเร็ว บริษัทได้ใช้แนวทางที่รอบคอบ โดยมุ่งเน้นในการพัฒนาเวอร์ชันที่จะขยายภารกิจในการเปลี่ยนแปลงสื่อภาพ,同时นำมาตรการความปลอดภัยไปใช้ตลอดกระบวนการพัฒนา

การปรับปรุงที่สำคัญเหนือเวอร์ชันก่อนหน้า

การเปิดตัวใหม่นี้นำมีการปรับปรุงที่สำคัญในหลายด้านที่สำคัญ:

  • การยึดมั่นในคำสั่งซื้อขั้นสูง: โมเดลสร้างภาพที่มีความเข้าใจที่ดีขึ้นของคำสั่งซื้อที่ซับซ้อน ซึ่งเทียบเท่ากับโมเดลที่ใหญ่กว่ามาก
  • การปรับปรุงสถาปัตยกรรม: การนำการปรับปรมาณ Query-Key ในบล็อกทรานส์ฟอร์เมอร์มาใช้ได้ช่วยปรับปรุงความเสถียรในการฝึกอบรมและทำให้กระบวนการปรับแต่งละเอียดได้ง่ายขึ้น
  • การสร้างภาพที่หลากหลาย: ความสามารถขั้นสูงในการสร้างภาพที่แสดงถึงสีผิวและลักษณะที่แตกต่างกันโดยไม่ต้องใช้การออกแบบคำสั่งซื้อที่ซับซ้อน
  • การปรับปรุงประสิทธิภาพ: การปรับปรุงที่สำคัญทั้งในด้านคุณภาพของภาพและความเร็วในการสร้างภาพ โดยเฉพาะอย่างยิ่งในรุ่น Turbo

สิ่งที่ทำให้ Stable Diffusion 3.5 แตกต่างในด้านการสร้าง AI ที่สร้างสรรค์คือการผสมผสานระหว่างความสามารถในการเข้าถึงและพลังงาน การเปิดตัวครั้งนี้ยังคงความมุ่งมั่นของ Stability AI ในการนำเสนอเครื่องมือสร้างสรรค์ที่สามารถเข้าถึงได้กว้างขวาง ในขณะเดียวกันก็ผลักดันขอบเขตของความสามารถทางเทคนิค ซึ่งทำให้โมเดลนี้เป็นวิธีแก้ปัญหาที่เหมาะสมสำหรับทั้งผู้สร้างรายบุคคลและผู้ใช้ในระดับองค์กร โดยมีกรอบการอนุญาตใช้งานเชิงพาณิชย์ที่ชัดเจนซึ่งสนับสนุนธุรกิจขนาดกลางและองค์กรขนาดใหญ่

Stable Diffusion output (Stability AI)

โมเดลที่มีพลังสามแบบสำหรับการใช้งานทุกกรณี

Stable Diffusion 3.5 Large

โมเดลธงของการเปิดตัวนี้ Stable Diffusion 3.5 Large นำพลังการประมวลผล 8 พันล้านพารามิเตอร์มาใช้ในการสร้างภาพระดับมืออาชีพ

คุณลักษณะสำคัญรวมถึง:

  • การผลิตภาพระดับมืออาชีพที่ความละเอียด 1 เมกะพิกเซล
  • การยึดมั่นในคำสั่งซื้อที่ดีขึ้นสำหรับการควบคุมสร้างสรรค์ที่แม่นยำ
  • ความสามารถขั้นสูงในการจัดการแนวคิดภาพที่ซับซ้อน
  • ประสิทธิภาพที่แข็งแกร่งทั่วกระบวนการสร้างสรรค์ที่หลากหลาย

Large Turbo

รุ่น Large Turbo เป็นตัวแทนของการผสมผสานระหว่างประสิทธิภาพและความเร็วในการสร้างภาพที่มีคุณภาพสูง:

  • การสร้างภาพที่มีคุณภาพสูงในเพียง 4 ขั้นตอน
  • การยึดมั่นในคำสั่งซื้อที่ดีขึ้นแม้จะเพิ่มความเร็ว
  • ประสิทธิภาพที่แข่งขันกับโมเดลที่ไม่ได้ถูกดิสทิล
  • ความสมดุลที่เหมาะสมระหว่างความเร็วและคุณภาพสำหรับเวิร์กโฟลว์ในการผลิต

Medium Model

กำหนดเปิดตัวในวันที่ 29 ตุลาคม โมเดล Medium ที่มีพารามิเตอร์ 2.5 พันล้านทำให้การเข้าถึงการสร้างภาพระดับมืออาชีพเป็นไปได้สำหรับทุกคน:

  • การทำงานที่มีประสิทธิภาพบนฮาร์ดแวร์ผู้บริโภคมาตรฐาน
  • ความสามารถในการสร้างภาพตั้งแต่ 0.25 ถึง 2 เมกะพิกเซล
  • สถาปัตยกรรมที่ได้รับการปรับปรุงสำหรับการทำงานที่ดีขึ้น
  • ผลลัพธ์ที่ดีกว่าเมื่อเทียบกับโมเดลขนาดกลางอื่นๆ

โมเดลแต่ละรุ่นได้รับการวางตำแหน่งอย่างรอบคอบเพื่อรองรับการใช้งานที่เฉพาะเจาะจง ในขณะเดียวกันก็ยังคงมาตรฐานสูงของ Stability AI สำหรับคุณภาพของภาพและความยึดมั่นในคำสั่งซื้อ

Stable Diffusion 3.5 Large (Stability AI)

การปรับปรุงสถาปัตยกรรมรุ่นต่อไป

สถาปัตยกรรมของ Stable Diffusion 3.5 เป็นตัวแทนของการก้าวหน้าที่สำคัญในเทคโนโลยีการสร้างภาพ การออกแบบ MMDiT-X ที่ได้รับการปรับปรุงนำเสนอความสามารถในการสร้างภาพหลายความละเอียด ซึ่งเห็นได้ชัดเจนในรุ่น Medium การปรับปรุงสถาปัตยกรรมนี้ช่วยให้กระบวนการฝึกอบรมมีความเสถียรมากขึ้น ในขณะเดียวกันก็รักษาเวลาอนุมานที่มีประสิทธิภาพเอาไว้

การปรับปรมาณ Query-Key (QK): การนำไปใช้ทางเทคนิค

การปรับปรมาณ QK เป็นการพัฒนาทางเทคนิคที่สำคัญในโครงสร้างทรานส์ฟอร์เมอร์ของโมเดล การนำไปใช้นี้เปลี่ยนแปลงวิธีการทำงานของกลไกการให้ความสนใจระหว่างการฝึกอบรม โดยให้พื้นฐานที่มั่นคง hơnสำหรับการแสดงคุณลักษณะ โดยการปรับปรมาณการโต้ตอบระหว่างคำถามและคีย์ในกลไกการให้ความสนใจ สถาปัตยกรรมสามารถทำงานได้อย่างสม่ำเสมอในหลายระดับและโดเมน การปรับปรุงนี้มีประโยชน์อย่างมากสำหรับนักพัฒนาที่ทำงานในการปรับแต่งโมเดลให้เหมาะสมกับงานเฉพาะ

การวิเคราะห์ประสิทธิภาพและการทดสอบ

การวิเคราะห์ประสิทธิภาพแสดงให้เห็นว่า Stable Diffusion 3.5 สามารถผลลัพธ์ที่น่าประทับใจในหลายมาตรการสำคัญ รุ่น Large แสดงให้เห็นถึงความสามารถในการยึดมั่นในคำสั่งซื้อที่เทียบเท่ากับโมเดลที่ใหญ่กว่ามาก ในขณะเดียวกันก็รักษาความต้องการการประมวลผลให้เหมาะสม การทดสอบที่ครอบคลุมแนวคิดภาพที่หลากหลายแสดงให้เห็นถึงการปรับปรุงคุณภาพอย่างต่อเนื่อง โดยเฉพาะในด้านที่ท้าทายในเวอร์ชันก่อนหน้า การทดสอบเหล่านี้ได้รับการดำเนินการบนคอนฟิกฮาร์ดแวร์ที่หลากหลายเพื่อให้แน่ใจในมาตรการประสิทธิภาพที่เชื่อถือได้

ความต้องการฮาร์ดแวร์และสถาปัตยกรรมในการใช้งาน

สถาปัตยกรรมในการใช้งานแตกต่างกันอย่างมากระหว่างรุ่น ตัวอย่างเช่น โมเดล Large ที่มีพารามิเตอร์ 8 พันล้านต้องการทรัพยากรการประมวลผลที่มีนัยสำคัญสำหรับการทำงานที่เหมาะสม โดยเฉพาะอย่างยิ่งในการสร้างภาพความละเอียดสูง ในทางกลับกัน รุ่น Medium นำเสนอโมเดลการใช้งานที่ยืดหยุ่นกว่า ซึ่งสามารถทำงานได้ดีบนคอนฟิกฮาร์ดแวร์ที่หลากหลาย ในขณะเดียวกันก็รักษาคุณภาพการผลิตภาพระดับมืออาชีพเอาไว้

Stable Diffusion benchmarks (Stability AI)

สรุป

Stable Diffusion 3.5 เป็นตัวแทนของการก้าวหน้าที่สำคัญในด้านการสร้าง AI ที่สร้างสรรค์ โดยสร้างความสมดุลระหว่างความสามารถทางเทคนิคที่ขั้นสูงและความสามารถในการเข้าถึงที่เป็นไปได้ การเปิดตัวครั้งนี้แสดงให้เห็นถึงความมุ่งมั่นของ Stability AI ในการเปลี่ยนแปลงสื่อภาพ ในขณะเดียวกันก็นำมาตรการความปลอดภัยไปใช้และรักษามาตรฐานสูงสำหรับคุณภาพของภาพและความยึดมั่นในคำสั่งซื้อ เมื่อ AI ที่สร้างสรรค์ยังคงเปลี่ยนแปลงกระบวนการทำงานสร้างสรรค์และองค์กร Stable Diffusion 3.5 จึงเป็นเครื่องมือที่มีค่าสำหรับนักพัฒนา ผู้วิจัย และองค์กรที่ต้องการใช้การสร้างภาพ AI ที่มีพลังในการขับเคลื่อนการสร้างสรรค์และนวัตกรรม

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก