ปัญญาประดิษฐ์
Stable Diffusion 3.5: การพัฒนาสถาปัตยกรรมใน Text-to-Image AI

Stability AI ได้เปิดตัว Stable Diffusion 3.5 ซึ่งเป็นอีก一步หนึ่งในการพัฒนาของโมเดล Text-to-Image AI การเปิดตัวครั้งนี้เป็นการปรับปรุงอย่างครอบคลุมซึ่งได้รับแรงบันดาลใจจากคำติชมของชุมชนและความมุ่งมั่นในการผลักดันขอบเขตของเทคโนโลยี AI ที่สร้างสรรค์
หลังจากการเปิดตัว Stable Diffusion 3 Medium ในเดือนมิถุนายน Stability AI ได้ทราบว่าโมเดลนี้ไม่ได้ตรงตามมาตรฐานหรือความคาดหวังของชุมชนอย่างเต็มที่ แทนที่จะรีบแก้ไขปัญหาอย่างรวดเร็ว บริษัทได้ใช้แนวทางที่รอบคอบ โดยมุ่งเน้นในการพัฒนาเวอร์ชันที่จะขยายภารกิจในการเปลี่ยนแปลงสื่อภาพ,同时นำมาตรการความปลอดภัยไปใช้ตลอดกระบวนการพัฒนา
การปรับปรุงที่สำคัญเหนือเวอร์ชันก่อนหน้า
การเปิดตัวใหม่นี้นำมีการปรับปรุงที่สำคัญในหลายด้านที่สำคัญ:
- การยึดมั่นในคำสั่งซื้อขั้นสูง: โมเดลสร้างภาพที่มีความเข้าใจที่ดีขึ้นของคำสั่งซื้อที่ซับซ้อน ซึ่งเทียบเท่ากับโมเดลที่ใหญ่กว่ามาก
- การปรับปรุงสถาปัตยกรรม: การนำการปรับปรมาณ Query-Key ในบล็อกทรานส์ฟอร์เมอร์มาใช้ได้ช่วยปรับปรุงความเสถียรในการฝึกอบรมและทำให้กระบวนการปรับแต่งละเอียดได้ง่ายขึ้น
- การสร้างภาพที่หลากหลาย: ความสามารถขั้นสูงในการสร้างภาพที่แสดงถึงสีผิวและลักษณะที่แตกต่างกันโดยไม่ต้องใช้การออกแบบคำสั่งซื้อที่ซับซ้อน
- การปรับปรุงประสิทธิภาพ: การปรับปรุงที่สำคัญทั้งในด้านคุณภาพของภาพและความเร็วในการสร้างภาพ โดยเฉพาะอย่างยิ่งในรุ่น Turbo
สิ่งที่ทำให้ Stable Diffusion 3.5 แตกต่างในด้านการสร้าง AI ที่สร้างสรรค์คือการผสมผสานระหว่างความสามารถในการเข้าถึงและพลังงาน การเปิดตัวครั้งนี้ยังคงความมุ่งมั่นของ Stability AI ในการนำเสนอเครื่องมือสร้างสรรค์ที่สามารถเข้าถึงได้กว้างขวาง ในขณะเดียวกันก็ผลักดันขอบเขตของความสามารถทางเทคนิค ซึ่งทำให้โมเดลนี้เป็นวิธีแก้ปัญหาที่เหมาะสมสำหรับทั้งผู้สร้างรายบุคคลและผู้ใช้ในระดับองค์กร โดยมีกรอบการอนุญาตใช้งานเชิงพาณิชย์ที่ชัดเจนซึ่งสนับสนุนธุรกิจขนาดกลางและองค์กรขนาดใหญ่

Stable Diffusion output (Stability AI)
โมเดลที่มีพลังสามแบบสำหรับการใช้งานทุกกรณี
Stable Diffusion 3.5 Large
โมเดลธงของการเปิดตัวนี้ Stable Diffusion 3.5 Large นำพลังการประมวลผล 8 พันล้านพารามิเตอร์มาใช้ในการสร้างภาพระดับมืออาชีพ
คุณลักษณะสำคัญรวมถึง:
- การผลิตภาพระดับมืออาชีพที่ความละเอียด 1 เมกะพิกเซล
- การยึดมั่นในคำสั่งซื้อที่ดีขึ้นสำหรับการควบคุมสร้างสรรค์ที่แม่นยำ
- ความสามารถขั้นสูงในการจัดการแนวคิดภาพที่ซับซ้อน
- ประสิทธิภาพที่แข็งแกร่งทั่วกระบวนการสร้างสรรค์ที่หลากหลาย
Large Turbo
รุ่น Large Turbo เป็นตัวแทนของการผสมผสานระหว่างประสิทธิภาพและความเร็วในการสร้างภาพที่มีคุณภาพสูง:
- การสร้างภาพที่มีคุณภาพสูงในเพียง 4 ขั้นตอน
- การยึดมั่นในคำสั่งซื้อที่ดีขึ้นแม้จะเพิ่มความเร็ว
- ประสิทธิภาพที่แข่งขันกับโมเดลที่ไม่ได้ถูกดิสทิล
- ความสมดุลที่เหมาะสมระหว่างความเร็วและคุณภาพสำหรับเวิร์กโฟลว์ในการผลิต
Medium Model
กำหนดเปิดตัวในวันที่ 29 ตุลาคม โมเดล Medium ที่มีพารามิเตอร์ 2.5 พันล้านทำให้การเข้าถึงการสร้างภาพระดับมืออาชีพเป็นไปได้สำหรับทุกคน:
- การทำงานที่มีประสิทธิภาพบนฮาร์ดแวร์ผู้บริโภคมาตรฐาน
- ความสามารถในการสร้างภาพตั้งแต่ 0.25 ถึง 2 เมกะพิกเซล
- สถาปัตยกรรมที่ได้รับการปรับปรุงสำหรับการทำงานที่ดีขึ้น
- ผลลัพธ์ที่ดีกว่าเมื่อเทียบกับโมเดลขนาดกลางอื่นๆ
โมเดลแต่ละรุ่นได้รับการวางตำแหน่งอย่างรอบคอบเพื่อรองรับการใช้งานที่เฉพาะเจาะจง ในขณะเดียวกันก็ยังคงมาตรฐานสูงของ Stability AI สำหรับคุณภาพของภาพและความยึดมั่นในคำสั่งซื้อ

Stable Diffusion 3.5 Large (Stability AI)
การปรับปรุงสถาปัตยกรรมรุ่นต่อไป
สถาปัตยกรรมของ Stable Diffusion 3.5 เป็นตัวแทนของการก้าวหน้าที่สำคัญในเทคโนโลยีการสร้างภาพ การออกแบบ MMDiT-X ที่ได้รับการปรับปรุงนำเสนอความสามารถในการสร้างภาพหลายความละเอียด ซึ่งเห็นได้ชัดเจนในรุ่น Medium การปรับปรุงสถาปัตยกรรมนี้ช่วยให้กระบวนการฝึกอบรมมีความเสถียรมากขึ้น ในขณะเดียวกันก็รักษาเวลาอนุมานที่มีประสิทธิภาพเอาไว้
การปรับปรมาณ Query-Key (QK): การนำไปใช้ทางเทคนิค
การปรับปรมาณ QK เป็นการพัฒนาทางเทคนิคที่สำคัญในโครงสร้างทรานส์ฟอร์เมอร์ของโมเดล การนำไปใช้นี้เปลี่ยนแปลงวิธีการทำงานของกลไกการให้ความสนใจระหว่างการฝึกอบรม โดยให้พื้นฐานที่มั่นคง hơnสำหรับการแสดงคุณลักษณะ โดยการปรับปรมาณการโต้ตอบระหว่างคำถามและคีย์ในกลไกการให้ความสนใจ สถาปัตยกรรมสามารถทำงานได้อย่างสม่ำเสมอในหลายระดับและโดเมน การปรับปรุงนี้มีประโยชน์อย่างมากสำหรับนักพัฒนาที่ทำงานในการปรับแต่งโมเดลให้เหมาะสมกับงานเฉพาะ
การวิเคราะห์ประสิทธิภาพและการทดสอบ
การวิเคราะห์ประสิทธิภาพแสดงให้เห็นว่า Stable Diffusion 3.5 สามารถผลลัพธ์ที่น่าประทับใจในหลายมาตรการสำคัญ รุ่น Large แสดงให้เห็นถึงความสามารถในการยึดมั่นในคำสั่งซื้อที่เทียบเท่ากับโมเดลที่ใหญ่กว่ามาก ในขณะเดียวกันก็รักษาความต้องการการประมวลผลให้เหมาะสม การทดสอบที่ครอบคลุมแนวคิดภาพที่หลากหลายแสดงให้เห็นถึงการปรับปรุงคุณภาพอย่างต่อเนื่อง โดยเฉพาะในด้านที่ท้าทายในเวอร์ชันก่อนหน้า การทดสอบเหล่านี้ได้รับการดำเนินการบนคอนฟิกฮาร์ดแวร์ที่หลากหลายเพื่อให้แน่ใจในมาตรการประสิทธิภาพที่เชื่อถือได้
ความต้องการฮาร์ดแวร์และสถาปัตยกรรมในการใช้งาน
สถาปัตยกรรมในการใช้งานแตกต่างกันอย่างมากระหว่างรุ่น ตัวอย่างเช่น โมเดล Large ที่มีพารามิเตอร์ 8 พันล้านต้องการทรัพยากรการประมวลผลที่มีนัยสำคัญสำหรับการทำงานที่เหมาะสม โดยเฉพาะอย่างยิ่งในการสร้างภาพความละเอียดสูง ในทางกลับกัน รุ่น Medium นำเสนอโมเดลการใช้งานที่ยืดหยุ่นกว่า ซึ่งสามารถทำงานได้ดีบนคอนฟิกฮาร์ดแวร์ที่หลากหลาย ในขณะเดียวกันก็รักษาคุณภาพการผลิตภาพระดับมืออาชีพเอาไว้

Stable Diffusion benchmarks (Stability AI)
สรุป
Stable Diffusion 3.5 เป็นตัวแทนของการก้าวหน้าที่สำคัญในด้านการสร้าง AI ที่สร้างสรรค์ โดยสร้างความสมดุลระหว่างความสามารถทางเทคนิคที่ขั้นสูงและความสามารถในการเข้าถึงที่เป็นไปได้ การเปิดตัวครั้งนี้แสดงให้เห็นถึงความมุ่งมั่นของ Stability AI ในการเปลี่ยนแปลงสื่อภาพ ในขณะเดียวกันก็นำมาตรการความปลอดภัยไปใช้และรักษามาตรฐานสูงสำหรับคุณภาพของภาพและความยึดมั่นในคำสั่งซื้อ เมื่อ AI ที่สร้างสรรค์ยังคงเปลี่ยนแปลงกระบวนการทำงานสร้างสรรค์และองค์กร Stable Diffusion 3.5 จึงเป็นเครื่องมือที่มีค่าสำหรับนักพัฒนา ผู้วิจัย และองค์กรที่ต้องการใช้การสร้างภาพ AI ที่มีพลังในการขับเคลื่อนการสร้างสรรค์และนวัตกรรม












