ปัญญาประดิษฐ์

Stability AI เปิดตัว Stable Audio 2.0: เพิ่มศักยภาพให้กับผู้สร้างด้วยเสียงที่สร้างโดย AI ขั้นสูง

การตีพิมพ์

วัน 3 ที่ผ่านมา

April 3, 2024

ภาพ: ความเสถียร AI

AI ที่มีเสถียรภาพได้ก้าวข้ามขีดจำกัดของนวัตกรรมอีกครั้งด้วยการเปิดตัว เสียงที่เสถียร 2.0- โมเดลที่ล้ำสมัยนี้ต่อยอดมาจากความสำเร็จของรุ่นก่อน โดยนำเสนอคุณสมบัติล้ำสมัยมากมายที่สัญญาว่าจะปฏิวัติวิธีที่ศิลปินและนักดนตรีสร้างและจัดการเนื้อหาเสียง

Stable Audio 2.0 แสดงถึงหลักชัยสำคัญในวิวัฒนาการของเสียงที่สร้างโดย AI โดยกำหนดมาตรฐานใหม่สำหรับคุณภาพ ความคล่องตัว และศักยภาพในการสร้างสรรค์ ด้วยความสามารถในการสร้างแทร็กแบบเต็ม แปลงตัวอย่างเสียงโดยใช้ข้อความที่เป็นธรรมชาติ และสร้างเอฟเฟกต์เสียงที่หลากหลาย โมเดลนี้เปิดโลกแห่งความเป็นไปได้สำหรับผู้สร้างเนื้อหาในอุตสาหกรรมต่างๆ

เนื่องจากความต้องการโซลูชันเสียงเชิงนวัตกรรมยังคงเพิ่มขึ้นอย่างต่อเนื่อง ข้อเสนอล่าสุดของ Stability AI จึงพร้อมที่จะกลายเป็นเครื่องมือที่ขาดไม่ได้สำหรับมืออาชีพที่ต้องการปรับปรุงผลงานสร้างสรรค์และปรับปรุงขั้นตอนการทำงานของตน ด้วยการควบคุมพลังของเทคโนโลยี AI ขั้นสูง Stable Audio 2.0 ช่วยให้ผู้ใช้สามารถสำรวจดินแดนที่ไม่เคยมีมาก่อนในการแต่งเพลง การออกแบบเสียง และขั้นตอนหลังการผลิตเสียง

การสาธิตคุณสมบัติเสียงเป็นเสียง

Watch this video on YouTube

คุณสมบัติหลักของ Stable Audio 2.0 คืออะไร

Stable Audio 2.0 นำเสนอฟีเจอร์ที่น่าประทับใจมากมายซึ่งสามารถกำหนดภูมิทัศน์ของเสียงที่สร้างโดย AI ใหม่ได้ ตั้งแต่การสร้างแทร็กแบบเต็มไปจนถึงการแปลงเสียงเป็นเสียง การผลิตเอฟเฟกต์เสียงที่ได้รับการปรับปรุง และการถ่ายโอนสไตล์ โมเดลนี้มอบชุดเครื่องมือที่ครอบคลุมแก่ผู้สร้างเพื่อทำให้วิสัยทัศน์ทางการได้ยินของพวกเขาเป็นจริง

การสร้างแทร็กความยาวเต็ม

Stable Audio 2.0 สร้างความแตกต่างจากรุ่นเสียงอื่นๆ ที่สร้างโดย AI ด้วยความสามารถในการสร้างแทร็กเต็มความยาวสูงสุดสามนาที การเรียบเรียงเหล่านี้ไม่ได้เป็นเพียงตัวอย่างที่ขยายออกไป แต่เป็นผลงานที่มีโครงสร้างซึ่งประกอบด้วยส่วนต่างๆ ที่แตกต่างกัน เช่น บทนำ การพัฒนา และส่วนท้าย ฟีเจอร์นี้ช่วยให้ผู้ใช้สามารถสร้างผลงานดนตรีที่สมบูรณ์พร้อมการเล่าเรื่องและความก้าวหน้าที่สอดคล้องกัน ซึ่งยกระดับศักยภาพในการสร้างสรรค์เพลงที่ได้รับความช่วยเหลือจาก AI

นอกจากนี้ โมเดลยังรวมเอฟเฟกต์เสียงสเตอริโอ เพื่อเพิ่มความลึกและมิติให้กับเสียงที่สร้างขึ้น การรวมองค์ประกอบเชิงพื้นที่นี้ช่วยเพิ่มความสมจริงและคุณภาพที่ดื่มด่ำของแทร็ก ทำให้เหมาะสำหรับการใช้งานที่หลากหลาย ตั้งแต่เพลงพื้นหลังในวิดีโอไปจนถึงการเรียบเรียงดนตรีแบบสแตนด์อโลน

การสร้างเสียงเป็นเสียง

หนึ่งในการเพิ่มที่น่าตื่นเต้นที่สุดของ Stable Audio 2.0 คือความสามารถในการสร้างเสียงเป็นเสียง ขณะนี้ผู้ใช้สามารถอัปโหลดตัวอย่างเสียงของตนเองและแปลงเสียงโดยใช้ข้อความแจ้งภาษาธรรมชาติได้ ฟีเจอร์นี้เปิดโลกแห่งความเป็นไปได้ที่สร้างสรรค์ ช่วยให้ศิลปินและนักดนตรีสามารถทดลองการปรับแต่งเสียงและการสร้างใหม่ในรูปแบบที่ไม่เคยจินตนาการมาก่อน

ด้วยการใช้ประโยชน์จากพลังของ AI ผู้ใช้สามารถปรับเปลี่ยนเนื้อหาเสียงที่มีอยู่ให้เหมาะกับความต้องการเฉพาะหรือวิสัยทัศน์ทางศิลปะได้อย่างง่ายดาย ไม่ว่าจะเป็นการเปลี่ยนโทนเสียงของเครื่องดนตรี การเปลี่ยนอารมณ์ของเพลง หรือการสร้างเสียงใหม่ทั้งหมดตามตัวอย่างที่มีอยู่ Stable Audio 2.0 มอบวิธีที่ใช้งานง่ายในการสำรวจการเปลี่ยนแปลงของเสียง

ปรับปรุงการผลิตเอฟเฟกต์เสียง

นอกเหนือจากความสามารถในการสร้างเพลงแล้ว Stable Audio 2.0 ยังยอดเยี่ยมในการสร้างเอฟเฟกต์เสียงที่หลากหลายอีกด้วย ตั้งแต่เสียงพื้นหลังเล็กๆ น้อยๆ เช่น เสียงใบไม้กรอบแกรบหรือเสียงฮัมของเครื่องจักร ไปจนถึงภาพเสียงที่สมจริงและซับซ้อนมากขึ้น เช่น ถนนในเมืองที่พลุกพล่านหรือสภาพแวดล้อมทางธรรมชาติ โมเดลสามารถสร้างองค์ประกอบเสียงได้หลากหลาย

คุณสมบัติการสร้างเอฟเฟกต์เสียงที่ได้รับการปรับปรุงนี้มีประโยชน์อย่างยิ่งสำหรับผู้สร้างเนื้อหาที่ทำงานในภาพยนตร์ โทรทัศน์ วิดีโอเกม และโปรเจ็กต์มัลติมีเดีย ด้วย Stable Audio 2.0 ผู้ใช้สามารถสร้างเอฟเฟกต์เสียงคุณภาพสูงได้อย่างรวดเร็วและง่ายดาย ซึ่งอาจจำเป็นต้องใช้งานโฟลีย์อย่างกว้างขวางหรือทรัพย์สินลิขสิทธิ์ที่มีราคาแพง

การถ่ายโอนสไตล์

Stable Audio 2.0 นำเสนอคุณสมบัติการถ่ายโอนสไตล์ที่ช่วยให้ผู้ใช้สามารถปรับเปลี่ยนคุณภาพสุนทรียภาพและโทนเสียงของเสียงที่สร้างขึ้นหรืออัปโหลดได้อย่างราบรื่น ความสามารถนี้ช่วยให้ผู้สร้างสามารถปรับแต่งเอาท์พุตเสียงให้ตรงกับธีม ประเภท หรืออารมณ์อันแฝงเร้นของโปรเจ็กต์ของตนได้

ด้วยการใช้การถ่ายโอนสไตล์ ผู้ใช้สามารถทดลองกับสไตล์ดนตรีที่แตกต่างกัน ผสมผสานแนวเพลง หรือสร้างชุดสีเสียงใหม่ทั้งหมด คุณสมบัตินี้มีประโยชน์อย่างยิ่งสำหรับการสร้างเพลงประกอบที่ลงตัว การปรับเพลงให้เหมาะกับเนื้อหาภาพที่เฉพาะเจาะจง หรือการสำรวจการผสมผสานและรีมิกซ์ที่สร้างสรรค์

ความก้าวหน้าทางเทคโนโลยีของ Stable Audio 2.0

ภายใต้ประทุน Stable Audio 2.0 ขับเคลื่อนโดยเทคโนโลยี AI ล้ำสมัยที่ให้ประสิทธิภาพที่น่าประทับใจและเอาต์พุตคุณภาพสูง สถาปัตยกรรมของโมเดลได้รับการออกแบบอย่างพิถีพิถันเพื่อรับมือกับความท้าทายเฉพาะตัวในการสร้างองค์ประกอบเสียงที่สอดคล้องและมีความยาวเต็มรูปแบบ ขณะเดียวกันก็รักษาการควบคุมรายละเอียดอย่างละเอียด

สถาปัตยกรรมแบบจำลองการแพร่กระจายแฝง

หัวใจสำคัญของ Stable Audio 2.0 คือสถาปัตยกรรมโมเดลการแพร่กระจายแฝงที่ได้รับการปรับให้เหมาะกับการสร้างเสียง สถาปัตยกรรมนี้ประกอบด้วยสององค์ประกอบหลัก: การบีบอัดสูง ตัวเข้ารหัสอัตโนมัติ และ หม้อแปลงกระจาย (ดิท).

ตัวเข้ารหัสอัตโนมัติมีหน้าที่ในการบีบอัดรูปคลื่นเสียงดิบให้เป็นรูปแบบกะทัดรัดได้อย่างมีประสิทธิภาพ การบีบอัดนี้ช่วยให้โมเดลสามารถบันทึกคุณสมบัติที่สำคัญของเสียงในขณะที่กรองรายละเอียดที่สำคัญน้อยกว่าออกไป ส่งผลให้เอาต์พุตที่สร้างขึ้นมีความสอดคล้องและมีโครงสร้างมากขึ้น

หม้อแปลงกระจายแบบเดียวกับที่ใช้ในรุ่น Stable Diffusion 3 อันล้ำสมัยของ Stability AI เข้ามาแทนที่สถาปัตยกรรม U-Net แบบดั้งเดิมที่ใช้ในเวอร์ชันก่อนหน้า DiT เชี่ยวชาญเป็นพิเศษในการจัดการลำดับข้อมูลที่ยาว ทำให้เหมาะอย่างยิ่งสำหรับการประมวลผลและสร้างองค์ประกอบเสียงเพิ่มเติม

ปรับปรุงประสิทธิภาพและคุณภาพ

การผสมผสานระหว่างตัวเข้ารหัสอัตโนมัติที่มีการบีบอัดสูงและหม้อแปลงกระจายช่วยให้ Stable Audio 2.0 ได้รับการพัฒนาอย่างน่าทึ่งทั้งในด้านประสิทธิภาพและคุณภาพเอาต์พุตเมื่อเปรียบเทียบกับรุ่นก่อน

การบีบอัดที่มีประสิทธิภาพของตัวเข้ารหัสอัตโนมัติช่วยให้โมเดลสามารถประมวลผลและสร้างเสียงได้ในอัตราที่เร็วขึ้น ลดทรัพยากรการคำนวณที่จำเป็น และทำให้ผู้ใช้ในวงกว้างสามารถเข้าถึงได้มากขึ้น ในเวลาเดียวกัน ความสามารถของหม้อแปลงกระจายในการจดจำและสร้างโครงสร้างขนาดใหญ่ทำให้มั่นใจได้ว่าเสียงที่สร้างขึ้นจะรักษาความสอดคล้องและความสมบูรณ์ทางดนตรีในระดับสูง

ความก้าวหน้าทางเทคโนโลยีเหล่านี้ถึงจุดสูงสุดในรูปแบบที่สามารถสร้างเสียงที่สมจริงและสะท้อนอารมณ์ได้อย่างน่าทึ่ง ไม่ว่าจะเป็นการเรียบเรียงดนตรีความยาวเต็ม ฉากเสียงที่ซับซ้อน หรือเอฟเฟกต์เสียงที่ละเอียดอ่อน สถาปัตยกรรมของ Stable Audio 2.0 วางรากฐานสำหรับนวัตกรรมในอนาคตในด้านเสียงที่สร้างโดย AI ปูทางไปสู่เครื่องมือที่ซับซ้อนและแสดงออกได้มากขึ้นสำหรับผู้สร้าง

สิทธิ์ของผู้สร้างพร้อมเสียงที่เสถียร 2.0

เนื่องจากเสียงที่สร้างโดย AI ยังคงก้าวหน้าและเข้าถึงได้มากขึ้น จึงจำเป็นอย่างยิ่งที่จะต้องจัดการกับผลกระทบทางจริยธรรมและรับรองว่าสิทธิ์ของผู้สร้างได้รับการคุ้มครอง Stability AI ได้ดำเนินขั้นตอนเชิงรุกเพื่อจัดลำดับความสำคัญของการพัฒนาด้านจริยธรรมและการจ่ายค่าตอบแทนที่ยุติธรรมสำหรับศิลปินที่ผลงานมีส่วนสนับสนุนการฝึกอบรม Stable Audio 2.0

Stable Audio 2.0 ได้รับการฝึกอบรมเฉพาะในชุดข้อมูลที่ได้รับอนุญาตจาก AudioSparx ซึ่งเป็นแหล่งเนื้อหาเสียงคุณภาพสูงที่มีชื่อเสียง ชุดข้อมูลนี้ประกอบด้วยไฟล์เสียงมากกว่า 800,000 ไฟล์ รวมถึงเพลง เอฟเฟกต์เสียง และก้านเครื่องดนตรีเดี่ยว พร้อมด้วยข้อมูลเมตาของข้อความที่เกี่ยวข้อง ด้วยการใช้ชุดข้อมูลที่ได้รับอนุญาต Stability AI ช่วยให้มั่นใจได้ว่าโมเดลนั้นสร้างขึ้นจากพื้นฐานของข้อมูลเสียงที่ได้รับมาอย่างถูกกฎหมายและมีการระบุแหล่งที่มาอย่างเหมาะสม

ด้วยตระหนักถึงความสำคัญของความเป็นอิสระของผู้สร้าง Stability AI จึงเปิดโอกาสให้ศิลปินทุกคนที่มีผลงานรวมอยู่ในชุดข้อมูล AudioSparx สามารถเลือกไม่ใช้เสียงของตนในการฝึกอบรม Stable Audio 2.0 กลไกการเลือกไม่รับนี้ช่วยให้ผู้สร้างสามารถควบคุมวิธีใช้งานผลงานของตนได้ และรับประกันว่าเฉพาะผู้ที่พอใจกับเสียงที่ใช้สำหรับการฝึกอบรม AI เท่านั้นที่จะรวมอยู่ในชุดข้อมูล

Stability AI มุ่งมั่นที่จะสร้างความมั่นใจว่าผู้สร้างที่มีผลงานในการพัฒนา Stable Audio 2.0 จะได้รับการชดเชยอย่างยุติธรรมสำหรับความพยายามของพวกเขา ด้วยการออกใบอนุญาตชุดข้อมูล AudioSparx และการให้ตัวเลือกในการยกเลิก บริษัทแสดงให้เห็นถึงความทุ่มเทในการสร้างระบบนิเวศที่ยั่งยืนและเสมอภาคสำหรับเสียงที่สร้างโดย AI ซึ่งผู้สร้างจะได้รับความเคารพและได้รับรางวัลสำหรับการมีส่วนร่วมของพวกเขา

เพื่อปกป้องสิทธิ์ของผู้สร้างและป้องกันการละเมิดลิขสิทธิ์ Stability AI ได้ร่วมมือกับ Audible Magic ผู้ให้บริการชั้นนำด้านเทคโนโลยีการจดจำเนื้อหา ด้วยการรวมระบบการจดจำเนื้อหาขั้นสูง (ACR) ของ Audible Magic เข้ากับกระบวนการอัปโหลดเสียง ทำให้ Stable Audio 2.0 สามารถระบุและทำเครื่องหมายเนื้อหาที่อาจละเมิดได้ ทำให้มั่นใจได้ว่าจะใช้เฉพาะเสียงต้นฉบับหรือเสียงที่ได้รับอนุญาตอย่างถูกต้องภายในแพลตฟอร์ม

ด้วยการพิจารณาด้านจริยธรรมและความคิดริเริ่มที่เน้นผู้สร้างเป็นศูนย์กลาง Stability AI ได้สร้างแบบอย่างที่แข็งแกร่งสำหรับการพัฒนา AI ที่รับผิดชอบในโดเมนเสียง ด้วยการจัดลำดับความสำคัญของสิทธิของผู้สร้างและการกำหนดแนวทางที่ชัดเจนสำหรับการใช้ข้อมูลและการชดเชย บริษัทส่งเสริมสภาพแวดล้อมการทำงานร่วมกันและยั่งยืน ซึ่ง AI และความคิดสร้างสรรค์ของมนุษย์สามารถอยู่ร่วมกันและเจริญเติบโตได้

กำหนดอนาคตของการสร้างสรรค์เสียงด้วย AI ที่มีเสถียรภาพ

Stable Audio 2.0 ถือเป็นหลักชัยสำคัญในด้านเสียงที่สร้างโดย AI โดยเพิ่มศักยภาพให้กับผู้สร้างด้วยชุดเครื่องมือที่ครอบคลุมเพื่อสำรวจขอบเขตใหม่ๆ ในด้านดนตรี การออกแบบเสียง และการผลิตเสียง ด้วยสถาปัตยกรรมโมเดลการแพร่กระจายแฝงที่ล้ำสมัย ประสิทธิภาพที่น่าประทับใจ และความมุ่งมั่นในการพิจารณาตามหลักจริยธรรมและสิทธิ์ของผู้สร้าง Stability AI จึงเป็นแนวหน้าในการกำหนดอนาคตของการสร้างสรรค์เสียง ในขณะที่เทคโนโลยีนี้ยังคงมีการพัฒนาอย่างต่อเนื่อง เป็นที่ชัดเจนว่าเสียงที่สร้างโดย AI จะมีบทบาทสำคัญในภูมิทัศน์ที่สร้างสรรค์ โดยมอบเครื่องมือที่ศิลปินและนักดนตรีจำเป็นต้องใช้เพื่อก้าวข้ามขอบเขตของงานฝีมือและกำหนดนิยามใหม่ให้กับสิ่งที่เป็นไปได้ในโลก ของเสียง

หัวข้อที่เกี่ยวข้อง:ความมั่นคง ai

ต่อไป

การเพิ่มขึ้นของแบบจำลองพื้นฐานอนุกรมเวลาสำหรับการวิเคราะห์และการพยากรณ์ข้อมูล

อย่าพลาด

ศูนย์ข้อมูล GPU ทำให้เกิดความเครียดกับกริดพลังงาน: การสร้างสมดุลระหว่างนวัตกรรม AI และการใช้พลังงาน

อเล็กซ์ แมคฟาร์แลนด์

Alex McFarland เป็นนักเขียนด้านเทคโนโลยีที่ครอบคลุมการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาเคยร่วมงานกับสตาร์ทอัพและสิ่งพิมพ์ด้าน AI ทั่วโลก

ยูไนเต็ด.เอไอ

Stability AI เปิดตัว Stable Audio 2.0: เพิ่มศักยภาพให้กับผู้สร้างด้วยเสียงที่สร้างโดย AI ขั้นสูง

ปัญญาประดิษฐ์

Stability AI เปิดตัว Stable Audio 2.0: เพิ่มศักยภาพให้กับผู้สร้างด้วยเสียงที่สร้างโดย AI ขั้นสูง

สารบัญ