ปัญญาประดิษฐ์
นักวิจัย AI ออกแบบโปรแกรมเพื่อสร้างเสียงเอฟเฟกต์สำหรับภาพยนตร์และสื่ออื่น ๆ

นักวิจัยจากมหาวิทยาลัยเท็กซัสซานอันโตนิโอได้สร้างแอปพลิเคชัน AI ที่สามารถสังเกตการกระทำในวิดีโอและสร้างเสียงเอฟเฟกต์เทียมที่ตรงกับการกระทำเหล่านั้น เสียงเอฟเฟกต์ที่สร้างโดยโปรแกรมมีความสมจริงมากจนเมื่อมีการสำรวจผู้สังเกตการณ์มนุษย์ พวกเขามักคิดว่าเสียงเอฟเฟกต์เหล่านั้นเป็นของแท้
โปรแกรมที่รับผิดชอบในการสร้างเสียงเอฟเฟกต์ คือ AudioFoley ซึ่งได้รับการอธิบายไว้ในการศึกษาที่ตีพิมพ์เมื่อเร็ว ๆ นี้ใน IEEE Transactions on Multimedia ตาม IEEE Spectrum โปรแกรม AI นี้ถูกพัฒนาโดย Jeff Provost ศาสตราจารย์ที่ UT San Antonio และ Sanchita Ghose นักศึกษาระดับ博士 การวิจัยได้สร้างโปรแกรมโดยใช้โมเดลการเรียนรู้ของเครื่องหลายรุ่นที่เชื่อมต่อกัน
งานแรกในการสร้างเสียงเอฟเฟกต์ที่เหมาะสมกับการกระทำบนหน้าจอ คือ การรู้จำการกระทำเหล่านั้นและแมปเสียงเอฟเฟกต์ให้ตรงกัน เพื่อให้บรรลุเป้าหมายนี้ นักวิจัยได้ออกแบบโมเดลการเรียนรู้ของเครื่องสองรุ่นและทดสอบแนวทางที่แตกต่างกัน โมเดลแรกทำงานโดยการถอดเฟรมจากวิดีโอที่ได้รับและวิเคราะห์เฟรมเหล่านั้นสำหรับคุณลักษณะที่เกี่ยวข้อง เช่น การเคลื่อนไหวและสี หลังจากนั้น โมเดลที่สองถูกนำมาใช้เพื่อวิเคราะห์ว่าตำแหน่งของวัตถุเปลี่ยนแปลงอย่างไรข้ามเฟรม เพื่อถอดข้อมูลเชิงเวลา ข้อมูลเชิงเวลานี้ใช้เพื่อคาดการณ์การกระทำที่อาจเกิดขึ้นต่อไปในวิดีโอ โมเดลทั้งสองมีวิธีการวิเคราะห์การกระทำในคลิปที่แตกต่างกัน แต่ทั้งสองโมเดลใช้ข้อมูลที่อยู่ในคลิปเพื่อคาดเดาว่าเสียงใดที่จะเหมาะสมที่สุด
งานต่อไปคือ การสังเคราะห์เสียง ซึ่งทำได้โดยการแมปการกระทำ/การเคลื่อนไหวที่คาดการณ์ไว้กับตัวอย่างเสียงที่เป็นไปได้ ตาม Ghose และ Prevost AutoFoley ถูกใช้ในการสร้างเสียงสำหรับคลิปสั้น 1,000 คลิป ซึ่งมีการกระทำและวัตถุ เช่น ไฟ ม้ากำลังวิ่ง นาฬิกาที่ติ๊กๆ และฝนที่ตกบนพืช ในขณะที่ AutoFoley มีความสำเร็จมากที่สุดในการสร้างเสียงสำหรับคลิปที่ไม่ต้องการความตรงกันที่สมบูรณ์แบบระหว่างการกระทำและเสียง และมีปัญหาในการจับคู่คลิปที่การกระทำเกิดขึ้นด้วยความผันผวนมากขึ้น โปรแกรม仍สามารถหลอกลวงผู้สังเกตการณ์มนุษย์หลายคนให้เลือกเสียงที่สร้างขึ้นมากกว่าเสียงที่ติดมากับคลิป
Prevost และ Ghose ได้รับสมัครนักศึกษามหาวิทยาลัย 57 คน และให้พวกเขา观看คลิปต่างๆ บางคลิปมีเสียงดั้งเดิม บางคลิปมีเสียงที่สร้างโดย AutoFoley เมื่อโมเดลแรกถูกทดสอบ ประมาณ 73% ของนักศึกษาที่เลือกเสียงสังเคราะห์เป็นเสียงดั้งเดิม โดยไม่สนใจเสียงที่แท้จริงที่ติดมากับคลิป โมเดลที่สองมีประสิทธิภาพน้อยกว่าเล็กน้อย โดยมีเพียง 66% ของผู้เข้าร่วมที่เลือกเสียงที่สร้างขึ้นมากกว่าเสียงดั้งเดิม
Prevost อธิบายว่า AutoFoley สามารถใช้เพื่อเร่งกระบวนการผลิตภาพยนตร์ โทรทัศน์ และสื่ออื่นๆ ได้ Prevost กล่าวว่าเสียงฟอลีย์ที่สมจริงมีความสำคัญในการทำให้สื่อน่าดึงดูดและน่าเชื่อถือ แต่กระบวนการฟอลีย์มักจะใช้เวลานานในการทำเสร็จ การมีระบบอัตโนมัติที่สามารถจัดการการสร้างองค์ประกอบฟอลีย์พื้นฐานได้สามารถทำให้การผลิตสื่อถูกและเร็วขึ้น
ปัจจุบัน AutoFoley มีข้อจำกัดที่สำคัญอยู่บ้าง เช่น โมเดลนี้ดูเหมือนจะทำงานได้ดีในการสังเกตเหตุการณ์ที่มีการเคลื่อนไหวที่คงที่และคาดการณ์ได้ แต่มีปัญหาในการสร้างเสียงสำหรับเหตุการณ์ที่มีความผันผวนในเวลา (เช่น พายุฝนฟ้า) นอกจากนี้ยังต้องมีการจำแนกประเภทที่มีอยู่ในคลิปทั้งหมดและไม่ออกจากเฟรม ทีมวิจัยมีเป้าหมายที่จะแก้ไขปัญหาเหล่านี้ในเวอร์ชันอนาคตของแอปพลิเคชัน












