Искусственный интеллект
Исследователи ИИ разрабатывают программу для генерации звуковых эффектов для фильмов и других медиа

Исследователи из Университета Техаса в Сан-Антонио создали приложение на основе ИИ, способное наблюдать за действиями, происходящими в видео, и создавать искусственные звуковые эффекты, соответствующие этим действиям. Звуковые эффекты, сгенерированные программой, якобы настолько реалистичны, что когда людей опросили, они обычно думали, что звуковые эффекты являются законными.
Программа, ответственная за генерацию звуковых эффектов, AudioFoley, была описана в исследовании, недавно опубликованном в IEEE Transactions on Multimedia. Согласно IEEE Spectrum, программу ИИ разработали Джефф Превост, профессор Университета Техаса в Сан-Антонио, и аспирант Санчита Гхозе. Исследователи создали программу, используя несколько моделей машинного обучения, объединенных вместе.
Первой задачей в генерации звуковых эффектов, подходящих для действий на экране, было распознавание этих действий и сопоставление их со звуковыми эффектами. Для этого исследователи разработали две разные модели машинного обучения и протестировали их разные подходы. Первая модель работает, извлекая кадры из видео, которое она получает, и анализируя эти кадры для получения соответствующих функций, таких как движения и цвета. Затем вторая модель была использована для анализа того, как меняется положение объекта во времени, чтобы извлечь временную информацию. Эта временная информация используется для предсказания следующих вероятных действий в видео. Две модели имеют разные методы анализа действий в клипе, но они обе используют информацию, содержащуюся в клипе, чтобы угадать, какой звук лучше всего сопровождать его.
Следующей задачей является синтез звука, и это достигается путем сопоставления действий/предсказанных движений с возможными звуковыми образцами. Согласно Гхозе и Превосту, AutoFoley была использована для генерации звука для 1000 коротких клипов, в которых были представлены действия и предметы, такие как огонь, бегущий конь, тикающие часы и дождь, падающий на растения. Хотя AutoFoley была наиболее успешной в создании звука для клипов, где не нужно было идеальное совпадение между действиями и звуками, и она испытывала трудности при совпадении клипов, где действия происходили с большим разнообразием, программа все же смогла обмануть многих человеческих наблюдателей, заставив их выбрать сгенерированные звуки вместо исходного звука, сопровождавшего клип.
Превост и Гхозе набрали 57 студентов колледжа и показали им разные клипы. Некоторые клипы содержали исходный аудио, некоторые содержали аудио, сгенерированное AutoFoley. Когда была протестирована первая модель, примерно 73% студентов выбрали синтезированный аудио как исходный аудио, игнорируя настоящий звук, сопровождавший клип. Другая модель показала slightly хуже результат, с только 66% участников, выбравших сгенерированный аудио вместо исходного аудио.
Превост объяснил, что AutoFoley потенциально может быть использована для ускорения процесса производства фильмов, телевидения и других медиа. Превост отмечает, что реалистичный трек Фоли важен для того, чтобы сделать медиа привлекательными и правдоподобными, но что процесс Фоли часто занимает значительное количество времени. Имея автоматизированную систему, которая могла бы справиться с созданием основных элементов Фоли, производство медиа может стать дешевле и быстрее.
В настоящее время AutoFoley имеет некоторые заметные ограничения. Во-первых, хотя модель似乎 работает хорошо при наблюдении событий со стабильными, предсказуемыми движениями, она испытывает трудности при генерации аудио для событий с вариацией во времени (например, гроз). Кроме того, она также требует, чтобы классифицируемый предмет присутствовал в整个 клипе и не выходил из кадра. Исследовательская команда направлена на решение этих проблем в будущих версиях приложения.












