Лідери думок
Майбутнє подкастів – це штучний інтелект

Говорячи приблизно, близько 22 000 нових подкастів запускаються щомісяця. За даними Podcast Industry Insights, у каталозі Apple Podcasts зараз є близько 2,5 мільйона подкастів (більше 71 мільйона епізодів). І це тільки ті, про які ми знаємо.
“Багато подкастерів тепер не проходять через великі платформи. Вони йдуть напряму до своїх слухачів, продають преміум-контент і мають великий успіх”, – говорить Енді Тейлор, колишній працівник BBC Radio і засновник кардіффської компанії з досліджень і розробок Bwlb.
І це не кажучи про зростаючий обсяг контенту, подібного до подкастів, створеного брендами для просування або продюсерами подій, які хочуть, наприклад, зробити свої виступи доступними онлайн. Кожен контент потрібно створити і поширити, як професійними аудіоінженерами, так і людьми, які тільки вчаться цьому ремеслу. Тому чим більше вони можуть автоматизувати великі ділянки виробництва, тим більше вони можуть зосередитися на контенті.
“Різні місця, де публікується аудіо, просто вибухнули”, – пояснює Джонатан Вайнер, головний інженер компанії M Works Mastering і професор Беркліського коледжу музики в Бостоні. “З усього цього контексту існує реальна мотивація і імператив для творців бути більш універсальними”.
Не кажучи вже про те, що вони повинні бути більш продуктивними і ефективними.
Поява штучного інтелекту
Штучний інтелект (AI) – програмне забезпечення, яке може автоматизувати завдання, раніше виконувані людьми, – володіє ключем до обробки цунамі подкаст-контенту. Не тільки AI може прискорити виробництво, але й зробити подкасти звучати краще і створити сцену для аудіо-досвідів завтрашнього дня.
“AI基本но допомагає позбутися повторюваних завдань, щоб прискорити робочий процес подкастера”, – пояснює Манос Чурдакіс, дослідницький інженер компанії Nomono, яка розробляє інструменти для подкастів на основі AI. “Наприклад, з AI ви не повинні слухати весь подкаст, щоб знайти місце, де хтось сказав щось неправильно, а потім замінити або видалити це. Ви можете зробити це самостійно, але AI робить це швидше”.
Потім є завдання, які можна виконувати тільки з допомогою AI -至少 у масштабі, наприклад, видалення шуму або покращення діалогу. “Якісне покращення діалогу було б неможливим без AI”, – говорить Чурдакіс. “Хоча б у розумному часові масштабі з використанням традиційних інструментів”.
Ідеально підходить для рутинних завдань
Застосування AI у подкастах так само різноманітні, як і завдання виробництва. Деякі з них побудовані безпосередньо у платформи подкастів. Коли творці завантажують свої подкасти на платформу хостингу Podcast.co, система автоматично “слухає” аудіофайли і нормалізує рівні звуку.
“Будь-який інструмент, який може допомогти зменшити монотонність роботи, є хорошим”, – говорить Майк Кунсоло, співзасновник платформи. Кунсоло також керує Cue, компанією з виробництва подкастів, яка працює з корпоративними брендами, і Matchmaker.fm, яка підключає продюсерів подкастів до гостей. “Вам завжди буде потрібен той людський експертний елемент, але скоро машини зможуть вивчити, що робить подкаст цікавим, і зменшити час на завдання”.
Постачальник рішень Descript застосовує AI до багатьох аспектів інженерії подкастів, включаючи видалення шуму і контроль ехо. Одним із більш “монотонних” завдань, які Descript може виконувати, є тон кімнати.
“Іноді продюсерам потрібно вставити цифрову тишу в подкаст. Можливо, між монтажами або щоб витягнути простір між реченнями”, – говорить Джей Лебоеф, голова бізнесу і корпоративного розвитку компанії Descript. “Але це звучить неймовірно нерівномірно”.
Якщо продюсери не захопили тон кімнати під час запису подкасту, їм може потрібно повернутися і отримати його. Або вони можуть слухати за ним у записі, копіювати і вставляти його там, де потрібно, а потім редагувати результат, щоб зробити його звучати природно.
Або комп’ютери можуть зайнятися цим. Генератор тона кімнати Descript на основі AI аналізує запис, визначає тон кімнати і автоматично синтезує його там, де це потрібно. Така технологія не тільки усуває монотонні завдання, але й дозволяє збільшити гнучкість виробництва.
“AI дозволить нам використовувати menos дороге обладнання, гірші кімнати для запису і шумніші місця, і все ж таки отримувати хороші результати”, – говорить Чурдакіс з Nomono.
Нові можливості на основі AI
AI також відкриває двері до інновацій у сфері подкастів – створення нових рішень, які підвищують планку для подкастерів і слухачів. Наприклад, інструмент Epidemic Audio Reference (EAR) допомагає подкастерам знайти музику без права власності на основі пісень, які їм подобаються.
“Наприклад, ви шукаєте музику для вступу або виходу, і ви думаєте про конкретну пісню, але вона захищена авторським правом”, – говорить Чурдакіс. “Система використовує AI, щоб допомогти вам знайти щось схоже”.
У Bwlb команда Тейлора розробила Accordion, рішення на основі AI, яке може взяти подкаст і відтворити його різної тривалості.
“Усі інші частини нашого життя стають розумнішими – розумні будинки, розумні холодильники”, – говорить Тейлор. “Люди хочуть більше контролю і зручності від свого досвіду подкастів теж”.
Коли Тейлор працював над документальними фільмами для BBC, його просили створити коротші версії для різних платформ. Процес завжди був ручним. Accordion застосовує програмні алгоритми до контенту подкастів, щоб інтелектуально створити версії різної тривалості. “Це не прискорює нічого”, – говорить Тейлор, – “але це дає користувачеві контроль над тривалістю контенту без втрати тональної структури або слуховості”.
Фокус на іммерсивному оповіданні
Чим більше подкастери використовують інструменти AI, тим краще вони стають. Інакше кажучи, чим більше даних вони споживають, тим більше вони вчаться.
Алгоритми покращення діалогу Nomono засновані на великих наборах даних голосових записів – деяких чистих і зрозумілих, деяких менш зрозумілих – які вчать інструменти AI, як генерувати кращий звук. “Подкастерам не повинні мати просунуті знання аудіо, щоб створювати високоякісний аудіо”, – говорить Чурдакіс. “Автоматизуючи деякі з цих завдань, вони можуть витратити більше часу на створення великого оповідання, а не на монотонні завдання з видалення шуму”.
І в майбутньому вони зможуть еволюціонувати легше, щоб створити новий жанр іммерсивних, просторових подкастів. Наприклад, технологія Nomono дозволяє виробляти об’єктно-орієнтований аудіо, який дозволяє продюсерам “розміщувати” голоси у тривимірному звуковому просторі або створювати динамічні версії, які можна налаштувати під слухачів.
“Виробництво медіа зараз вступає в фазу, коли якщо ви можете це уявити, то це можливо”, – говорить Лебоеф з Descript. “І вам більше не потрібно мати дорогий студійний комплекс або десятиліття тренувань, щоб досягти своїх цілей”.












