Liderzy opinii
Przyszłość podcastingu to sztuczna inteligencja

Mówiąc ogólnie, około 22 000 nowych podcastów jest uruchamianych w miesiącu. Jest około 2,5 miliona (ponad 71 milionów odcinków) w katalogu Apple Podcasts, według Podcast Industry Insights. I to są tylko te, o których wiemy.
“Wiele podcastów nie przechodzi już przez duże platformy. Idą bezpośrednio do swoich słuchaczy, sprzedając premium treści i odnosząc duży sukces”, mówi Andy Taylor, były pracownik BBC Radio i założyciel konsultingowej firmy Bwlb z siedzibą w Cardiff.
I to nie mówi nic o rosnącej ilości treści podobnych do podcastów, czy to stworzonych przez marki w celach promocyjnych, czy przez producentów wydarzeń, którzy chcą, na przykład, udostępnić swoje wykłady na żądanie. Każdy kawałek treści musi być wyprodukowany i rozpowszechniony, czy to przez profesjonalistów audio, czy przez ludzi uczących się tego fachu. Dlatego im więcej mogą zautomatyzować dużych części produkcji, tym więcej mogą się skoncentrować na treści.
“Różne miejsca, w których publikowany jest audio, wybuchły”, wyjaśnia Jonathan Wyner, główny inżynier w Berklee College of Music w Bostonie. “Z tymi wszystkimi kontekstami jest prawdziwa motywacja i imperatyw dla twórców, aby być bardziej wszechstronnymi”.
Nie mówiąc już o tym, aby być bardziej produktywnymi i wydajnymi.
Wzrost AI
Sztuczna inteligencja (AI) — oprogramowanie, które może zautomatyzować zadania wcześniej wykonywane przez ludzi — posiada klucz do radzenia sobie z falą treści podcastowych. AI nie tylko może przyspieszyć produkcję, ale także sprawić, że podcasty będą brzmieć lepiej i przygotować scenę dla audio doświadczeń jutra.
“AI podstawowo pomaga zadbać o powtarzalne zadania, aby przyspieszyć workflow podcastera”, wyjaśnia Manos Chourdakis, inżynier badawczy w Nomono, który rozwija narzędzia podcastowe oparte na AI. “Na przykład, z AI, nie musisz słuchać całego podcastu, aby znaleźć miejsce, w którym ktoś powiedział coś źle, a następnie zastąpić lub usunąć to. Mógłbyś to zrobić sam, ale AI robi to szybciej”.
Potem są zadania, które można wykonać tylko z AI — przynajmniej w skali, takie jak usuwanie szumu lub poprawa dialogu. “Dobrze jakościowa poprawa dialogu byłaby niemożliwa bez AI”, mówi Chourdakis. “Przynajmniej niemożliwa w rozsądnym czasie przy użyciu tradycyjnych narzędzi”.
Idealne dla zadań podrzędnych
Zastosowania AI w podcastingu są tak różnorodne, jak zadania produkcyjne. Niektóre są wbudowane bezpośrednio w platformy podcastowe. Gdy twórcy uploadują swoje podcasty na platformę hostingową Podcast.co, system automatycznie “słucha” plików audio i normalizuje poziomy dźwięku.
“Każde narzędzie, które może pomóc zmniejszyć nudne części pracy, jest dobrą rzeczą”, mówi Mike Cunsolo, współzałożyciel platformy. Cunsolo również prowadzi Cue, firmę produkcyjną podcastów, która współpracuje z markami korporacyjnymi, oraz Matchmaker.fm, która łączy producentów podcastów z gośćmi. “Zawsze będziesz potrzebować tego ludzkiego elementu ekspertyzy, ale wkrótce maszyny będą mogły nauczyć się, co sprawia, że podcast jest interesujący i zmniejszyć czas pracy”.
Dostawca rozwiązań Descript stosuje AI do wielu aspektów inżynierii podcastowej, w tym usuwania szumu i kontroli echa. Jednym z bardziej “nudnych” zadań, które Descript może wykonać, jest ton pokoju.
“Czasami producenci muszą wstawić cyfrową ciszę do podcastu. Może to być między edycjami lub aby przeciągnąć przestrzeń między zdania”, mówi Jay LeBoeuf, szef biznesu i rozwoju korporacyjnego w Descript. “Ale to brzmi niesamowicie nienaturalnie”.
Jeśli producenci nie nagrali tonu pokoju, gdy podcast był nagrywany, mogą musieć wrócić i go dostać. Albo mogą posłuchać go w nagraniu, skopiować i wkleić tam, gdzie potrzebne, a następnie edytować wynik, aby zmieszać go naturalnie.
Albo komputery mogą to zrobić. Generator tonu pokoju Descript oparty na AI analizuje nagranie, identyfikuje ton pokoju i automatycznie syntetyzuje go tam, gdzie jest potrzebny. Taka technologia nie tylko eliminuje zadania podrzędne, ale także pozwala na większą elastyczność produkcji.
“AI pozwoli nam używać tańszego sprzętu, gorszych pomieszczeń i głośniejszych miejsc i nadal uzyskać dobre wyniki”, mówi Chourdakis z Nomono.
Nowe możliwości oparte na AI
AI również otwiera drzwi do innowacji w podcastingu — tworzenia nowych rozwiązań, które podnoszą poprzeczkę dla podcastów i słuchaczy. Na przykład, narzędzie Epidemic Audio Reference (EAR) pomaga podcastom znaleźć muzykę bez praw autorskich na podstawie piosenek, które im się podobają.
“Powiedzmy, że szukasz muzyki na intro lub outro, i myślisz o konkretnym utworze, ale jest on chroniony prawem autorskim”, mówi Chourdakis. “System używa AI, aby pomóc ci znaleźć coś podobnego”.
W Bwlb, zespół Taylora opracował Accordion, rozwiązanie oparte na AI, które może wziąć podcast i odtworzyć go w różnych długościach.
“Każe część naszego życia staje się inteligentniejsza — inteligentne domy, inteligentne lodówki”, mówi Taylor. “Ludzie chcą więcej kontroli i wygody ze swojego doświadczenia podcastowego również”.
Gdy Taylor pracował nad dokumentami dla BBC, był proszony o krótsze wersje do uruchomienia na różnych platformach. Proces był zawsze ręczny. Accordion stosuje algorytmy oprogramowania do treści podcastu, aby inteligentnie utworzyć wersje różnych długości. “To nie przyspiesza niczego”, mówi Taylor, “ale daje użytkownikowi kontrolę nad czasem trwania treści bez utraty struktury tonu lub słuchalności”.
Skoncentrowanie się na immersyjnym opowiadaniu
Im więcej podcastów używa narzędzi AI, tym lepsze one się stają. Innymi słowy, im więcej danych one spożywają, tym więcej uczą się.
Algorytmy poprawy dialogu Nomono opierają się na dużych zbiorach danych nagrań głosowych — niektóre czyste i zrozumiałe, niektóre mniej — które uczą narzędzi AI, jak generować lepszy dźwięk. “Podcasterzy nie powinni potrzebować zaawansowanej wiedzy audio, aby produkować wysokiej jakości audio”, mówi Chourdakis. “Poprzez zautomatyzowanie niektórych z tych zadań, mogą spędzać więcej czasu na koncentrowaniu się na wielkim opowiadaniu i mniej czasu na nudnych zadaniach czyszczenia”.
I w przyszłości mogą ewoluować łatwiej, aby stworzyć nowy gatunek immersyjnych, przestrzennych podcastów. Na przykład, technologia Nomono umożliwia produkcję audio opartą na obiektach, która pozwala producentom “umieścić” głosy w 3D przestrzeni dźwiękowej lub utworzyć dynamiczne wersje, które mogą być dostosowane do słuchaczy.
“Produkcja mediów wkracza teraz w fazę, w której jeśli możesz to wyobrazić, to może się wydarzyć”, mówi LeBoeuf z Descript. “I nie potrzebujesz już drogiego studia ani dekad treningu, aby osiągnąć swoje cele”.












