Connect with us

Tankeledare

Framtiden för podcasting är AI

mm

Grovt räknat lanseras cirka 22 000 nya poddar varje månad. Det finns nästan 2,5 miljoner (mer än 71 miljoner avsnitt) i Apple Podcasts-katalogen just nu, enligt Podcast Industry Insights. Och det är bara de som vi känner till.

“Många poddare går inte ens genom de stora plattformarna längre. De går direkt till sina lyssnare, säljer premiuminnehåll och har stor framgång”, säger Andy Taylor, tidigare på BBC Radio och grundare av Cardiff-baserade R&D-konsultföretaget Bwlb.

Och det är inte ens att tala om den växande volymen podcast-liknande innehåll, antingen skapat av varumärken för promotion eller evenemangsproducenter som vill, till exempel, göra tal tillgängliga på begäran. Varje innehållsdel behöver produceras och distribueras, antingen av ljudproffs eller personer som lär sig hantverket. Därför, ju mer de kan automatisera stora delar av produktionen, desto mer kan de fokusera på innehållet.

“De olika platserna där ljud publiceras har exploderat”, förklarar Jonathan Wyner, chefsingenjör på M Works Mastering och professor på Berklee College of Music i Boston. “Med alla dessa sammanhang finns det en verklig motivation och imperativ för skapare att vara mer mångsidiga.”

Inte att förglömma, mer produktiva och effektiva.

AI:s uppgång

Artificiell intelligens (AI) — programvara som kan automatisera uppgifter som tidigare gjordes av människor — innehåller nyckeln till att hantera tsunamin av podcast-innehåll. Inte bara kan AI påskynda produktionen, utan den kan också göra poddar låta bättre och skapa scenen för de audio-upplevelser som kommer i morgon.

“AI hjälper i princip till att ta hand om repetitiva uppgifter för att påskynda poddarens arbetsflöde”, förklarar Manos Chourdakis, forskningsingenjör på Nomono, som utvecklar AI-baserade podcast-verktyg. “Till exempel, med AI, behöver du inte lyssna på en hel podcast för att hitta var någon sa något fel, sedan ersätta eller ta bort det. Du kunde göra det själv, men AI gör det snabbare.”

Sedan finns det sysslor som bara kan utföras med AI — åtminstone i stor skala, såsom att ta bort brus eller förbättra dialog. “Högkvalitativ dialogförbättring vore omöjlig utan AI”, säger Chourdakis. “Åtminstone omöjlig inom en rimlig tidsram med traditionella verktyg.”

Perfekt för meniala uppgifter

Tillämpningar av AI i podcasting är lika varierade som produktionsuppgifterna. Vissa är byggda direkt in i podcast-plattformarna. När skaparna laddar upp sina poddar till värdplattformen Podcast.co, “lyssnar” systemet automatiskt på ljudfilerna och normaliserar ljudnivåerna.

“Varje verktyg som kan hjälpa till att minska de hjärndöda delarna av ett jobb är en bra sak”, säger Mike Cunsolo, plattformens medgrundare. Cunsolo driver också Cue, ett podcast-produktionsföretag som arbetar med varumärken, och Matchmaker.fm, som kopplar samman podcast-produserare med gäster. “Du kommer alltid att behöva det mänskliga expertis-elementet, men snart kan maskiner lära sig att förstå vad som gör en podcast intressant och minska tiden på uppgiften.”

Lösningstillhandahållaren Descript tillämpar AI på många aspekter av podcast-teknik, inklusive brusreducering och ekokontroll. En av de mer “hjärndöda” sysslor som Descript kan hantera är rumston.

“Ibland behöver producenter infoga digital tystnad i en podcast. Kanske mellan redigeringar eller för att dra ut avståndet mellan meningar”, säger Jay LeBoeuf, chef för affärs- och företagsutveckling på Descript. “Men det låter otroligt onaturligt.”

Om producenterna inte fångade rumston när en podcast spelades in, kan de behöva gå tillbaka och få det. Eller de kan lyssna på det i inspelningen, kopiera och klistra in där det behövs, sedan redigera resultatet för att göra det blanda naturligt.

Eller datorer kan hantera det. Descripts AI-baserade rumstonsgenerator analyserar en inspelning, identifierar rumstonen och syntetiserar den automatiskt där den behövs. Sådan teknik inte bara undanröjer meniala uppgifter, utan tillåter också större produktionsflexibilitet.

“AI kommer att tillåta oss att använda billigare hårdvara, sämre ljudsalar och bullrigare platser och fortfarande få bra resultat”, säger Nomono’s Chourdakis.

Nya AI-baserade funktioner

AI öppnar också dörren till innovation inom podcasting — skapar nya lösningar som höjer ribban för poddare och lyssnare. Till exempel hjälper verktyget Epidemic Audio Reference (EAR) poddare att hitta upphovsrättsfria låtar baserat på låtar de gillar.

“Säg att du letar efter musik för intro eller outro, och du tänker på en specifik låt, men den är skyddad av upphovsrätt”, säger Chourdakis. “Systemet använder AI under huven för att hjälpa dig hitta något liknande.”

På Bwlb utvecklade Taylors team Accordion, en AI-baserad lösning som kan ta en podcast och reproducera den i olika längder.

“Varje annan del av våra liv blir smartare — smarta hem, smarta kylskåp”, säger Taylor. “Människor vill ha mer kontroll och bekvämlighet från sin podcast-upplevelse också.”

När Taylor arbetade med dokumentärer för BBC, blev han ombedd att skapa kortare versioner för att köras på olika plattformar. Processen var alltid manuell. Accordion tillämpar mjukvarualgoritmer på podcast-innehåll för att intelligent skapa versioner av olika längder. “Det påskyndar ingenting”, säger Taylor, “men det ger användaren kontroll över innehållets varaktighet utan att förlora tonstruktur eller lyssningsbarhet.”

Fokusera på immersiv berättande

Ju mer poddare använder AI-verktyg, desto bättre blir de. Med andra ord, ju mer data de konsumerar, desto mer lär de sig.

Nomono’s dialogförbättringsalgoritmer baseras på stora datamängder av röstinspelningar — vissa rena och tydliga, vissa mindre så — som lär AI-verktygen att generera bättre ljud. “Poddare bör inte behöva ha avancerad ljudkunskap för att producera högkvalitativt ljud”, säger Chourdakis. “Genom att automatisera vissa av dessa uppgifter kan de spendera mer tid på att fokusera på stor berättande, och mindre tid på tråkiga rensningsuppgifter.”

Och i framtiden kan de utvecklas mer lätt för att skapa en ny genre av immersiva, rumsliga poddar. Till exempel möjliggör Nomono’s teknik objektbaserad ljudproduktion, som tillåter producenter att “placera” röster i en 3D-ljudlandskap eller skapa dynamiska versioner som kan anpassas till lyssnare.

“Medieproduktion har nu gått in i en fas där om du kan drömma det, kan det hända”, säger Descripts LeBoeuf. “Och du behöver inte längre ha ett dyrt studio eller decennier av utbildning för att uppnå dina mål.”

Brad Grimes är en långvarig teknisk journalist och tidigare kommunikationsdirektör för Audiovisual and Integrated Experience Association.