Artificiell intelligens

Spelutvecklare ser till röst-AI för nya kreativa möjligheter

Published September 16, 2020

Updated April 28, 2026

Daniel Nelson

Ljudsyntesteknologi, särskilt talsyntes, har blivit mycket mer avancerad under de senaste åren. Medan text-till-tal-teknologi har funnits i decennier, har tekniken blivit mycket mer naturlig och realistisk. Senaste algoritmerna kan ta bara några timmars ljud och syntetisera högrealistiska ljudprover. När tekniken utvecklas, öppnas fler tillämpningar, inklusive möjligheter inom kreativ media. Nyligen, som rapporterats av VentureBeat, har videospelbolag börjat undersöka användningen av AI-röstgenerering för att producera dialog för videospel.

Ett företag, Leviathan Games, har börjat implementera röst-AI inom spel som de för närvarande utvecklar. Wyeth Ridgway, ägaren av Leviathan Games, förklarade att röst-AI kunde förändra speldesign på dramatiska sätt. Ridgway förklarade att användningen av röst-AI i speldesign är en framväxande trend, och jämförde det med hur 3D-animationsprogram har förändrats under det senaste decenniet, med företag som Pixar som skapar proprietär programvara avsedd att underlätta animation och modellering.

Traditionella metoder för att generera tal fungerar genom att lägga till förinspelade ljudfiler tillsammans på flyget, syande meningar samman från tidigare existerande ord och fraser. Denna metod för talgenerering kräver inspelning av hundratals timmars dialog och manuell märkning av ljudklipp. Det låter också något onaturligt eftersom betoning och ton tendens att skifta över ord. I jämförelse låter den senaste röst-AI betydligt mer naturlig och fungerar på ett annat sätt.

Röst-AI baseras på djupa neuronnät. WaveNet var en av de första AI som kunde generera övertygande, naturligljudande ljudprover. Eftersom ljudproverna genereras från scratch finns det inget behov av att förinspela hundratals timmars dialog, så länge tillräckligt träningsdata är tillgängligt. Optimerade GANs och LSTM-modeller kan generera ljud efter att ha tränats på bara några timmars märkt ljud. Resultaten kan vara extraordinärt övertygande, som när Googles Duplex-experiment ringde till en frisör för att boka en tid.

När dessa teknologier blir mer kraftfulla, standardiserade och lättillgängliga genom molnberäkning, är det troligt att fler speltillverkare kommer att vända sig till röst-AI för att minska produktions tid och kostnader. Vissa företag skapar redan modeller som kan användas av speltillverkare. Replica Studios specialiserar sig på AI-röstteknologi, och vissa ljudprover genererade av deras teknologi kan höras på länkarna här och här.

Det är osannolikt att speltillverkare kommer att välja att avstå från att använda röstskådespelare över AI. I själva verket kan röst-AI öppna upp fler möjligheter för röstskådespelare. För närvarande hoppar många spelföretag ofta över att ha talad dialog på grund av den tidsåtgång och kostnader som är förknippade med skapandet av talad dialog. Röstskådespelare måste ofta kallas tillbaka för fler inspelningssessioner om det finns ändringar i manuset eller om speldirektörer vill ha en annan typ av prestation. Röst-AI kan användas för att experimentera med/prototypa dialog, för att få en känsla för vilka typer av manusändringar och revisioner som behöver göras innan man kallar in en professionell röstskådespelare för att spela in manuset. Detta kan leda till att fler företag har resurserna att investera i skapandet av talad dialog.

AI-röstmodeller kan till och med tränas på en specifik röstskådespelares röst, och AI användas för att generera triviala dialogklipp, så länge skådespelaren får betalt för användningen av sin röst. Som rapporterats av VentureBeat, är röstskådespelare som Simon J. Smith optimistiska om den ökande användningen av AI-röstmodeller och deras potential att öppna upp nya möjligheter för röstskådespelare.

Utöver användningen av röst-AI för att prototypa manus eller skapa talade linjer för mindre karaktärer, kan speltillverkare också använda röst-AI för att ge spelare fler anpassningsalternativ för rollspel. För närvarande har till och med spel som tillåter spelare att välja en röst för sina avatarer vanligtvis bara ett fåtal alternativ. Med användningen av röst-AI kan alternativen vara funktionellt obegränsade.

Related Topics:audio sound Speech speech generation voice AI

Daniel Nelson

Blogger och programmerare med specialområden inom Machine Learning och Deep Learning ämnen. Daniel hoppas på att hjälpa andra att använda kraften från AI för socialt väl.

Unite.AI

Spelutvecklare ser till röst-AI för nya kreativa möjligheter

You may like