Artificial Intelligence
Game-ontwikkelaars kijken naar Voice AI voor nieuwe creatieve kansen

De technologie voor geluidssynthese, met name spraaksynthese, is de afgelopen jaren veel geavanceerder geworden. Hoewel tekst-naar-spraaktechnologie al tientallen jaren bestaat, klinkt de technologie veel natuurlijker. Recente algoritmen kunnen slechts een paar uur audio in beslag nemen en zeer realistische audiofragmenten synthetiseren. Naarmate de technologie vordert, komen er meer toepassingen beschikbaar, waaronder mogelijkheden in creatieve media. Onlangs, zoals gerapporteerd door VentureBeat, zijn videogamebedrijven begonnen met het onderzoeken van het gebruik van AI-spraakgeneratie om dialogen voor videogames te produceren.
Een bedrijf, Leviathan-spellen, is begonnen met het implementeren van spraak-AI in games die ze momenteel ontwikkelen. Wyeth Ridgway, de eigenaar van Leviathan Games, legde uit dat stem-AI het ontwerp van games op dramatische manieren kan veranderen. Ridgway legde uit dat het gebruik van stem-AI bij het ontwerpen van games een opkomende trend is, en vergeleek het met hoe 3D-animatiesoftware in de loop van het afgelopen decennium is veranderd, waarbij bedrijven als Pixar eigen software hebben gemaakt die bedoeld is om animatie en modellering te vergemakkelijken.
Traditionele methoden voor het genereren van spraak werken door vooraf opgenomen geluidsbestanden direct aan elkaar toe te voegen en zinnen samen te voegen uit eerder bestaande woorden en zinnen. Deze methode van spraakgeneratie vereist de opname van honderden uren aan dialogen en het handmatig labelen van geluidsfragmenten. Het klinkt ook wat onnatuurlijk omdat verbuiging en nadruk de neiging hebben om over woorden te verschuiven. Ter vergelijking: state-of-the-art stem-AI klinkt aanzienlijk natuurlijker en werkt op een andere manier.
Voice AI is gebaseerd op diepe neurale netwerken. WaveNet was een van de eerste AI's die overtuigende, natuurlijk klinkende audiofragmenten kon genereren. Aangezien de geluidsvoorbeelden helemaal opnieuw worden gegenereerd, is het niet nodig om honderden uren aan dialogen vooraf op te nemen, zolang er maar voldoende trainingsgegevens beschikbaar zijn. Geoptimaliseerde GAN's en LSTM-modellen kunnen audio genereren nadat ze zijn getraind op slechts een paar uur gelabelde audio. De resultaten kunnen buitengewoon overtuigend zijn, zoals bij het Duplex-experiment van Google een kapsalon gebeld om een ​​afspraak te maken.
Naarmate deze technologieën krachtiger, gestandaardiseerder en gemakkelijker toegankelijk worden via cloudcomputing, is het waarschijnlijk dat meer gameontwikkelaars zich zullen richten op spraakgestuurde AI om de productietijd en -kosten te verlagen. Sommige bedrijven ontwikkelen al modellen die mogelijk door gameontwikkelaars kunnen worden gebruikt. Replica Studio's is gespecialiseerd in AI-spraaktechnologie en sommige audiofragmenten die door hun technologie zijn gegenereerd, zijn te horen op links hier en hier.
Het is onwaarschijnlijk dat game-ontwikkelaars ervoor zullen kiezen om af te zien van het gebruik van stemacteurs in plaats van AI. Stem-AI zou zelfs meer mogelijkheden kunnen bieden voor stemacteurs. Momenteel slaan veel game-ontwikkelingsbedrijven het gebruik van gesproken dialogen vaak over vanwege de tijdsinvestering en kosten die gepaard gaan met het maken van gesproken dialogen. Stemacteurs moeten vaak worden teruggehaald voor meer opnamesessies als er wijzigingen in het script zijn of als gameregisseurs een ander soort uitvoering willen. Voice AI kan worden gebruikt om te experimenteren met/prototyperen van dialoog, om een ​​idee te krijgen van wat voor soort scriptwijzigingen en revisies er moeten worden aangebracht voordat een professionele stemacteur wordt ingeschakeld om het script op te nemen. Dit zou ertoe kunnen leiden dat meer bedrijven de middelen hebben om te investeren in het creëren van voiced dialog.
AI-stemmodellen kunnen zelfs worden getraind op de stem van een specifieke stemacteur, en de AI kan worden gebruikt om triviale dialoogfragmenten te genereren, zolang de acteur wordt betaald voor het gebruik van zijn stem. Dat meldt VentureBeat, stemacteurs zoals Simon J. Smith, zijn optimistisch over het toenemende gebruik van stem-AI-modellen en hun potentieel om nieuwe mogelijkheden voor stemacteren te creëren.
Naast het gebruik van stem-AI om scripts te prototypen of stemhebbende regels voor minder belangrijke karakters te maken, kunnen game-ontwikkelaars ook stem-AI gebruiken om spelers meer aanpassingsmogelijkheden te geven voor rollenspellen. Momenteel hebben zelfs games waarbij spelers een stem voor hun avatars kunnen kiezen, doorgaans slechts een handvol opties. Met het gebruik van stem-AI kunnen de opties functioneel onbeperkt zijn.