Kunstig intelligens

Meta præsenterer talegenereringsmodel Voicebox

Udgivet den 17. juni 2023

Opdateret den 23. maj 2026

Alex McFarland

Meta har nylig taget et betydeligt skridt i retning af generativ kunstig intelligens til tale, ved at præsentere en ny AI-model kaldet Voicebox. Denne udvikling repræsenterer et væsentligt skridt fremad i forskningen i generativ AI, og viser potentiale for fremtidige anvendelser i en række områder.

Voicebox, Metas nye AI-model, repræsenterer et gennembrud i talegenerering. Den bemærkelsesværdige funktion ved Voicebox er dens evne til at udføre opgaver, den ikke er blevet udtrykkeligt trænet til at gøre, ved at udnytte kraften i kontekstlæring. Dette giver Voicebox mulighed for at producere højkvalitets lydklip og redigere forindspillet lyd, såsom fjernelse af uønskede lyde som bilhorn eller hundegøen, samtidig med at den bevarende indholdet og stilen i lyden. Modellen er også flersproget og kan generere tale på seks forskellige sprog.

Opkomsten af flerformålsgenerative AI-modeller som Voicebox peger mod en spændende fremtid. De kunne tjene til at give naturligtløsende stemmer til virtuelle assistenter og ikke-spillere i metaverset, give synshandicappede mennesker mulighed for at høre skrevne meddelelser fra venner læst af AI i deres stemmer, og give skabere innovative værktøjer til at skabe og redigere lydspor til videoer, blandt mange andre muligheder.

Voicebox’ fleksible muligheder

Voicebox’ fleksibilitet omfatter en række opgaver, og præsenterer sig som et innovativt værktøj i lyd- og AI-rummet:

Konteksttekst-til-tale-syntese: Voicebox kan bruge en kort lydprøve, så kort som to sekunder, til at matche lydstilen for tekst-til-tale-generering.
Tale-redigering og støjreduktion: Voicebox kan genskabe afbrudte dele af tale eller erstatte forkerte ord uden at skulle optage hele talen igen. I virkeligheden fungerer den som en viskelæder for lydredigering, og tilbyder en unik løsning på almindelige lydudfordringer.
Kryds-sproglig stiloverføring: Voicebox kan generere en læsning af en tekst på ethvert af de seks sprog, selv hvis lydprøven og teksten er på forskellige sprog. Denne funktion kunne være afgørende for at hjælpe mennesker med at kommunikere ægte, selv hvis de ikke deler et fælles sprog.
Varieret taleprøvning: Takket være dens varierede dataindlæring kan Voicebox generere tale, der repræsenterer variationen i virkeligt tal, på tværs af seks sprog.

En lovende fremtid for generativ AI

Præsentationen af Voicebox er en kritisk milepæl i forskningen i generativ AI. Dens udvikling viser, hvordan AI udvikler sig og kommer tættere på at forstå og reproducere nuancerne i menneskelig kommunikation. De mulige anvendelser af Voicebox er enorme, fra at forbedre virtuel kommunikation til at give skabere mere avancerede redigeringsværktøjer, og hele vejen til at bryde sprogbarrierer.

Men selv om mulighederne er spændende, er det også nødvendigt at overveje de etiske implikationer af sådan en teknologi. Evnen til, at AI-modeller som Voicebox kan efterligne enkelte stemmer, rejser spørgsmål om samtykke og privatliv. Hvordan vil disse teknologier blive reguleret for at sikre, at de bliver brugt ansvarligt? Hvordan vil vi beskytte enkeltpersoners stemmer mod at blive udnyttet eller misbrugt? Disse udfordringer er noget, som virksomheder som Meta vil være nødt til at adressere, da generativ AI fortsætter med at udvikle sig.

Voicebox er kun begyndelsen. Da andre forskere bygger videre på Metas arbejde, holder fremtiden for lyd- og generativ AI-forskning mange løfter og muligheder. Vi står på tærsklen til en ny æra i kunstig intelligens, en æra der fortsætter med at udviske grænserne mellem det digitale og det fysiske.

Alex McFarland

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.

Unite.AI

Meta præsenterer talegenereringsmodel Voicebox

Voicebox’ fleksible muligheder

En lovende fremtid for generativ AI

You may like