Kunstig intelligens

Meta avduker talegenereringsmodell Voicebox

Publisert 17. juni 2023

Oppdatert 23. mai 2026

Alex McFarland

Meta har nylig gjort et betydelig skritt i retning av generativ kunstig intelligens for tale, og presenterte en ny AI-modell kalt Voicebox. Denne utviklingen representerer et betydelig skritt fremover i generativ AI-forskning, og viser potensielle fremtidige anvendelser i en rekke områder.

Voicebox, Metas nye AI-modell, representerer et gjennombrudd i talegenerering. Den bemerkelsesverdige egenskapen til Voicebox er dens evne til å utføre oppgaver den ikke ble eksplisitt trent til å gjøre, ved å utnytte kraften i kontekstuell læring. Dette gjør det mulig for Voicebox å produsere høykvalitets lydklipp og redigere forhåndsinnspilt lyd, som å fjerne uønskede lyder som bilhorn eller hundebjeffing, samtidig som den beholder innholdet og stilen til lyden. Modellen er også flerspråklig og kan generere tale på seks forskjellige språk.

Oppdukningen av flerformål generative AI-modeller som Voicebox peker mot en spennende fremtid. De kan brukes til å gi naturlig lydende stemmer til virtuelle assistenter og ikke-spillere i metaverset, ermöglice synshemmede mennesker å høre skrevne meldinger fra venner lest av AI i deres stemmer, og gi skapere innovative verktøy til å lage og redigere lydspor for videoer, blant mange andre muligheter.

Voicebox’ mangfoldige evner

Voicebox’ mangfoldighet omfatter en rekke oppgaver, og presenterer seg som et innovativt verktøy i lyd- og AI-rommet:

Kontekstuell tekst-til-tale-syntese: Voicebox kan bruke en kort lydprøve, så kort som to sekunder, til å matche lydstilen for tekst-til-tale-generering.
Tale-redigering og støyreduksjon: Voicebox kan gjenskape avbrutte deler av tale eller erstatte feiluttalte ord uten å måtte innspille hele talen på nytt. I virkeligheten fungerer den som en “slett”-knapp for lydredigering, og tilbyr en unik løsning på vanlige lydutfordringer.
Kross-lingvistisk stiloverføring: Voicebox kan generere en lesning av en tekst på noen av de seks språkene, selv om eksempel-talen og teksten er på forskjellige språk. Denne evnen kan være avgjørende for å hjelpe mennesker kommunisere ekte, selv om de ikke deler et felles språk.
Mangfoldig taleprøving: Takket være dens mangfoldige datainlæring, kan Voicebox generere tale som representerer variasjonen i virkelige samtaler, på seks språk.

En lovende fremtid for generativ AI

Introduksjonen av Voicebox er et kritisk milepæl i generativ AI-forskning. Utviklingen av Voicebox viser hvordan AI utvikler seg, og kommer nærmere å forstå og replikere nyansene i menneskelig kommunikasjon. De potensielle anvendelsene for Voicebox er enorme, fra å forbedre virtuell kommunikasjon til å gi skapere mer avanserte verktøy for lydredigering, og helt til å bryte ned språkbarrierer.

Likevel, mens mulighetene er spennende, er det også nødvendig å vurdere de etiske implikasjonene av slike teknologier. Evnen til AI-modeller som Voicebox til å mime individuelle stemmer reiser spørsmål om samtykke og personvern. Hvordan vil disse teknologiene bli regulert for å sikre at de brukes ansvarlig? Hvordan vil vi beskytte enkeltpersoners stemmer mot å bli utnyttet eller misbrukt? Disse er utfordringer som selskaper som Meta må adresse når generativ AI fortsetter å utvikle seg.

Voicebox er bare begynnelsen. Når andre forskere bygger videre på Metas arbeid, holder fremtiden for audio-rom og generativ AI-forskning mye løfte og potensiale. Vi står på terskelen til en ny æra i kunstig intelligens, en som fortsatt utvisker grensene mellom det digitale og det fysiske.

Alex McFarland

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.

Unite.AI

Meta avduker talegenereringsmodell Voicebox

Voicebox’ mangfoldige evner

En lovende fremtid for generativ AI

You may like