Følg os

Kunstig intelligens

Modulate introducerer ensemble-lyttemodeller og omdefinerer, hvordan AI forstĂĄr den menneskelige stemme

mm

Kunstig intelligens har udviklet sig hurtigt, men Ă©t omrĂĄde har været konstant vanskeligt: ​​virkelig at forstĂĄ den menneskelige stemme. Ikke kun de ord, der tales, men ogsĂĄ følelserne bag dem, intentionen formet af tone og timing, og de subtile signaler, der adskiller venlig drillerier fra frustration, bedrag eller skade. I dag, Moduler annoncerede et stort gennembrud med introduktionen af Ensemble Lyttemodel (ELM), en ny AI-arkitektur designet specifikt til virkelighedsnær stemmeforstĂĄelse.

Sammen med forskningsmeddelelsen afslørede Modulate Velma 2.0, den første produktionsimplementering af en Ensemble Listening Model. Virksomheden rapporterer, at Velma 2.0 overgår førende grundlæggende modeller i samtalepræcision, samtidig med at den opererer til en brøkdel af prisen, en bemærkelsesværdig påstand på et tidspunkt, hvor virksomheder revurderer bæredygtigheden af ​​storstilede AI-implementeringer.

Hvorfor stemme har været vanskelig for AI

De fleste AI-systemer, der analyserer tale, følger en velkendt tilgang. Lyd konverteres til tekst, og transskriptionen behandles derefter af en stor sprogmodel. Selvom denne proces er effektiv til transskription og opsummering, fjerner den meget af det, der gør stemme meningsfuld.

Tone, følelsesmæssig bøjning, tøven, sarkasme, overlappende tale og baggrundsstøj bærer alle vigtig kontekst. Når tale flades ud til tekst, går disse dimensioner tabt, hvilket ofte resulterer i fejlfortolkning af hensigten eller følelser. Dette bliver især problematisk i miljøer som kundesupport, svindelopsporing, online spil og AI-drevet kommunikation, hvor nuancer direkte påvirker resultaterne.

Ifølge Modulate er denne begrænsning arkitektonisk snarere end datadrevet. Store sprogmodeller er optimeret til tekstforudsigelse, ikke til at integrere flere akustiske og adfærdsmæssige signaler i realtid. Ensemble Listening Models blev skabt for at udfylde dette hul.

Hvad er en ensemble-lyttemodel?

En ensemble-lyttemodel er ikke et enkelt neuralt netværk, der er trænet til at gøre alt på én gang. I stedet er det et koordineret system, der består af mange specialiserede modeller, der hver især er ansvarlige for at analysere en forskellig dimension af en stemmeinteraktion.

Inden for en ELM undersøger separate modeller følelser, stress, bedragsindikatorer, talerens identitet, timing, prosodi, baggrundsstøj og potentielle syntetiske eller imiterede stemmer. Disse signaler synkroniseres gennem et tidsjusteret orkestreringslag, der producerer en samlet og forklarlig fortolkning af, hvad der sker i en samtale.

Denne eksplicitte arbejdsdeling er central for ELM-tilgangen. I stedet for at stole på en enkelt massiv model til at udlede implicit mening, kombinerer Ensemble Listening Models flere målrettede perspektiver, hvilket forbedrer både nøjagtighed og gennemsigtighed.

Inde i Velma 2.0

Velma 2.0 er en væsentlig videreudvikling af Modulates tidligere ensemblebaserede systemer. Det bruger mere end 100 komponentmodeller, der arbejder sammen i realtid og er struktureret på tværs af fem analytiske lag.

Det første lag fokuserer på grundlæggende lydbehandling, bestemmelse af antallet af talere, taletiming og pauser. Dernæst kommer akustisk signaludtrækning, som identificerer følelsesmæssige tilstande, stressniveauer, bedragssignaler, syntetiske stemmemarkører og miljøstøj.

Det tredje lag vurderer den opfattede hensigt og skelner mellem oprigtig ros og sarkastiske eller fjendtlige bemærkninger. Adfærdsmodellering sporer derefter samtaledynamikken over tid og markerer frustration, forvirring, scriptet tale eller forsøg på social engineering. Det sidste lag, samtaleanalyse, omsætter disse indsigter til virksomhedsrelevante begivenheder såsom utilfredse kunder, politikovertrædelser, potentiel svindel eller funktionsfejl i AI-agenter.

Modulate rapporterer, at Velma 2.0 forstår samtalens betydning og intention cirka 30 procent mere præcist end førende LLM-baserede tilgange, samtidig med at den er mellem 10 og 100 gange mere omkostningseffektiv i stor skala.

Fra spilmoderering til virksomhedsintelligens

Oprindelsen til Ensemble Listening Models ligger i Modulates tidlige arbejde med onlinespil. Populære titler som Call of Duty og Grand Theft Auto Online genererer nogle af de mest udfordrende stemmemiljøer, man kan forestille sig. Samtaler er hurtige, støjende, følelsesladede og fyldt med slang og kontekstuelle referencer.

At adskille legende trash talk fra ægte chikane i realtid kræver langt mere end transskription. Da Modulate drev sit stemmemodereringssystem, ToxMod, samlede den gradvist stadig mere komplekse ensembler af modeller for at indfange disse nuancer. Koordinering af snesevis af specialiserede modeller blev afgørende for at opnå den nødvendige nøjagtighed, hvilket i sidste ende førte til, at teamet formaliserede tilgangen i en ny arkitektonisk ramme.

Velma 2.0 generaliserer denne arkitektur ud over spil. I dag driver den Modulates virksomhedsplatform og analyserer hundredvis af millioner af samtaler på tværs af brancher for at identificere svindel, misbrug, kundeutilfredshed og unormal AI-aktivitet.

En udfordring for fondsmodeller

Meddelelsen kommer på et tidspunkt, hvor virksomheder revurderer deres AI-strategier. Trods massive investeringer, en stor procentdel af AI-initiativer når ikke produktion eller levere varig værdi. Almindelige hindringer inkluderer hallucinationer, eskalerende omkostninger til inferens, uigennemsigtig beslutningstagning og vanskeligheder med at integrere AI-indsigt i operationelle arbejdsgange.

Ensemble-lyttemodeller adresserer disse problemer direkte. Ved at benytte mange mindre, specialbyggede modeller i stedet for et enkelt monolitisk system er ELM'er billigere at drifte, lettere at revidere og mere fortolkelige. Hvert output kan spores tilbage til specifikke signaler, hvilket giver organisationer mulighed for at forstĂĄ, hvorfor en konklusion blev nĂĄet.

Dette niveau af gennemsigtighed er især vigtigt i regulerede eller højrisikomiljøer, hvor black-box-beslutninger er uacceptable. Modulér positioner ELM'er, ikke som en erstatning for store sprogmodeller, men som en mere passende arkitektur til stemmeintelligens i virksomhedsklassen.

Ud over tale til tekst

Et af de mest fremsynede aspekter ved Velma 2.0 er dens evne til at analysere, hvordan noget bliver sagt, ikke kun hvad der bliver sagt. Dette inkluderer at detektere syntetiske eller efterlignede stemmer, en voksende bekymring i takt med at stemmegenereringsteknologi bliver mere tilgængelig.

Efterhånden som stemmekloning forbedres, står virksomheder over for stigende risici relateret til svindel, identitetsspoofing og social engineering. Ved at integrere syntetisk stemmedetektion direkte i sit ensemble behandler Velma 2.0 autenticitet som et kernesignal snarere end et valgfrit tilføjelsesprogram.

Systemets adfærdsmodellering muliggør også proaktiv indsigt. Det kan identificere, hvornår en taler læser op fra et manuskript, hvornår frustrationen eskalerer, eller hvornår en interaktion bevæger sig mod konflikt. Disse funktioner gør det muligt for organisationer at gribe ind tidligere og mere effektivt.

En ny retning for virksomhedens AI

Moduler beskriver Ensemble Listening Model som en ny kategori af AI-arkitektur, der adskiller sig fra bĂĄde traditionelle signalbehandlingsrørledninger og store fundamentale modeller. Den underliggende indsigt er, at komplekse menneskelige interaktioner bedre forstĂĄs gennem koordineret specialisering snarere end brute-force-skalering.

I takt med at virksomheder kræver AI-systemer, der er ansvarlige, effektive og i overensstemmelse med reelle driftsbehov, peger Ensemble Listening Models mod en fremtid, hvor intelligens samles fra mange fokuserede komponenter. Med Velma 2.0 nu live i produktionsmiljøer, satser Modulate på, at dette arkitektoniske skift vil give genlyd langt ud over stemmestyring og kundesupport.

I en branche, der søger efter alternativer til stadigt større sorte bokse, antyder Ensemble Listening Models, at det næste store fremskridt inden for AI kan komme fra at lytte mere omhyggeligt, ikke blot at beregne mere aggressivt.

Antoine er en visionær leder og grundlægger af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for kunstig intelligens og robotteknologi. Som serieiværksætter mener han, at kunstig intelligens vil være lige så forstyrrende for samfundet som elektricitet, og han bliver ofte fanget i at begejstre for potentialet i forstyrrende teknologier og AGI.

Som en fremtidsforsker, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han stifter af Værdipapirer.io, en platform fokuseret på at investere i banebrydende teknologier, der omdefinerer fremtiden og omformer hele sektorer.