Verbind je met ons

Artificial Intelligence

Modulate introduceert ensemble-luistermodellen en herdefinieert hoe AI de menselijke stem begrijpt.

mm

Kunstmatige intelligentie heeft zich razendsnel ontwikkeld, maar één gebied is consistent lastig gebleven: het echt begrijpen van de menselijke stem. Niet alleen de gesproken woorden, maar ook de emotie erachter, de intentie die wordt gevormd door toon en timing, en de subtiele signalen die vriendelijk geklets onderscheiden van frustratie, bedrog of kwetsende opmerkingen. Vandaag de dag, Moduleren kondigde een belangrijke doorbraak aan met de introductie van de Ensemble Listening Model (ELM), een nieuwe AI-architectuur die specifiek is ontworpen voor spraakherkenning in de praktijk.

Naast de aankondiging van het onderzoek onthulde Modulate ook het volgende: Velma 2.0Dit is de eerste productie-implementatie van een Ensemble Listening Model. Het bedrijf meldt dat Velma 2.0 de toonaangevende basismodellen overtreft in conversatienauwkeurigheid, terwijl het tegen een fractie van de kosten werkt. Dit is een opmerkelijke bewering in een tijd waarin bedrijven de duurzaamheid van grootschalige AI-implementaties heroverwegen.

Waarom spraakherkenning lastig is voor AI

De meeste AI-systemen die spraak analyseren, volgen een bekende aanpak. Audio wordt omgezet in tekst, en dat transcript wordt vervolgens verwerkt door een groot taalmodel. Hoewel dit proces effectief is voor transcriptie en samenvatting, gaat er veel verloren van wat spraak betekenisvol maakt.

Toon, emotionele intonatie, aarzeling, sarcasme, spraakoverlapping en achtergrondgeluiden bevatten allemaal belangrijke contextuele elementen. Wanneer spraak wordt omgezet in tekst, gaan deze dimensies verloren, wat vaak resulteert in... verkeerde interpretatie van de bedoeling of sentiment. Dit wordt vooral problematisch in omgevingen zoals klantenservice, fraudedetectie, online gaming en AI-gestuurde communicatie, waar nuances direct van invloed zijn op de uitkomst.

Volgens Modulate is deze beperking eerder architectonisch dan datagedreven. Grote taalmodellen zijn geoptimaliseerd voor tekstvoorspelling, niet voor het in realtime integreren van meerdere akoestische en gedragssignalen. Ensemble Listening Models zijn ontwikkeld om deze lacune op te vullen.

Wat is een ensemble-luistermodel?

Een ensemble-luistermodel is geen enkel neuraal netwerk dat is getraind om alles tegelijk te doen. Het is eerder een gecoördineerd systeem dat bestaat uit vele gespecialiseerde modellen, die elk verantwoordelijk zijn voor het analyseren van een andere dimensie van een spraakinteractie.

Binnen een ELM (Emotional Language Model) onderzoeken afzonderlijke modellen emotie, stress, indicatoren van misleiding, de identiteit van de spreker, timing, prosodie, achtergrondgeluid en mogelijke synthetische of geïmiteerde stemmen. Deze signalen worden gesynchroniseerd via een tijdgealigneerde orchestratielaag die een uniforme en verklaarbare interpretatie produceert van wat er in een gesprek gebeurt.

Deze expliciete taakverdeling staat centraal in de ELM-aanpak. In plaats van te vertrouwen op één groot model om impliciet betekenis af te leiden, combineren Ensemble Listening Models meerdere gerichte perspectieven, waardoor zowel de nauwkeurigheid als de transparantie worden verbeterd.

Binnenin Velma 2.0

Velma 2.0 is een aanzienlijke evolutie van Modulate's eerdere ensemble-gebaseerde systemen. Het maakt gebruik van meer dan 100 componentmodellen die in realtime samenwerken, gestructureerd over vijf analytische lagen.

De eerste laag richt zich op basisaudioverwerking, waarbij het aantal sprekers, de spraaktiming en pauzes worden bepaald. Vervolgens vindt de extractie van akoestische signalen plaats, waarmee emotionele toestanden, stressniveaus, signalen van misleiding, synthetische stemmarkeringen en omgevingsgeluid worden geïdentificeerd.

De derde laag beoordeelt de waargenomen intentie en maakt onderscheid tussen oprechte lof en sarcastische of vijandige opmerkingen. Gedragsmodellering volgt vervolgens de dynamiek van het gesprek in de loop van de tijd en signaleert frustratie, verwarring, ingestudeerd taalgebruik of pogingen tot social engineering. De laatste laag, gespreksanalyse, vertaalt deze inzichten naar bedrijfsrelevante gebeurtenissen zoals ontevreden klanten, beleidsschendingen, mogelijke fraude of slecht functionerende AI-agenten.

Modulate meldt dat Velma 2.0 de betekenis en intentie van gesprekken ongeveer 30 procent nauwkeuriger begrijpt dan toonaangevende LLM-gebaseerde benaderingen, terwijl het op grote schaal 10 tot 100 keer kosteneffectiever is.

Van gamemoderatie tot bedrijfsintelligentie

De oorsprong van Ensemble Listening Models ligt in Modulate's vroege werk met online games. Populaire titels zoals Call of Duty en Grand Theft Auto Online genereren een aantal van de meest uitdagende spraakomgevingen die je je kunt voorstellen. Gesprekken zijn snel, rumoerig, emotioneel geladen en vol slang en contextuele verwijzingen.

Het onderscheiden van speelse plagerijen van echte intimidatie in realtime vereist veel meer dan alleen transcriptie. Toen Modulate zijn spraakmoderatiesysteem gebruikte, ToxModHet team stelde geleidelijk steeds complexere modellen samen om deze nuances vast te leggen. Het coördineren van tientallen gespecialiseerde modellen werd essentieel voor het bereiken van de vereiste nauwkeurigheid, wat er uiteindelijk toe leidde dat het team de aanpak formaliseerde in een nieuw architecturaal raamwerk.

Velma 2.0 generaliseert die architectuur buiten de gamingwereld. Tegenwoordig vormt het de basis van Modulate's bedrijfsplatform, dat honderden miljoenen gesprekken in verschillende sectoren analyseert om fraude, misbruik, klantontevredenheid en afwijkende AI-activiteit te identificeren.

Een uitdaging voor stichtingsmodellen

De aankondiging komt op een moment dat bedrijven hun AI-strategieën herzien. Ondanks enorme investeringen, Een groot percentage van de AI-initiatieven bereikt de productiefase niet. of blijvende waarde leveren. Veelvoorkomende obstakels zijn onder andere: hallucinaties, stijgende inferentiekosten, ondoorzichtige besluitvorming en moeilijkheden bij het integreren van AI-inzichten in operationele werkprocessen.

Ensemble Listening Models (ELM's) pakken deze problemen direct aan. Door gebruik te maken van vele kleinere, speciaal ontwikkelde modellen in plaats van één monolithisch systeem, zijn ELM's goedkoper in gebruik, gemakkelijker te controleren en beter interpreteerbaar. Elke output kan worden herleid tot specifieke signalen, waardoor organisaties kunnen begrijpen waarom een ​​bepaalde conclusie is getrokken.

Dit niveau van transparantie is vooral belangrijk in gereguleerde of risicovolle omgevingen waar beslissingen zonder duidelijke structuur onaanvaardbaar zijn. Modulate positioneert ELM's niet als vervanging voor grote taalmodellen, maar als een meer geschikte architectuur voor spraakintelligentie op bedrijfsniveau.

Meer dan spraak naar tekst

Een van de meest vooruitstrevende aspecten van Velma 2.0 is het vermogen om te analyseren hoe iets wordt gezegd, en niet alleen wat er wordt gezegd. Dit omvat het detecteren van synthetische of geïmiteerde stemmen, een groeiende zorg nu spraakgeneratietechnologie toegankelijker wordt.

Naarmate stemklonen verbetert, lopen bedrijven steeds meer risico op fraude, identiteitsvervalsing en social engineering. Door synthetische stemdetectie direct in de software te integreren, beschouwt Velma 2.0 authenticiteit als een kernsignaal in plaats van een optionele toevoeging.

De gedragsmodellering van het systeem maakt ook proactieve inzichten mogelijk. Het kan detecteren wanneer een spreker een script voorleest, wanneer frustratie oploopt of wanneer een interactie dreigt uit te monden in een conflict. Deze mogelijkheden stellen organisaties in staat om eerder en effectiever in te grijpen.

Een nieuwe richting voor AI in het bedrijfsleven

Moduleren Het Ensemble Listening Model wordt beschreven als een nieuwe categorie AI-architectuur, die zich onderscheidt van zowel traditionele signaalverwerkingspipelines als grote basismodellen. Het onderliggende inzicht is dat complexe menselijke interacties beter begrepen worden door gecoördineerde specialisatie dan door brute-force schaalvergroting.

Nu bedrijven AI-systemen eisen die verantwoordelijk, efficiënt en afgestemd zijn op de daadwerkelijke operationele behoeften, wijzen Ensemble Listening Models de weg naar een toekomst waarin intelligentie wordt samengesteld uit vele gerichte componenten. Nu Velma 2.0 in productieomgevingen draait, gokt Modulate erop dat deze architectonische verschuiving veel verder zal reiken dan alleen spraakmoderatie en klantenservice.

In een industrie die op zoek is naar alternatieven voor steeds grotere, ondoorzichtige systemen, suggereren Ensemble Listening Models dat de volgende grote doorbraak in AI wellicht voortkomt uit beter luisteren, in plaats van simpelweg agressiever te rekenen.

Antoine is een visionair leider en oprichter van Unite.AI, gedreven door een onwrikbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Als serieel ondernemer gelooft hij dat AI net zo ontwrichtend voor de maatschappij zal zijn als elektriciteit, en wordt hij vaak betrapt op het uiten van lyrische verhalen over de potentie van ontwrichtende technologieën en AGI.

Als futuristisch, hij is toegewijd aan het onderzoeken hoe deze innovaties onze wereld zullen vormgeven. Daarnaast is hij de oprichter van Effecten.io, een platform dat zich richt op investeringen in geavanceerde technologieën die de toekomst opnieuw definiëren en hele sectoren opnieuw vormgeven.