Kontakt z nami

Modulate wprowadza modele słuchania zespołowego, redefiniując sposób, w jaki sztuczna inteligencja rozumie ludzki głos

Artificial Intelligence

Modulate wprowadza modele słuchania zespołowego, redefiniując sposób, w jaki sztuczna inteligencja rozumie ludzki głos

mm

Sztuczna inteligencja rozwija się dynamicznie, ale jeden obszar pozostaje niezmiennie trudny: prawdziwe zrozumienie ludzkiego głosu. Nie tylko wypowiadanych słów, ale także emocji, które się za nimi kryją, intencji kształtowanych przez ton i rytm, a także subtelnych sygnałów, które odróżniają przyjacielskie żarty od frustracji, oszustwa czy krzywdy. Dziś Modulować ogłosił przełom wraz z wprowadzeniem Model słuchania zespołowego (ELM), nowa architektura sztucznej inteligencji zaprojektowana specjalnie z myślą o rozumieniu głosu w realnym świecie.

Wraz z ogłoszeniem wyników badań firma Modulate zaprezentowała Welma 2.0, pierwsze wdrożenie produkcyjne modelu Ensemble Listening Model. Firma informuje, że Velma 2.0 przewyższa wiodące modele bazowe pod względem dokładności konwersacji, działając przy ułamku kosztów, co jest godnym uwagi stwierdzeniem w czasach, gdy przedsiębiorstwa ponownie oceniają stabilność wdrożeń AI na dużą skalę.

Dlaczego głos był trudny dla sztucznej inteligencji

Większość systemów sztucznej inteligencji analizujących mowę stosuje znane podejście. Dźwięk jest konwertowany na tekst, a transkrypcja jest następnie przetwarzana przez duży model językowy. Chociaż proces ten jest skuteczny w przypadku transkrypcji i streszczenia, usuwa on wiele elementów, które nadają głosowi znaczenie.

Ton, emocjonalna intonacja, wahanie, sarkazm, nakładająca się mowa i szum w tle – wszystkie te elementy niosą ze sobą istotny kontekst. Spłaszczenie mowy w tekście powoduje utratę tych wymiarów, co często prowadzi do… błędna interpretacja intencji lub sentyment. Staje się to szczególnie problematyczne w takich środowiskach jak obsługa klienta, wykrywanie oszustw, gry online i komunikacja oparta na sztucznej inteligencji, gdzie niuanse bezpośrednio wpływają na wyniki.

Według Modulate, ograniczenie to ma charakter architektoniczny, a nie wynika z danych. Duże modele językowe są optymalizowane pod kątem predykcji tekstu, a nie integracji wielu sygnałów akustycznych i behawioralnych w czasie rzeczywistym. Modele Ensemble Listening zostały stworzone, aby wypełnić tę lukę.

Czym jest model słuchania zespołowego?

Model Zespołowego Słuchania nie jest pojedynczą siecią neuronową wytrenowaną do wykonywania wszystkich funkcji naraz. Jest to skoordynowany system złożony z wielu wyspecjalizowanych modeli, z których każdy odpowiada za analizę innego wymiaru interakcji głosowej.

W ramach modelu ELM oddzielne modele analizują emocje, stres, wskaźniki oszustwa, tożsamość mówcy, synchronizację czasową, prozodię, szum tła oraz potencjalne głosy syntetyczne lub imitowane. Sygnały te są synchronizowane za pomocą warstwy orkiestracji zsynchronizowanej czasowo, która generuje ujednoliconą i możliwą do wyjaśnienia interpretację tego, co dzieje się w rozmowie.

Ten wyraźny podział pracy jest kluczowy dla podejścia ELM. Zamiast polegać na jednym, rozbudowanym modelu do wnioskowania implicite o znaczeniu, modele słuchania zespołowego łączą wiele ukierunkowanych perspektyw, zwiększając zarówno dokładność, jak i przejrzystość.

Wewnątrz Velmy 2.0

Velma 2.0 to istotna ewolucja wcześniejszych systemów Modulate opartych na zespołach. Wykorzystuje ponad 100 modeli komponentów, które współpracują ze sobą w czasie rzeczywistym, ustrukturyzowanych na pięciu warstwach analitycznych.

Pierwsza warstwa koncentruje się na podstawowym przetwarzaniu dźwięku, określaniu liczby mówców, czasu mówienia i pauz. Następnie następuje ekstrakcja sygnału akustycznego, która identyfikuje stany emocjonalne, poziom stresu, sygnały zwodnicze, syntetyczne markery głosowe i hałas otoczenia.

Trzecia warstwa ocenia postrzegane intencje, rozróżniając szczere pochwały od sarkastycznych lub wrogich uwag. Modelowanie zachowań śledzi następnie dynamikę konwersacji w czasie, sygnalizując frustrację, dezorientację, wypowiedzi oparte na scenariuszu lub próby socjotechniki. Ostatnia warstwa, analiza konwersacji, przekłada te spostrzeżenia na zdarzenia istotne dla przedsiębiorstwa, takie jak niezadowolenie klientów, naruszenia zasad, potencjalne oszustwa lub nieprawidłowo działające agenty AI.

Firma Modulate podaje, że Velma 2.0 rozumie znaczenie i intencję konwersacji około 30 procent dokładniej niż wiodące podejścia oparte na LLM, a przy tym jest od 10 do 100 razy bardziej opłacalna w dużej skali.

Od moderacji gier do inteligencji korporacyjnej

Początki modelu Ensemble Listening Models sięgają wczesnych prac Modulate nad grami online. Popularne tytuły, takie jak Call of Duty i Grand Theft Auto Online, generują jedne z najtrudniejszych środowisk głosowych, jakie można sobie wyobrazić. Rozmowy są szybkie, hałaśliwe, nacechowane emocjonalnie i pełne slangu oraz odniesień kontekstowych.

Oddzielenie żartobliwej złośliwości od rzeczywistego nękania w czasie rzeczywistym wymaga znacznie więcej niż transkrypcji. Podczas gdy Modulate korzystał z systemu moderacji głosu, ToxModStopniowo tworzył coraz bardziej złożone zespoły modeli, aby uchwycić te niuanse. Koordynacja dziesiątek wyspecjalizowanych modeli stała się niezbędna do osiągnięcia wymaganej dokładności, co ostatecznie skłoniło zespół do sformalizowania podejścia w ramach nowych ram architektonicznych.

Velma 2.0 uogólnia tę architekturę poza gry. Obecnie napędza platformę korporacyjną Modulate, analizując setki milionów rozmów w różnych branżach w celu identyfikacji oszustw, nadużyć, niezadowolenia klientów i anomalii w działaniu sztucznej inteligencji.

Wyzwanie dla modeli fundamentowych

Ogłoszenie pojawia się w momencie, gdy przedsiębiorstwa dokonują ponownej oceny swoich strategii w zakresie sztucznej inteligencji. Pomimo ogromnych inwestycji, duży odsetek inicjatyw związanych ze sztuczną inteligencją nie trafia do produkcji lub dostarczać trwałą wartość. Typowe przeszkody to: omamy, rosnące koszty wnioskowania, nieprzejrzysty proces podejmowania decyzji i trudności w integracji wniosków płynących ze sztucznej inteligencji z operacyjnymi przepływami pracy.

Modele nasłuchiwania zespołowego rozwiązują te problemy bezpośrednio. Opierając się na wielu mniejszych, specjalnie zaprojektowanych modelach, a nie na pojedynczym monolitycznym systemie, systemy ELM są tańsze w obsłudze, łatwiejsze w audytowaniu i bardziej interpretowalne. Każde wyjście można powiązać z konkretnymi sygnałami, co pozwala organizacjom zrozumieć, dlaczego wyciągnięto dany wniosek.

Ten poziom przejrzystości jest szczególnie ważny w środowiskach regulowanych lub wysokiego ryzyka, gdzie decyzje typu „black box” są niedopuszczalne. Modulate pozycjonuje ELM-y nie jako zamiennik dużych modeli językowych, ale jako bardziej odpowiednią architekturę dla inteligencji głosowej klasy korporacyjnej.

Poza mową na tekst

Jednym z najbardziej przyszłościowych aspektów Velmy 2.0 jest jej zdolność do analizowania sposobu, w jaki coś jest mówione, a nie tylko tego, co jest mówione. Obejmuje to wykrywanie głosów syntetycznych lub imitowanych, co staje się coraz większym problemem w miarę jak technologia generowania głosu staje się coraz bardziej dostępna.

Wraz z rozwojem klonowania głosu, przedsiębiorstwa stają w obliczu rosnącego ryzyka związanego z oszustwami, podszywaniem się pod inne osoby i socjotechniką. Dzięki wbudowaniu funkcji syntetycznego wykrywania głosu bezpośrednio w swój system, Velma 2.0 traktuje autentyczność jako podstawowy sygnał, a nie opcjonalny dodatek.

Modelowanie behawioralne systemu umożliwia również proaktywne wyciąganie wniosków. System potrafi rozpoznać, kiedy mówca czyta ze skryptu, kiedy frustracja narasta, a interakcja zmierza w kierunku konfliktu. Te możliwości pozwalają organizacjom interweniować wcześniej i skuteczniej.

Nowy kierunek dla sztucznej inteligencji przedsiębiorstw

Modulować Opisuje model Ensemble Listening Model jako nową kategorię architektury AI, odmienną zarówno od tradycyjnych procesów przetwarzania sygnałów, jak i rozbudowanych modeli bazowych. Podstawowy wniosek jest taki, że złożone interakcje międzyludzkie są lepiej rozumiane poprzez skoordynowaną specjalizację, a nie poprzez skalowanie siłowe.

W miarę jak przedsiębiorstwa oczekują systemów AI, które są odpowiedzialne, wydajne i dostosowane do rzeczywistych potrzeb operacyjnych, modele Ensemble Listening wskazują na przyszłość, w której inteligencja będzie budowana z wielu ukierunkowanych komponentów. Wraz z wprowadzeniem Velmy 2.0 do środowisk produkcyjnych, Modulate zakłada, że ​​ta zmiana architektoniczna będzie miała wpływ wykraczający poza moderację głosu i obsługę klienta.

W branży poszukującej alternatyw dla coraz większych czarnych skrzynek modele Ensemble Listening Models sugerują, że kolejny duży postęp w dziedzinie sztucznej inteligencji może wynikać ze uważniejszego słuchania, a nie tylko z bardziej agresywnego przetwarzania danych.

Antoine jest wizjonerskim liderem i partnerem założycielskim Unite.AI, napędzanym niezachwianą pasją do kształtowania i promowania przyszłości AI i robotyki. Jako seryjny przedsiębiorca wierzy, że AI będzie tak samo przełomowa dla społeczeństwa jak elektryczność i często zachwyca się potencjałem przełomowych technologii i AGI.

Jako futurysta, poświęca się badaniu, w jaki sposób te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platforma skupiająca się na inwestowaniu w najnowocześniejsze technologie, które zmieniają przyszłość i przekształcają całe sektory.