Connect with us

Artificial Intelligence

Modulate wprowadza Ensemble Listening Models, redefiniując sposób, w jaki AI rozumie ludzki głos

mm

Sztuczna inteligencja gwałtownie się rozwija, jednak jeden obszar pozostaje stale trudny: prawdziwe rozumienie ludzkiego głosu. Nie tylko wypowiadanych słów, ale także emocji za nimi stojących, intencji kształtowanej przez ton i czasowanie, oraz subtelnych sygnałów, które odróżniają przyjacielską pogawędkę od frustracji, oszustwa czy krzywdy. Dziś Modulate ogłosił przełomowe osiągnięcie wraz z wprowadzeniem Ensemble Listening Model (ELM), nowej architektury AI zaprojektowanej specjalnie do rozumienia głosu w rzeczywistych warunkach.

Wraz z ogłoszeniem wyników badań, Modulate zaprezentował Velma 2.0, pierwsze produkcyjne wdrożenie Ensemble Listening Model. Firma donosi, że Velma 2.0 przewyższa wiodące modele bazowe (foundation models) pod względem dokładności w konwersacjach, działając przy ułamku ich kosztów, co jest znaczącym twierdzeniem w czasie, gdy przedsiębiorstwa ponownie oceniają zrównoważenie wdrożeń AI na dużą skalę.

Dlaczego głos był trudny dla AI

Większość systemów AI analizujących mowę stosuje znane podejście. Dźwięk jest konwertowany na tekst, a ta transkrypcja jest następnie przetwarzana przez duży model językowy. Chociaż skuteczne w transkrypcji i podsumowywaniu, ten proces usuwa większość tego, co nadaje głosowi znaczenie.

Ton, emocjonalna intonacja, wahanie, sarkazm, nakładająca się mowa i hałas w tle niosą ważny kontekst. Gdy mowa jest spłaszczona do tekstu, te wymiary są tracone, często prowadząc do błędnej interpretacji intencji lub sentymentu. Staje się to szczególnie problematyczne w środowiskach takich jak obsługa klienta, wykrywanie oszustw, gry online i komunikacja napędzana AI, gdzie niuans bezpośrednio wpływa na wyniki.

Według Modulate, to ograniczenie ma charakter architektoniczny, a nie jest napędzane danymi. Duże modele językowe są zoptymalizowane pod przewidywanie tekstu, a nie pod integrację wielu sygnałów akustycznych i behawioralnych w czasie rzeczywistym. Ensemble Listening Models zostały stworzone, aby wypełnić tę lukę.

Czym jest Ensemble Listening Model?

Ensemble Listening Model nie jest pojedynczą siecią neuronową wytrenowaną do robienia wszystkiego naraz. Zamiast tego, jest to skoordynowany system złożony z wielu wyspecjalizowanych modeli, z których każdy odpowiada za analizę innego wymiaru interakcji głosowej.

W ramach ELM osobne modele badają emocje, stres, wskaźniki oszustwa, tożsamość mówcy, czasowanie, prozodię, hałas w tle oraz potencjalne głosy syntetyczne lub podszywające się. Te sygnały są synchronizowane przez warstwę orkiestracji wyrównaną w czasie, która produkuje ujednoliconą i możliwą do wyjaśnienia interpretację tego, co dzieje się w rozmowie.

To wyraźne podzielenie zadań jest kluczowe dla podejścia ELM. Zamiast polegać na jednym masywnym modelu, który niejawnie wnioskuje znaczenie, Ensemble Listening Models łączą wiele ukierunkowanych perspektyw, poprawiając zarówno dokładność, jak i przejrzystość.

Wnętrze Velma 2.0

Velma 2.0 to znacząca ewolucja wcześniejszych systemów opartych na zespole (ensemble) firmy Modulate. Wykorzystuje ona ponad 100 modeli składowych współpracujących w czasie rzeczywistym, zorganizowanych w pięciu warstwach analitycznych.

Pierwsza warstwa skupia się na podstawowym przetwarzaniu audio, określając liczbę mówców, czasowanie mowy i pauzy. Następnie następuje ekstrakcja sygnałów akustycznych, która identyfikuje stany emocjonalne, poziomy stresu, wskazówki oszustwa, markery głosu syntetycznego i hałas środowiskowy.

Trzecia warstwa ocenia postrzeganą intencję, odróżniając szczere pochwały od sarkastycznych lub wrogich uwag. Modelowanie zachowania śledzi następnie dynamikę konwersacji w czasie, flagując frustrację, dezorientację, wyuczoną mowę lub próby inżynierii społecznej. Ostatnia warstwa, analiza konwersacyjna, tłumaczy te spostrzeżenia na istotne dla przedsiębiorstwa zdarzenia, takie jak niezadowoleni klienci, naruszenia polityk, potencjalne oszustwa lub nieprawidłowo działający agenci AI.

Modulate donosi, że Velma 2.0 rozumie znaczenie i intencję konwersacyjną o około 30 procent dokładniej niż wiodące podejścia oparte na LLM, będąc przy tym od 10 do 100 razy bardziej opłacalna w skali.

Od moderacji w grach po inteligencję dla przedsiębiorstw

Początki Ensemble Listening Models leżą we wczesnej pracy Modulate z grami online. Popularne tytuły, takie jak Call of Duty i Grand Theft Auto Online, generują jedne z najbardziej wymagających środowisk głosowych, jakie można sobie wyobrazić. Rozmowy są szybkie, hałaśliwe, nacechowane emocjami i wypełnione slangiem oraz kontekstowymi odniesieniami.

Oddzielenie żartobliwego “trashtalku” od prawdziwego nękania w czasie rzeczywistym wymaga znacznie więcej niż transkrypcji. Gdy Modulate obsługiwał swój system moderacji głosu, ToxMod, stopniowo kompilował coraz bardziej złożone zespoły modeli, aby uchwycić te niuanse. Koordynacja dziesiątek wyspecjalizowanych modeli stała się niezbędna do osiągnięcia wymaganej dokładności, co ostatecznie doprowadziło zespół do sformalizowania tego podejścia w nową ramę architektoniczną.

Velma 2.0 uogólnia tę architekturę poza gry. Dziś napędza platformę enterprise firmy Modulate, analizując setki milionów rozmów w różnych branżach w celu identyfikacji oszustw, zachowań nadużycielskich, niezadowolenia klientów i anomalii w działaniu AI.

Wyzwanie dla modeli bazowych (Foundation Models)

Ogłoszenie ma miejsce w momencie, gdy przedsiębiorstwa ponownie oceniają swoje strategie AI. Pomimo ogromnych inwestycji, duży procent inicjatyw AI nie dociera do produkcji lub nie dostarcza trwałej wartości. Typowe przeszkody obejmują halucynacje, rosnące koszty inferencji, nieprzejrzyste podejmowanie decyzji i trudności z integracją spostrzeżeń AI w przepływy pracy operacyjnej.

Ensemble Listening Models bezpośrednio rozwiązują te problemy. Polegając na wielu mniejszych, specjalnie zbudowanych modelach, a nie na jednym monolitycznym systemie, ELM są tańsze w eksploatacji, łatwiejsze do audytu i bardziej interpretowalne. Każde wyjście można prześledzić do konkretnych sygnałów, pozwalając organizacjom zrozumieć, dlaczego wyciągnięto dany wniosek.

Ten poziom przejrzystości jest szczególnie ważny w regulowanych środowiskach lub środowiskach wysokiego ryzyka, gdzie decyzje z “czarnej skrzynki” są nie do przyjęcia. Modulate pozycjonuje ELM nie jako zamiennik dużych modeli językowych, ale jako bardziej odpowiednią architekturę dla inteligencji głosowej klasy enterprise.

Poza mową na tekst

Jednym z najbardziej przyszłościowych aspektów Velma 2.0 jest jej zdolność do analizowania, *jak* coś jest powiedziane, a nie tylko *co* jest powiedziane. Obejmuje to wykrywanie głosów syntetycznych lub podszywających się, co jest rosnącym problemem w miarę jak technologia generowania głosu staje się bardziej dostępna.

W miarę poprawy klonowania głosu, przedsiębiorstwa stoją przed rosnącym ryzykiem związanym z oszustwami, podszywaniem się pod tożsamość i inżynierią społeczną. Poprzez osadzenie wykrywania głosu syntetycznego bezpośrednio w swoim zespole, Velma 2.0 traktuje autentyczność jako podstawowy sygnał, a nie opcjonalny dodatek.

Modelowanie behawioralne systemu umożliwia również proaktywne spostrzeżenia. Może zidentyfikować, kiedy mówca czyta ze scenariusza, kiedy narasta frustracja lub kiedy interakcja zmierza ku konfliktowi. Te możliwości pozwalają organizacjom interweniować wcześniej i skuteczniej.

Nowy kierunek dla AI w przedsiębiorstwach

Modulate opisuje Ensemble Listening Model jako nową kategorię architektury AI, odrębną zarówno od tradycyjnych potoków przetwarzania sygnałów, jak i dużych modeli bazowych. Podstawowym spostrzeżeniem jest to, że złożone interakcje ludzkie są lepiej rozumiane poprzez skoordynowaną specjalizację, a nie brutalne skalowanie siłowe.

Gdy przedsiębiorstwa domagają się systemów AI, które są odpowiedzialne, wydajne i dostosowane do rzeczywistych potrzeb operacyjnych, Ensemble Listening Models wskazują na przyszłość, w której inteligencja jest składana z wielu skupionych komponentów. Dzięki Velma 2.0 działającej już w środowiskach produkcyjnych, Modulate stawia na to, że ta zmiana architektoniczna znajdzie oddźwięk daleko poza moderacją głosu i obsługą klienta.

W branży poszukującej alternatyw dla coraz większych “czarnych skrzynek”, Ensemble Listening Models sugerują, że następny duży postęp w AI może przyjść z uważniejszego słuchania, a nie po prostu agresywniejszego obliczania.

//www.futurist.ai">futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupionej na inwestowaniu w zaawansowane technologie, które na nowo definiują przyszłość i przekształcają całe sektory.