Wywiady
Sharone Ben-Levi, VP of Global Sales and Business Development, Contact Center, AudioCodes – Wywiad z serii

Sharone Ben-Levi, VP of Global Sales and Business Development, Contact Center, AudioCodes, jest doświadczonym menedżerem w branży technologii komunikacyjnych z ponad 25-letnim stażem, obejmującym sprzedaż, marketing, rozwój biznesu i innowacje w centrach kontaktowych. Przez karierę, która obejmuje ponad dwie dekady w AudioCodes, pełnił szereg stanowisk kierowniczych skupionych na napędzaniu wzrostu w dziedzinie komunikacji przedsiębiorstw, rozwiązań doświadczenia klienta oraz technologii centrów kontaktowych wspieranych przez sztuczną inteligencję. Przed AudioCodes pracował w NICE Systems, gdzie zdobył cenne doświadczenie w zakresie zaangażowania klienta i oprogramowania przedsiębiorstw. Na przestrzeni swojej kariery Ben-Levi skupiał się na pomocy organizacjom w modernizowaniu interakcji z klientami za pomocą komunikacji w chmurze, automatyzacji i sztucznej inteligencji, co sprawiło, że jest rozpoznawalnym głosem w ewolucji technologii centrów kontaktowych.
AudioCodes to firma specjalizująca się w technologiach komunikacyjnych, w tym głosie przedsiębiorstw, centrach kontaktowych i rozwiązaniach doświadczenia klienta napędzanych przez sztuczną inteligencję. Założona w 1993 roku, firma ewoluowała z dostawcy infrastruktury głosowej i VoIP w lidera w dziedzinie inteligentnych komunikacji głosowych, pomagając organizacjom w modernizowaniu interakcji z klientami i pracownikami w środowiskach chmury, hybrydowych i lokalnych. Jej portfolio obejmuje platformy głosowej sztucznej inteligencji, rozwiązania sztucznej inteligencji, kontrolery graniczne sesji, integracje głosowe z Microsoft Teams, oferty CPaaS oraz narzędzia do modernizacji centrów kontaktowych. Za pomocą platform takich jak VoiceAI Connect i Live Hub, AudioCodes umożliwia przedsiębiorstwom wdrożenie botów głosowych, agentów sztucznej inteligencji, funkcji asystentów agentów, rozwiązań IVR oraz usług komunikacji w czasie rzeczywistym, integrując je z istniejącą infrastrukturą telefoniczną i centrów kontaktowych. Technologie te są wykorzystywane przez przedsiębiorstwa i dostawców usług na całym świecie w celu poprawy doświadczeń klientów, automatyzacji procesów i wspierania inicjatyw transformacji cyfrowej.
Przez ponad dwie dekady pracował Pan w AudioCodes, ewoluując od inżynierii systemów wbudowanych do kierowania aplikacjami produktywności. Jak ta podróż kształtowała Pana perspektywę na to, co jest potrzebne, aby uczynić sztuczną inteligencję głosową niezawodną w środowiskach przedsiębiorstw?
Widziałem komunikację przedsiębiorstw z wielu perspektyw, a ta podróż wzmocniła we mnie jedno podstawowe przesłanie: niezawodność musi być wbudowana w każdą warstwę systemu od samego początku.
Praca nad systemami wbudowanymi nauczyła mnie, że diabeł tkwi w szczegółach, a małe decyzje techniczne mają nieproporcjonalny wpływ w środowiskach produkcyjnych. Opóźnienia, jakość audio, dokładność transkrypcji, naturalne przejęcie i każdy inny element muszą być zaprojektowane z myślą o niezawodności, ponieważ jeśli którykolwiek z nich zawiedzie, cały system zawiedzie. Nie można twierdzić, że system sztucznej inteligencji głosowej działa, jeśli działa tylko w idealnych warunkach.
Przejście na stanowisko kierownicze uczyniło to jeszcze bardziej oczywistym. Przedsiębiorstwa wspierają tysiące użytkowników w złożonych infrastrukturach z surowymi wymogami dotyczącymi czasu pracy. System, który działa dobrze w pilotażu, ale degraduje pod prawdziwym obciążeniem, nie rozwiązuje problemu.
To ostatecznie to, czego nauczyła mnie moja kariera: poprzeczka dla sztucznej inteligencji głosowej w przedsiębiorstwie to zaufanie. A zaufanie jest budowane tylko wtedy, gdy organizacje mogą polegać na systemie, aby działał niezawodnie wystarczająco, aby stać się częścią ich krytycznych procesów biznesowych.
Wielu organizacji eksperymentowało z chatbotami, ale głos wprowadza inny poziom złożoności. Jakie są największe wyzwania techniczne związane z przechodzeniem od sztucznej inteligencji opartej na tekście do w pełni rozmownych systemów głosowych?
Największym wyzwaniem jest złożoność środowisk głosowych przedsiębiorstw, które często są fragmentowane na oddzielne “wyspy” wymagające pośrednictwa między protokołami telefonicznymi SIP a interfejsami API opartymi na HTTP/SSE. Dotyczy to nawet ludzi. Bardzo niewielu inżynierów zna zarówno SIP, jak i HTTP/SSE. Ponadto, w przeciwieństwie do systemów opartych na tekście, głos wymaga przetwarzania i orchestracji w czasie rzeczywistym, w tym konwersji między różnymi protokołami, aby umożliwić im płynną komunikację. Ten dodatkowy pośpiech i interoperacyjność sprawiają, że dostarczanie gładkiego, rozmownego doświadczenia jest znacznie bardziej wymagające z technicznego punktu widzenia. Opóźnienia, szumy tła, akcenty i rozmowy są teraz włączone do mieszanki. Te zmienne nie istniały w przypadku tylko tekstu.
AudioCodes koncentruje się na łączeniu tradycyjnych systemów telefonicznych z nowoczesnymi platformami sztucznej inteligencji. Jak rozwiązania takie jak VoiceAI Connect integrują infrastrukturę dziedzictwa z zaawansowanymi modelami sztucznej inteligencji?
VoiceAI Connect jest mostem, który łączy tradycyjne punkty kontaktu z klientem (numery telefonów, trunki SIP i telefonia centrów kontaktowych) bezpośrednio z platformami sztucznej inteligencji trzecich stron, takimi jak Google CX Agent Studio, Amazon Lex, Microsoft Copilot i ponad 30 innych. Obsługuje złożoną orchestrację głosową w czasie rzeczywistym, w tym transkrypcję mowy na tekst i tekst na mowę oraz routing ramion botów, umożliwiając przedsiębiorstwom łatwe włączenie głosu do ich wybranych botów sztucznej inteligencji bez porzucania ich ustawień telefonicznych dziedzictwa. Platformy dziedzictwa zwykle nie mają aktualnych interfejsów API. Omijamy to, łącząc się z nimi przez ich interfejsy telefoniczne SIP i łącząc się z nowoczesnymi interfejsami sztucznej inteligencji.
Przedsiębiorstwa często mają trudności z wykraczaniem poza projekty pilotażowe. Jakie są kluczowe bariery architektoniczne lub operacyjne, które uniemożliwiają sztucznej inteligencji głosowej skalowanie w całych organizacjach?
Sztuczna inteligencja głosowa wciąż ewoluuje. Zanim przedsiębiorstwo przetestuje jedną technologię sztucznej inteligencji, pojawia się nowsza i lepsza. Ponieważ AudioCodes stale integruje się z najnowszymi rozwiązaniami sztucznej inteligencji głosowej, umożliwia przedsiębiorstwom łączenie i dopasowywanie oraz zabezpieczanie ich środowiska. Orchestration AudioCodes pozwala im wypróbować różne boty do różnych celów, biorąc pod uwagę wydajność, koszt, język i zgodność. Zwiększa to szanse na udany przejście do produkcji.
Inne rozważania dotyczące orchestracji produkcji są związane ze skalowalnością, ciągłością biznesową i łączeniem się z wieloma środowiskami centrów kontaktowych na całym świecie.
W rzeczywistych wdrożeniach, jaki jest udany doświadczenie rozmowy z botem sztucznej inteligencji z perspektywy użytkownika końcowego, i jak blisko jesteśmy osiągnięcia interakcji podobnych do ludzkich na dużą skalę?
Mamy kilku bardzo dużych klientów, którzy zaczynali z nami wokół 2020 i 2021 roku. Są dowodem na to, że interakcje podobne do ludzkich na dużą skalę już dobrze działają. Przykłady z życia wzięte obejmują zadania skierowane do klienta, takie jak kierowanie połączeniami, planowanie spotkań i transfery pieniędzy, a także narzędzia skierowane do agentów, takie jak podsumowanie połączeń sztucznej inteligencji, wskazówki wiedzy w czasie rzeczywistym i transkrypcja głosowa na żywo.
Dla użytkownika końcowego doświadczenie rozmowy z botem sztucznej inteligencji jest bezproblemowe. Zamiast nawigować po sztywnych drzewach menu (naciśnij 1, aby to, naciśnij 2, aby to), klienci mogą naturalnie mówić we własnych słowach za pomocą systemów IVR (Interaktywnej Reakcji Głosowej), które rozumieją intencję i reagują odpowiednio. Tworzy to bardziej intuicyjne i wydajne interakcje od samego początku.
Chociaż branża nie jest jeszcze na poziomie pełnych, złożonych interakcji podobnych do ludzkich na dużą skalę, te możliwości przybliżają przedsiębiorstwa znacznie bardziej. Łącząc sztuczną inteligencję i automatyzację z wsparciem ludzkim, przedsiębiorstwa mogą dostarczać bardziej dokładne i personalizowane doświadczenia.
Sztuczna inteligencja głosowa opiera się na rozpoznawaniu mowy, zrozumieniu języka naturalnego i przetwarzaniu w czasie rzeczywistym. Gdzie widzi Pan największe wąskie gardła obecnie, i jak są one rozwiązywane?
Duże przedsiębiorstwo ma wąskie gardło w przyjęciu sztucznej inteligencji głosowej, które odnosi się do integracji. Zgodnie z niedawnym raportem Opus Research tylko 38% przedsiębiorstw twierdzi, że koszt jest barierą dla przyjęcia sztucznej inteligencji głosowej. Jednak 65% mówi, że integracja w ramach istniejących systemów, a 60% mówi o złożoności integracji.
Dostawcy CCaaS coraz częściej tworzą bariery dla modelu “przynieś własnego bota” poprzez blokowanie integracji lub sprawianie, że stają się one nieopłacalne. Starsze systemy po prostu nie mają aktualnych interfejsów API. Rozwiązania takie jak Voice AI Connect AudioCodes łączą się z istniejącymi środowiskami centrów kontaktowych za pomocą standardowego SIP i mają interfejsy API z ponad 30 ramionami botów sztucznej inteligencji głosowej oraz ponad 20 silnikami STT i TTS, eliminując potrzebę ręcznego pisania tych interfejsów API.
Ten sam raport podkreśla ogólną jakość wydajności (jakość głosu, przepływ rozmowy itp.) jako największy powód (72%), który spowolnił przyjęcie. To, co pozwala Voice AI Connect, to możliwość łączenia i dopasowywania ramion botów, STT i TTS w celu optymalizacji wdrożeń, ponieważ nie każda sztuczna inteligencja pasuje do każdego przypadku użycia, a wariacje są również potrzebne dla slangów i języków. Ponadto branża sztucznej inteligencji ewoluuje bardzo szybko, wymagając łatwego przejścia do nowego dostawcy sztucznej inteligencji, gdy technologia się poprawia.
Integracja powinna być niską latencją, przystępną cenowo i łatwą w wdrożeniu. Powinna również wzmacniać bezpieczeństwo i debugowanie, zapewniać ciągłość biznesową i oferować opcję lokalną.
AudioCodes promuje elastyczne podejście, które łączy wielu dostawców sztucznej inteligencji i mowy. Jak ważna jest elastyczność dostawcy przy budowaniu odpornych i przyszłościowych systemów sztucznej inteligencji głosowej?
Elastyczność dostawcy jest krytyczna, ponieważ przedsiębiorstwa rzadko działają w środowisku jednego dostawcy, a na rynku istnieje wiele różnych rozwiązań sztucznej inteligencji, mowy, telefonicznych i komunikacyjnych. Aby stworzyć prawdziwą, zunifikowaną strategię sztucznej inteligencji głosowej, organizacje muszą być w stanie połączyć te różne rozwiązania i zapewnić interoperacyjność między wszystkimi nimi, optymalizując koszt, opóźnienia, przypadki użycia, wydajność języka i slangów.
Elastyczne podejście pozwala przedsiębiorstwom na integrację z wieloma dostawcami, wybór odpowiednich technologii do różnych przypadków użycia i adaptację w miarę ewolucji rynku.
W regulowanych branżach, takich jak finanse czy opieka zdrowotna, jak zbieranie i analiza danych interakcji głosowych różni się od typowych workflow sztucznej inteligencji w chmurze?
Obsługa danych głosowych jest regulowana przez surowe wymogi prywatności i zgodności, które znacznie ograniczają użycie narzędzi sztucznej inteligencji w chmurze. Aby zarządzać tym, wiele organizacji regulowanych przyjmuje wdrożenia lokalne, aby upewnić się, że wrażliwe dane pozostają w kontrolowanych środowiskach i nie opuszczają ich infrastruktury.
Standardy zgodności wymagają również, aby interakcje głosowe były rejestrowane i przechowywane w określonych formatach przez lata, z wysoką dokładnością, słowo w słowo, transkrypcjami zorganizowanymi pod kątem audytu. Na przykład w finansach, firma handlowa musi przechowywać każde nagrane połączenie i transkrypcję dokładnie tak, jak zostało wypowiedziane, do audytów regulacyjnych – dane nie mogą być zmienione ani podsumowane. W opiece zdrowotnej, dostawca obsługujący połączenia z pacjentami musi przechowywać nagrania i transkrypcje w pełni bezpiecznie i zgodnie z HIPAA. W ogóle, dane są często przetwarzane lokalnie, aby chronić chronione informacje przed narażeniem na zewnętrzne usługi chmury.
Gdy przedsiębiorstwa zaczynają wdrażać agenty sztucznej inteligencji, które mogą podejmować działania, a nie tylko reagować, jak to zmienia rolę interfejsów głosowych w obsłudze klienta i operacjach wewnętrznych?
Interfejsy głosowe ewoluują z biernych narzędzi w proaktywne, inteligentne systemy, które mogą analizować i działać w czasie rzeczywistym. Zamiast po prostu rejestrować lub kierować rozmowami, systemy sztucznej inteligencji głosowej mogą teraz rozumieć intencję i podejmować natychmiastowe działania, takie jak rozwiązywanie problemów klientów, uruchamianie procesów backendowych lub pomaganie pracownikowi w rozwiązaniu problemu IT. Ta zmiana jest szczególnie potężna, ponieważ głos jest często pierwszym i najbardziej naturalnym punktem kontaktu.
Agenci sztucznej inteligencji mogą teraz proaktywnie skontaktować się z ludzkim nadzorcą – na przykład, aby zatwierdzić zniżkę dla klienta. Mogą również podejmować bezpośrednie działania, takie jak dodawanie elementów do koszyka klienta na stronie internetowej. Mogą również współpracować z innymi botami, które mają specjalistyczne umiejętności, takie jak analiza zdjęć udostępnionych przez klientów, aby lepiej zrozumieć kontekst. Każdy z tych reprezentuje poziom złożoności, który wcześniej nie istniał.
Spójrzając w przyszłość, czy widzi Pan głos jako podstawowy interfejs dla systemów sztucznej inteligencji przedsiębiorstw, czy pozostanie częścią szerszego, wielomodalnego doświadczenia?
Chcę użyć osobistego przykładu, aby podkreślić mój punkt. Mam dwójkę nastolatków. Wolą nie wchodzić w interakcje z ludzkim przedstawicielem obsługi klienta, jeśli to możliwe. Niemniej jednak wolą rozmawiać z botem niż z nim komunikować się za pomocą tekstu. Głos był naturalnym środkiem komunikacji dla ludzi przez miliony lat. Jest preferowany nad klawiaturą lub myszą, przynajmniej do czasu, gdy nie stanie się rzeczywistością czytanie w myślach.
Dziękuję za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić AudioCodes.












