Sztuczna inteligencja
Vijay Balasubramaniyan, współzałożyciel i CEO Pindrop – seria wywiadów

Vijay Balasubramaniyan jest współzałożycielem i CEO Pindrop. Pełnił różne role inżynierskie i badawcze w firmach Google, Siemens, IBM Research i Intel.
Pindrop‘s rozwiązania prowadzą drogę do przyszłości głosu, ustanawiając standard dla tożsamości, bezpieczeństwa i zaufania dla każdej interakcji głosowej. Rozwiązania Pindrop chronią niektóre z największych banków, ubezpieczycieli i detalistów, wykorzystując opatentowaną technologię, która wyodrębnia inteligencję z każdego połączenia i głosu. Rozwiązania Pindrop pomagają wykrywać oszustów i uwierzytelniać prawdziwych klientów, redukując oszustwa i koszty operacyjne, poprawiając jednocześnie doświadczenie klienta i chroniąc reputację marki. Pindrop, prywatna spółka z siedzibą w Atlanta, GA, została założona w 2011 roku przez dr. Vijaya Balasubramaniyana, dr. Paula Judge i dr. Mustaque Ahamada i jest wspierana przez Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP i Vitruvian Partners. Więcej informacji można znaleźć na stronie pindrop.com.
Jakie są kluczowe wnioski z Raportu Pindrop o inteligencji i bezpieczeństwie głosu 2024 dotyczące bieżącego stanu oszustw i bezpieczeństwa opartych na głosie?
Raport zapewnia głęboką analizę palących problemów bezpieczeństwa i przyszłych trendów, szczególnie w centrach kontaktowych obsługujących instytucje finansowe i niefinansowe. Kluczowe ustalenia w raporcie obejmują:
- Znaczny wzrost oszustw w centrach kontaktowych: Oszustwa w centrach kontaktowych wzrosły o 60% w ciągu ostatnich dwóch lat, osiągając najwyższy poziom od 2019 roku. Do końca tego roku jeden na każde 730 połączeń do centrum kontaktowego ma być oszustwem.
- Zwiększona złożoność ataków wykorzystujących Deepfake: Ataki Deepfake, w tym zaawansowane syntetyczne klony głosu, są w coraz większym stopniu wykorzystywane, stanowiąc szacowany ryzyko oszustw na kwotę 5 miliardów dolarów dla centrów kontaktowych w Stanach Zjednoczonych. Ta technologia jest wykorzystywana do zwiększenia taktyk oszustw, takich jak automatyczne i wyskalowane rozpoznanie kont, naśladownictwo głosu, ukierunkowane smishing i inżynieria społeczna.
- Tradycyjne metody wykrywania i uwierzytelniania oszustw nie działają: Firmy nadal polegają na ręcznym uwierzytelnianiu konsumentów, co jest czasochłonne, drogie i nieskuteczne w powstrzymywaniu oszustw. 350 milionów ofiar naruszeń danych. 12 miliardów dolarów wydanych rocznie na uwierzytelnianie i 10 miliardów dolarów straconych na oszustwa są dowodem, że obecne metody bezpieczeństwa nie działają.
- Wymagane są nowe podejścia i technologie: Wykrywanie żywotności jest kluczowe w walce z złymi AI i poprawie bezpieczeństwa. Analiza głosu nadal jest ważna, ale musi być połączona z wykrywaniem żywotności i uwierzytelnianiem wieloczynnikowym.
Zgodnie z raportem, 67,5% konsumentów w Stanach Zjednoczonych obawia się głębokich fałszerstw w sektorze bankowym. Czy mógłby Pan wyjaśnić rodzaje zagrożeń związanych z głębokimi fałszerstwami, których doświadczają instytucje finansowe?
Oszustwa bankowe za pośrednictwem kanałów telefonicznych są w coraz większym stopniu wykorzystywane z powodu kilku czynników. Ponieważ instytucje finansowe polegają głównie na klientach w celu potwierdzenia podejrzanych działań, centra kontaktowe mogą stać się głównymi celami dla oszustów. Oszustowie wykorzystują taktyki inżynierii społecznej, aby oszukać przedstawicieli obsługi klienta, przekonując ich do usunięcia ograniczeń lub pomocy w resetowaniu poświadczeń online. Zgodnie z jednym z klientów bankowych Pindrop, 36% zidentyfikowanych połączeń oszustw miało na celu usunięcie blokad nałożonych przez kontrolę oszustw. Inny klient bankowy Pindrop zgłosił, że 19% połączeń oszustw miało na celu uzyskanie dostępu do bankowości online. Wraz ze wzrostem sztucznej inteligencji i głębokich fałszerstw tego rodzaju ataki stały się bardziej potężne i skalowalne. Teraz jeden lub dwóch oszustów w garażu może utworzyć dowolną liczbę syntetycznych głosów i rozpocząć jednoczesne ataki na wiele instytucji finansowych, zwiększając swoje taktyki. To stworzyło podwyższone ryzyko i obawy wśród konsumentów, czy sektor bankowy jest przygotowany do odparcia tych zaawansowanych ataków.
Jak postępy w dziedzinie sztucznej inteligencji przyczyniły się do wzrostu głębokich fałszerstw, a jakie konkretnie wyzwania stwarzają one dla systemów bezpieczeństwa?
Chociaż głębokie fałszerstwa nie są nowe, postępy w dziedzinie sztucznej inteligencji uczyniły je potężnym wektorem w ciągu ostatniego roku, ponieważ stały się bardziej przekonywające w większej skali. Postępy w GenAI sprawiły, że duże modele językowe są bardziej zdolne do tworzenia wiarygodnej mowy i języka. Teraz naturalnie brzmiący syntetyczny (fałszywy) głos może być tworzony bardzo tanio i w dużych ilościach. Te rozwoje sprawiły, że głębokie fałszerstwa są dostępne dla wszystkich, w tym dla oszustów. Głębokie fałszerstwa stwarzają systemom bezpieczeństwa wyzwania, umożliwiając bardzo przekonywające ataki phishingowe, rozpowszechnianie dezinformacji oraz ułatwiając oszustwa finansowe za pomocą realistycznych naśladownictw. Podważają one tradycyjne metody uwierzytelniania, tworzą znaczne ryzyko reputacyjne i wymagają zaawansowanych technologii wykrywania, aby nadążyć za ich szybkim rozwojem i skalowalnością.
Jak Pindrop Pulse przyczynił się do identyfikacji silnika TTS wykorzystanego w ataku na prezydenta Bidena, a jakie ma to implikacje dla przyszłego wykrywania głębokich fałszerstw?
Pindrop Pulse odegrał kluczową rolę w identyfikacji ElevenLabs, silnika TTS wykorzystanego w ataku na prezydenta Bidena. Wykorzystując naszą zaawansowaną technologię wykrywania głębokich fałszerstw, wdrożyliśmy czterostopniowy proces analizy, obejmujący filtrowanie audio i oczyszczanie, ekstrakcję cech, analizę segmentów i ciągłe ocenianie. Ten proces pozwolił nam na odfiltrowanie ramek bez mowy, obniżenie próbki audio do replikacji typowych warunków telefonicznych i wyodrębnienie niskopoziomowych cech spektro-temporalnych.
Dzieląc audio na 155 segmentów i przypisując im oceny żywotności, ustaliliśmy, że audio było spójnie sztuczne. Wykorzystując “słabe odciski palców”, porównaliśmy audio z 122 systemami TTS i zidentyfikowaliśmy z 99% prawdopodobieństwem, że system ElevenLabs lub podobny został wykorzystany. To odkrycie zostało potwierdzone z 84% prawdopodobieństwem za pomocą klasyfikatora SpeechAI ElevenLabs. Nasza szczegółowa analiza ujawniła artefakty głębokich fałszerstw, szczególnie w frazach z bogatymi fricatywami i niezwykłymi wyrażeniami dla prezydenta Bidena.
Przypadek ten podkreśla wagę naszych skalowalnych i wyjaśnialnych systemów wykrywania głębokich fałszerstw, które zwiększają dokładność, budują zaufanie i dostosowują się do nowych technologii. Podkreśla również potrzebę włączenia zabezpieczeń do systemów generatywnych, aby zapobiec ich nadużyciu, zapewniając, że klonowanie głosu jest uzgodnione przez prawdziwe osoby. Nasze podejście ustanawia punkt odniesienia dla rozwiązywania zagrożeń syntetycznych mediów, podkreślając ciągłe monitorowanie i badania, aby nadążyć za ewoluującymi metodami głębokich fałszerstw.
Raport wymienia znaczne obawy dotyczące głębokich fałszerstw wpływających na media i instytucje polityczne. Czy mógłby Pan podać przykłady takich incydentów i ich potencjalny wpływ?
Nasze badania wykazały, że konsumentów w Stanach Zjednoczonych najbardziej martwi się ryzyko głębokich fałszerstw i klonów głosu w sektorze bankowym. Ale poza tym zagrożenie głębokich fałszerstw dla mediów i instytucji politycznych stanowi równie poważne wyzwanie. Poza Stanami Zjednoczonymi obserwowano również użycie głębokich fałszerstw w Indonezji (głębokie fałszerstwo Suharto) i na Słowacji (głębokie fałszerstwo głosu Michal Šimečka i Monika Tódová).
2024 to znaczący rok wyborczy w Stanach Zjednoczonych i Indiach. Z 4 miliardami ludzi w 40 krajach, którzy mają głosować, rozpowszechnienie technologii sztucznej inteligencji sprawia, że łatwiej niż kiedykolwiek oszukać ludzi w Internecie. Spodziewamy się wzrostu ukierunkowanych ataków głębokich fałszerstw na instytucje rządowe, firmy medialne, inne media i ogół społeczeństwa, mających na celu stworzenie braku zaufania do naszych instytucji i szerzenie dezinformacji w dyskursie publicznym.
Czy mógłby Pan wyjaśnić technologie i metody, których Pindrop używa do wykrywania głębokich fałszerstw i syntetycznych głosów w czasie rzeczywistym?
Pindrop wykorzystuje szereg zaawansowanych technologii i metod do wykrywania głębokich fałszerstw i syntetycznych głosów w czasie rzeczywistym, w tym:
-
- Wykrywanie żywotności: Pindrop wykorzystuje duże maszyny uczenia do analizy ramek bez mowy (np. cisza, hałas, muzyka) i wyodrębniania niskopoziomowych cech spektro-temporalnych, które różnicują między generowanym przez maszynę a ogólnym ludzkim mową
- Odciski palców audio – To polega na tworzeniu cyfrowego podpisu dla każdego głosu na podstawie jego właściwości akustycznych, takich jak pitch, ton i kadencja. Te podpisy są następnie wykorzystywane do porównania i dopasowania głosów w różnych połączeniach i interakcjach.
- Analiza zachowania – Wykorzystywana do analizy wzorców zachowania, które wydają się niezwykłe, w tym anomalne dostępy do różnych kont, szybka aktywność botów, rozpoznanie kont, wydobywanie danych i dialing roboczy.
- Analiza głosu – Poprzez analizę cech głosu, takich jak cechy śladowe, wariacje fonetyczne i styl mówienia, Pindrop może utworzyć odcisk głosu dla każdej osoby. Jakakolwiek odchyłka od oczekiwanego odcisku głosu może spowodować alarm.
- Wielowarstwowe podejście do bezpieczeństwa – To polega na łączeniu różnych metod wykrywania w celu skrzyżowania wyników i zwiększenia dokładności wykrywania. Na przykład wyniki odcisków palców mogą być skrzyżowane z analizą biometryczną w celu potwierdzenia podejrzenia.
- Ciągłe uczenie i adaptacja – Pindrop stale aktualizuje swoje modele i algorytmy. To obejmuje włączanie nowych danych, doskonalenie technik wykrywania i pozostawanie na czele nowych zagrożeń. Ciągłe uczenie się zapewnia, że możliwości wykrywania Pindrop ulegają poprawie w czasie i dostosowują się do nowych rodzajów ataków syntetycznych.
Co to jest Gwarancja Deepfake Pulse, i jak zwiększa ona zaufanie klientów do możliwości Pindrop w zakresie radzenia sobie z zagrożeniami głębokich fałszerstw?
Gwarancja Deepfake Pulse to pierwsza na świecie gwarancja, która oferuje zwrot kosztów w przypadku oszustw głosowych w centrum kontaktowym. Ponieważ stoimy na progu znaczącej zmiany w krajobrazie ataków cybernetycznych, potencjalne szkody finansowe spodziewane do wzrostu do 10,5 biliona dolarów do 2025 roku, Gwarancja Deepfake Pulse zwiększa zaufanie klientów, oferując kilka kluczowych zalet:
- Zwiększone zaufanie: Gwarancja Deepfake Pulse demonstruje zaufanie Pindrop do swoich produktów i technologii, oferując klientom godny zaufania rozwiązanie bezpieczeństwa podczas obsługi ich posiadaczy kont.
- Zwrot strat: Klienci Pindrop mogą otrzymać zwrot strat za zdarzenia oszustw syntetycznych, które nie zostały wykryte przez Pakiet Produktów Pindrop.
- Ciągła poprawa: Żądania klientów Pindrop otrzymane w ramach programu gwarancyjnego pomagają Pindrop pozostać na czele ewoluujących taktyk oszustw syntetycznych.
Czy są jakieś godne uwagi studia przypadków, w których technologie Pindrop skutecznie złagodziły zagrożenia głębokich fałszerstw? Jakie były wyniki?
Incident w Pikesville High School: 16 stycznia 2024 roku na Instagram pojawiło się nagranie, które rzekomo zawierało wypowiedź dyrektora Pikesville High School w Baltimore, Maryland. Nagranie zawierało obraźliwe uwagi o uczniach i nauczycielach czarnoskórych, wywołując burzę oburzenia i poważne obawy.
W związku z tymi wydarzeniami Pindrop przeprowadził kompleksowe śledztwo, przeprowadzając trzy niezależne analizy, aby wyjaśnić prawdę. Wyniki naszego dogłębnego śledztwa doprowadziły do nuansowanego wniosku: chociaż nagranie z stycznia zostało zmienione, nie posiadało definitywnych cech syntetycznej mowy generowanej przez AI. Nasza pewność co do tego ustalenia jest wspierana przez 97% pewności na podstawie naszych wskaźników analizy. To kluczowe odkrycie podkreśla wagę przeprowadzania szczegółowych i obiektywnych analiz przed publicznymi oświadczeniami o charakterze potencjalnie zmodyfikowanych mediów.
W dużym banku w Stanach Zjednoczonych Pindrop odkrył, że oszust wykorzystywał syntetyczny głos, aby ominąć uwierzytelnianie w IVR. Stwierdziliśmy, że oszust wykorzystywał głos generowany przez maszynę, aby ominąć uwierzytelnianie IVR dla ukierunkowanych kont, dostarczając prawidłowe odpowiedzi na pytania bezpieczeństwa i, w jednym przypadku, nawet przekazując hasła jednorazowego użytku (OTP). Boty, które pomyślnie uwierzytelniały się w IVR, identyfikowały konta wartych ukierunkowania za pomocą podstawowych zapytań o saldo. Późniejsze połączenia do tych kont pochodziły od prawdziwych ludzi, którzy popełniali oszustwa. Pindrop powiadomił bank o tym oszustwie w czasie rzeczywistym za pomocą technologii Pulse i był w stanie powstrzymać oszustów.
W innej instytucji finansowej Pindrop odkrył, że niektórzy oszustowie szkolili własne voiceboty, aby naśladować systemy odpowiedzi automatycznej banku. W tym, co brzmiało jak dziwne pierwsze połączenie, voicebot dzwonił do IVR banku nie po to, aby rozpoznać konto, ale aby powtórzyć monity IVR. Wiele połączeń przychodziło do różnych gałęzi drzewa rozmów IVR, a co dwie sekundy bot powtarzał to, co usłyszał. Tydzień później obserwowano więcej połączeń, które to robiły, ale tym razem bot powtarzał frazy w dokładnie tym samym głosie i manierach, co system IVR banku. Uważamy, że oszust szkolił voicebota, aby odtworzyć system IVR banku jako punkt wyjścia ataku smishingowego. Dzięki pomocy Pindrop Pulse instytucja finansowa była w stanie udaremnić ten atak, zanim została wyrządzona jakakolwiek szkoda.
Niezależny eksperyment NPR z głębokimi fałszerstwami audio: Bezpieczeństwo cyfrowe jest ciągle ewoluującą walką między oszustami a dostawcami technologii bezpieczeństwa. Istnieje kilku dostawców, w tym Pindrop, którzy twierdzą, że wykrywają głębokie fałszerstwa audio w sposób ciągły – NPR poddał te twierdzenia testowi, aby ocenić, czy obecne rozwiązania technologiczne są w stanie wykrywać AI-generowane głębokie fałszerstwa audio w sposób ciągły.
Pindrop Pulse dokładnie wykrył 81 z 84 próbek audio, co przekłada się na 96,4% wskaźnik dokładności. Dodatkowo Pindrop Pulse wykrył 100% próbek głębokich fałszerstw jako takie. Podczas gdy inne dostawcy również zostali ocenieni w badaniu, Pindrop wyłonił się jako lider, demonstrując, że jego technologia może niezawodnie i dokładnie wykrywać zarówno głębokie fałszerstwa, jak i autentyczne audio.
Jakie trendy przyszłości w oszustwach i bezpieczeństwie głosowym Pan przewiduje, szczególnie wraz ze szybkim rozwojem technologii AI? Jak Pindrop przygotowuje się do radzenia sobie z tymi wyzwaniami?
Spodziewamy się, że oszustwa w centrach kontaktowych będą nadal rosły w 2024 roku. Na podstawie analizy wskaźników oszustw w poszczególnych branżach szacujemy, że wskaźnik oszustw może osiągnąć 1 na każde 730 połączeń, co oznacza wzrost o 4-5% w porównaniu z obecnymi poziomami.
Większość zwiększonych oszustw ma wpływ na sektor bankowy, podczas gdy ubezpieczenia, broking i inne sektory finansowe mają pozostać na obecnym poziomie. Szacujemy, że te wskaźniki oszustw reprezentują ekspozycję na oszustwa o wartości 7 miliardów dolarów dla instytucji finansowych w Stanach Zjednoczonych, które muszą być zabezpieczone. Spodziewamy się jednak znaczącej zmiany, szczególnie z oszustami wykorzystującymi IVR jako pole testowe. Ostatnio zaobserwowaliśmy wzrost oszustów, którzy ręcznie wprowadzają dane osobowe (PII), aby zweryfikować dane konta.
Aby pomóc w walce z tym, będziemy nadal rozwijać obecne rozwiązania Pindrop i uruchamiać nowe i innowacyjne narzędzia, takie jak Pindrop Pulse, które chronią naszych klientów.
Poza obecnie dostępnymi technologiami, jakie nowe narzędzia i techniki są rozwijane w celu poprawy zapobiegania oszustwom głosowym i uwierzytelniania?
Techniki zapobiegania oszustwom głosowym i uwierzytelniania są ciągle ewoluujące, aby nadążyć za postępem technologii i złożonością oszustw. Niektóre pojawiające się narzędzia i techniki obejmują:
- Ciągłe wykrywanie i śledztwo w sprawie oszustw: Zapewnia historyczne “spojrzenie” na przypadki oszustw z nowymi informacjami, które są teraz dostępne. Z tym podejściem analitycy oszustw mogą “słuchać” nowych sygnałów oszustw, skanować historyczne połączenia, które mogą być związane, i ponownie oceniać te połączenia. To zapewnia firmom ciągłą i kompleksową perspektywę na oszustwa w czasie rzeczywistym.
- Inteligentna analiza głosu: Tradycyjne systemy biometryczne głosu są podatne na ataki głębokich fałszerstw. Aby wzmocnić swoją obronę, potrzebne są nowe technologie, takie jak Niezgodność Głosu i Negatywne Dopasowanie Głosu. Te technologie zapewniają dodatkową warstwę obrony, rozpoznając i różnicując wiele głosów, powtarzających się dzwoniących i identyfikując, gdzie inny brzmiący głos może stanowić zagrożenie.
- Wczesne wykrywanie oszustw: Technologie wykrywania oszustw, które zapewniają szybki i niezawodny sygnał oszustwa na początku procesu połączenia, są niezwykle cenne. Oprócz wykrywania żywotności, technologie takie jak analiza metadanych operatora, wykrywanie fałszerstw ID dzwoniącego i wykrywanie fałszerstw audio zapewniają ochronę przed atakami oszustw na początku rozmowy, gdy obrona jest najbardziej podatna.
Dziękujemy za wspaniały wywiad, aby dowiedzieć się więcej, przeczytaj Raport Pindrop o inteligencji i bezpieczeństwie głosu 2024 lub odwiedź Pindrop.












