Liderzy opinii

Czy banki są gotowe na oszustwa głosowe z użyciem sztucznej inteligencji?

Opublikowano 1 lipca 2026

Przez

Satish Barot, Współzałożyciel i Dyrektor ds. Technologii, Klearcom

Sztucznie wygenerowany głos zmienił ekonomiczną równowagę oszustw. To, co wcześniej wymagało doświadczonych oszustów, przekonywującego scenariusza lub skompromitowanego numeru telefonu, może teraz być podejmowane na dużą skalę z użyciem narzędzi, które brzmią alarmująco ludzko.

A co gorsza, mają oni teraz sektor finansowy w swoich celach. Na początku 2024 roku pracownik finansowy w firmie inżynieryjnej Arup dołączył do tego, co wydawało się rutynowym połączeniem wideo z CFO i kilkoma kolegami. Głosy były znajome, twarze rozpoznawalne, a prośba wydawała się wystarczająco przekonywająca, aby przejść podstawową kontrolę. Do końca połączenia autoryzowała 25 milionów dolarów przelewów. Ludzie, których uważała za rozmówców, w tym CFO firmy, zostali później zgłoszeni jako sztucznie wygenerowane głosy.

Dla instytucji finansowych ryzyko nie ogranicza się do wewnętrznych zatwierdzeń płatności. Ten sam upadek zaufania może się rozgrywać w całym procesie uwierzytelniania klienta, eskalacji w centrum obsługi, kontroli oszustw i odzyskiwania kont.

Oszuści wykorzystali względną anonimowość połączeń telefonicznych, aby popełniać oszustwa przez dziesięciolecia. Z sztuczną inteligencją jednak wysiłek wymagany do tego stał się trywialny, a wyniki są o wiele bardziej przekonywające. Dla banków i fintechów ta konwergencja skutkuje nieznaną mapą ryzyk.

Istnieje bardziej niekomfortowa rzeczywistość pod spodem. Nawet gdy atakujący szukają luk w zabezpieczeniach, infrastruktura sztucznej inteligencji, którą instytucje finansowe wdrożenie, aby zmodernizować obsługę klienta, ułatwia popełnianie oszustw.

Połączenie, które brzmi jak należy

Przed sztuczną inteligencją oszustwa głosowe były dość łatwe do identyfikacji. Połączenia automatyczne brzmiały płasko i podążały za scenariuszem, a próby vishingu opierały się na operatorach ludzkich, którzy podążali za kartami. W większości przypadków skala była ograniczona przez jakość oszusta.

Sztuczna inteligencja zmieniła to, niemal znikając techniczną barierę dla naśladownictwa. Z wystarczającym bodźcem sztuczna inteligencja może brzmieć niezwykle ludzko, wraz z intonacją, emocjami i wadami, których można oczekiwać od prawdziwej osoby. Sytuację pogarszają narzędzia, które mogą kopiować głosy, dostępne na platformach komercyjnych i repozytoriach open-source.

Laboratoria McAfee odkryły, że trzy sekundy nagrania są wystarczające, aby narzędzie sztucznej inteligencji wyprodukowało klon głosu z 85% dokładnością. Dziesięć sekund nagrania może podnieść tę wartość powyżej 95%. Materiał źródłowy jest wszędzie: posty w mediach społecznościowych, powitania na poczcie głosowej, nagrania konferencyjne, raporty finansowe lub filmy na LinkedIn.

Narzędzia do konwersji głosu w czasie rzeczywistym stały się powszechnie dostępne w 2024 roku, co oznacza, że atakujący nie potrzebują już nagrania. Mogą po prostu mówić do mikrofonu, a wyjście będzie brzmieć jak osoba, którą próbują naśladować.

Przypadek Arup jest pouczający: pracownik finansowy miał wątpliwości, ale obecność znajomych głosów i twarzy na połączeniu przeważyła je. Tego samego roku śledczy z Hongkongu odkryli oddzielną operację, która sklonowała głos menedżera finansowego, aby przeprowadzić 18,5 milionów dolarów oszustwa z kryptowalutą.

Znajomy głos okazuje się zaufanym, a sztuczna inteligencja uczyniła to zaufanie niebezpiecznym.

Awarie uwierzytelniania stają się okazjami do oszustw

Instytucje finansowe już reagują na zewnętrzne zagrożenia. Wydatki na narzędzia zarządzania i zgodności z przepisami dla sztucznej inteligencji są przewidywane do wzrostu z 2,2 miliarda dolarów w 2025 roku do 9,5 miliarda dolarów do 2035 roku, co sygnalizuje, jak poważnie rynek traktuje tę kwestię.

Jednak bardziej istotne ryzyko nie pochodzi z zewnątrz. Banki i fintechy warstwowe sztuczną inteligencję w swoim stosie obsługi klienta, tworząc systemy IVR z obsługą sztucznej inteligencji, uwierzytelnianie biometryczne i agenty przepływu połączeń, które obsługują transakcje bez agentów ludzkich. Te wysiłki są skierowane na poprawę doświadczenia klienta i redukcję pracy ludzkiej, ale gdy te systemy zawodzą, pozostawiają słaby punkt, który atakujący znajdują zbyt łatwy do wykorzystania.

Błędy routingu, kontekst, który ginie między eskalacjami, a systemy uwierzytelniania, które zachowują się nieprzewidywalnie, wyglądają jak problemy z doświadczeniem klienta i są rejestrowane jako takie.

Klient, który jest zablokowany przez uwierzytelnianie biometryczne, rzadko zgłasza to. Zamiast tego jest wysokie prawdopodobieństwo, że zadzwoni ponownie, znajdzie sposób, aby porozmawiać z agentem ludzkim i naciska na nich, aby ominęli protokoły, które te systemy zostały zaprojektowane do egzekwowania.

Większy problem polega na tym, że atakujący mogą naśladować klienta i zrobić to samo. Instytucje finansowe są tego świadome. W rzeczywistości 91% banków w Stanach Zjednoczonych ponownie rozważa swoje strategie uwierzytelniania biometrycznego w związku z ryzykiem klonowania głosu sztucznej inteligencji.

Ponowne rozważenie nie rozwiąże tych problemów. Instytucja, której uwierzytelnianie głosowe regularnie zawodzi klientom, już stworzyła warunki, których potrzebuje zdeterminowany hakier, aby wykorzystać system. W końcu hakier nie potrzebuje znaleźć technicznej luki, gdy tarcie w doświadczeniu klienta pozwala mu na sposób.

Firmy muszą zmienić swoją perspektywę, a nie swój stos zabezpieczeń

Narzędzia, które mogą wykryć sztucznie wygenerowane głosy, są udoskonalane, ale atakujący, który sonduje systemy bankowe w poszukiwaniu luk, nie szuka jednego punktu awarii. Szuka obszarów, w których systemy potkną się i przegapią się nawzajem, gdzie systemy uwierzytelniania nie przechwytują sygnałów wyraźnie. Lepsze wykrywanie na obwodzie nie może zamknąć tej luki.

Co może pomóc, to ponowne rozważenie, jak liderzy traktują infrastrukturę głosową. Jak w przypadku każdej części stosu oprogramowania, infrastruktura głosowa wymaga tego samego poziomu kontroli, co zabezpieczenia obwodowe.

W praktyce taka postawa bezpieczeństwa będzie wymagać zarówno testów funkcyjnych, jak i testów wytrzymałościowych w całym zakresie warunków, których systemy głosowe będą musiały stawić czoła w produkcji: niskiej jakości audio, różnych akcentów i hałasów tła, eskalacji na granicy, i scenariuszy uwierzytelniania, w których legitymni dzwoniący są tuż poza progiem akceptacji systemu.

Odpowiedź nie jest jednorazowym ćwiczeniem certyfikacji. Banki potrzebują ciągłej weryfikacji całej podróży głosowej, od routingu IVR i uwierzytelniania biometrycznego po eskalację, transfer i ścieżki awaryjne. Niezależnie od tego, jak często systemy głosowe są aktualizowane, taktyki oszustw będą naturalnie ewoluować, aby znaleźć luki w obronach, które napotkają. System, który przechodzi weryfikację podczas wdrożenia, musi być często testowany i powtarzany w warunkach świata rzeczywistego, aby upewnić się, że nadal jest bezpieczny, nawet jeśli jego wydajność ewoluowała.

Warto zauważyć, że ciągłe testowanie na dużą skalę będzie wiązało się z rozważaniami budżetowymi. Istnieje również wewnętrzny konflikt między szybkim działaniem (wdrażaniem nowych możliwości, aby pozostać konkurencyjnym) a gruntowną weryfikacją systemów przed ich interakcją z prawdziwymi klientami i napotkaniem prawdziwych prób oszustw.

Chociaż trudno rozwiązać ten konflikt w sposób czysty, uściśla to koszt pominięcia weryfikacji: awaria w systemie, który frustruje klientów, którzy już znaleźli sposób, aby go ominąć, jest słabym punktem, niezależnie od tego, jak firma go klasyfikuje.

Lepsze podróże klienta stają się obroną przed oszustwami

Zewnętrzne i wewnętrzne ryzyka opisane powyżej nie są oddzielnymi problemami z różnymi rozwiązaniami. Tarcie wytworzone przez niepewne podróże klienta tworzy luki behawioralne, które inżynieria społeczna jest zaprojektowana do wykorzystania.

To jest rozwiązywalny problem, ale tylko wtedy, gdy instytucje zrozumieją, że wpływ złego doświadczenia klienta może sięgać dalej niż proste utrzymanie lub przychody. Banki nie rozwiążą oszustw głosowych sztucznej inteligencji, traktując je tylko jako problem wykrywania. Muszą również usunąć niejasność, tarcie i punkty awarii wewnątrz własnych podróży głosowych. W erze, w której znajomy głos nie może być już ufał domyślnie, niezawodność samej podróży staje się częścią modelu bezpieczeństwa.

Satish Barot, Współzałożyciel i Dyrektor ds. Technologii, Klearcom

Satish Barot jest współzałożycielem i Dyrektorem ds. Technologii w Klearcom. Z głęboką wiedzą w dziedzinie technologii telekomunikacyjnych i chmury, kieruje innowacjami produktowymi i strategią techniczną firmy. Satish odegrał kluczową rolę w budowaniu platformy Klearcom opartej na sztucznej inteligencji, która pomaga globalnym przedsiębiorstwom zapewnić bezbłędną obsługę IVR i centrów kontaktowych.

Unite.AI

Czy banki są gotowe na oszustwa głosowe z użyciem sztucznej inteligencji?

Połączenie, które brzmi jak należy

Awarie uwierzytelniania stają się okazjami do oszustw

Firmy muszą zmienić swoją perspektywę, a nie swój stos zabezpieczeń

Lepsze podróże klienta stają się obroną przed oszustwami

Odkryj więcej