Künstliche Intelligenz

Vijay Balasubramaniyan, Co-Founder & CEO von Pindrop – Interviewreihe

Published June 3, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vijay Balasubramaniyan ist Co-Founder & CEO von Pindrop. Er hatte verschiedene Ingenieur- und Forschungspositionen bei Google, Siemens, IBM Research und Intel.

Vijay hält Patente im Bereich VoIP-Sicherheit und Skalierbarkeit und spricht häufig auf technischen Konferenzen über Telefonbetrugsbedrohungen, einschließlich RSA, Black Hat, FS-ISAC, CCS und ICDCS. Vijay erhielt einen PhD in Informatik von der Georgia Institute of Technology. Seine Doktorarbeit behandelte das Thema Telekommunikationssicherheit.

Pindrop‘s Lösungen sind auf dem Weg in die Zukunft der Stimme, indem sie den Standard für Identität, Sicherheit und Vertrauen für jede Sprachinteraktion etablieren. Pindrops Lösungen schützen einige der größten Banken, Versicherungen und Einzelhändler der Welt mithilfe patentiierter Technologien, die Intelligenz aus jedem Anruf und jeder Stimme extrahieren. Pindrop-Lösungen helfen dabei, Betrüger zu erkennen und echte Kunden zu authentifizieren, Betrug und Betriebskosten zu reduzieren, während sie die Kundenerfahrung verbessern und den Ruf des Unternehmens schützen. Pindrop, ein privat gehaltenes Unternehmen mit Sitz in Atlanta, GA, wurde 2011 von Dr. Vijay Balasubramaniyan, Dr. Paul Judge und Dr. Mustaque Ahamad gegründet und wird von Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP und Vitruvian Partners unterstützt. Für weitere Informationen besuchen Sie bitte pindrop.com.

Was sind die wichtigsten Erkenntnisse aus Pindrops 2024 Voice Intelligence and Security Report bezüglich des aktuellen Zustands von sprachbasierter Betrug und Sicherheit?

Der Bericht bietet einen tiefen Einblick in dringende Sicherheitsprobleme und zukünftige Trends, insbesondere in Kontaktzentren, die Finanz- und Nichtfinanzinstitute bedienen. Zu den wichtigsten Erkenntnissen des Berichts gehören:

Erheblicher Anstieg von Kontaktzentrumsbetrug: Der Kontaktzentrumsbetrug ist in den letzten zwei Jahren um 60 % gestiegen und hat damit das höchste Niveau seit 2019 erreicht. Bis zum Ende dieses Jahres wird erwartet, dass jeder 730. Anruf bei einem Kontaktzentrum betrügerisch ist.
Zunehmende Sophistikation von Angreifern, die Deepfakes verwenden: Deepfake-Angriffe, einschließlich hochentwickelter synthetischer Sprachklone, nehmen zu und bergen ein geschätztes Betrugsrisiko von 5 Milliarden US-Dollar für Kontaktzentren in den USA. Diese Technologie wird genutzt, um Betrugstaktiken wie automatisierte und groß angelegte Kontenrekonstruktion, Sprachimitation, gezielte Smishing und soziale Ingenieurskunst zu verbessern.
Traditionelle Methoden der Betrugsbekämpfung und Authentifizierung funktionieren nicht: Unternehmen verlassen sich immer noch auf manuelle Authentifizierung von Verbrauchern, die zeitaufwändig, teuer und unwirksam bei der Bekämpfung von Betrug sind. 350 Millionen Opfer von Datendiebstahl, 12 Milliarden US-Dollar, die jährlich für Authentifizierung ausgegeben werden, und 10 Milliarden US-Dollar, die durch Betrug verloren gehen, sind Beweise dafür, dass die aktuellen Sicherheitsmethoden nicht funktionieren.
Neue Ansätze und Technologien sind erforderlich: Liveness-Erkennung ist entscheidend, um schlechte KI und die Sicherheit zu bekämpfen. Sprachanalyse ist immer noch wichtig, aber sie muss mit Liveness-Erkennung und multifaktorieller Authentifizierung kombiniert werden.

Laut dem Bericht sind 67,5 % der US-Verbraucher besorgt über Deepfakes im Bankensektor. Können Sie die Arten von Deepfake-Bedrohungen erläutern, mit denen Finanzinstitute konfrontiert sind?

Bankenbetrug über Telefonkanäle steigt aufgrund mehrerer Faktoren. Da Finanzinstitute stark auf Kunden angewiesen sind, um verdächtige Aktivitäten zu bestätigen, können Callcenter zu primären Zielen für Betrüger werden. Betrüger verwenden soziale Ingenieurskunst, um Kundenberater zu täuschen und sie dazu zu bringen, Einschränkungen zu entfernen oder Online-Banking-Zugangsdaten zurückzusetzen. Laut einem Pindrop-Bankkunden zielen 36 % der identifizierten Betrugsanrufe in erster Linie darauf ab, die durch die Betrugsbekämpfung auferlegten Sperren zu entfernen. Ein weiterer Pindrop-Bankkunde berichtet, dass 19 % der Betrugsanrufe darauf abzielten, Zugang zu Online-Banking zu erhalten. Durch den Aufstieg von generativer KI und Deepfakes sind diese Arten von Angriffen potenter und skalierbarer geworden. Jetzt können ein oder zwei Betrüger in einer Garage beliebig viele synthetische Stimmen erstellen und gleichzeitige Angriffe auf mehrere Finanzinstitute starten und ihre Taktiken verstärken. Dies hat ein erhöhtes Risiko und eine erhöhte Besorgnis unter den Verbrauchern darüber geschaffen, ob der Bankensektor bereit ist, diese hochentwickelten Angriffe abzuwehren.

Wie haben Fortschritte in der generativen KI zum Anstieg von Deepfakes beigetragen, und welche spezifischen Herausforderungen stellen diese für Sicherheitssysteme dar?

Deepfakes sind nicht neu, aber Fortschritte in der generativen KI haben sie in den letzten zwölf Monaten zu einem potenten Vektor gemacht, da sie in der Lage sind, glaubwürdige Sprache und Sprachmuster in großem Umfang zu erstellen. Fortschritte in der generativen KI haben große Sprachmodelle befähigt, glaubwürdige Sprache und Sprachmuster zu erstellen. Jetzt kann natürliche, klingende synthetische (falsche) Sprache sehr billig und in großem Umfang erstellt werden. Diese Entwicklungen haben Deepfakes für jeden zugänglich gemacht, einschließlich Betrügern. Diese Deepfakes stellen Sicherheitssysteme vor Herausforderungen, indem sie überzeugende Phishing-Angriffe ermöglichen, Fehlinformationen verbreiten und finanziellen Betrug durch realistische Nachahmungen ermöglichen. Sie untergraben traditionelle Authentifizierungsmethoden, bergen erhebliche Reputationsrisiken und erfordern fortschrittliche Erkennungstechnologien, um mit ihrer schnellen Evolution und Skalierbarkeit Schritt zu halten.

Wie hat Pindrop Pulse dazu beigetragen, den TTS-Engine zu identifizieren, der im Präsidenten-Biden-Robocall-Angriff verwendet wurde, und welche Auswirkungen hat dies auf die zukünftige Erkennung von Deepfakes?

Pindrop Pulse spielte eine entscheidende Rolle bei der Identifizierung von ElevenLabs, dem TTS-Engine, der im Präsidenten-Biden-Robocall-Angriff verwendet wurde. Mit unserer fortschrittlichen Deepfake-Erkennungstechnologie haben wir einen vierstufigen Analyseprozess umgesetzt, der Audio-Filterung und Reinigung, Feature-Extraktion, Segmentanalyse und kontinuierliche Bewertung umfasst. Dieser Prozess ermöglichte es uns, Nicht-Sprachframes (z. B. Stille, Rauschen, Musik) zu filtern und low-level-Spektral-Funktionen zu extrahieren, die maschinengenerierte von generischer menschlicher Sprache unterscheiden.

Indem wir die Audioaufnahme in 155 Segmente unterteilten und Liveness-Scores zuwiesen, konnten wir feststellen, dass die Audioaufnahme konsistent künstlich war. Mit “Fakeprints” verglichen wir die Audioaufnahme mit 122 TTS-Systemen und identifizierten mit 99 % Wahrscheinlichkeit, dass ElevenLabs oder ein ähnliches System verwendet wurde. Diese Feststellung wurde mit 84 % Wahrscheinlichkeit durch den ElevenLabs SpeechAI-Klassifizierer bestätigt. Unsere detaillierte Analyse enthüllte Deepfake-Artefakte, insbesondere in Phrasen mit reichen Frikativen und ungewöhnlichen Ausdrücken für Präsident Biden.

Dieser Fall unterstreicht die Bedeutung unserer skalierbaren und erklärbareren Deepfake-Erkennungssysteme, die die Genauigkeit verbessern, Vertrauen aufbauen und sich an neue Technologien anpassen. Es hebt auch die Notwendigkeit hervor, dass generative KI-Systeme Sicherheitsvorkehrungen gegen Missbrauch umfassen, um sicherzustellen, dass Sprachkloning von realen Personen zugestimmt wird. Unser Ansatz setzt einen Benchmark für die Bekämpfung von synthetischen Medienbedrohungen, indem er kontinuierliche Überwachung und Forschung betont, um der Entwicklung von Deepfake-Methoden voraus zu sein.

Der Bericht erwähnt erhebliche Bedenken hinsichtlich Deepfakes, die Medien und politische Institutionen betreffen. Können Sie Beispiele für solche Vorfälle und ihre möglichen Auswirkungen nennen?

Unsere Forschung hat ergeben, dass US-Verbraucher am meisten besorgt über das Risiko von Deepfakes und Sprachklonen im Banken- und Finanzsektor sind. Aber darüber hinaus stellt die Bedrohung von Deepfakes für unsere Medien und politischen Institutionen eine ebenso große Herausforderung dar. Außerhalb der USA wurde die Verwendung von Deepfakes in Indonesien (Suharto-Deepfake) und der Slowakei (Michal Šimečka und Monika Tódová Voice-Deepfake) beobachtet.

2024 ist ein wichtiges Wahljahr in den USA und Indien. Mit 4 Milliarden Menschen in 40 Ländern, die erwartet werden, zu wählen, macht die Verbreitung von künstlicher Intelligenz-Technologie es leichter als je zuvor, Menschen im Internet zu täuschen. Wir erwarten einen Anstieg von gezielten Deepfake-Angriffen auf Regierungsbehörden, soziale Medien, andere Nachrichtenmedien und die allgemeine Bevölkerung, die darauf abzielen, Misstrauen in unsere Institutionen zu schüren und Fehlinformationen in der öffentlichen Diskussion zu verbreiten.

Können Sie die Technologien und Methoden erklären, die Pindrop verwendet, um Deepfakes und synthetische Stimmen in Echtzeit zu erkennen?

Pindrop verwendet eine Reihe von fortschrittlichen Technologien und Methoden, um Deepfakes und synthetische Stimmen in Echtzeit zu erkennen, einschließlich:

- Liveness-Erkennung: Pindrop verwendet groß angelegtes maschinelles Lernen, um Nicht-Sprachframes (z. B. Stille, Rauschen, Musik) zu analysieren und low-level-Spektral-Funktionen zu extrahieren, die maschinengenerierte von generischer menschlicher Sprache unterscheiden.
- Audio-Fingerprinting – Dies beinhaltet die Erstellung einer digitalen Signatur für jede Stimme auf der Grundlage ihrer akustischen Eigenschaften, wie Tonhöhe, Klang und Rhythmus. Diese Signaturen werden dann verwendet, um Stimmen über verschiedene Anrufe und Interaktionen hinweg zu vergleichen und abzugleichen.
- Verhaltensanalyse – Diese wird verwendet, um Muster von Verhalten zu analysieren, die außerhalb des Üblichen liegen, einschließlich anomalem Zugriff auf verschiedene Konten, schneller Bot-Aktivität, Kontenrekonstruktion, Datenbergung und robotergetriebenem Wählen.

Sprachanalyse – Durch die Analyse von Sprachmerkmalen wie Stimmtrakteigenschaften, phonetischen Variationen und Sprechstil kann Pindrop eine Sprachbiometrie für jeden Einzelnen erstellen. Jede Abweichung von der erwarteten Sprachbiometrie kann eine Warnung auslösen.

Mehrschichtiger Sicherheitsansatz – Dies beinhaltet die Kombination verschiedener Erkennungsmethoden, um Ergebnisse zu überprüfen und die Erkennungsgenauigkeit zu erhöhen. Zum Beispiel können die Ergebnisse der Audio-Fingerprinting mit biometrischer Analyse abgeglichen werden, um einen Verdacht zu bestätigen.
Kontinuierliches Lernen und Anpassen – Pindrop aktualisiert kontinuierlich seine Modelle und Algorithmen. Dies beinhaltet die Integration neuer Daten, die Verfeinerung von Erkennungstechniken und das Bleiben vor neuen Bedrohungen. Kontinuierliches Lernen stellt sicher, dass die Erkennungsfähigkeiten von Pindrop über die Zeit verbessert werden und sich an neue Arten von synthetischen Stimmenangriffen anpassen.

Was ist die Pulse-Deepfake-Garantie, und wie verbessert sie das Vertrauen der Kunden in Pindrops Fähigkeit, Deepfake-Bedrohungen zu bewältigen?

Die Pulse-Deepfake-Garantie ist eine einzigartige Garantie, die eine Erstattung gegen synthetischen Sprachbetrug im Callcenter bietet. Da wir an der Schwelle eines seismischen Wandels im Cyberangriffslandschaft stehen, potenzielle finanzielle Verluste, die voraussichtlich auf 10,5 Billionen US-Dollar im Jahr 2025 ansteigen werden, verbessert die Pulse-Deepfake-Garantie das Vertrauen der Kunden, indem sie mehrere wichtige Vorteile bietet:

Verbessertes Vertrauen: Die Pulse-Deepfake-Garantie zeigt Pindrops Vertrauen in seine Produkte und Technologie, indem sie den Kunden eine vertrauenswürdige Sicherheitslösung bietet, wenn sie ihre Kontoinhaber bedienen.
Erstattung von Verlusten: Pindrop-Kunden können Erstattungen für synthetischen Sprachbetrug erhalten, der vom Pindrop-Produkt-Set nicht erkannt wurde.
Kontinuierliche Verbesserung: Die Anfragen von Pindrop-Kunden, die im Rahmen des Garantieprogramms eingereicht werden, helfen Pindrop, der Entwicklung von synthetischem Sprachbetrug voranzubleiben.

Gibt es bemerkenswerte Fallstudien, in denen Pindrops Technologien erfolgreich Deepfake-Bedrohungen abgewehrt haben? Was waren die Ergebnisse?

Der Pikesville-High-School-Vorfall: Am 16. Januar 2024 tauchte eine Aufnahme auf Instagram auf, die angeblich den Schulleiter der Pikesville High School in Baltimore, Maryland, zeigte. Die Audioaufnahme enthielt herabwürdigende Bemerkungen über schwarze Schüler und Lehrer, was zu einer Welle der öffentlichen Empörung und ernsthaften Bedenken führte.

Im Lichte dieser Entwicklungen führte Pindrop eine umfassende Untersuchung durch und führte drei unabhängige Analysen durch, um die Wahrheit aufzudecken. Die Ergebnisse unserer gründlichen Untersuchung führten zu einer differenzierten Schlussfolgerung: Obwohl die Januar-Aufnahme verändert worden war, fehlten ihr die definitiven Merkmale von KI-generierter synthetischer Sprache. Unsere Zuversicht in diese Feststellung wird durch eine 97-prozentige Sicherheit auf der Grundlage unserer Analysemetriken unterstützt. Diese wichtige Feststellung unterstreicht die Bedeutung, detaillierte und objektive Analysen durchzuführen, bevor öffentliche Erklärungen über die Natur möglicherweise manipulierter Medien abgegeben werden.

Bei einer großen US-Bank entdeckte Pindrop, dass ein Betrüger synthetische Stimme verwendete, um die Authentifizierung im IVR zu umgehen. Wir fanden heraus, dass der Betrüger maschinengenerierte Stimme verwendete, um die IVR-Authentifizierung für gezielte Konten zu umgehen und die richtigen Antworten auf die Sicherheitsfragen zu geben und in einem Fall sogar einmalige Passwörter (OTP) zu übergeben. Bots, die erfolgreich im IVR authentifiziert wurden, identifizierten Konten, die es wert waren, angegriffen zu werden, und führten grundlegende Kontenabfragen durch. Nachfolgende Anrufe bei diesen Konten kamen von einem echten Menschen, um den Betrug zu begehen. Pindrop alarmierte die Bank über diesen Betrug in Echtzeit mithilfe der Pulse-Technologie und konnte den Betrüger stoppen.

In einer anderen Finanzinstitution fand Pindrop heraus, dass einige Betrüger ihre eigenen Sprachbots trainierten, um die automatisierten Antwortsysteme der Bank nachzuahmen. In einem, was wie ein merkwürdiger erster Anruf klang, rief ein Sprachbot in das IVR der Bank an, nicht, um Kontenrekonstruktion durchzuführen, sondern um die IVR-Prompts zu wiederholen. Mehrere Anrufe kamen in verschiedene Zweige des IVR-Gesprächsbaums und wiederholten jede zwei Sekunden, was sie hörten. Eine Woche später wurden weitere Anrufe beobachtet, die das Gleiche taten, aber diesmal wiederholten die Bots die Phrasen in genau der gleichen Stimme und den gleichen Manierismen wie das IVR der Bank. Wir glauben, dass ein Betrüger einen Sprachbot trainierte, um das IVR der Bank nachzuahmen, als Ausgangspunkt für einen Smishing-Angriff. Mit Hilfe von Pindrop Pulse konnte die Finanzinstitution diesen Angriff abwehren, bevor er Schaden anrichten konnte.

Unabhängiges NPR-Audio-Deepfake-Experiment: Die digitale Sicherheit ist ein ständiger Wettlauf zwischen Betrügern und Sicherheitstechnologieanbietern. Es gibt mehrere Anbieter, einschließlich Pindrop, die behaupten, Audio-Deepfakes konsistent zu erkennen – NPR hat diese Behauptungen getestet, um zu bewerten, ob aktuelle Technologielösungen in der Lage sind, KI-generierte Audio-Deepfakes konsistent zu erkennen.

Pindrop Pulse erkannte 81 der 84 Audio-Proben korrekt, was einer Erkennungsrate von 96,4 % entspricht. Darüber hinaus erkannte Pindrop Pulse 100 % aller Deepfake-Proben als solche. Während andere Anbieter ebenfalls in der Studie ausgewertet wurden, zeigte Pindrop, dass seine Technologie in der Lage ist, Deepfakes und echte Audio-Proben zuverlässig und genau zu erkennen.

Welche zukünftigen Trends in sprachbasierter Betrug und Sicherheit sehen Sie voraus, insbesondere im Hinblick auf die schnelle Entwicklung von KI-Technologien? Wie bereitet sich Pindrop darauf vor, diese zu bekämpfen?

Wir erwarten, dass der Kontaktzentrumsbetrug 2024 weiter ansteigen wird. Basierend auf der Analyse der Betrugsraten über verschiedene Branchen hinweg schätzen wir, dass die Betrugsrate voraussichtlich 1 von 730 Anrufen erreichen wird, was einer Steigerung von 4-5 % gegenüber dem aktuellen Niveau entspricht.

Der größte Teil des erhöhten Betrugs wird voraussichtlich den Bankensektor betreffen, da Versicherungen, Broker und andere Finanzsegmente voraussichtlich auf dem aktuellen Niveau bleiben werden. Wir schätzen, dass diese Betrugsraten ein Betrugsrisiko von 7 Milliarden US-Dollar für Finanzinstitute in den USA darstellen, das gesichert werden muss. Wir erwarten jedoch eine erhebliche Verschiebung, insbesondere da Betrüger IVR als Testgelände nutzen. Kürzlich haben wir eine Zunahme von Betrügern beobachtet, die manuell personenbezogene Informationen (PII) eingeben, um Kontodetails zu überprüfen.

Um dies zu bekämpfen, werden wir weiterhin Pindrops bestehende Lösungen verbessern und neue, innovative Tools wie Pindrop Pulse einführen, um unsere Kunden zu schützen.

Was sind die neuen Werkzeuge und Techniken, die entwickelt werden, um die Verhinderung von Sprachbetrug und Authentifizierung zu verbessern?

Die Techniken zur Verhinderung von Sprachbetrug und Authentifizierung entwickeln sich kontinuierlich, um mit den Fortschritten in der Technologie und der Sophistikation von Betrugstätigkeiten Schritt zu halten. Einige neue Werkzeuge und Techniken umfassen:

Kontinuierliche Betrugsbekämpfung und -untersuchung: Bietet einen historischen “Rückblick” auf Betrugsfälle mit neuen Informationen, die jetzt verfügbar sind. Mit diesem Ansatz können Betrugsanalysten “lauschen”, um neue Betrugssignale zu erkennen, nach historischen Anrufen suchen, die möglicherweise damit zusammenhängen, und diese Anrufe neu bewerten. Dies bietet Unternehmen eine kontinuierliche und umfassende Perspektive auf Betrug in Echtzeit.
Intelligente Sprachanalyse: Traditionelle Sprachbiometrie-Systeme sind anfällig für Deepfake-Angriffe. Um ihre Verteidigung zu verbessern, sind neue Technologien wie Voice Mismatch und Negative Voice Matching erforderlich. Diese Technologien bieten eine zusätzliche Verteidigungsebene, indem sie mehrere Stimmen, wiederkehrende Anrufer und potenzielle Bedrohungen erkennen.
Frühe Betrugsbekämpfung: Betrugsbekämpfungstechnologien, die ein schnelles und zuverlässiges Betrugssignal am Anfang des Anrufs liefern, sind unschätzbar. Neben Liveness-Erkennung bieten Technologien wie Carrier-Metadatenanalyse, Caller-ID-Spoofing-Erkennung und audio-basierte Spoofing-Erkennung Schutz vor Betrugsangriffen am Anfang eines Gesprächs, wenn die Verteidigung am verwundbarsten ist.

Vielen Dank für das großartige Interview. Um mehr zu erfahren, lesen Sie den Pindrop-Bericht 2024 zur Voice Intelligence und Sicherheit oder besuchen Sie Pindrop.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.

Unite.AI

Vijay Balasubramaniyan, Co-Founder & CEO von Pindrop – Interviewreihe

You may like