Artificiell intelligens

Vijay Balasubramaniyan, medgrundare och VD för Pindrop – Intervjuserie

Published June 3, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vijay Balasubramaniyan är medgrundare och VD för Pindrop. Han har haft olika ingenjörs- och forskarroller på Google, Siemens, IBM Research och Intel.

Vijay innehar patent inom VoIP-säkerhet och skalbarhet och talar ofta om telefonbedrägerier på tekniska konferenser, inklusive RSA, Black Hat, FS-ISAC, CCS och ICDCS. Vijay avlade doktorsexamen i datavetenskap vid Georgia Institute of Technology. Hans avhandling handlade om telekomsäkerhet.

Pindrop‘s lösningar leder vägen till framtiden för röst genom att etablera standarden för identitet, säkerhet och förtroende för varje röstinteraktion. Pindrops lösningar skyddar vissa av världens största banker, försäkringsbolag och detaljhandlare med patenterad teknik som extraherar intelligens från varje samtal och röst som möts. Pindrops lösningar hjälper till att upptäcka bedragare och autentisera äkta kunder, minska bedrägeri och operativa kostnader samtidigt som kundupplevelsen förbättras och varumärkesryktet skyddas. Pindrop, ett privatägt företag med huvudkontor i Atlanta, GA, grundades 2011 av Dr. Vijay Balasubramaniyan, Dr. Paul Judge och Dr. Mustaque Ahamad och är riskkapitalfinansierat av Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP och Vitruvian Partners. För mer information, besök gärna pindrop.com.

Vilka är de viktigaste slutsatserna från Pindrops 2024 Voice Intelligence and Security Report om den nuvarande situationen för röstbaserat bedrägeri och säkerhet?

Rapporten ger en djupgående analys av pressande säkerhetsfrågor och framtida trender, särskilt inom kontaktcenter som servar finansiella och icke-finansiella institutioner. Viktiga slutsatser i rapporten inkluderar:

Signifikant ökning av kontaktcenterbedrägeri: Kontaktcenterbedrägeri har ökat med 60% under de senaste två åren och nått de högsta nivåerna sedan 2019. Vid slutet av detta år förväntas ett av 730 samtal till ett kontaktcenter vara bedrägeri.
Ökande sofistikerade attacker med Deepfake: Deepfake-attacker, inklusive avancerade syntetiska röstkloner, ökar och utgör en uppskattad bedrägeririsk på 5 miljarder dollar för amerikanska kontaktcenter. Denna teknik används för att förbättra bedrägeritaktik som automatiserad och högskalig kontorekonnaissance, röstimitation, riktad smishing och social ingenjörskonst.
Traditionella metoder för bedrägeridetektering och autentisering fungerar inte: Företag förlitar sig fortfarande på manuell autentisering av konsumenter, vilket är tidskrävande, dyrt och ineffektivt för att stoppa bedrägeri. 350 miljoner offer för dataintrång. 12 miljarder dollar årligen på autentisering och 10 miljarder dollar förlorade till bedrägeri är bevis på att nuvarande säkerhetsmetoder inte fungerar
Nya tillvägagångssätt och tekniker krävs: Liveness-detektering är avgörande för att bekämpa dålig AI och förbättra säkerheten. Röstanalys är fortfarande viktig men måste kombineras med liveness-detektering och multifaktorautentisering.

Enligt rapporten är 67,5% av amerikanska konsumenter oroliga för deepfakes i banksektorn. Kan du förklara de typer av deepfake-hot som finansiella institutioner står inför?

Bankbedrägeri via telefonkanaler ökar på grund av flera faktorer. Eftersom finansiella institutioner förlitar sig tungt på kunder för att bekräfta misstänkta aktiviteter, kan kontaktcenter bli primära mål för bedragare. Bedragare använder social ingenjörskonst för att lura kundtjänstrepresentanter, övertala dem att ta bort begränsningar eller hjälpa till att återställa onlinebankkoder. Enligt en Pindrop-bankkund syftade 36% av identifierade bedrägerisamtal främst till att ta bort kvarhållningar som införts av bedrägerikontroller. En annan Pindrop-bankkund rapporterar att 19% av bedrägerisamtalen syftade till att få tillgång till onlinebank. Med den ökande generativa AI och deepfakes har dessa typer av attacker blivit mer potenta och skalbara. Nu kan en eller två bedragare i en garage skapa vilken mängd syntetiska röster som helst och lansera samtidiga attacker på flera finansiella institutioner och förstärka sina taktiker. Detta har skapat en högre nivå av risk och oro bland konsumenter om huruvida banksektorn är förberedd att avvärja dessa sofistikerade attacker.

Hur har framstegen inom generativ AI bidragit till ökningen av deepfakes, och vilka specifika utmaningar ställer dessa för säkerhetssystem?

Medan deepfakes inte är nya, har framstegen inom generativ AI gjort dem till en potent vektor under det senaste året, eftersom de har kunnat bli mer övertygande i en mycket större skala. Framstegen inom GenAI har gjort stora språkmodeller mer skickade på att skapa trovärdig tal och språk. Nu kan naturligt ljudande syntetisk (falsk) tal skapas mycket billigt och i stor skala. Dessa utvecklingar har gjort deepfakes tillgängliga för alla, inklusive bedragare. Dessa deepfakes utmanar säkerhetssystem genom att möjliggöra högt övertygande phishingattacker, sprida desinformation och underlätta finansiellt bedrägeri genom realistiska imitationer. De undergräver traditionella autentiseringsmetoder, skapar betydande ryktesrisker och kräver avancerad detekteringsteknik för att hålla jämna steg med deras snabba utveckling och skalbarhet.

Hur bidrog Pindrop Pulse till att identifiera TTS-motorn som användes i President Biden-robokallsattacken, och vad har detta för implikationer för framtida deepfakedetektering?

Pindrop Pulse spelade en avgörande roll i att identifiera ElevenLabs, TTS-motorn som användes i President Biden-robokallsattacken. Med vår avancerade deepfakedetekteringsteknik implementerade vi en fyra-stegs analysprocess som omfattade ljudfilter och rensning, funktionsextrahering, segmentanalys och kontinuerlig poängsättning. Denna process möjliggjorde att vi kunde filtrera bort icke-talramar, nedsample ljudet för att replikera typiska telefonförhållanden och extrahera lågnivåspektro-temporala funktioner.

Genom att dela upp ljudet i 155 segment och tilldela livskvalitetspoäng kunde vi fastställa att ljudet var konsekvent artificiellt. Med “fakeprints” kunde vi jämföra ljudet mot 122 TTS-system och identifiera med 99% sannolikhet att ElevenLabs eller ett liknande system användes. Denna upptäckt validerades med 84% sannolikhet genom ElevenLabs SpeechAI-klassificerare. Vår detaljerade analys avslöjade deepfake-artefakter, särskilt i fraser med rika frikativer och ovanliga uttryck för President Biden.

Detta fall understryker vikten av våra skalbara och förklarliga deepfakedetekteringssystem, som förbättrar noggrannhet, bygger förtroende och anpassar sig till nya teknologier. Det lyfter också fram behovet av att generativa AI-system inför säkerhetsåtgärder mot missbruk, för att säkerställa att röstkloning sker med samtycke från verkliga individer. Vår tillvägagångssätt sätter en standard för att hantera syntetiska mediehot, med betoning på kontinuerlig övervakning och forskning för att ligga före utvecklingen av deepfaketeknik.

Rapporten nämner betydande farhågor om deepfakes som påverkar media och politiska institutioner. Kan du ge exempel på sådana incidenter och deras potentiella inverkan?

Vår forskning har visat att amerikanska konsumenter är mest oroliga för risken för deepfakes och röstkloner i bank- och finansiell sektor. Men utöver det utgör hotet från deepfakes mot att skada våra medie- och politiska institutioner en lika stor utmaning. Utanför USA har användningen av deepfakes också observerats i Indonesien (Suharto-deepfake) och Slovakien (Michal Šimečka och Monika Tódová röst-deepfake).

2024 är ett betydelsefullt valår i USA och Indien. Med 4 miljarder människor i 40 länder som förväntas rösta, gör den ökande tillgängligheten av artificiell intelligens det lättare än någonsin att lura människor på internet. Vi förväntar oss en ökning av riktade deepfake-attacker mot regeringsinstitutioner, sociala medieföretag, andra nyhetsmedier och den allmänna befolkningen, som är avsedda att skapa misstro mot våra institutioner och sprida desinformation i den offentliga diskursen.

Kan du förklara de tekniker och metoder som Pindrop använder för att upptäcka deepfakes och syntetiska röster i realtid?

Pindrop använder en rad avancerade tekniker och metoder för att upptäcka deepfakes och syntetiska röster i realtid, inklusive:

- Liveness-detektering: Pindrop använder storskalig maskinlärning för att analysera icke-talramar (t.ex. tystnad, brus, musik) och extrahera lågnivåspektro-temporala funktioner som skiljer mellan maskin-genererad och generisk mänsklig tal
- Ljudfingeravtryck – Detta innebär att skapa en digital signatur för varje röst baserat på dess akustiska egenskaper, såsom pitch, ton och kadens. Dessa signaturer används sedan för att jämföra och matcha röster över olika samtal och interaktioner.
- Beteendeanalys – Används för att analysera beteendemönster som verkar utanför det vanliga, inklusive onormal åtkomst till olika konton, snabb botaktivitet, kontorekonnaissance, datautvinning och robotisk uppringning.

Röstanalys – Genom att analysera röstfunktioner som röstkanalsegenskaper, fonetiska variationer och talsätt, kan Pindrop skapa en röstavtryck för varje individ. Avvikelser från det förväntade röstavtrycket kan utlösa en varning.

Flerlagerssäkerhetsansats – Detta innebär att kombinera olika detekteringsmetoder för att korsverifiera resultaten och öka detekteringsnoggrannheten. Till exempel kan ljudfingeravtrycksresultat korsrefereras med biometrisk analys för att bekräfta en misstanke.
Kontinuerligt lärande och anpassning – Pindrop uppdaterar kontinuerligt sina modeller och algoritmer. Detta innebär att inkorporera ny data, förbättra detekteringstekniker och ligga före nya hot. Kontinuerligt lärande säkerställer att deras detekteringsförmåga förbättras över tid och anpassar sig till nya typer av syntetiska röstattacker.

Vad är Pulse Deepfake-garantin, och hur förbättrar den kundernas förtroende för Pindrops förmåga att hantera deepfake-hot?

Pulse Deepfake-garantin är en första i sitt slag-garanti som erbjuder ersättning mot syntetisk röstbedrägeri i kontaktcenter. Medan vi står på tröskeln till en seismisk förändring i cyberattack-landskapet, potentiella finansiella förluster förväntas stiga till 10,5 biljoner dollar år 2025, Pulse Deepfake-garantin förbättrar kundernas förtroende genom att erbjuda flera nyckelfördelar:

Förbättrat förtroende: Pulse Deepfake-garantin visar Pindrops förtroende för sina produkter och teknologi, och erbjuder kunderna en pålitlig säkerhetslösning när de betjänar sina kontohavare.
Förlustersättning: Pindrop-kunder kan få ersättning för syntetisk röstbedrägeri som inte upptäckts av Pindrop-produktserien.
Kontinuerlig förbättring: Pindrop-kundförfrågningar som mottagits under garantiprogrammet hjälper Pindrop att ligga före utvecklingen av syntetisk röstbedrägeri.

Finns det några anmärkningsvärda fallstudier där Pindrops tekniker har lyckats motverka deepfake-hot? Vilka var resultaten?

Pikesville High School-incidenten: Den 16 januari 2024 uppdagades en inspelning på Instagram som påstods vara skolans rektor på Pikesville High School i Baltimore, Maryland. Ljudet innehöll nedsättande kommentarer om svarta studenter och lärare, vilket utlöste en storm av offentlig upprördhet och allvarlig oro.

Mot bakgrund av dessa utvecklingar genomförde Pindrop en omfattande utredning, genomförde tre oberoende analyser för att avslöja sanningen. Resultaten av vår grundliga utredning ledde till en nyanserad slutsats: även om januari-ljudet hade ändrats, saknade det de definitiva funktionerna hos AI-genererat syntetiskt tal. Vår tillförlitlighet i denna bestämning stöds av 97% säkerhet baserat på våra analysmetriker. Denna avgörande upptäckt understryker vikten av att genomföra detaljerad och objektiv analys innan offentliga uttalanden görs om naturen hos potentiellt manipulerat media.

På en stor amerikansk bank upptäckte Pindrop att en bedragare använde syntetisk röst för att kringgå autentisering i IVR. Vi fann att bedragaren använde maskin-genererad röst för att kringgå IVR-autentisering för målinriktade konton, och gav rätt svar på säkerhetsfrågorna och, i ett fall, även passerade engångslösenord (OTP). Bots som lyckades autentisera i IVR identifierade konton som var värda att målinrikta via grundläggande saldobegäran. Följande samtal till dessa konton var från en verklig människa för att utföra bedrägeriet. Pindrop varnade banken för detta bedrägeri i realtid med hjälp av Pulse-teknik och kunde stoppa bedragaren.

På en annan finansiell institution fann Pindrop att vissa bedragare tränade sina egna röstbottar för att imitera bankens automatiserade svarssystem. I vad som lät som ett underligt första samtal ringde en röstbot in till bankens IVR, inte för att göra kontorekonnaissance, utan för att upprepa IVR-prompten. Flera samtal kom in till olika grenar av IVR-samtalsträdet, och varannan sekund upprepade boten vad den hörde. En vecka senare observerades fler samtal som gjorde detsamma, men denna gång upprepade boten fraserna med exakt samma röst och manér som bankens IVR. Vi tror att en bedragare tränade en röstbot för att spegla bankens IVR som en startpunkt för en smishing-attack. Med hjälp av Pindrop Pulse kunde den finansiella institutionen förhindra denna attack innan någon skada skedde.

Oberoende NPR-ljud-deepfake-experiment: Digital säkerhet är en ständigt pågående kapprustning mellan bedragare och säkerhetsteknologileverantörer. Det finns flera leverantörer, inklusive Pindrop, som har påstått att de kan upptäcka ljud-deepfakes konsekvent – NPR satte dessa påståenden på prov för att bedöma om nuvarande tekniska lösningar är kapabla att upptäcka AI-genererade ljud-deepfakes på ett konsekvent sätt.

Pindrop Pulse upptäckte korrekt 81 av de 84 ljudexemplen, vilket motsvarar en noggrannhet på 96,4%. Dessutom upptäckte Pindrop Pulse 100% av alla deepfake-exemplen. Medan andra leverantörer också utvärderades i studien, framträdde Pindrop som ledare genom att visa att deras teknik kan tillförlitligt och korrekt upptäcka både deepfake och äkta ljud.

Vilka framtida trender inom röstbaserat bedrägeri och säkerhet förutser du, särskilt med den snabba utvecklingen av AI-teknologier? Hur förbereder sig Pindrop för att hantera dessa?

Vi förväntar oss att kontaktcenterbedrägeri kommer att fortsätta öka 2024. Baserat på år-till-datum-analys av bedrägerifrekvenser över vertikaler, förväntar vi oss att bedrägerifrekvensen kommer att nå 1 av 730 samtal, vilket representerar en 4-5% ökning jämfört med nuvarande nivåer.

Det mesta av den ökade bedrägeriexponeringen förväntas påverka banksektorn, medan försäkring, mäklare och andra finansiella segment förväntas förbli kring nuvarande nivåer. Vi förväntar oss en betydande förändring, särskilt med bedragare som använder IVR som en testbädd. Nyligen har vi observerat en ökning av bedragare som manuellt anger personlig identifieringsinformation (PII) för att verifiera kontouppgifter.

För att hjälpa till att bekämpa detta kommer vi att fortsätta att både förbättra Pindrops nuvarande lösningar och lansera nya och innovativa verktyg, som Pindrop Pulse, som skyddar våra kunder.

Utöver nuvarande teknologier, vilka nya verktyg och tekniker utvecklas för att förbättra röstbedrägeriförebyggande och autentisering?

Röstbedrägeriförebyggande och autentiseringstekniker utvecklas kontinuerligt för att hålla jämna steg med teknologiska framsteg och sofistikerade bedrägeriaktiviteter. Några framväxande verktyg och tekniker inkluderar:

Kontinuerlig bedrägeridetektering och utredning: Tillhandahåller en historisk “titt tillbaka” på bedrägeriincidenter med ny information som nu är tillgänglig. Med detta tillvägagångssätt kan bedrägerianalytiker “lyssna” på nya bedrägerisignaler, skanna efter historiska samtal som kan vara relaterade och omvärdera dessa samtal. Detta ger företagen en kontinuerlig och omfattande vy över bedrägeri i realtid.
Intelligent röstanalys: Traditionella röstbiometrisystem är sårbara för deepfake-attacker. För att förbättra deras försvar krävs nya teknologier som röstmissmatchning och negativ röstmatchning. Dessa teknologier tillhandahåller ett ytterligare försvarsskikt genom att känna igen och differentiera flera röster, återkommande samtal och identifiera var en annan ljudande röst kan utgöra ett hot.
Tidig bedrägeridetektering: Bedrägeridetekteringsteknologier som tillhandahåller en snabb och tillförlitlig bedrägerisignal tidigt i samtalprocessen är ovärderliga. Utöver liveness-detektering tillhandahåller teknologier som carrier-metadataanalys, caller ID-spoof-detektering och ljudbaserad spoof-detektering skydd mot bedrägeriattacker i början av en konversation när försvar är som mest sårbara.

<Tack för den utmärkta intervjun, för att lära mer läs Pindrops 2024 Voice Intelligence and Security Report eller besök Pindrop.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhället som elektricitet, och fångas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.

Unite.AI

Vijay Balasubramaniyan, medgrundare och VD för Pindrop – Intervjuserie

You may like