Kunstig intelligens

Vijay Balasubramaniyan, medgrunnlegger og CEO av Pindrop – Intervju-serie

Published June 3, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vijay Balasubramaniyan er medgrunnlegger og CEO av Pindrop. Han har hatt forskjellige ingeniør- og forskningsroller hos Google, Siemens, IBM Research og Intel.

Vijay innehar patenter innen VoIP-sikkerhet og skalerbarhet og holder ofte foredrag om telefon-svindeltrusler på tekniske konferanser, inkludert RSA, Black Hat, FS-ISAC, CCS og ICDCS. Vijay tok en PhD i datavitenskap fra Georgia Institute of Technology. Hans PhD-avhandling var om telekomsikkerhet.

Pindrop‘s løsninger leder vei til fremtiden for stemme ved å etablere standarden for identitet, sikkerhet og tillit for hver stemmeinteraksjon. Pindrops løsninger beskytter noen av verdens største banker, forsikringsselskaper og detaljister ved å bruke patenterert teknologi som trekker ut intelligens fra hver samtale og stemme som møtes. Pindrop-løsninger hjelper med å avsløre svindlere og autentisere ekte kunder, redusere svindel og driftskostnader samtidig som kundeopplevelsen og beskyttelse av varemerke rykte forbedres. Pindrop, et privat eid selskap med hovedkontor i Atlanta, GA, ble grunnlagt i 2011 av Dr. Vijay Balasubramaniyan, Dr. Paul Judge og Dr. Mustaque Ahamad og er venture-finansiert av Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP og Vitruvian Partners. For mer informasjon, besøk gjerne pindrop.com.

Hva er de viktigste punktene fra Pindrop’s 2024 Voice Intelligence and Security Report når det gjelder den nåværende tilstanden for stemme-basert svindel og sikkerhet?

Rapporten gir en dyptgående analyse av presserende sikkerhetsproblemer og fremtidige trender, særlig innen kontakt-sentre som betjener finansielle og ikke-finansielle institusjoner. Nøkkel funn i rapporten inkluderer:

Betydelig økning i kontakt-senter svindel: Kontakt-senter svindel har økt med 60% de siste to årene, og nådde de høyeste nivåene siden 2019. Ved slutten av dette året, forventes det at en av hver 730 samtaler til et kontakt-senter vil være svindel.
Økende sofistikert angrep med Deepfake: Deepfake-angrep, inkludert sofistikerte syntetiske stemme-kloner, øker, og utgjør en estimert $5 milliarder svindel-risiko for amerikanske kontakt-sentre. Denne teknologien brukes til å forbedre svindel-taktikker som automatisert og høy-skala konto-rekonnaissance, stemme-impersonasjon, målrettede smishing og sosial ingeniring.
Tradisjonelle metoder for svindel-avdekning og autentisering fungerer ikke: Selskaper avhenger fortsatt av manuell autentisering av forbrukere, som er tidskrevende, dyrt og ineffektivt i å stoppe svindel. 350 millioner ofre for data-lekkasjer, $12 milliarder brukt årlig på autentisering og $10 milliarder tapt til svindel, er bevis på at nåværende sikkerhetsmetoder ikke fungerer.
Nye tilnærminger og teknologier er nødvendige: Liveness-avdekning er avgjørende for å bekjempe dårlig AI og forbedre sikkerheten. Stemme-analyse er fortsatt viktig, men må kombineres med liveness-avdekning og multifaktor-autentisering.

Ifølge rapporten er 67,5% av amerikanske forbrukere bekymret for deepfakes i banksektoren. Kan du utdype på de typene deepfake-trusler som finansielle institusjoner står overfor?

Bank-svindel via telefon-kanaler øker på grunn av flere faktorer. Ettersom finansielle institusjoner avhenger sterkt av kunder for å bekrefte mistenkelig aktivitet, kan kontakt-sentre bli primære mål for svindlere. Svindlere bruker sosial ingeniring-taktikker for å bedra kundeservice-representanter, og overbeviser dem om å fjerne restriksjoner eller hjelpe med å tilbakestille online-bank-kredensialer. Ifølge en Pindrop-bank-kunde, var 36% av identifiserte svindel-samtaler hovedsakelig rettet mot å fjerne hold som var pålagt av svindel-kontroller. En annen Pindrop-bank-kunde rapporterer at 19% av svindel-samtaler var rettet mot å få tilgang til online-banking. Med økningen av generativ AI og deepfakes, har disse angrepene blitt mer potente og skalerbare. Nå kan en eller to svindlere i en garage skape flere syntetiske stemmer og lansere samtidige angrep på flere finansielle institusjoner og forsterke deres taktikker. Dette har skapt en forhøyet risiko og bekymring blant forbrukere om hvorvidt banksektoren er forberedt på å avverge disse sofistikerte angrepene.

Hvordan har fremgangen i generativ AI bidratt til økningen av deepfakes, og hva slags utfordringer stiller disse for sikkerhetssystemer?

Selv om deepfakes ikke er nye, har fremgangen i generativ AI gjort dem til en potensiell vektor over det siste året, da de har blitt mer overbevisende i en større skala. Fremgangen i GenAI har gjort store språkmodeller mer dyktige til å skape overbevisende tale og språk. Nå kan naturlig lydende syntetisk (falsk) tale skapes svært billig og i stor skala. Disse utviklingene har gjort deepfakes tilgjengelige for alle, inkludert svindlere. Disse deepfakes stiller sikkerhetssystemer overfor utfordringer ved å muliggjøre overbevisende phishing-angrep, spre misinformasjon og fasilitere finansiell svindel gjennom realistiske impersonasjoner. De undergraver tradisjonelle autentisering-metoder, skaper betydelige reputasjons-risiko og krever avanserte avdekningsteknologier for å holde tritt med deres raske utvikling og skalerbarhet.

Hvordan bidro Pindrop Pulse til å identifisere TTS-motoren som ble brukt i President Biden-robocall-angrepet, og hva slags implikasjoner har dette for fremtidig deepfake-avdekning?

Pindrop Pulse spilte en kritisk rolle i å identifisere ElevenLabs, TTS-motoren som ble brukt i President Biden-robocall-angrepet. Ved å bruke vår avanserte deepfake-avdekningsteknologi, implementerte vi en fire-stegs analyseprosess som inkluderte audio-filtrering og rensing, funksjons-uttrekk, segment-analyse og kontinuerlig scoring. Denne prosessen tillot oss å filtrere ut nonspeech-rammer, nedsample audioen til å replikere typiske telefon-forhold og trekke ut lav-nivå spektro-temporale funksjoner.

Ved å dele audioen inn i 155 segmenter og tildele liveness-scorer, bestemte vi at audioen var konsekvent kunstig. Ved å bruke “fakeprints”, sammenlignet vi audioen mot 122 TTS-systemer og identifiserte med 99% sannsynlighet at ElevenLabs eller et lignende system ble brukt. Dette funnet ble validerert med en 84% sannsynlighet gjennom ElevenLabs SpeechAI-klassifisering. Vår detaljerte analyse avdekket deepfake-artefakter, særlig i fraser med rike frikativer og uvanlige uttrykk for President Biden.

Dette tilfelle understreker viktigheten av våre skalerbare og forklarbare deepfake-avdekningssystemer, som forbedrer nøyaktighet, bygger tillit og tilpasser seg nye teknologier. Det understreker også behovet for generative AI-systemer å inkorporere sikkerhetstiltak mot misbruk, og sikrer at stemme-kloning er samtykket av ekte individer. Vår tilnærmning setter en standard for å håndtere syntetisk media-trusler, og understreker kontinuerlig overvåking og forskning for å holde tritt med utviklingen av deepfake-metoder.

Rapporten nevner betydelige bekymringer om deepfakes som påvirker media og politiske institusjoner. Kan du gi eksempler på slike hendelser og deres potensielle innvirkning?

Vår forskning har funnet at amerikanske forbrukere er mest bekymret for risikoen av deepfakes og stemme-kloner i bank- og finansiell sektor. Men utenfor dette, stiller truslene av deepfakes mot våre media- og politiske institusjoner en like stor utfordring. Utenfor USA, har bruken av deepfakes blitt observert i Indonesia (Suharto-deepfake) og Slovakia (Michal Šimečka og Monika Tódová stemme-deepfake).

2024 er et viktig valgår i USA og India. Med 4 milliarder mennesker over 40 land som forventes å stemme, gjør fremgangen i kunstig intelligens-teknologi det enklere enn noen gang å bedra mennesker på internettet. Vi forventer en økning i målrettede deepfake-angrep på regjeringens institusjoner, sosiale medie-selskaper, andre nyhetsmedier og den generelle befolkningen, som er ment å skape mistillit til våre institusjoner og spre desinformasjon i offentlig diskurs.

Kan du forklare teknologiene og metodene Pindrop bruker for å avdekke deepfakes og syntetiske stemmer i sanntid?

Pindrop bruker en rekke avanserte teknologier og metoder for å avdekke deepfakes og syntetiske stemmer i sanntid, inkludert:

- Liveness-avdekning: Pindrop bruker stor-skala maskinlæring for å analysere nonspeech-rammer (f.eks. stillhet, støy, musikk) og trekke ut lav-nivå spektro-temporale funksjoner som skille mellom maskin-generert vs. generisk menneskelig tale
- Audio-fingeravtrykk – Dette innebærer å skape en digital signatur for hver stemme basert på dens akustiske egenskaper, som tone, tonehøyde og klang. Disse signaturer brukes deretter til å sammenligne og matche stemmer over forskjellige samtaler og interaksjoner.
- Atferds-analyse – Brukes til å analysere mønster av atferd som synes utenfor det vanlige, inkludert anomalt tilgang til forskjellige kontoer, rask bot-aktivitet, konto-rekonnaissance, data-mining og robot-tilgang.

Stemme-analyse – Ved å analysere stemme-egenskaper som vokal-trakt-egenskaper, fonetiske variasjoner og tale-stil, kan Pindrop skape en stemme-avtrykk for hver enkelt. Enhver avvik fra det forventede stemme-avtrykket kan utløse en advarsel.

Flere-lag-sikkerhets-tilnærmning – Dette innebærer å kombinere forskjellige avdekning-metoder for å kryss-verifisere resultater og øke nøyaktigheten av avdekning. For eksempel kan audio-fingeravtrykk-resultater være krysst-referert med biometrisk analyse for å bekrefte en mistanke.
Kontinuerlig læring og tilpasning – Pindrop oppdaterer kontinuerlig sine modeller og algoritmer. Dette inkluderer å inkorporere ny data, finpusse avdekningsteknikker og holde tritt med nye trusler. Kontinuerlig læring sikrer at våre avdekningsevner forbedres over tid og tilpasser seg nye typer syntetiske stemme-angrep.

Hva er Pulse Deepfake-garanti, og hvordan forbedrer den kunde-tillit til Pindrops evne til å håndtere deepfake-trusler?

Pulse Deepfake-garanti er en første-av- dens-type-garanti som tilbyr erstatning mot syntetisk stemme-svindel i kontakt-senteret. Mens vi står på randen av en seismisk skift i cyber-angreps-landskapet, potensielle finansielle tap forventes å stige til $10,5 trillion innen 2025, Pulse Deepfake-garanti forbedrer kunde-tillit ved å tilby flere nøkkel-fordeler:

Forbedret tillit: Pulse Deepfake-garanti demonstrerer Pindrops tillit til sine produkter og teknologi, og tilbyr kundene en pålitelig sikkerhetsløsning når de betjener sine kunder.
Tap-erstatning: Pindrop-kunder kan motta erstatning for syntetisk stemme-svindel-hendelser som ikke ble avdekket av Pindrop-produkt-suiten.
Kontinuerlig forbedring: Pindrop-kunde-forespørsler mottatt under garantiprogrammet hjelper Pindrop med å holde tritt med utviklingen av syntetisk stemme-svindel-taktikker.

Er det noen bemerkelsesverdige case-studier hvor Pindrops teknologier har suksessfullt avdekket deepfake-trusler? Hva var resultatene?

Pikesville High School-hendelsen: Den 16. januar 2024, dukket en innspilling opp på Instagram som angivelig inneholdt rektoren ved Pikesville High School i Baltimore, Maryland. Audioen inneholdt nedlatende kommentarer om svarte studenter og lærere, og utløste en storm av offentlig protester og alvorlig bekymring.

I lys av disse utviklingene, gjennomførte Pindrop en grundig etterforskning, og gjennomførte tre uavhengige analyser for å avdekke sannheten. Resultatene av vår grundige etterforskning ledet til en nyansert konklusjon: selv om januar-audioen hadde blitt endret, manglet den definitive trekk av AI-generert syntetisk tale. Vår tillit til denne bestemmelsen støttes av en 97% sannsynlighet basert på våre analyse-metrikker. Dette avgjørende funnet understreker viktigheten av å gjennomføre detaljerte og objektive analyser før man offentliggjør noen erklæringer om naturen til potensielt manipulert media.

Ved en stor amerikansk bank, oppdaget Pindrop at en svindler brukte syntetisk stemme for å unngå autentisering i IVR. Vi fant at svindleren brukte maskin-generert stemme for å unngå IVR-autentisering for målrettede kontoer, og ga riktige svar på sikkerhets-spørsmål, og i ett tilfelle, sogar passerte en-gangs-passord (OTP). Bots som suksessfullt autentiserte i IVR identifiserte kontoer verdt å målrette via grunnleggende saldo-forespørsler. Påfølgende samtaler til disse kontoene var fra en ekte menneske for å begå svindel. Pindrop advarte banken om dette svindel i sanntid ved å bruke Pulse-teknologi, og var i stand til å stoppe svindleren.

I en annen finansiell institusjon, fant Pindrop at noen svindlere trente sine egne stemme-bots for å mime bank-automatiserte respons-systemer. I hva som lånte seg som et merkelig første-samtale, ringte en stemme-bot inn til bankens IVR ikke for å gjøre konto-rekonnaissance, men for å gjenta IVR-promptene. Flere samtaler kom inn til forskjellige grener av IVR-samtale-treet, og hver 2 sekund, ville boten gjenta hva den hørte. En uke senere, ble flere samtaler observert som gjorde det samme, men denne gangen, gjentok boten frasene i nøyaktig samme stemme og manér som bankens IVR. Vi tror at en svindler trente en stemme-bot for å speile bankens IVR som en start-punkt for en smishing-angrep. Med hjelp av Pindrop Pulse, var den finansielle institusjonen i stand til å avverge dette angrepet før noen skade ble gjort.

Uavhengig NPR Audio Deepfake-eksperiment: Digital sikkerhet er en konstant utviklings-kamp mellom svindlere og sikkerhets-teknologi-leverandører. Det er flere leverandører, inkludert Pindrop, som har hevdet å avdekke audio-deepfakes konsekvent – NPR satte disse påstandene på prøve for å vurdere om nåværende teknologi-løsninger er i stand til å avdekke AI-genererte audio-deepfakes på en konsekvent basis.

Pindrop Pulse avdekket korrekt 81 av 84 audio-eksempler, noe som tilsvarer en nøyaktighet på 96,4%. I tillegg avdekket Pindrop Pulse 100% av alle deepfake-eksempler som slike. Mens andre leverandører også ble evaluert i studien, oppnådde Pindrop å demonstrere at deres teknologi kan pålitelig og nøyaktig avdekke både deepfake og ekte audio.

Hva fremtidige trender i stemme-basert svindel og sikkerhet forventer du, særlig med den raske utviklingen av AI-teknologier? Hvordan er Pindrop forberedt på å håndtere disse?

Vi forventer at kontakt-senter-svindel vil fortsette å øke i 2024. Basert på år-til-dato-analyse av svindel-rater over vertikaler, estimerer vi konservativt at svindel-raten vil nå 1 av hver 730 samtaler, noe som representerer en 4-5% økning over nåværende nivåer.

Det meste av den økte svindelen forventes å påvirke bank-sektoren, mens forsikring, megling og andre finansielle segmenter forventes å forbli på nåværende nivåer. Vi estimerer at disse svindel-ratene representerer en svindel-eksponering på $7 milliarder for finansielle institusjoner i USA, som må sikres. Imidlertid forventer vi en betydelig skift, særlig med svindlere som bruker IVR som en test-grunn. Nylig har vi observert en økning i svindlere som manuelt setter inn personlig identifiserbar informasjon (PII) for å verifisere konto-detaler.

For å hjelpe med å bekjempe dette, vil vi fortsette å både forbedre Pindrops nåværende løsninger og lansere nye og innovative verktøy, som Pindrop Pulse, som beskytter våre kunder.

Utenfor nåværende teknologier, hva slags nye verktøy og tekniker utvikles for å forbedre stemme-svindel-forebygging og autentisering?

Stemme-svindel-forebygging og autentisering-teknikker utvikles kontinuerlig for å holde tritt med fremgangen i teknologi og sofistikasjonen av svindel-aktiviteter. Noen fremvoksende verktøy og tekniker inkluderer:

Kontinuerlig svindel-avdekning og etterforskning: Gir en historisk “tilbake-blikk” på svindel-eksempler med ny informasjon som nå er tilgjengelig. Med denne tilnærmingen kan svindel-analytikere “lytte” etter nye svindel-signaler, skanne etter historiske samtaler som kan være relatert, og om-scorere disse samtalene. Dette gir selskaper en kontinuerlig og omfattende perspektiv på svindel i sanntid.
Intelligent stemme-analyse: Tradisjonelle stemme-biometriske systemer er sårbare for deepfake-angrep. For å forbedre deres forsvar, trengs nye teknologier som Voice Mismatch og Negative Voice Matching. Disse teknologiene gir en ekstra forsvarslag ved å gjenkjenne og differensiere flere stemmer, gjenta ringere og identifisere hvor en annen lydende stemme kan utgjøre en trussel.
Tidlig svindel-avdekning: Svindel-avdekningsteknologier som gir en rask og pålitelig svindel-signal tidlig i samtale-prosessen, er uvurderlige. I tillegg til liveness-avdekning, gir teknologier som carrier-metadata-analyse, caller-ID-spoof-avdekning og audio-basert spoof-avdekning beskyttelse mot svindel-angrep i begynnelsen av en samtale, når forsvar er mest sårbare.

Takk for det flotte intervjuet, for å lære mer, les Pindrop’s 2024 Voice Intelligence and Security Report eller besøk Pindrop.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.

Unite.AI

Vijay Balasubramaniyan, medgrunnlegger og CEO av Pindrop – Intervju-serie

You may like