Штучний інтелект

Віджай Баласубраманіян, співзасновник та CEO Pindrop – Серія інтерв’ю

Published June 3, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Віджай Баласубраманіян є співзасновником та CEO Pindrop. Він займав різні інженерні та дослідницькі посади в Google, Siemens, IBM Research та Intel.

Віджай володіє патентами у сфері безпеки та масштабованості VoIP і часто виступає на технічних конференціях щодо загроз телефонних шахрайств, включаючи RSA, Black Hat, FS-ISAC, CCS та ICDCS. Віджай здобув ступінь доктора філософії з комп’ютерних наук у Georgia Institute of Technology. Його дисертація була присвячена безпеці телекомунікацій.

Pindrop‘s рішення лідирують у майбутньому голосових взаємодій, встановлюючи стандарт ідентифікації, безпеки та довіри для кожної голосової взаємодії. Рішення Pindrop захищають деякі з найбільших банків, страхових компаній та рітейлерів, використовуючи патентовані технології, які витягують інтелект з кожного дзвінка та голосу. Рішення Pindrop допомагають виявляти шахраїв та автентифікувати справжніх клієнтів, знижуючи шахрайство та операційні витрати, одночасно покращуючи досвід клієнта та захищаючи репутацію бренду. Pindrop, приватна компанія з головним офісом у Атланті, GA, була заснована у 2011 році доктором Віджаєм Баласубраманієном, доктором Полом Джаджем та доктором Мустаке Ахамадом та фінансується Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP та Vitruvian Partners. Для отримання更多 інформації відвідайте pindrop.com.

Які ключові висновки з Звіту Pindrop про голосову інтелект та безпеку 2024 року щодо поточного стану голосового шахрайства та безпеки?

Звіт надає глибокий аналіз нагальних проблем безпеки та майбутніх тенденцій, особливо у сфері контакт-центрів, які обслуговують фінансові та нефінансові установи. Ключові висновки у звіті включають:

Значне збільшення кількості шахрайських дзвінків у контакт-центрах: Шахрайські дзвінки у контакт-центрах зросли на 60% за останні два роки, досягнувши найвищого рівня з 2019 року. До кінця цього року очікується, що один з кожних 730 дзвінків до контакт-центру буде шахрайським.
Зростання складності атак, що використовують технологію Deepfake: Атаки, що використовують технологію Deepfake, включаючи складні синтетичні голосові клони, зростають, що становить оціночну загрозу шахрайства на суму $5 млрд для контакт-центрів у США. Ця технологія використовується для посилення тактик шахрайства, таких як автоматизоване та масштабне розслідування рахунків, голосова імперсонація, націлена атака на смс та соціальну інженерію.
Традиційні методи виявлення та автентифікації шахрайства не працюють: Компанії все ще покладаються на ручну автентифікацію клієнтів, яка є тривалою, дорогою та неефективною у зупиненні шахрайства. 350 млн жертв порушень даних та $12 млрд, витрачених щорічно на автентифікацію, та $10 млрд, втрачених через шахрайство, свідчать про те, що поточні методи безпеки не працюють.
Необхідність нових підходів та технологій: Виявлення живих голосів є важливим для боротьби з поганим штучним інтелектом та посилення безпеки. Аналіз голосу все ще важливий, але його потрібно поєднувати з виявленням живих голосів та багатофакторною автентифікацією.

За звітом, 67,5% споживачів у США стурбовані глибокими підробками у банківському секторі. Чи можете ви розповісти про типи загроз глибоких підробок, з якими стикаються фінансові установи?

Шахрайство у банківському секторі через телефонні канали зростає через кілька факторів. Оскільки фінансові установи сильно залежать від клієнтів для підтвердження підозрілої діяльності, контакт-центри можуть стати основними цілями для шахраїв. Шахраї використовують соціальну інженерію, щоб обманути представників служби клієнтів, переконуючи їх зняти обмеження або допомогти скинути паролі онлайн-банкінгу. За даними одного клієнта Pindrop у банківському секторі, 36% визначених шахрайських дзвінків мали на меті зняти обмеження, встановлені контролями шахрайства. Інший клієнт Pindrop у банківському секторі повідомляє, що 19% шахрайських дзвінків мали на меті отримати доступ до онлайн-банкінгу. З ростом генерації штучного інтелекту та глибоких підробок ці атаки стали ще більш потужними та масштабними. Тепер один або два шахраї у гаражі можуть створити будь-яку кількість синтетичних голосів та запустити одночасні атаки на кілька фінансових установ та посилити свої тактики. Це створило підвищений рівень ризику та стурбованість серед споживачів щодо того, чи готова банківська сфера протистояти цим складним атакам.

Як вдосконалення генерації штучного інтелекту сприяли зростанню глибоких підробок, і які конкретні виклики ці підробки становлять для систем безпеки?

Хоча глибокі підробки не нові, вдосконалення генерації штучного інтелекту зробили їх потужним вектором за останні рік, оскільки вони змогли стати більш правдоподібними у великому масштабі. Вдосконалення генерації штучного інтелекту зробили великі мови моделей більш придатними для створення правдоподібної мови. Тепер природньо звучний синтетичний (фальшивий) голос можна створити дуже дешево та у великому масштабі. Ці вдосконалення зробили глибокі підробки доступними для всіх, включаючи шахраїв. Ці підробки становлять виклик для систем безпеки, оскільки вони дозволяють здійснювати дуже переконливі фішингові атаки, поширення дезінформації та фінансове шахрайство через реалістичні імперсонації. Вони підірвають традиційні методи автентифікації, створять значні репутаційні ризики та вимагатимуть вдосконалених технологій виявлення, щоб跟ати за їх швидкою еволюцією та масштабованістю.

Як Pindrop Pulse допоміг ідентифікувати двигун TTS, використаний у атаці на президента Байдена з використанням робокола, і які наслідки це має для майбутнього виявлення глибоких підробок?

Pindrop Pulse зіграв критичну роль у ідентифікації ElevenLabs, двигуна TTS, використаного у атаці на президента Байдена з використанням робокола. Використовуючи нашу вдосконалену технологію виявлення глибоких підробок, ми реалізували чотириступеневий процес аналізу, який включав фільтрацію аудіо та очищення, витягування функцій, аналіз сегментів та безперервну оцінку.

Роздільючи аудіо на 155 сегментів та присвоюючи їм оцінки живих голосів, ми визначили, що аудіо було штучним. Використовуючи “фальшпринти”, ми порівняли аудіо з 122 системами TTS та ідентифікували з ймовірністю 99%, що ElevenLabs або подібна система була використана. Це відкриття було підтверджено з ймовірністю 84% за допомогою класифікатора SpeechAI ElevenLabs. Наш детальний аналіз показав артефакти глибоких підробок, особливо у фразах з багатими фрикативами та незвичайними виразами для президента Байдена.

Цей випадок підкреслює важливість наших масштабованих та пояснюваних систем виявлення глибоких підробок, які підвищують точність, будують довіру та адаптуються до нових технологій. Це також підкреслює необхідність для систем генерації штучного інтелекту включати засоби захисту проти зловживання, забезпечення того, щоб клонування голосу було погоджене з реальними особами. Наш підхід встановлює стандарт для боротьби з загрозами синтетичних медіа, підкреслюючи необхідність постійного моніторингу та дослідження для того, щоб залишатися попереду еволюціонуючих методів глибоких підробок.

Звіт згадує значні стурбованість щодо глибоких підробок, які впливають на ЗМІ та політичні установи. Чи можете ви надати приклади таких інцидентів та їх потенційних наслідків?

Наше дослідження показало, що споживачі у США найбільш стурбовані ризиком глибоких підробок та клонів голосу у банківському секторі. Але окрім цього, загроза глибоких підробок нашим ЗМІ та політичним установам становить рівну за значенням проблему.

2024 рік є значним роком виборів у США та Індії. З 4 млрд людей у 40 країнах, які мають право голосу, поширення технологій штучного інтелекту робить його легшим, ніж будь-коли, обманути людей в Інтернеті. Ми очікуємо зростання націлених атак глибоких підробок на урядові установи, компанії соціальних медіа, інші ЗМІ та загальну населення, які мають на меті створити недовіру до наших установ та поширити дезінформацію у публічній дискусії.

Чи можете ви пояснити технології та методи, які використовує Pindrop для виявлення глибоких підробок та синтетичних голосів у реальному часі?

Pindrop використовує ряд вдосконалених технологій та методів для виявлення глибоких підробок та синтетичних голосів у реальному часі, включаючи:

- Виявлення живих голосів: Pindrop використовує великомасштабне машинне навчання для аналізу неречових кадрів (наприклад, тиші, шуму, музики) та витягування низькорівневих спектро-часових функцій, які відрізняють машинно-генерований голос від загального людського голосу
- Аудіо-фінгерпринтінг – Це включає створення цифрового підпису для кожного голосу на основі його акустичних властивостей, таких як висота, тон та каданс. Ці підписи потім використовуються для порівняння та збігу голосів у різних дзвінках та взаємодіях.
- Аналіз поведінки – Використовується для аналізу моделей поведінки, які видаються поза звичайним, включаючи аномальний доступ до різних рахунків, швидку діяльність ботів, розслідування рахунків та роботизоване дзвоніння.

Аналіз голосу – Аналіз голосових функцій, таких як характеристики голосового тракту, фонетичні варіації та манера мови, дозволяє Pindrop створити голосовий відбиток для кожної особи. Будь-яке відхилення від очікуваного голосового відбитка може спровокувати попередження.

Багаторівневий підхід до безпеки – Це включає поєднання різних методів виявлення для перехресної перевірки результатів та підвищення точності виявлення. Наприклад, результати аудіо-фінгерпринтінгу можуть бути перехресно перевірені з біометричним аналізом для підтвердження підозри.
Постійне навчання та адаптація – Pindrop постійно оновлює свої моделі та алгоритми. Це включає включення нових даних, уточнення методів виявлення та залишання попереду нових загроз. Постійне навчання забезпечує, що можливості виявлення Pindrop покращуються з часом та адаптуються до нових типів синтетичних голосових атак.

Що таке Pulse Deepfake Warranty, і як воно підвищує довіру клієнтів до можливостей Pindrop щодо боротьби з загрозами глибоких підробок?

Pulse Deepfake Warranty – це перший у своєму роді гарантійний фонд, який пропонує компенсацію за шахрайство з синтетичних голосів у контакт-центрі.既然 ми стоїмо на порозі значної зміни у ландшафті кібератак, очікувані фінансові втрати мають зрости до $10,5 трлн до 2025 року, Pulse Deepfake Warranty підвищує довіру клієнтів, пропонуючи кілька ключових переваг:

Повышення довіри: Гарантією Pulse Deepfake демонструє впевненість Pindrop у своїй продукції та технологіях, пропонуючи клієнтам надійне рішення безпеки при обслуговуванні їхніх клієнтів.
Компенсація втрат: Клієнти Pindrop можуть отримати компенсацію за події шахрайства з синтетичних голосів, які не були виявлені продуктами Pindrop.
Постійне покращення: Запити клієнтів, отримані у рамках програми гарантії, допомагають Pindrop залишатися попереду еволюціонуючих тактик шахрайства з синтетичних голосів.

Чи є відомі випадки, у яких технології Pindrop успішно мінімізували загрози глибоких підробок? Які були наслідки?

Інцидент у школі Пайксвілл: 16 січня 2024 року у мережі Instagram з’явився запис, який нібито містить голос директора школи Пайксвілл у Балтиморі, штат Меріленд. Аудіо містить образливі вислови щодо чорношкірих учнів та вчителів, що викликало хвилю обурення та серйозну стурбованість.

У світлі цих подій Pindrop провів повний аналіз, провів три незалежні дослідження, щоб розкрити правду. Результати нашого детального дослідження привели до нюансового висновку: хоча січневе аудіо було змінено, воно не мало виразних ознак штучно генерованої синтетичної мови. Наша впевненість у цьому висновку підтримується 97% впевненості на основі наших метрик аналізу. Це важливе відкриття підкреслює важливість проведення детального та об’єктивного аналізу перед публічними заявами про природу потенційно змінених медіа.

У великому американському банку Pindrop виявили, що шахрай використовував синтетичний голос для обходу автентифікації у системі IVR. Ми виявили, що шахрай використовував машинно-генерований голос для обходу автентифікації у системі IVR для цілевих рахунків, надавши правильні відповіді на питання безпеки та навіть пройшовши одноразові паролі (OTP). Боти, які успішно автентифікувалися у системі IVR, ідентифікували рахунки, які варто було обрати за допомогою базових запитів про баланс. Надалі дзвінки на ці рахунки були від справжньої людини для здійснення шахрайства. Pindrop повідомив банку про це шахрайство в реальному часі за допомогою технології Pulse та зміг зупинити шахрая.

У іншій фінансовій установі Pindrop виявили, що деякі шахраї тренували自己的 голосові боти для імітування автоматизованих систем банківського відповідання. У тому, що звучало як дивний перший дзвінок, голосовий бот дзвонив у систему IVR банку не для проведення розслідування рахунку, а для повторення промптів системи IVR. Багато дзвінків надійшли до різних гілок дерева розмови системи IVR, і кожні дві секунди бот повторював те, що він чув. Через тиждень спостерігалися подібні дзвінки, але цього разу бот повторював фрази точно в тій же манері, що й система IVR банку. Ми вважаємо, що шахрай тренував голосовий бот для імітування системи IVR банку як початкової точки атаки на смс. За допомогою технології Pindrop Pulse фінансовій установі вдалося зупинити цю атаку до того, як було завдано будь-якої шкоди.

Незалежний експеримент NPR з аудіо-глибокими підробками: Цифрова безпека – це постійно еволюціонуюча гонка озброєнь між шахраями та постачальниками технологій безпеки. Є кілька постачальників, включаючи Pindrop, які заявили про можливість виявлення аудіо-глибоких підробок постійно – NPR поставив ці заяви на перевірку, щоб оцінити, чи здатні поточні технологічні рішення виявляти аудіо-глибокі підробки постійно.

Pindrop Pulse точно виявив 81 із 84 аудіозразків правильно, що відповідає точності 96,4%. Крім того, Pindrop Pulse виявив 100% усіх зразків глибоких підробок. Хоча інші постачальники також були оцінені у дослідженні, Pindrop виділився як лідер, продемонструвавши, що його технологія може надійно та точно виявляти як глибокі підробки, так і справжнє аудіо.

Які майбутні тенденції у сфері голосового шахрайства та безпеки ви передбачаєте, особливо з урахуванням швидкого розвитку технологій штучного інтелекту? Як Pindrop готується до боротьби з цими загрозами?

Ми очікуємо, що шахрайство у контакт-центрах буде продовжувати зростати у 2024 році. На основі аналізу рівня шахрайства за останні місяці ми консервативно оцінюємо рівень шахрайства на рівні 1 з кожних 730 дзвінків, що представляє зростання на 4-5% порівняно з поточними рівнями.

Більшість збільшення шахрайства очікується у банківському секторі, оскільки страхування, брокерські компанії та інші фінансові сектори, як очікується, залишаться на поточних рівнях. Ми оцінюємо, що ці рівні шахрайства представляють загрозу шахрайства на суму $7 млрд для фінансових установ у США, яку потрібно захистити. Однак ми очікуємо значну зміну, особливо з шахраями, які використовують системи IVR як полігон для тестування. Нещодавно ми спостерігали зростання шахраїв, які вручну вводять особисту інформацію (PII), щоб підтвердити дані про рахунки.

Щоб допомогти боротися з цим, ми продовжимо як вдосконалювати поточні рішення Pindrop, так і запускати нові та інноваційні інструменти, такі як Pindrop Pulse, які захищають наших клієнтів.

Поза поточними технологіями, які нові інструменти та техніки розробляються для посилення запобігання шахрайству з голосом та автентифікації?

Технології та техніки запобігання шахрайству з голосом та автентифікації постійно еволюціонують, щоб залишатися в ногу з вдосконаленнями технологій та складністю шахрайських дій. Деякі нові інструменти та техніки включають:

Постійне виявлення шахрайства та розслідування: Надає історичний “огляд” на випадки шахрайства з новою інформацією, яка зараз доступна. З цим підходом аналітики шахрайства можуть “чувати” нові сигнали шахрайства, сканувати історичні дзвінки, які можуть бути пов’язані, та повторно оцінювати ці дзвінки. Це надає компаніям постійну та комплексну перспективу на шахрайство в реальному часі.
Інтелектуальний аналіз голосу: Традиційні системи біометричної автентифікації голосу вразливі до атак глибоких підробок. Для посилення їхньої оборони потрібні нові технології, такі як Voice Mismatch та Negative Voice Matching. Ці технології забезпечують додатковий рівень захисту, розпізнавання та розрізнення декількох голосів, повторних дзвінків та ідентифікації потенційних загроз.
Раннє виявлення шахрайства: Технології виявлення шахрайства, які забезпечують швидкий та надійний сигнал шахрайства на ранній стадії дзвінка, є надзвичайно цінними. Окрім виявлення живих голосів, технології, такі як аналіз метаданих оператора, виявлення підробок ідентифікатора дзвінка та аудіо-орієнтоване виявлення підробок, забезпечують захист від шахрайських атак на початку розмови, коли оборона є найбільш вразливою.

Дякуємо за чудове інтерв’ю. Для отримання більше інформації прочитайте Звіт Pindrop про голосову інтелект та безпеку 2024 року або відвідайте Pindrop.

Antoine Tardif, CEO & Founder of Unite.AI

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.

Unite.AI

Віджай Баласубраманіян, співзасновник та CEO Pindrop – Серія інтерв’ю

You may like