Искусственный интеллект
Vijay Balasubramaniyan, сооснователь и CEO Pindrop – Интервью

Vijay Balasubramaniyan является сооснователем и CEO Pindrop. Он занимал различные инженерные и исследовательские должности в Google, Siemens, IBM Research и Intel.
Pindrop‘s решения ведут за собой будущее голосовых взаимодействий, устанавливая стандарт для идентификации, безопасности и доверия для каждого голосового взаимодействия. Решения Pindrop защищают некоторые из крупнейших банков, страховых компаний и ритейлеров, используя запатентованную технологию, которая извлекает информацию из каждого звонка и голоса. Решения Pindrop помогают обнаруживать мошенников и аутентифицировать настоящих клиентов, снижая мошенничество и операционные затраты, а также улучшая опыт клиентов и защищая репутацию бренда. Pindrop, частная компания с штаб-квартирой в Атланте, GA, была основана в 2011 году доктором Виджаем Баласубраманияном, доктором Полом Джаджем и доктором Мустаке Ахамадом и имеет поддержку от Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP и Vitruvian Partners. Для получения более подробной информации, пожалуйста, посетите pindrop.com.
Каковы ключевые выводы из Отчета Pindrop о голосовой интеллекте и безопасности за 2024 год относительно текущего состояния голосового мошенничества и безопасности?
Отчет предоставляет подробный анализ насущных проблем безопасности и будущих тенденций, особенно в контакт-центрах, обслуживающих финансовые и нефинансовые учреждения. Ключевые выводы в отчете включают:
- Значительный рост мошенничества в контакт-центрах: Мошенничество в контакт-центрах увеличилось на 60% за последние два года, достигнув самого высокого уровня с 2019 года. К концу этого года ожидается, что один из каждых 730 звонков в контакт-центр будет мошенническим.
- Растущая сложность атак с использованием глубоких подделок: Атаки с использованием глубоких подделок, включая сложные синтетические голосовые клонирования, увеличиваются, представляя оценочный риск мошенничества в размере 5 миллиардов долларов для контакт-центров США. Эта технология используется для улучшения тактик мошенничества, таких как автоматизированное и крупномасштабное разведывание учетных записей, голосовая имитация, целевое смishing и социальная инженерия.
- Традиционные методы обнаружения и аутентификации мошенничества не работают: Компании все еще полагаются на ручную аутентификацию потребителей, которая является длительной, дорогой и неэффективной в предотвращении мошенничества. 350 миллионов жертв утечек данных, 12 миллиардов долларов, потраченных ежегодно на аутентификацию, и 10 миллиардов долларов, потерянных из-за мошенничества, являются доказательством того, что текущие методы безопасности не работают.
- Требуются новые подходы и технологии: Обнаружение живости имеет решающее значение для борьбы с плохим ИИ и улучшения безопасности. Анализ голоса все еще важен, но его необходимо сочетать с обнаружением живости и многофакторной аутентификацией.
Согласно отчету, 67,5% потребителей США обеспокоены глубокими подделками в банковском секторе. Можете ли вы подробнее рассказать о типах угроз глубоких подделок, с которыми сталкиваются финансовые учреждения?
Мошенничество в банковском секторе через телефонные каналы увеличивается из-за нескольких факторов. Поскольку финансовые учреждения сильно полагаются на клиентов для подтверждения подозрительной деятельности, контакт-центры могут стать основными целями для мошенников. Мошенники используют социальную инженерию, чтобы обмануть представителей службы поддержки клиентов, убеждая их снять ограничения или помочь сбросить учетные данные онлайн-банкинга. Согласно одному клиенту Pindrop в банковском секторе, 36% выявленных мошеннических звонков были направлены в первую очередь на снятие ограничений, наложенных системами контроля мошенничества. Другой клиент Pindrop в банковском секторе сообщает, что 19% мошеннических звонков были направлены на получение доступа к онлайн-банкингу. С ростом генеративного ИИ и глубоких подделок эти виды атак стали более мощными и масштабируемыми. Теперь один или два мошенника в гараже могут создать любое количество синтетических голосов и запустить одновременные атаки на несколько финансовых учреждений и усилить свои тактики. Это создало повышенный уровень риска и обеспокоенности среди потребителей о том, готов ли банковский сектор отразить эти сложные атаки.
Как достижения в области генеративного ИИ способствовали росту глубоких подделок, и какие конкретные проблемы они представляют для систем безопасности?
Хотя глубокие подделки не новые, достижения в области генеративного ИИ сделали их мощным вектором за последний год, поскольку они смогли стать более правдоподобными в большем масштабе. Достижения в генеративном ИИ сделали крупномасштабные языковые модели более способными создавать правдоподобную речь и язык. Теперь естественно звучащая синтетическая (фальшивая) речь может быть создана очень дешево и в большом масштабе. Эти разработки сделали глубокие подделки доступными для всех, включая мошенников. Эти глубокие подделки представляют проблемы для систем безопасности, позволяя осуществлять очень правдоподобные фишинговые атаки, распространять дезинформацию и облегчать финансовое мошенничество посредством реалистичных имитаций. Они подрывают традиционные методы аутентификации, создают значительные репутационные риски и требуют передовых технологий обнаружения, чтобы идти в ногу с их быстрой эволюцией и масштабируемостью.
Как Pindrop Pulse внес свой вклад в выявление TTS-движка, использованного в атаке на президента Байдена, и какие последствия это имеет для будущего обнаружения глубоких подделок?
Pindrop Pulse сыграл решающую роль в выявлении ElevenLabs, TTS-движка, использованного в атаке на президента Байдена. Используя нашу передовую технологию обнаружения глубоких подделок, мы реализовали четырехэтапный процесс анализа, включающий фильтрацию и очистку аудио, извлечение функций, анализ сегментов и непрерывную оценку.
Разделив аудио на 155 сегментов и присвоив оценки живости, мы определили, что аудио было последовательно искусственным. Используя “фальшивые отпечатки”, мы сравнили аудио с 122 TTS-системами и определили с 99% вероятностью, что ElevenLabs или подобная система была использована. Это обнаружение было подтверждено с 84% вероятностью через классификатор SpeechAI ElevenLabs. Наш подробный анализ выявил артефакты глубоких подделок, особенно в фразах с богатыми фрикативами и необычными выражениями для президента Байдена.
Этот случай подчеркивает важность наших масштабируемых и объяснимых систем обнаружения глубоких подделок, которые повышают точность, создают доверие и адаптируются к новым технологиям. Он также подчеркивает необходимость для генеративных ИИ-систем включать в себя меры безопасности против злоупотребления, гарантируя, что голосовое клонирование согласовано с реальными людьми. Наш подход устанавливает стандарт для решения угроз синтетических медиа, подчеркивая постоянный мониторинг и исследования, чтобы оставаться впереди эволюционирующих методов глубоких подделок.
Отчет упоминает значительные проблемы с глубокими подделками, влияющими на СМИ и политические учреждения. Можете ли вы предоставить примеры таких инцидентов и их потенциального воздействия?
Наши исследования показали, что потребители США в первую очередь обеспокоены риском глубоких подделок и голосовых клонирований в банковском и финансовом секторе. Но помимо этого, угроза глубоких подделок для СМИ и политических учреждений представляет собой не менее значительную проблему. За пределами США использование глубоких подделок было также наблюдено в Индонезии (глубокая подделка Сухарто) и Словакии (голосовая глубокая подделка Михала Шимечки и Моника Тодовой).
2024 год является значимым годом выборов в США и Индии. С 4 миллиардами человек по 40 странам, ожидаемых к голосованию, распространение технологии искусственного интеллекта делает его проще, чем когда-либо, обмануть людей в Интернете. Мы ожидаем роста целевых атак с глубокими подделками на правительственные учреждения, социальные сети, другие СМИ и общую популяцию, направленных на создание недоверия к нашим учреждениям и дезинформации в общественном дискурсе.
Можете ли вы объяснить технологии и методологии, которые использует Pindrop для обнаружения глубоких подделок и синтетических голосов в режиме реального времени?
Pindrop использует ряд передовых технологий и методологий для обнаружения глубоких подделок и синтетических голосов в режиме реального времени, включая:
-
- Обнаружение живости: Pindrop использует крупномасштабное машинное обучение для анализа несpeech-фреймов (например, тишины, шума, музыки) и извлечения низкоуровневых спектро-темпоральных функций, которые отличают машинно-генерируемую речь от общей человеческой речи.
- Аудио-отпечатки – Это включает создание цифровой подписи для каждого голоса на основе его акустических свойств, таких как высота, тон и каданс. Эти подписи затем используются для сравнения и сопоставления голосов в разных звонках и взаимодействиях.
- Анализ поведения – Используется для анализа моделей поведения, которые кажутся необычными, включая аномальный доступ к различным учетным записям, быструю ботовую активность, разведку учетных записей и роботизированное набор.
- Анализ голоса – Анализируя функции голоса, такие как характеристики голосового тракта, фонетические вариации и стиль речи, Pindrop может создать голосовой отпечаток для каждого человека. Любое отклонение от ожидаемого голосового отпечатка может вызвать предупреждение.
- Многослойный подход к безопасности – Это включает комбинацию различных методов обнаружения для перекрестной проверки результатов и повышения точности обнаружения. Например, результаты аудио-отпечатков могут быть сопоставлены с биометрическим анализом для подтверждения подозрения.
- Постоянное обучение и адаптация – Pindrop постоянно обновляет свои модели и алгоритмы. Это включает включение новых данных, совершенствование методов обнаружения и опережение новых угроз. Постоянное обучение гарантирует, что возможности обнаружения улучшаются со временем и адаптируются к новым типам синтетических голосовых атак.
Что такое Pulse Deepfake Warranty, и как она усиливает доверие клиентов к возможностям Pindrop по борьбе с угрозами глубоких подделок?
Pulse Deepfake Warranty – это первая в своем роде гарантия, которая предлагает возмещение ущерба от синтетического голосового мошенничества в контакт-центре. Поскольку мы стоим на пороге сейсмического сдвига в ландшафте кибератак, потенциальный ущерб ожидается увеличиться до 10,5 триллионов долларов к 2025 году, Pulse Deepfake Warranty усиливает доверие клиентов, предлагая несколько ключевых преимуществ:
- Усиление доверия: Pulse Deepfake Warranty демонстрирует уверенность Pindrop в своих продуктах и технологиях, предлагая клиентам надежное решение безопасности при обслуживании их учетных записей.
- Возмещение ущерба: Клиенты Pindrop могут получить возмещение ущерба от синтетического голосового мошенничества, не обнаруженного продуктами Pindrop.
- Постоянное улучшение: Запросы клиентов Pindrop, полученные в рамках программы гарантии, помогают Pindrop оставаться впереди эволюционирующих тактик синтетического голосового мошенничества.
Есть ли какие-либо заметные кейсы, где технологии Pindrop успешно смягчили угрозы глубоких подделок? Каковы были результаты?
Инцидент в средней школе Пайксвилля: 16 января 2024 года в Instagram появилась запись, якобы содержащая голос директора средней школы Пайксвилля в Балтиморе, штат Мэриленд. Аудио содержало оскорбительные замечания о черных студентах и учителях, что вызвало бурю общественного возмущения и серьезную обеспокоенность.
В свете этих событий Pindrop провел всестороннее расследование, проведя три независимых анализа, чтобы раскрыть правду. Результаты нашего тщательного расследования привели к нюансированному выводу: хотя январское аудио было изменено, оно не имело определенных признаков ИИ-генерируемой синтетической речи. Наша уверенность в этом определении подтверждается 97% уверенностью на основе наших метрик анализа. Этот важный вывод подчеркивает важность проведения подробных и объективных анализов, прежде чем делать публичные заявления о характере потенциально измененных медиа.
В одном из крупных банков США Pindrop обнаружил, что мошенник использовал синтетический голос для обхода аутентификации в IVR. Мы обнаружили, что мошенник использовал машинно-генерируемый голос для обхода аутентификации IVR для целевых учетных записей, предоставляя правильные ответы на вопросы безопасности и, в одном случае, даже проходя одноразовые пароли (OTP). Боты, которые успешно прошли аутентификацию в IVR, определили учетные записи, достойные целевой атаки, посредством базовых запросов баланса. Последующие звонки в эти учетные записи были от реального человека, чтобы совершить мошенничество. Pindrop предупредил банк о этом мошенничестве в режиме реального времени, используя технологию Pulse, и смог остановить мошенника.
В другом финансовом учреждении Pindrop обнаружил, что некоторые мошенники обучали свои собственные голосовые боты, чтобы имитировать банковские автоматизированные системы ответа. В том, что звучало как странном первом звонке, голосовой бот позвонил в IVR банка, не для того, чтобы провести разведку учетных записей, а чтобы повторить подсказки IVR. Множество звонков поступили в разные ветви дерева разговора IVR, и каждые две секунды бот повторял то, что он услышал. Через неделю были наблюдены дополнительные звонки, которые делали то же самое, но в этот раз бот повторял фразы точно в том же голосе и манерах, что и IVR банка. Мы считаем, что мошенник обучал голосовой бот, чтобы онерировал IVR банка в качестве начальной точки смishing-атаки. С помощью технологии Pindrop Pulse финансовое учреждение смогло предотвратить эту атаку, прежде чем был нанесен любой ущерб.
Независимый эксперимент NPR по аудио-глубоким подделкам: Кибербезопасность – это постоянно эволюционирующая гонка вооружений между мошенниками и поставщиками технологий безопасности. Существует несколько поставщиков, включая Pindrop, которые заявили, что обнаруживают аудио-глубокие подделки последовательно – NPR проверил эти заявления, чтобы оценить, способны ли текущие технологические решения обнаруживать ИИ-генерируемые аудио-глубокие подделки последовательно.
Pindrop Pulse точно обнаружил 81 из 84 аудио-образцов, что соответствует точности 96,4%. Кроме того, Pindrop Pulse обнаружил 100% всех образцов глубоких подделок. Хотя другие поставщики также были оценены в исследовании, Pindrop выделился как лидер, продемонстрировав, что его технология может надежно и точно обнаруживать как глубокие подделки, так и подлинные аудио.
Какие будущие тенденции в голосовом мошенничестве и безопасности вы предвидите, особенно с учетом быстрого развития технологий ИИ? Как Pindrop готовится решить эти проблемы?
Мы ожидаем, что мошенничество в контакт-центрах будет продолжать расти в 2024 году. На основе анализа годовых показателей мошенничества по отраслям мы консервативно оцениваем уровень мошенничества на уровне 1 из каждых 730 звонков, что представляет собой увеличение на 4-5% по сравнению с текущими уровнями.
Большая часть увеличения мошенничества, как ожидается, будет влиять на банковский сектор, поскольку страховые, брокерские и другие финансовые сегменты, как ожидается, останутся на текущих уровнях. Мы оцениваем, что эти показатели мошенничества представляют собой риск мошенничества в размере 7 миллиардов долларов для финансовых учреждений в США, который необходимо защитить. Однако мы ожидаем значительный сдвиг, особенно с учетом того, что мошенники используют IVR в качестве полигона для испытаний. Недавно мы наблюдали увеличение количества мошенников, которые вручную вводят личную информацию (PII), чтобы подтвердить данные учетных записей.
Чтобы помочь бороться с этим, мы продолжим совершенствовать текущие решения Pindrop и запускать новые и инновационные инструменты, такие как Pindrop Pulse, которые защищают наших клиентов.
За пределами текущих технологий, какие новые инструменты и методы разрабатываются для улучшения предотвращения голосового мошенничества и аутентификации?
Техники предотвращения голосового мошенничества и аутентификации постоянно эволюционируют, чтобы идти в ногу с достижениями в технологиях и сложностью мошеннической деятельности. Некоторые появляющиеся инструменты и методы включают:
- Постоянное обнаружение и расследование мошенничества: Предоставляет исторический “обзор” инцидентов мошенничества с новой информацией, которая теперь доступна. С помощью этого подхода аналитики мошенничества могут “слушать” новые сигналы мошенничества, сканировать исторические звонки, которые могут быть связаны, и пересчитывать эти звонки. Это предоставляет компаниям постоянную и всестороннюю перспективу на мошенничество в режиме реального времени.
- Интеллектуальный анализ голоса: Традиционные системы биометрии голоса уязвимы для атак глубоких подделок. Чтобы повысить их оборону, необходимы новые технологии, такие как Voice Mismatch и Negative Voice Matching. Эти технологии предоставляют дополнительный уровень защиты, признавая и различая несколько голосов, повторяющихся звонков и выявляя, где другой звучащий голос может представлять угрозу.
- Раннее обнаружение мошенничества: Технологии обнаружения мошенничества, которые предоставляют быстрый и надежный сигнал мошенничества на ранней стадии звонка, бесценны. Помимо обнаружения живости, технологии, такие как анализ метаданных оператора, обнаружение подделки идентификатора звонящего и обнаружение аудио-подделок, предоставляют защиту от атак мошенничества в начале разговора, когда оборона наиболее уязвима.
Спасибо за отличное интервью, чтобы узнать больше, прочитайте Отчет Pindrop о голосовой интеллекте и безопасности за 2024 год или посетите Pindrop.












