Connect with us

Как инструмент ИИ для психического здоровья случайно открыл точное обнаружение глубоких фейков

Искусственный интеллект

Как инструмент ИИ для психического здоровья случайно открыл точное обнаружение глубоких фейков

mm

Когда технологический гигант Open AI запустил свою флагманскую модель Sora 2 для видео и аудио генерации в сентябре 2025 года, глубокие фейки наводнили социальные медиа-платформы, что сделало аудиторию все более знакомой с потенциально опасным гиперреалистичным контентом.

Хотя Open AI считал ответственный запуск Sora 2 приоритетом, заявив, что он даст пользователям «инструменты и возможность контролировать то, что они видят в своей ленте» и контроль над их подобием от начала до конца, исследование октября 2025 года выявило, что модель производила ложные видеоролики 80% времени.

От видеороликов, которые имитировали новостные репортажи о том, как молдавский избирательный чиновник уничтожил бюллетени, до фабрикованных сцен детentions ребенка иммиграционными чиновниками или представителем Coca-Cola, объявляющим, что компания не будет спонсировать Супербоул, ставки производства дезинформации в взаимосвязанном мире не могут быть выше.

За пределами Sora: Vishing

Даже до запуска инструмента Open AI создание и онлайн-распространение глубоких фейков было на подъеме. Согласно сентябрьскому отчету 2025 года кибербезопасной фирмы DeepStrike, глубокие фейки выросли с 500 000 в 2023 году до 8 миллионов в 2025 году, большая часть которых использовалась для мошеннических целей.

Тренд не показывает признаков остановки; AI-мошенничество в США alone ожидается достичь 40 миллиардов долларов США к 2027 году.

Такой рост не ограничивается количеством. С инструментами, такими как Sora 2 и Google’s Veo 3, контент AI-генерируемых лиц, голосов и полных выступлений теперь более реалистичен, чем когда-либо. Как сигнализировал компьютерный ученый и исследователь глубоких фейков Siwei Luy, современные модели способны производить стабильные лица без искажений или деформаций, а клонирование голоса перешло «непризнанный порог».

Правда в том, что глубокие фейки обгоняют обнаружение. Что технологические компании продают как веселые инструменты для генерации всего, от олимпийских гимнастических упражнений до сложных фоновых звуковых пейзажей, также было использовано преступниками для нацеливания на бизнес и отдельных лиц. Только в первом полугодии 2025 года инциденты с глубокими фейками спровоцировали убытки в размере 356 миллионов долларов США для компаний и 541 миллиона долларов США для отдельных лиц.

Традиционное обнаружение глубоких фейков – включая выявление водяных знаков, ретушированных лиц и проверку метаданных – терпит неудачу. И, поскольку голосовые глубокие фейки остаются вторым по распространенности видом AI-обеспеченного мошенничества и голосовой фишинг (vishing) вырос на 442% в 2025 году, последствия уже ощущаются.

«Несколько секунд аудио теперь достаточно, чтобы сгенерировать убедительный клон – полный с естественной интонацией, ритмом, акцентом, эмоциями, паузами и шумом дыхания», – написал Lyu.

Наука слушать людей

Kintsugi, стартап в области хелс-тех, разрабатывающий технологию AI-биомаркеров голоса для обнаружения признаков клинической депрессии и тревоги. Их работа началась с, казалось бы, простой предпосылки: мы должны слушать людей.

«Я создал Kintsugi из-за проблемы, которую я лично испытал. Я провел почти пять месяцев, звоня своему провайдеру, чтобы запланировать первоначальную терапевтическую встречу, и никто никогда не возвращал мне звонки. Я продолжал пытаться – но я помню, что очень четко подумал, что если бы это был мой отец или мой брат, они бы остановились гораздо раньше, чем я», – сказал CEO Grace Chang в разговоре с Unite.AI.

Калифорнийская компания была основана в 2019 году как решение проблемы «затора триажа». Основатель считал, что обнаружение тяжести раньше и пассивно может помочь людям получить необходимый уровень ухода быстрее. И, через Kintsugi Voice, голосовые биомаркеры выявляют клиническую депрессию и тревогу.

Исследования подтверждают успешное использование AI-обеспеченного анализа речи и голоса в качестве биомаркера для состояний психического здоровья. Например, исследование мая 2025 года выявило, что акустические биомаркеры могут обнаружить ранние признаки психического здоровья и нейроразнообразия, и аргументировали интеграцию анализа пения в клинических условиях для оценки потенциального когнитивного спада пациентов.

Голосовые показатели, в самом деле, имеют точность 78% до 96% в выявлении людей с депрессией по сравнению с теми, у кого ее нет, согласно Американской психиатрической ассоциации. Другое исследование использовало однominутный тест вербальной флюентности, в котором человек называл как можно больше слов в данной категории – обнаружив 70% до 83% точности в обнаружении, когда субъект имел и депрессию, и тревогу.

Чтобы оценить психическое здоровье своих пользователей, Kintsugi запрашивает короткий речевой клип, после чего его технология голосовых биомаркеров анализирует высоту, интонацию, тон и паузы – маркеры, выявленные как связанные с состояниями, такими как депрессия, тревога, биполярное расстройство и деменция.

Что Chang не осознала изначально, однако, было то, что технология открыла одну из наиболее насущных проблем безопасности: выявление того, что делает человеческие голоса человеческими.

От ухода за психическим здоровьем к кибербезопасности

Во время участия в саммите в Нью-Йорке в конце 2025 года Chang упомянул своему другу в области кибербезопасности, что эксперименты ее команды с синтетическими голосами были разочаровывающими.

«Мы исследовали синтетические данные, чтобы дополнить обучение наших моделей психического здоровья, но сгенерированные голоса были настолько khácны от аутентичного человеческой речи, что мы могли определить почти 100% времени», – сказала она.

«Он остановил меня и сказал: «Грейс – это не решенная проблема в безопасности». Это был момент, когда все стало ясно. С тех пор разговоры с компаниями безопасности, финансовыми услугами и телекоммуникациями подтвердили, насколько быстро растут атаки с глубокими фейками голоса – и насколько реальна необходимость различать человеческие и синтетические голоса в живых звонках», – добавила CEO.

В апреле прошлого года FBI предупредил о злонамеренной кампании текстовых и голосовых сообщений, выдававшей себя за коммуникации от старших американских чиновников и нацеливавшейся на бывших правительственных работников и их контакты. Крупные национальные банки в США также были нацелены на 5,5 средних ежедневных попыток мошенничества с голосовой манипуляцией, а персонал больницы в Университете Вандербильта сообщил о фишинговых атаках от выдающих себя за друзей, руководителей и коллег.

Независимо от того, глубокие фейки не входили в работу Kintsugi изначально. Хотя команда компании использовала готовые модели, такие как Cartesia, Sesame и ElevenLabs, для экспериментов с синтетическими голосами для административных агентов колл-центра и исходящих потоков, мошенничество с глубокими фейками не было их фокусом на фоне переполненного и доступного рынка, в котором представлены модели, такие как Sora.

Сигналы человеческого голоса, указывающие на подлинность, однако, являются теми же биомаркерами, которые делают человека человеком. Независимо от языка или семантики, Kintsugi Voice работает с обработкой сигналов и физической задержкой речи, захватывая тонкие временные, просодические вариации, когнитивную нагрузку и физиологические маркеры, отражающие, как производится речь… а не то, что говорится.

«Синтетические голоса могут звучать плавно, но они не несут тех же биологических и когнитивных артефактов», – сказала Chang. Модель компании последовательно является одним из лучших исполнителей в точности обнаружения, используя всего 3-5 секунд аудио.

Kintsugi может быть революционным для тех, кто борется с психическим здоровьем, особенно в регионах, где получение лечения с профессионалами занимает время и ресурсы. Аналогично, их технология представляет революцию для обнаружения глубоких фейков и кибербезопасности в целом: обнаружение аутентичности, а не распознавание глубоких фейков.

Будущее лежит в человеческо-ориентированной технологии

Кибербезопасность давно фокусируется на злонамеренном использовании технологий или самих преступников. Случайное открытие Kintsugi, однако, ставит на человечество само по себе.

«Мы работаем на совершенно другой поверхности: человеческой аутентичности. LLM не могут надежно обнаружить контент, сгенерированный LLM, и методы, основанные на артефактах, хрупки. Захват больших, клинически помеченных наборов данных, кодирующих реальную человеческую вариативность, дорог, медлен и находится вне основной компетенции большинства компаний безопасности – что делает этот подход трудным для воспроизведения», – отметила Chang.

Подход стартапа также предполагает более широкий сдвиг: инновации между доменами. Те, кто находится на переднем крае в области здравоохранения, могут возглавить атаку на AI-обеспеченное обнаружение фишинга, как и те, кто является инноваторами в космической технологии, могут поддержать новые механизмы реагирования на чрезвычайные ситуации, или геймеры архитектуры и городского планирования.

Что касается Chang, она планирует стать стандартом для проверки реальных людей и, в конечном итоге, реального намерения через голосовые взаимодействия.

«Как HTTPS стал доверительным слоем для веба, мы считаем, что «доказательство человека» станет фундаментальным слоем для голосовых систем. Сигнал – это начало этой инфраструктуры», – сказала она.

Когда генеративный AI продолжает ускоряться, наиболее эффективные меры безопасности могут прийти от понимания того, что делает людей… ну, людьми.

Саломе - журналистка, родившаяся в Медельине, и старший репортер в Espacio Media Incubator. С фоном в области истории и политики, работа Саломе подчеркивает социальную значимость новых технологий. Она была представлена на Al Jazeera, Latin America Reports и The Sociable, среди других.