Штучний інтелект
Як інструмент штучного інтелекту для психічного здоров’я випадково відкрив точну детекцію глибоких підробок

Відразу після того, як технологічний гігант Open AI запустив свій флагманський відео- та аудіо-генеративний модель Sora 2 у вересні 2025 року, відео з глибокими підробками затопили соціальні медіа-платформи, роблячи аудиторію дедалі більш знайомою з потенційно небезпечним гіперреалістичним контентом.
Хоча Open AI вважав відповідальним запуск Sora 2 своїм головним пріоритетом, заявивши, що це дозволить користувачам “мати інструменти та варіанти контролю над тим, що вони бачать у своїй стрічці” і контроль над своїм образом з кінця в кінець, дослідження жовтня 2025 року виявило, що модель виробила відео з помилковими твердженнями 80% часу.
Від відео, які імітували новинні репортажі про те, як молдовський виборчий чиновник знищив бюлетені, до фабрикованих сцен, у яких дитина була затримана імміграційними офіцерами або представник Coca-Cola оголосив, що компанія не буде спонсорувати Суперкубок, ставки з виробництва дезінформації у взаємопов’язаному світі не могли бути вищими.
Поза Sora: Vishing
Ще до того, як інструмент Open AI був запущений, створення та онлайн-поширення файлів з глибокими підробками було на підйомі. За даними вересня 2025 року кібербезпеки компанії DeepStrike, контент з глибокими підробками зріс з 500 000 у 2023 році до 8 мільйонів у 2025 році, більша частина якого використовувалася для шахрайських цілей.
Тренд не показує ознак зупинки; шахрайство з використанням штучного інтелекту лише у США очікується досягти 40 мільярдів доларів США до 2027 року.
Такий стрибок не обмежується кількістю. З інструментами, такими як Sora 2 і Google’s Veo 3, контент штучно згенерованих облич, голосів та повних тілових виступів тепер більш реалістичний, ніж будь-коли. Як сигналізував комп’ютерний вчений і дослідник глибоких підробок Siwei Luy, сучасні моделі здатні виробляти стабільні обличчя без викривлення або спотворень, тоді як клонування голосу перетнуло “невідмінний поріг”.
Правда в тому, що глибокі підробки обганяють детектори. Те, що технологічні компанії продають як веселі інструменти для генерації всього, від олімпійських гімнастичних рутин до складних фонових звукових пейзажів, також було використано злочинцями для атаки на підприємства та окремих осіб. Лише у першій половині 2025 року інциденти з глибокими підробками спричинили збитки на суму 356 мільйонів доларів США для компаній і 541 мільйон доларів США для окремих осіб.
Традиційна детекція глибоких підробок – включаючи ідентифікацію водяних знаків, ретушованих облич та перевірки метаданих – не справляється. І, оскільки голосові глибокі підробки залишаються другою за поширеністю формою шахрайства з використанням штучного інтелекту та фішингу (vishing) зросли на 442% у 2025 році, наслідки вже відчуваються.
“Кілька секунд аудіо тепер достатньо, щоб згенерувати переконливу копію – повну з природною інтонацією, ритмом, акцентом, емоціями, паузами та шумом дихання”, – написав Lyu.
Наука слухання людей
Kintsugi, стартап у сфері охорони здоров’я, який розробляє технологію біомаркерів голосу штучного інтелекту для виявлення ознак клінічної депресії та тривоги. Їхня робота почалася з здається простої передумови: ми повинні слухати людей.
“Я створив Kintsugi через проблему, яку я особисто пережив. Я провів майже п’ять місяців, намагаючись дозвонитися до свого провайдера, щоб призначити першу терапевтичну зустріч, і ніхто ніколи не повертав мені дзвінок. Я продовжував пробувати – але я пам’ятав дуже чітко, що якщо б це був мій тато або брат, вони б зупинилися набагато раніше, ніж я”, – сказав генеральний директор Грейс Чанг у розмові з Unite.AI.
Каліфорнійська компанія була заснована у 2019 році як рішення проблеми, яку Чанг описала як “затор у тріажі”. Засновник вважав, що виявлення тяжкості раніше та пасивно могло допомогти людям потрапити до потрібного рівня догляду швидше. І, завдяки Kintsugi Voice, біомаркери голосу ідентифікують клінічну депресію та тривогу.
Дослідження підтверджують успішне використання аналізу мови та голосу, керованого штучним інтелектом, як біомаркера для станів психічного здоров’я. Наприклад, у травні 2025 року дослідження виявило, що акустичні біомаркери можуть виявити ранні ознаки психічного здоров’я та нейрорізноманітності, і аргументувало інтеграцію аналізу співу в клінічних умовах для оцінки потенційного когнітивного спадку пацієнтів.
Вимірювання голосу, насправді, мають рівень точності 78% до 96% у ідентифікації людей з депресією порівняно з тими, у кого її немає, за даними Американської психіатричної асоціації. Інше дослідження використовувало одну хвилину вербальної флюентності-тесту, у якому особа називала якомога більше слів у заданій категорії – знайшовши 70% до 83% точності у виявленні, коли суб’єкт мав і депресію, і тривогу.
Щоб оцінити психічне здоров’я своїх користувачів, Kintsugi запитує короткий аудіокліп, після чого його технологія біомаркерів голосу аналізує тон, інтонацію, тембр і паузи – маркери виявлені як пов’язані з станами, такими як депресія, тривога, біполярний розлад і деменція.
Що Чанг спочатку не усвідомила, однак, було те, що технологія розблокувала одну з найпресовливіших проблем сучасної безпеки: ідентифікацію того, що робить людські голоси людськими.
Від догляду за психічним здоров’ям до кібербезпеки
Під час участі у саміті в Нью-Йорку наприкінці 2025 року Чанг згадала своєму другові у сфері кібербезпеки, що її команда експериментувала з синтетичними голосами.
“Ми досліджували синтетичні дані для доповнення навчання наших моделей психічного здоров’я, але згенеровані голоси були настільки відрізнялися від справжньої людської мови, що ми могли розібрати майже 100% часу”, – сказала вона.
“Він зупинив мене і сказав: «Грейс – це не розв’язана проблема у сфері безпеки». Це був момент, коли все стало зрозуміло. З того часу розмови з компаніями з безпеки, фінансових послуг та телекомунікацій підтвердили, наскільки швидко зростають атаки з використанням глибоких підробок голосу – і як реальна потреба відрізняти людські голоси від синтетичних у живих дзвінках”, – додала генеральний директор.
У квітні минулого року ФБР попередило про зловмисну текстову та голосову повідомлення-кампанію, яка видавала себе за комунікації від високопоставлених американських чиновників та націлювалася на колишніх працівників уряду та їхніх контактів. Великі національні банки у США також були націлені на фішинг-атаки з маніпуляцією голосом у середньому 5,5 разів на день, а персонал лікарні Вандербільта повідомив про фішинг-атаки від осіб, які видавали себе за друзів, керівників та колег.
Глибокі підробки спочатку не входили до сфери діяльності Kintsugi. Хоча команда компанії використовувала готові моделі, такі як Cartesia, Sesame та ElevenLabs, для експериментів з синтетичними голосами для адміністративних агентів кол-центру та зовнішніх потоків роботи, шахрайство з глибокими підробками не було їхнім пріоритетом у переповненому та доступному ринку, який включав моделі, такі як Sora.
Людські сигнали, які вказують на автентичність голосу, однак, є тими самими біомаркерами, які роблять людину людиною. Без залежності від мови або семантики Kintsugi Voice працює з обробкою сигналів та фізичною затримкою мови, захоплюючи тонкі часові інтервали, проодичні варіації, когнітивне навантаження та фізіологічні маркери, які відображають, як виробляється мова… а не те, що сказано.
“Синтетичні голоси можуть звучати плавно, але вони не несуть тих самих біологічних та когнітивних артефактів”, – сказала Чанг. Модель компанії є одним із найкращих виконавців у сфері точності виявлення, використовуючи лише 3-5 секунд аудіо.
Kintsugi може бути революційним для тих, хто бореться із психічним здоров’ям, особливо у районах, де отримання лікування у фахівців займає час та ресурси. Одночасно технологія компанії становить революцію для виявлення глибоких підробок та кібербезпеки загалом: виявлення автентичності, а не розпізнавання глибоких підробок.
Майбутнє лежить у людоцентричній технології
Кібербезпека тривалий час зосереджувалася на зловмисному використанні технологій або самих злочинців. Випадкове відкриття Kintsugi, однак, робить ставку на людство саме по собі.
“Ми працюємо на зовсім іншій поверхні: людській автентичності. Великі мови не можуть надійно виявити вміст, згенерований великими мовами, а методи, засновані на артефактах, крихкі. Захоплення великих клінічно позначених наборів даних, які кодують справжню людську варіативність, дорого, повільно та поза основною компетенцією більшості компаній з безпеки – що робить цей підхід важким для повторення”, – зазначила Чанг.
Підхід стартапу також свідчить про більш широкий зсув: інновації між доменами. Ті, хто займає перші місця у сфері охорони здоров’я, можуть привести атаку на підтримку виявлення фішингу з використанням штучного інтелекту, так само, як інноватори у сфері космічних технологій можуть підтримати нові механізми реагування на надзвичайні ситуації, або архітектори ігор можуть підтримати містобудування.
Що стосується Чанг, вона планує стати стандартом для верифікації справжніх людей та, врешті-решт, справжніх намірів через голосові взаємодії.
“Як HTTPS став стандартним шаром довіри для вебу, ми вважаємо, що «доказ людства» стане фундаментальним шаром для голосових систем. Сигнал – це початок цієї інфраструктури”, – сказала вона.
Поки генеративний штучний інтелект продовжує прискорюватися, найбільш ефективні засоби захисту можуть прийти від розуміння того, що робить людей… людьми.












