Моделі та платформи ШІ

Як інструмент штучного інтелекту для психічного здоров’я випадково відкрив точне виявлення глибоких підробок

mm

Коли технологічний гігант Open AI запустив свій флагманський відео- та аудіомодель Sora 2 у вересні 2025 року, відео з глибокими підробками затопили соціальні медіа-платформи, роблячи аудиторію все більш знайомою з потенційно небезпечним гіперреалістичним контентом.

Хоча Open AI вважала відповідальний запуск Sora 2 своїм головним пріоритетом, заявивши, що це даст користувачам «інструменти та варіанти контролю над тим, що вони бачать у своїй стрічці» і контроль над їхнім образом з кінця в кінець, дослідження жовтня 2025 року виявило, що модель виробила відео з помилковими твердженнями 80% часу.

Від відео, які імітували новинні репортажі про знищення виборчих бюлетенів офіційною особою Молдови до фабрикованих сцен дитини, затриманої імміграційними офіцерами, або представником Coca-Cola, який оголосив, що компанія не буде спонсорувати Супербоул, ставки виробництва дезінформації в інтерконектованому світі не могли бути вищими.

Поза Сорою: Вішинг

Даже до того, як інструмент Open AI був запущений, створення та онлайн-поширення файлів з глибокими підробками росло. За даними вересневого звіту 2025 року кібербезпекової компанії DeepStrike, контент з глибокими підробками зріс з 500 000 у 2023 році до 8 мільйонів у 2025 році, більша частина з яких використовувалася для шахрайських цілей.

Тренд не показує ознак зупинки; шахрайство з використанням штучного інтелекту в США лише очікується достігне 40 мільярдів доларів США до 2027 року.

Такий стрибок не обмежується кількістю. З інструментами, такими як Sora 2 і Google Veo 3, контент штучно створених облич, голосів і повних перформансів тепер більш реалістичний, ніж будь-коли.

Істина полягає в тому, що глибокі підробки обганяють виявлення. Те, що технологічні компанії продають як веселі інструменти для генерації всього, від олімпійських гімнастичних рутин до складних фонових звукових пейзажів, також було використано злочинцями для націлення на підприємства та окремих осіб.

Традиційне виявлення глибоких підробок – включаючи ідентифікацію водяних знаків, ретушованих облич і перевірку метаданих – не справляється.

Голосові глибокі підробки залишаються другою за поширеністю формою шахрайства з використанням штучного інтелекту і голосової фішингу (вішінгу), а вішінг зросла на 442% у 2025 році.

Наука слухати людей

Kintsugi, стартап у сфері охорони здоров’я, який розробляє технологію біомаркерів голосу штучного інтелекту для виявлення ознак клінічної депресії та тривоги.

«Я створив Kintsugi через проблему, яку особисто пережив. Я витратив майже п’ять місяців на те, щоб зателефонувати своєму постачальнику, щоб призначити першу терапевтичну зустріч, і ніхто ніколи не повернув мені дзвінок. Я продовжував спробувати – але я пам’ятав дуже чітко, що якщо б це був мій тато або брат, вони б зупинилися набагато раніше, ніж я», – сказав генеральний директор Грейс Чанг у розмові з Unite.AI.

Компанія була заснована в Каліфорнії у 2019 році як рішення проблеми, яку Чанг назвала «затором триажу».

Дослідження підтверджують успішне використання аналізу мови та голосу, керованого штучним інтелектом, як біомаркера для психічних захворювань.

Чанг не усвідомлювала спочатку, однак, що технологія розблокувала одну з найбільш актуальних проблем сучасності в галузі безпеки: визначення того, що робить людський голос людським.

Від охорони психічного здоров’я до кібербезпеки

Під час участі в саміті в Нью-Йорку наприкінці 2025 року Чанг згадала своєму другові в галузі кібербезпеки, що її команда експериментувала з синтетичними голосами.

«Ми досліджували синтетичні дані для доповнення навчання наших моделей психічного здоров’я, але згенеровані голоси були настільки відмінними від справжньої людської мови, що ми могли впевнено визначити майже 100% часу», – сказала вона.

«Він зупинився і сказав: „Грейс, це не розв’язана проблема в галузі безпеки“. Це був момент, коли все стало зрозумілим. З того часу розмови з компаніями з галузі безпеки, фінансових послуг та телекомунікацій підтвердили, наскільки швидко зростають атаки з використанням глибоких підробок голосу – і наскільки реальна потреба відрізняти людські голоси від синтетичних у прямих дзвінках».

У квітні минулого року ФБР попередило про зловмисну текстову та голосову кампанію, яка видавала себе за комунікації від високопоставлених чиновників США та націлювалася на колишніх працівників уряду та їх контактів.

Майбутнє лежить у людоцентрованій технології

Кібербезпека традиційно зосереджувалася на зловмисному використанні технологій або самих злочинців. Випадкове відкриття Kintsugi, однак, покладає ставку на людство.

«Ми працюємо на зовсім іншій поверхні: людській автентичності. Великі мови не можуть надійно виявляти контент, згенерований великими мовами, а методи, засновані на артефактах, хиткі. Захоплення великих клінічно позначених наборів даних, які кодують справжню людську варіативність, дорого, повільно та поза основною компетенцією більшості компаній з безпеки – що робить цей підхід важким для повторення».

Підхід стартапу також свідчить про більш широкий зсув: інновації, що охоплюють кілька галузей. Ті, хто займає перші місця в галузі охорони здоров’я, можуть привести атаку на виявлення вішінгу, штучно підтримуваного.

Чанг планує стати стандартом для верифікації справжніх людей та, врешті-решт, справжньої інтентності через голосові взаємодії.

«Як HTTPS стали стандартним шаром довіри для вебу, ми вважаємо, що „доказ людства“ стане фундаментальним шаром для голосових систем. Сигнал – це початок цієї інфраструктури».

Як генеративний штучний інтелект продовжує прискорюватися, найбільш ефективні засоби захисту можуть походити від розуміння того, що робить людей… людьми.

Salomé - журналістка з Медельїна та старший репортер у Espacio Media Incubator. З освітою в галузі історії та політики, робота Salomé підкреслює соціальну значимість нових технологій. Вона була представлена на Al Jazeera, Latin America Reports та The Sociable, серед інших