Connect with us

Jak narzędzie AI do zdrowia psychicznego przypadkowo odkryło dokładne wykrywanie deepfake’ów

Sztuczna inteligencja

Jak narzędzie AI do zdrowia psychicznego przypadkowo odkryło dokładne wykrywanie deepfake’ów

mm

Gdy gigant technologiczny Open AI wprowadził swój flagowy model generacyjny Sora 2 do wideo i audio we wrześniu 2025 roku, filmy deepfake zalały platformy mediów społecznościowych, sprawiając, że widzowie stali się coraz bardziej zaznajomieni z potencjalnie niebezpiecznymi hiperrealistycznymi treściami.

Chociaż Open AI uznał odpowiedzialne wprowadzenie Sora 2 za priorytet, twierdząc, że da użytkownikom „narzędzia i opcje, aby być w kontrolą tego, co widzą w swoim feedzie” i kontrolę nad ich podobieństwem od końca do końca, badanie z października 2025 roku wykazało, że model produkował fałszywe filmy 80% czasu.

Od filmów, które naśladują raporty informacyjne o mołdawskim urzędniku wyborczym niszczącym karty do głosowania do sfabrykowanych scen, w których dziecko jest zatrzymane przez urzędników imigracyjnych lub rzecznik Coca-Cola ogłasza, że firma nie będzie sponsorować Super Bowl, stawki na tworzenie dezinformacji w świecie połączonym nie mogą być wyższe.

Poza Sora: Vishing

Nawet przed wprowadzeniem narzędzia Open AI, tworzenie i rozpowszechnianie plików deepfake rosło. Według raportu z września 2025 roku firmy cyberbezpieczeństwa DeepStrike, treści deepfake wzrosły z 500 000 w 2023 roku do imponujących 8 milionów w 2025 roku, z których większość została wykorzystana do celów oszustw.

Trend nie pokazuje żadnych oznak spowolnienia; oszustwa AI w samych Stanach Zjednoczonych spodziewa się osiągnięcia 40 miliardów dolarów amerykańskich do 2027 roku.

Taki wzrost nie jest ograniczony do ilości. Z narzędziami takimi jak Sora 2 i Google Veo 3, treści wygenerowane przez AI, twarze, głosy i pełne występy są teraz bardziej realistyczne niż kiedykolwiek. Jak sygnalizował to komputerowy naukowiec i badacz deepfake Siwei Lyu, współczesne modele są w stanie produkować stabilne twarze bez zniekształceń lub odkształceń, a klonowanie głosu przekroczyło „niewykrywalny próg”.

Prawda jest taka, że deepfakes wyprzedzają wykrywanie. To, co firmy technologiczne sprzedają jako zabawne narzędzia do generowania wszystkiego, od rutyn olimpijskiej gimnastyki do zaawansowanych tłów, zostało również wykorzystane przez przestępców do atakowania firm i osób.

Tradycyjne wykrywanie deepfake – w tym identyfikowanie znaków wodnych, retuszowanych twarzy i sprawdzanie metadanych – nie powodzi się. A ponieważ głosowe deepfakes pozostają drugim najczęstszym rodzajem oszustw z użyciem AI i phishingu głosowego (vishing) wzrosło o 442% w 2025 roku, konsekwencje są już odczuwalne.

„Kilka sekund audio wystarcza, aby wygenerować przekonywującą kopię – wraz z naturalną intonacją, rytmem, naciskiem, emocjami, pauzami i hałasem oddechowym”, napisał Lyu.

Nauka słuchania ludzi

Kintsugi, startup z sektora healthtech, rozwija technologię biomarkerów głosowych AI do wykrywania objawów depresji klinicznej i lęku. Ich praca rozpoczęła się od pozornie prostego założenia: musimy słuchać ludzi.

„Założyłem Kintsugi z powodu problemu, który doświadczyłem osobiście. Spędziłem prawie pięć miesięcy, dzwoniąc do mojego dostawcy, aby umówić się na pierwszą wizytę terapeutyczną, ale nikt nie oddzwonił. Kontynuowałem – ale pamiętam, że myślałem bardzo wyraźnie, że gdyby to był mój tata lub brat, przestaliby znacznie wcześniej niż ja”, powiedział CEO Grace Chang w rozmowie z Unite.AI.

Kalifornijska firma została założona w 2019 roku jako rozwiązanie „butelkowego gardła triażu”. Założyciel wierzył, że wykrywanie ciężkości wcześniej i biernie mogłoby pomóc ludziom w uzyskaniu odpowiedniego poziomu opieki szybciej. A przez Kintsugi Voice, biomarkery głosowe identyfikują depresję kliniczną i lęk.

Istnieje wiele badań, które dowodzą skutecznego wykorzystania analizy mowy i głosu napędzanej przez AI jako biomarkera stanów zdrowia psychicznego. Na przykład, artykuł z maja 2025 roku wykazał, że biomarkery akustyczne mogą wykryć wczesne objawy zdrowia psychicznego i neurodywergencji, i argumentował za integracją analizy śpiewu w środowiskach klinicznych w celu oceny potencjalnego spadku poznawczego pacjentów.

Miary głosowe mają rzeczywiście wskaźnik dokładności od 78% do 96% w identyfikowaniu osób z depresją w porównaniu z tymi, którzy jej nie mają, według Amerykańskiego Towarzystwa Psychiatrycznego. Inne badanie wykorzystało jeden minutę testu werbalnej swobody, w którym osoba wymieniła tyle słów, ile możliwe w danej kategorii – znalazło 70% do 83% dokładności w wykrywaniu, kiedy temat miał depresję i lęk.

Aby ocenić stan zdrowia psychicznego swoich użytkowników, Kintsugi prosi o krótki klip mowy, po czym jego technologia biomarkerów głosowych analizuje wysokość, intonację, ton i pauzy – markery znalezione w stanach takich jak depresja, lęk, zaburzenie dwubiegunowe i demencja.

Co Chang nie zrozumiał początkowo, to to, że technologia odblokowała jeden z najbardziej palących współczesnych wyzwań branży bezpieczeństwa: identyfikację tego, co sprawia, że głosy ludzkie są ludzkie.

Z opieki zdrowia psychicznego do cyberbezpieczeństwa

Podczas uczestniczenia w szczycie w Nowym Jorku pod koniec 2025 roku, Chang powiedział do przyjaciela z branży cyberbezpieczeństwa, że eksperymenty jego zespołu z syntetycznymi głosami były rozczarowujące.

„Eksperymentowaliśmy z danymi syntetycznymi, aby uzupełnić szkolenie naszych modeli zdrowia psychicznego, ale wygenerowane głosy były tak różne od autentycznej mowy ludzkiej, że mogliśmy rozpoznać prawie 100% czasu”, powiedziała.

„Zatrzymał mnie i powiedział: „Grace – to nie jest rozwiązane problem w bezpieczeństwie”. To był moment, kiedy wszystko się kliknęło. Od tego czasu rozmowy z firmami z branży bezpieczeństwa, usług finansowych i telekomunikacyjnych potwierdziły, jak szybko ataki głosowe deepfake rosną – i jak pilnie potrzebne jest rozróżnienie głosów ludzkich od syntetycznych w rozmowach na żywo”, dodał CEO.

W kwietniu ubiegłego roku FBI ostrzegało przed złośliwą kampanią wiadomości tekstowych i głosowych, która podszywała się pod komunikaty od wysokich urzędników amerykańskich i atakowała byłych pracowników rządu i ich kontakty. Duże banki narodowe w Stanach Zjednoczonych również były atakowane przez średnio 5,5 prób oszustw głosowych dziennie, a personel szpitala Vanderbilt University Medical Center zgłaszał ataki vishing od osób podszywających się pod znajomych, przełożonych i współpracowników.

Niezależnie od tego, deepfakes nie wchodziły początkowo w zakres pracy Kintsugi. Podczas gdy zespół firmy wykorzystywał modele takie jak Cartesia, Sesame i ElevenLabs do eksperymentów z syntetycznymi głosami dla agentów call center i workflow outbound, oszustwa deepfake nie były ich celem wśród zatłoczonego i dostępnego rynku z modelami takimi jak Sora.

Sygnały ludzkie wskazujące na autentyczność głosu są tymi samymi biomarkerami, które sprawiają, że ktoś jest ludzki. Niezależnie od języka lub semantyki, Kintsugi Voice działa z przetwarzaniem sygnałów i fizyczną latencją mowy, przechwytując subtelne czasowanie, zmienną prosody, obciążenie poznawcze i markery fizjologiczne, które odzwierciedlają, w jaki sposób jest wytwarzana mowa… a nie to, co się mówi.

„Głosy syntetyczne mogą brzmieć płynnie, ale nie posiadają tych samych artefaktów biologicznych i poznawczych”, powiedziała Chang. Model firmy jest stale wśród najlepszych wykonawców pod względem dokładności wykrywania, używając tylko 3 do 5 sekund audio.

Kintsugi może być rewolucyjne dla tych, którzy zmagają się z problemami zdrowia psychicznego, zwłaszcza w obszarach, gdzie uzyskanie leczenia u profesjonalistów zajmuje czas i wymaga zasobów. W tym samym czasie, ich technologia stanowi rewolucję w wykrywaniu deepfake i cyberbezpieczeństwie w ogóle: wykrywanie autentyczności zamiast rozpoznawania deepfake.

Przyszłość leży w technologiach zorientowanych na człowieka

Bezpieczeństwo cybernetyczne długo koncentrowało się na szkodliwym użyciu technologii lub samych sprawcach. Przypadkowe odkrycie Kintsugi stawia jednak na samą ludzkość.

„Działamy na całkowicie innej powierzchni: autentyczności ludzkiej. LLM nie mogą niezawodnie wykryć treści generowanych przez LLM, a metody oparte na artefaktach są kruche. Przechwytywanie dużych, klinicznie oznaczonych zbiorów danych, które kodują rzeczywistą zmienność ludzką, jest drogie, powolne i poza głównym zakresem kompetencji większości firm bezpieczeństwa — co sprawia, że ten podejście jest trudne do powielenia”, zauważyła Chang.

Podejście startupu sugeruje również szerszy trend: innowacje międzydomenowe. Ci, którzy są na czele w opiece zdrowotnej, mogą poprowadzić ład w wykrywaniu vishing z użyciem AI, tak jak innowatorzy w technologiach kosmicznych mogą wspierać nowe mechanizmy reagowania w sytuacjach awaryjnych, lub architekci gier mogą wspierać planowanie urbanistyczne.

Jeśli chodzi o Chang, planuje stać się standardem dla weryfikacji prawdziwych ludzi i, ostatecznie, prawdziwych intencji za pośrednictwem interakcji głosowych.

„Podobnie jak HTTPS stało się domyślną warstwą zaufania dla sieci, wierzymy, że „dowód ludzki” stanie się podstawową warstwą dla systemów opartych na głosie”, powiedziała.

Podczas gdy AI generatywne nadal przyspiesza, najskuteczniejsze zabezpieczenia mogą pochodzić z zrozumienia tego, co sprawia, że ludzie są… ludźmi.

Salomé jest dziennikarką pochodzącą z Medellín i starszym reporterem w Espacio Media Incubator. Z wykształceniem historyczkim i politycznym, praca Salomé podkreśla społeczną istotność nowych technologii. Była prezentowana w Al Jazeera, Latin America Reports i The Sociable, między innymi.