Tekoäly

Kuinka mielenterveys-AI-työkalu vahingossa keksi tarkan syvänvalontunnistuksen

Published January 14, 2026

Updated April 25, 2026

Salomé Beyer Velez

Kun teknologiajätti Open AI julkaisi lippulaivansa Sora 2 -video- ja äänigeneraattorimallin syyskuussa 2025, syvänvalontekniset videot tulvivat sosiaalisen median alustoille, ja yleisö tutustui yhä enenevissä määrin mahdollisesti vaarallisiin hyperrealistisiin sisältöihin.

Vaikka Open AI piti Sora 2:n vastuullista julkaisua ensisijaisena tavoitteenaan, väittäen, että se antaisi käyttäjille “työkalut ja valinnanvapauden olla hallinnassa siitä, mitä he näkevät syötteessään” ja hallinnan heidän kaltaisuudestaan loppupäästä, lokakuun 2025 tutkimus osoitti, että malli tuotti väärän väittämän videoita 80 %:ssa tapauksista.

Videosta, joka jäljittelee uutisraportteja moldovalaisen vaalien virkamiehen tuhoamisesta äänestyslippujen ja väärennettyihin kohtauksiin lasten pidätyksestä maahanmuuttajavirastoilla tai Coca-Colan edustajan ilmoittamisesta, ettei yhtiö sponsoroi Super Bowlia, panokset väärien tietojen tuottamiselle verkostoituneessa maailmassa eivät voisi olla korkeammat.

Sora 2:n ulkopuolella: Vishing

Jo ennen Open AI:n työkalun julkaisua syvänvalontiedostojen luominen ja verkostoitunut jakelu olivat nousussa. KyberTurvallisuusyhtiö DeepStriken mukaan syyskuun 2025 raportissa syvänvalonten sisältö kasvoi 500 000:sta vuonna 2023 hämmästyttäviin 8 miljoonaan vuonna 2025, ja suurin osa niistä käytettiin petollisiin tarkoituksiin.

Trendi ei näytä hidastuvan; Yhdysvalloissa AI-petokset odotetaan yltävän 40 miljardiin USD:hen vuoteen 2027 mennessä.

Tällainen kasvu ei rajoitu määrään. Työkalujen kanssa, kuten Sora 2 ja Google Veo 3, AI-generoitu kasvojen, äänien ja täysipainoisten esitysten sisältö on nyt realistisempaa kuin koskaan aiemmin. Koska merkitty tietokoneen tieteilijä ja syvänvalontutkija Siwei Luy, nykyiset mallit pystyvät tuottamaan vakaat kasvot ilman vääristymää tai häiriöitä, kun taas äänen kloonaus on ylittänyt “erotettavuuden kynnyksen”.

Totuus on, että syvänvalonnat ohittavat havaitsemisen. Se, mitä teknologia yritykset myyvät hauskoina työkaluina kaiken tuottamiseen olympialaisten voimistelurutiineista monipuolisiin taustäänimaisemiin, on myös hyödynnetty rikollisilla tavoilla kohdistamaan yrityksiä ja yksityishenkilöitä. Vain vuoden 2025 ensimmäisen puoliskon aikana syvänvalontilanteet aiheuttivat yrityksille 356 miljoonan dollarin tappiot ja yksityishenkilöille 541 miljoonan dollarin tappiot.

Perinteinen syvänvalonten havaitseminen – mukaan lukien vedenjälkien tunnistaminen, ilmastointikasvot ja metatietojen tarkastus – epäonnistuu. Ja kun äänen syvänvalonnat säilyvät toiseksi yleisimpinä AI-käyttöön perustuvien petosten ja äänen kalastelun (vishing) kasvua 442 %:lla vuonna 2025, seuraukset ovat jo tuntuvia.

“Muutamassa sekunnissa ääntä riittää luomaan vakuuttava klooni – luonnollisella intonaatiolla, rytmiikalla, korostuksella, tunteella, taukoilla ja hengitysmelulla”, Lyu kirjoitti.

Ihmisten kuuntelun tiede

Kintsugi, terveydenhuollon startup-yritys, joka kehittää äänibiomerkinteknologiaa mielenterveyden häiriöiden ja ahdistuksen tunnistamiseksi. Heidän työnsä alkoi yksinkertaisesta oletuksesta: meidän on kuunneltava ihmisiä.

“Aloin Kintsugin, koska kohtasin ongelman henkilökohtaisesti. Vietin lähes viisi kuukautta soittamalla hoitajalle vain saadakseni aikaiseksi alkuvaiheen terapiaistunnon, ja kukaan ei koskaan vastannut puheluihini. Yritin jatkuvasti – mutta muistan ajatelleeni hyvin selkeästi, että jos tämä olisi ollut isäni tai veljeni, he olisivat lopettaneet paljon ennen kuin minä”, toimitusjohtaja Grace Chang sanoi Unite.AI:lle.

Kalifornialainen yritys perustettiin vuonna 2019 “triage-bottleneckin” ratkaisuksi. Perustaja uskoi, että häiriöiden varhaisempi ja passiivinen tunnistaminen voisi auttaa ihmisiä pääsemään oikeaan hoitoon nopeammin. Ja Kintsugi-äänellä äänibiomerkkerit tunnistavat kliinisen masennuksen ja ahdistuksen.

Tutkimus osoittaa, että äänen ja puheen analyysi on onnistunut biomerkkinä mielenterveyden häiriöille. Esimerkiksi toukokuun 2025 tutkimus löysi, että akustiset biomerkkerit voivat havaita mielenterveyden ja neurodivergenssin varhaisia merkkejä, ja esitti laulunalyysien integroimista kliinisiin ympäristöihin potilaiden kognitiivisen heikentymisen arvioimiseksi.

Äänimittaukset ovat todellakin 78 %:n ja 96 %:n tarkin havaitsemisnopeus masentuneiden ja ei-masentuneiden henkilöiden tunnistamisessa, American Psychiatric Associationin mukaan. Toisessa tutkimuksessa käytettiin yhden minuutin sanapeliä, jossa yksilö nimesi niin monta sanaa kuin mahdollista annetussa kategoriassa – löytäen 70 %:n ja 83 %:n tarkin havaitsemisnopeuden masentuneiden ja ahdistuneiden henkilöiden tunnistamisessa.

Arvioidakseen käyttäjien mielenterveyttä Kintsugi pyytää lyhyen puheotteen, minkä jälkeen heidän äänibiomerkinteknologia analysoi sävelkorkeuden, intonaation, äänen ja tauot – merkkejä, jotka liittyvät olosuhteisiin kuten masennukseen, ahdistukseen, bipolaariseen häiriöön ja dementialle.

Mitä Chang ei aluksi käsittänyt, oli se, että teknologia oli avannut yhden turvallisuusalan nykyisistä haasteista: mitä tekee ihmisen äänen inhimilliseksi.

Mielenterveydenhuollosta kyberTurvallisuuteen

Osallistuessaan New Yorkin huippukokoukseen vuoden 2025 lopulla Chang mainitsi turvallisuuden parissa toimivalle ystävälle, että heidän tiiminsä kokeilu synteettisillä äänillä oli ollut pettyvä.

“Kokeilimme synteettistä dataa koulutusmalliemme vahvistamiseksi, mutta generoitud äänet olivat niin erilaisia kuin aito ihmispuhe, että voimme tunnistaa lähes 100 %:ssa tapauksista”, hän sanoi.

“Hän pysäytti minut ja sanoi: ‘Grace – tämä ei ole ratkaistu ongelma turvallisuudessa.’ Se oli hetki, jolloin kaikki klikkaa. Siitä lähtien keskustelut turvallisuuden, rahoituksen ja tietoliikenteen parissa ovat vahvistaneet, kuinka nopeasti syvänvalonten hyökkäykset kasvavat – ja kuinka todellinen tarve on erottaa ihmisen ääni synteettisistä äänistä reaaliaikaisissa puheluissa”, toimitusjohtaja lisäsi.

Huhtikuussa edellisvuonna FBI varoitti pahantahtoista teksti- ja ääniviestikampanjasta, joka esittäytyi Yhdysvaltain virkamiesten viestienä ja kohdistui entisiin hallituksen työntekijöihin ja heidän yhteyksiinsä. Suuret kansalliset pankit Yhdysvalloissa kohtasivat keskimäärin 5,5 päivittäistä äänimanipulaatiopetosta, ja Vanderbiltin yliopiston lääketieteellisen keskuksen henkilökunta ilmoitti vishing-hyökkäyksistä, joissa esiintyjät esittivät ystäviä, esimiehiä ja työtovereita.

Syvänvalonnat eivät aluksi kuuluneet Kintsugin työhön. Vaikka yrityksen tiimi oli kokeillut valmiita malleja, kuten Cartesia, Sesame ja ElevenLabs, kokeilemassa synteettisiä ääniä hallinnollisille asiakaspalvelukeskuksille ja ulospäin suunnattuille työvirroille, syvänvalonten petos ei ollut heidän fokuksensa täydellisesti saatavilla olevien mallien joukossa, kuten Sora.

Ihmisen äänen aitoutta osoittavat signaalit ovat samat biomerkkerit, jotka tekevät jonkun inhimilliseksi. Riippumatta kielestä tai semantiikasta Kintsugi-ääni toimii signaalianalyysillä ja puheen fyysisellä viiveellä, joka havaitsee hienot ajalliset, prosodiset vaihtelut, kognitiivisen kuormituksen ja fysiologiset merkit, jotka heijastavat, miten puhetta tuotetaan… eikä sitä, mitä sanotaan.

“Synteettiset äänet voivat kuulosta sujuvilta, mutta ne eivät kanna samanlaista biologista ja kognitiivista jälkeä”, Chang sanoi. Yrityksen malli on johdonmukaisesti yksi parhaista havaitsemistarkin luokassa, ja se käyttää vain 3-5 sekuntia ääntä.

Kintsugi voi olla vallankumouksellinen niille, jotka kamppailevat mielenterveyden kanssa, erityisesti alueilla, joissa ammattilaisten kanssa tapaaminen vie aikaa ja resursseja. Samalla tavoin heidän teknologiaansa voidaan pitää vallankumouksellisena syvänvalonten havaitsemisessa ja kyberturvallisuudessa yleensä: aitoutta havaitsemisesta syvänvalonten tunnistamiseen.

Tulevaisuus on inhimillisessä teknologiassa

Kyberturvallisuus on pitkään keskittynyt teknologioiden pahantahtoiseen käyttöön tai itse rikollisiin. Kintsugin vahingossa tehty löytö panostaa kuitenkin itse inhimillisyyteen.

“Toimimme täysin eri pinnalla: inhimillisen aitouden itsessään. LLM:t eivät voi luotettavasti havaita LLM:llä tuotettua sisältöä, ja artifact-pohjaiset menetelmät ovat hauraita. Suurten, kliinisesti merkittyjen tietojoukkien tallentaminen, jotka koodaavat todellisen inhimillisen muuttujan, on kallista, hidasta ja useimmissa turvallisuusyhtiöissä ulkopuolinen – mikä tekee tämän lähestymistavan haastavaksi toistaa”, Chang huomautti.

Startupin lähestymistapa viittaa myös laajempaan muutokseen: alueiden ylittävään innovaatioon. Terveydenhuollon edelläkävijät voivat johtaa AI-tukeisen vishing-havaitsemisen latausta, samoin kuin avaruusteknologian innovaattorit voivat tukea uusia hätätilannejärjestelmiä, tai pelaajien arkkitehtuuri ja kaupunkisuunnittelu.

Chang aikoo tulla standardiksi todellisten ihmisten ja lopulta todellisen aikomisen todistamiseksi ääniviestinnässä.

“Samoin kuin HTTPS on muodostunut luotettavuuden kerrokseksi verkkoon, uskomme, että ‘todiste ihmisyydestä’ tulee olemaan perustavanlaatuinen kerros äänipohjaisiin järjestelmiin. Signaali on alku tästä infrastruktuurista”, hän sanoi.

Kun generatiivinen AI jatkaa kiihdyttämistä, tehokkaimmat suojaukset voivat tulla ymmärtämällä, mitä tekee ihmiset… no, inhimillisiksi.

Salomé Beyer Velez

Salomé on Medellínissä syntynyt journalisti ja vanhempi toimittaja Espacio Media Incubatorissa. Taustansa historiassa ja politiikassa Salomén työ korostaa uusien teknologioiden sosiaalista merkitystä. Hän on ollut mukana Al Jazeera, Latin America Reports ja The Sociable julkaisuissa muun muassa.