Andersonin kulma
Kulkurikello, joka paljastaa tekoälyliikenteen

Uudessa tutkimuksessa tutkijat piilottivat yksilöllisiä lauseita verkkosivuille ja saivat tekoälychatbotit toistamaan ne, paljastaen piilotetut skraippausrakennelmat ja ilmeisesti petolliset käytännöt joistakin suurimmista tekoälyyrityksistä.
Tekoälyyritykset taistelevat etulyöntiasemasta kilpailussa, joka on ennustettu olevan julmasti supistava; siksi he todella, todella haluavat skrapiroida verkkosivujasi koulutusdatan syöttämiseksi tekoälymalliinsa. Joskus jatkuvasti; usein omien toiveidensa vastaisesti; ja usein naamioiden muodossa kuin vaikkapa tavalliset ihmiset, tai sitten “ystävällisemmät” botit kuten GoogleBot, sen sijaan, että paljastaisivat oikean identiteettinsä tekoälydataskraippereina.
On arvioitu, että ennustetaan, että automaattiset tekoälyskraippausohjelmat, jotka on suunniteltu imemään uusia koulutusdataa ja vastaamaan käyttäjien välittömiin vaatimuksiin uusimman uutisen RAG:n kautta, ylittävät ihmisten määrän vuoden kuluessa.
Tämä raivokas, pitkäaikainen ja toistuva datan kerääminen tapahtuu osittain tekoälyolentojen tarpeen vuoksi, joilla on oma ajantasainen kopio internetistä, sen sijaan, että käyttäisivät vanhentuneita varastoja, kuten Common Crawl; ja ehkä, koska yritykset pelkäävät tulevia oikeudellisia rajoituksia, ja tarvitsevat IP-pesua mahdollisimman pian.
Lisäksi, skannatessaan mahdollisimman monia (mahdollisesti hedelmällisiä) sivustoja, tekoälyyritykset saattavat pyrkiä parantamaan välittömästi ei-ihmisen kaltaista kykyään vastata tietoisesti ja tarkasti murtuvissa ja uusissa tilanteissa.
Milloin tahansa, näyttää siltä, että näillä käytännöillä on ollut jonkin verran perustetta siihen, että ne ovat olleet hallitsemattomia ja hallitsemattomia jo jonkin aikaa.
Ongelma on, että se ei ole helppoa todistaa, mihin mittaan tekoälyyritykset menevät tyytyäkseen janoonsa uusimman datan jälkeen.
Seuraa dataa
Yksi ehdotus, jota esitetään uudessa tutkimusraportissa Yhdysvalloista, esittää vanhan menetelmän muunnelman, jota käytetään vakoilujen, ilmiantajien ja muiden epäilyttävien henkilöiden paljastamiseen: altistaa heidät räätälöidyille tietoille, joita kukaan muu ei tiedä, ja katsoa, miten ja missä tuo tieto ilmestyy. Jos kukaan muu ei tiennyt tuota tietoa, silloin vuodon lähde on todistettu:

Tutkijoiden keskeinen idea, joka on esitetty uudessa raportissa, on antaa jokaiselle vierailijabotille hieman erilainen versio samasta sivusta, ja sitten kysyä chatboteilta kyseisestä sivusta ja nähdä, mikä versio tulee takaisin, mikä mahdollistaa piilotettujen verkkohakujen seuraamisen, jotka toimittivat vastauksen. Lähde
Tämä suosittu lähestymistapa on ehkä parhaiten tunnettu vastapiratallisen toimen kautta, jota Academy Awards -komitea omaksui 2000-luvulla, jossa jaettavat esikatseluDVD:t äänestäjille alkoivat sisältää digitaalisia tunnisteita, jotka voitiin palauttaa alkuperäiselle vastaanottajalle, jos kyseinen elokuva vuotaisi internetiin. Vakoilussa tämä tekniikka tunnetaan barium-ateriana, jossa käytetään radioaktiivista isotooppiliuosta valaisevaan verisuonten skannaukseen ja tunnistamaan tukkeutumisen.
(Ironisesti, valittu “kulkurikello”-metafora ei ole kovin sovelias tähän skenaarioon, jota raportti käsittelee, vaikka se on tunnistettavampi kuin mikään edellä mainituista tropeista)
Tutkimuksessa kirjoittajat loivat kaksikymmentä “honey pot” -verkkosivua ja palvelivat yksilöllisiä tunnisteita jokaiselle yksilölliselle vierailijalle, jotta jokainen sai erilaisia faktoja (katso toinen sarakkeesta vasemmasta kuva yllä).
Tavoitteena oli paljastaa tekoälyskraippareiden todellinen identiteetti ja käyttäytyminen. Kaikkiaan 22 tuotannon tekoälyjärjestelmää kohti, menetelmä pystyi luotettavasti tunnistamaan, mitkä skraippausohjelmat ruokkivat mitäkin tekoälyä, koska – hieman kärsivällisyydellä “istuttamisen” jälkeen – vain kysymällä oikeat kysymykset tekoälylle kuukauden tai kahden kuluttua, saatiin yksilölliset tunnisteet.
Epärehellisyys
Totta kai, mitään tätä ei tarvitsisi, jos emme olisi vielä “villissä lännessä” -vaiheessa tekoälyn V3:ssa, ja jos yritykset noudattaisivat pieniä tekstifilejä, joita verkkosivut voivat käyttää kertomaan tekoälyyrityksille, ettei heidän tietojaan skrapiroida.
Kuten tutkijoiden kokeissa kävi ilmi, vain yksi tekoälyyritys näytti kunnioittavan omaa julkaistua käyttäytymistään ja periaatteitaan: DuckDuckGon DuckDuckbot oli ainoa edustaja, joka edusti itseään oikein ja lopetti raportoimasta “salaisesta datasta” heti, kun kohdesivusto otettiin pois käytöstä (muut tekoälyyritykset turvautuivat välimuistiin ja muihin temppuihin) tai kun sivuston robots.txt-tiedostoa muutettiin kieltämään tekoälyskraippaus.
Monet suurimmat toimijat esittivät sen sijaan jäljitelmän yleisistä selain-ID:stä (samaa, mitä verkkosivu näkisi, jos sinä tai minä vierailisimme siellä), ja – seuraten Perplexityn johdollaan vuonna 2025 – esittivät GoogleBotia, joka on pitkään nauttinut “kultaa” pääsyä verkkosivujen tietoihin, koska se palautti (huomaa menneessä aikamuodossa, koska tämä on muuttumassa) liikennettä vastineeksi tiedoista.
Pahin rikollinen, kuten raportissa todetaan, oli skraippaaja, joka ruokki Kimi-tekoälyekosysteemiä:
‘Kimi näyttää olevan äärimmäinen tapaus tästä käyttäytymisestä: useat käyttäjä-agentit näyttivät olevan korreloituneita Kimin tuottamien tietojen kanssa. Arviomme mukaan Kimi pyörittää suurta luetteloa käyttäjä-agentti-merkkijonoja skrapiroidessaan, mahdollisesti välttääkseen botin havaitsemisen.’
Mikä tekee tämän ongelman suureksi haasteeksi, on se, että kun ChatGPT tai vastaavat työkalut “tutkivat jotain”, prosessi on suurelta osin näkymätön, ja yritykset tarjoavat vain osittaisia tai itse raportoituja tietoja siitä, miten heidän järjestelmänsä keräävät ajantasaisia tietoja. Tämä jättää sivuston omistajat ilman selkeää keinoa tietää, mitkä botit ovat todella vieraillemassa heidän sivuillaan, ovatko nämä vierailut suoria vai reititettyjä hakukoneiden kautta, tai miten tuo tieto päätyy lopulliseen vastaukseen.
Tutkimuksen tulokset osoittavat, että LLM:t voivat käyttää omia välimuistitietojaan verkkosivuilta, omia sisäisiä hakuluetteloitaan, ja usein tietoja hakukoneiden tuloksista yrityksistä, joilla heillä on usein ei-julkinen yhteys, ja ei-näkyviä käyttösovelluksia.
Tutkijat uskovat, että tämä paljastus on ensimmäinen kerta, kun työ on osoittanut ei-toivottua tunkeutumista RAG-järjestelmiin (suorat puhelut tekoälyjärjestelmistä), eikä skraippausbotteja, jotka etsivät raakadataa koulutusjoukkoihin.
Tämä uusi raportti on otsikoitu Tekoälyverkkosivujen tunnistaminen Kulkurikello-tunnisteiden avulla, ja se on peräisin kuudelta tutkijalta Duke Universitysta, Pittsburghin yliopistosta ja Carnegie Mellonista.
Menetelmä
Tutkijat loivat kaksikymmentä .com-verkkosivua, joilla oli laajalti samanlaiset sivut yleisillä malleilla, kuten taiteellisella portfolio tai yrityssivulla. Jokainen malli sisälsi 10 paikkaa, jotka täytettiin tunnisteilla, jotka olivat yksilöllisiä vierailijan profiilin mukaan (perustuen tekijöihin, kuten IP-osoitteeseen, canvas-sormenjälkeen ja muihin “haistelu”-menetelmiin):

Esimerkki mallista ja muuttujista, joita käytettiin kokeessa. Jokainen havaittu yksilöllinen vierailija sai pysyviä, yksilöllisiä muuttujia.
Jokainen havaittu yksilöllinen vierailija sai yksilöllisiä muuttujia. Tapauksessa, jossa järjestelmä havaitsi paluun edellisestä vierailijasta, edellisen kerran muuttujat esitettiin uudelleen. Muuttujat luotiin Python Faker -kirjaston avulla, sekä (määrittelemättömien) satunnaislukuja.
Honey pot -sivut lähetettiin erilaisiin hakukoneisiin, kuten Googleen ja Bingiin, ja ne linkitettiin myös muihin olemassa oleviin sivustoihin, joita tutkijat hallitsivat.
Kaksi kuukautta sallittiin kulua, jotta skannausfrekvenssi hakukoneista ja muista botteista voisi toteutua, sekä (mahdollisesti) orgaaniset vierailut. Tässä vaiheessa tutkijat pystyivät kysymään kohdennettuja tekoälychatbottie:
|
|
Skriptejä luotiin kysymään jokaiselta järjestelmältä API:n kautta, missä mahdollista. Kun tämä ei ollut mahdollista, ja kun automaattiset ratkaisut kuten Selenium estettiin tekoälyportaalin tunnistamisohjelmilla, manuaaliset vuorovaikutukset tekoälyjen virallisten GUI:den kautta toteutettiin.
Alkuperäisen mallipohjaisen vaihdon jälkeen (katso yllä oleva kuva), tutkijat seurasivat toissijaisella kehotuksella, joka oli tarkoitettu herättämään yhtiön tai yhteyshenkilön nimeä liittyen tokeniin.
Kokeet suoritettiin kolmessa ehdossa: täysin saatavilla oleva verkkosivu; verkkosivu poistettiin käytöstä; ja verkkosivu, jossa robots.txt-rajoitus esti skrapiroiden. Nämä kokeet suoritettiin täsmälleen tässä järjestyksessä, yksi toisensa jälkeen, koska myöhemmät vaiheet riippuivat edellisistä.
Lopulta, kaikkien sivustojen ollessa taas verkossa, viimeinen vaihe uudelleentesti tekoälyjärjestelmien tulostuksia viikon välein.
Tulokset
Neljä kohdennettua LLM:tä osoittautui täysin vastustuskykyisiksi tutkijoiden menetelmille, eikä tuloksia voitu saada DeepSeek:lle, Hunyuan:lle, GLM:lle ja Liquid:lle.
Koskien monien tekoälybottien taipumusta jäljitellä ei-tekoälyliikennettä, tutkijat toteavat:
‘Lisäksi ensimmäisen osapuolen ilmoitetuille agenteille, useat tekoälyjärjestelmät palauttivat sisältöä, joka liittyi yleisiin selain User-Agent-merkkijonoihin. Havaitsemme tämän käyttäytymisen kuudessa 18:sta tekoälyjärjestelmästä, joista saimme User-Agent-tietoja.
‘Tämä tulos osoittaa, että jotkut tekoälyjärjestelmät voivat hankkia verkkosivujen sisältöä pyynnöillä, jotka näyttävät samanlaisilta kuin tavallinen selainliikenne, mikä tekee User-Agent-pohjaisen eston vaikeaksi.’
ERNIE palautti sekä Baiduspiderin että Chromen identiteetin; Grok yhdisti Googlebotin kahteen selainagenttiin; Solar käytti vain selainidentiteettejä; Qwen sekoitti Googlebotin Chromen kanssa; ja Kimi liitettiin useisiin selainkaltaisiin agenteihin.
Monet järjestelmät näyttivät luottavan kolmannen osapuolen hakukoneiden skraippaajiin, joissa suhteita ei aina paljastettu. Sisältö, joka liittyi Googlebotiin, Bingbotiin ja Bravebotiin, palautettiin kymmenellä 18:sta analyysoidusta järjestelmästä, usein tapauksissa, joissa ei ollut julkaistua yhteyttä tekoälytarjoajan ja hakukoneen välillä – vaikka jotkut linkit, kuten Clauden käyttö Braven kanssa, on dokumentoitu.
Tutkijat väittävät, että tämä heijastaa hakutulosten nielamista suoraan skrapiroiden sijaan, koska ASN-tarkistukset osoittivat, että liikenne alkoi odotetuilta hakukoneverkoilta, eikä vääräksi tehtyjä identiteettejä.
Tämä osoittaa, raportti väittää, lisäkerroksen epäselvyyttä web-tekoälyputkistossa, jossa estäminen tunnetuista tekoälyskraippaajista ei välttämättä estä tietojen käyttöä, ja välttäminen edellyttää hakukonehaun kokonaan poisjättämistä – epätoivottava valinta, kun perinteisen SEO:n ja tekoälypohjaisen hakutoiminnan jännite on edelleen kaukana ratkaisusta.
Välimuisti vain
Tutkijat testasivat sitten, vaikuttaako lähdesivun poistaminen chatbottien tuloksiin, ottamalla testisivut pois käytöstä ja kysymällä järjestelmiä uudelleen viikon kuluttua. Raportin mukaan monet chatbotit jatkoivat “istutettujen” tietojen toistamista, vaikka sivut eivät olleet enää saatavilla, osoittaen, että vastaukset otettiin välimuistista, eikä suorasta hakutoiminnasta.
Tämä kestävyys oli selvimmin havaittavissa järjestelmissä, jotka liittyivät hakukoneiden skraippaajiin, joissa aiemmin indeksoitu sisältö säilyi käytettävissä, vaikka alkuperäiset sivut eivät olleet enää saatavilla – vaikka samankaltaista käyttäytymistä havaittiin myös järjestelmissä, jotka liittyivät selainkaltaisiin agenteihin, osoittaen, että välimuisti voi ulottua hakukoneiden tukiputkistojen ulkopuolelle.
Raportti ehdottaa, että kun sisältö pääsee välimuistiin, riippumatta siitä, onko se chatbotin tai hakukoneen hallinnassa, poistaminen alkuperäisestä sivusta ei poista sitä luotettavasti myöhemmistä tuloksista.
Johtopäätös
Tutkijat myöntävät, että tällaisesta “eristetystä” lähestymistavasta voi seurata “vuotoa”, koska yksilölliset tunnisteet, jotka on tarkoitettu yhdelle LLM:lle, voivat joskus päätyä hakutuloksiin (jotka on luotu tunnisteen “oikean” omistajan toimesta), jotka sitten niellään toisella LLM:llä. Tällaisissa skeemoissa tällainen diffuusio on väistämätöntä, ja tärkein ja ratkaisevin hetki on ensimmäinen ilmestyminen.
Mitä jää nähtäväksi, on se, missä määrin tällainen skeema voisi toteutua laajassa mittakaavassa, erityisesti koska, kuten tutkijat huomauttavat, yksilöllisiä tunnisteita loppuisi nopeasti.
Kuitenkin tämä on hieman sivuasia, koska voi olla raja sille, kuinka rohkeasti tekoälyyritykset voivat ylittää selvän näytön omista valheistaan skrapiroidessaan. Lisäksi, elleivät yritykset sitoudu potentiaalisesti kalliiseen reittiin kotimaisten IP-osoitteiden kiertämiseksi maskioidakseen identiteettinsä, riittää, että yksi organisaatio tunnistaa ja julkaisee SpamHaus-tyylisen mustan listan petollisista tekoälybottien IP-osoitteista tai ASN:istä; prosessi ei välttämättä vaadi teollista tuotantoa ollakseen tehokas.
Julkaistu torstaina, 14. toukokuuta 2026












