Η γωνία του Anderson

Το Καναρίνι που Αποκαλύπτει την Κυκλοφορία του AI

Published May 14, 2026

Martin Anderson

AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

Σε μια νέα μελέτη, ερευνητές έκρυψαν μοναδικές φράσεις σε ιστοσελίδες και έπιασαν τα chatbots του AI να τις επαναλαμβάνουν, αποκαλύπτοντας κρυφές διαδικασίες συλλογής δεδομένων και, φαινομενικά, εξαπατητικές πρακτικές από μερικές από τις μεγαλύτερες εταιρείες AI.

Οι εταιρείες AI αγωνίζονται για το πλεονέκτημα σε έναν αγώνα που προβλέπεται να είναι βίαια αναγωγικός·因此, πραγματικά, πραγματικά θέλουν να συλλέξουν δεδομένα από τις ιστοσελίδες σας για να ταΐσουν τα μοντέλα AI τους. Κάποιες φορές συνεχώς· συχνά παρά την επιθυμία σας· και συχνά με τη μορφή ανθρώπινων αναγνωστών, ή αλλιώς ως ‘φιλικότερα’ bots όπως το GoogleBot, αντί να αποκαλύπτουν την αληθινή ταυτότητά τους ως συλλέκτες δεδομένων AI.

Είναι目前 εκτιμώμενο ότι αυτόματοι συλλέκτες AI που σχεδιάστηκαν για να συλλέξουν νέα δεδομένα και να ανταποκριθούν στις αιτήσεις των χρηστών για τις τελευταίες ειδήσεις μέσω RAG, θα ξεπεράσουν τους ανθρώπους μέσα σε ένα χρόνο.

Αυτή η επιμονή, η ανελέητη και επαναλαμβανόμενη συλλογή δεδομένων συμβαίνει εν μέρει λόγω της ανάγκης κάθε οντότητας AI να έχει τη δική της τρέχουσα αντίγραφο του διαδικτύου, αντί να βασίζεται σε παλαιότερες αποθήκες όπως Common Crawl· και, ίσως, επειδή οι εταιρείες φοβούνται την ερχόμενη νομική περιορισμοί, και πρέπει να προχωρήσουν με την πλύση IP όσο το δυνατόν συντομότερα.

Επιπλέον, με τη συνεχή ερωτηματική πολλούς (πιθανότατα εύφορων) ιστότοπων, οι εταιρείες AI μπορεί να ελπίζουν να βελτιώσουν την τρέχουσα μη καλή ικανότητά τους να ανταποκριθούν ενημερωτικά και ακριβώς σε突发 και αναδυόμενες καταστάσεις.

Σε κάθε περίπτωση, φαίνεται να υπάρχει κάποια αξιοπιστία στην άποψη ότι αυτές οι πρακτικές έχουν εξαπλωθεί ανεξέλεγκτα και ακατάπαυστα για κάποιο χρόνο.

Το πρόβλημα είναι, δεν είναι τόσο εύκολο να αποδείξεις ποια είναι το βάθος των εταιρειών AI για να ικανοποιήσουν τη δίψα τους για τα τελευταία δεδομένα.

Ακολουθήστε τα Δεδομένα

Μια πρόταση, που προτείνεται σε μια νέα εργασία από τις ΗΠΑ, προσφέρει μια παραλλαγή μιας παλαιάς μεθόδου για την ανακάλυψη κατασκόπων, πληροφοριοδοτών και άλλων υποτιθέμενων κακοποιών· εκθέτοντας τους σε προσαρμοσμένες πληροφορίες που δεν γνωρίζει κανείς άλλος, και βλέποντας αν και πού αυτές οι πληροφορίες εμφανίζονται. Αν κανείς άλλος δεν γνώριζε αυτές τις πληροφορίες, τότε η πηγή της διαρροής αποδεικνύεται·

Η βασική ιδέα των ερευνητών, που περιγράφεται στην nouvelle εργασία, είναι να δώσουν σε κάθε επισκέπτη bot μια ελαφρώς διαφορετική εκδοχή της ίδιας σελίδας, και στη συνέχεια να ζητήσουν από τα chatbots να μιλήσουν για αυτή τη σελίδα και να δουν ποια εκδοχή επιστρέφει, καθιστώντας δυνατή την αναγνώριση ποια κρυφή αναζήτηση ιστοσελίδων παρείχε την απάντηση. Πηγή

Αυτή η δημοφιλής προσέγγιση είναι ίσως πιο γνωστή μέσω των μετρών κατά της πειρατείας που υιοθέτησαν οι Academy Awards committee στις αρχές της δεκαετίας του 2000, όπου τα DVD των προβολών που δόθηκαν στους ψηφοφόρους άρχισαν να έχουν ψηφιακά σημάδια που θα μπορούσαν να ανατεθούν στην αρχική λήπτρια εάν το фильμ διαρρεύσει στο διαδίκτυο. Στην κατασκοπεία, η τεχνική αυτή ονομάζεται βαρύμετρο, μετά την πρακτική της χρήσης ενός ραδιοενεργού ισοτόπου υγρού για να φωτίσει τα αιμοφόρα αγγεία σε μια ιατρική σάρωση και να αναγνωρίσει τις αποφράξεις.

(Ιронικά, η επιλεγμένη μεταφορά του καναρίνι δεν είναι τόσο κατάλληλη για το σενάριο που αντιμετωπίζει η εργασία, αν και είναι πιο αναγνωρίσιμη από τις προηγούμενες τροπές)

Στην περίπτωση της νέας έρευνας, οι συγγραφείς δημιούργησαν είκοσι ‘HONEYPOT’ ιστοσελίδες και παρείχαν μοναδικούς συμβολισμούς σε κάθε μοναδικό επισκέπτη, ώστε κάθε ένας να λάβει διαφορετικά γεγονότα (βλέπε δεύτερη στήλη από αριστερά στην εικόνα παραπάνω).

Το αντικείμενο ήταν να αποκαλύψουν την αληθινή ταυτότητα και συμπεριφορά των LLM (AI) συλλέκτων. Σε 22 παραγωγικά συστήματα LLM, η τεχνική ήταν σε θέση να αναγνωρίσει με συνέπεια ποιοι συλλέκτες ταΐζουν ποια LLM,既然 με μια μικρή υπομονή μετά την ‘φυτέυση’ των μοναδικών δεδομένων σημείων, απλώς ζητώντας τις σωστές ερωτήσεις στα AI μετά από ένα μήνα ή δύο θα έδινε τα μοναδικά σύμβολα.

Ακαδημαϊκή Παιχνίδια

Φυσικά, τίποτα από αυτά δεν θα ήταν απαραίτητο αν δεν βρισκόμαστε ακόμη στη ‘δύση’ φάση του AI V3, και αν οι εταιρείες ακολουθούσαν πραγματικά τις μικρές κειμενικές αρχείες που οι τομείς μπορούν να χρησιμοποιήσουν για να πούνε στις εταιρείες AI να μην συλλέγουν τα δεδομένα τους.

Όπως αποδείχθηκε στις δοκιμές των ερευνητών, μόνο μια εταιρεία AI φάνηκε να σέβεται τη δική της δηλωμένη συμπεριφορά και αρχές· το DuckDuckbot της DuckDuckGo ήταν ο μόνος πράκτορας που αντιπροσώπευε ακριβώς και σταμάτησε να αναφέρει τα ‘μυστικά δεδομένα’ μόλις η σελίδα-στόχος απενεργοποιήθηκε (άλλες εταιρείες AI έφτασαν σε cached εκδόσεις και άλλα κόλπα) ή η σελίδα-στόχος άλλαξε το αρχείο robots.txt για να αρνηθεί την συλλογή δεδομένων AI.

Πολλοί από τους μεγαλύτερους παίκτες αντίθετα απεικονίστηκαν ως γενικοί αναγνωριστικοί προγράμματος περιήγησης (ο ίδιος τύπος που θα έβλεπε μια ιστοσελίδα αν σας επισκέπτονταν)· και, σύμφωνα με την ηγεσία του Perplexity το 2025 σε αυτή τη πρακτική, απεικονίστηκαν ως GoogleBot, που είχε για καιρό ‘χρυσό διαβατήριο’ για δεδομένα ιστοσελίδων επειδή επέστρεφε (σημειώστε το παρελθόν, επειδή αυτό αλλάζει) κίνηση σε αντάλλαγμα δεδομένων.

Το χειρότερο δράστης, σύμφωνα με την εργασία, ήταν ο συλλέκτης που ταΐζει το οικοσύστημα Kimi AI:

‘Το Kimi φαίνεται να είναι η πιο ακραία περίπτωση αυτής της συμπεριφοράς· πολλά user-agents φάνηκαν να συσχετίζονται με δεδομένα που εξόδευσε το Kimi. Υποθέτουμε ότι το Kimi περιστρέφεται μέσα από μια μεγάλη λίστα συμβολισμών User-Agent ενώ συλλέγει δεδομένα, πιθανότατα για να αποφύγει την ανίχνευση bot.’

Τι κάνει αυτό το πρόβλημα μια μεγάλη πρόκληση είναι ότι όταν τα ChatGPT ή παρόμοια εργαλεία ‘ψάχνουν κάτι’, αυτή η διαδικασία είναι σε μεγάλο βαθμό αόρατη, με τις εταιρείες να προσφέρουν μόνο μερικές ή αυτο-αναφερόμενες αναφορές για το πώς τα συστήματά τους συλλέγουν ζωντανούς πληροφορίες. Αυτό αφήνει τους ιδιοκτήτες ιστοσελίδων χωρίς σαφή τρόπο να καταλάβουν ποιοι bots επισκέπτονται πραγματικά τις σελίδες τους, αν οι επισκέψεις είναι άμεσες ή κατευθύνονται μέσω μηχανών αναζήτησης, ή πώς τα δεδομένα αυτά καταλήγουν σε μια τελική απάντηση.

Τα ευρήματα από τη νέα μελέτη δείχνουν ότι τα LLM μπορεί να χρησιμοποιούν τις δικές τους cached εγγραφές από ένα domaine, τις δικές τους εσωτερικές λίστες SEO-στυλ, και ότι συχνά χρησιμοποιούν πληροφορίες από τα αποτελέσματα αναζήτησης εταιρειών με τις οποίες, σε πολλές περιπτώσεις, δεν έχουν δημόσια σύνδεση, και δεν φαίνεται να έχουν συμφωνίες χρήσης.

Οι συγγραφείς πιστεύουν ότι αυτή η αποκάλυψη είναι η πρώτη φορά που μια εργασία έχει αντιμετωπίσει την ανεπιθύμητη εισβολή από συστήματα RAG (ζωντανούς κλήσεις σε χρόνο inference από LLM που μπορεί να έχουν ή όχι ανθρώπινο χρήστη που τις χειρίζεται), αντί για bots συλλογής δεδομένων που αναζητούν νέα δεδομένα για datasets εκπαίδευσης.

Η νέα εργασία έχει τον τίτλο Αναγνώριση Συλλέκτων AI με Χρήση Canary Tokens, και προέρχεται από έξι ερευνητές από το Πανεπιστήμιο Duke, το Πανεπιστήμιο του Pittsburgh, και το Carnegie Mellon.

Μέθοδος

Οι ερευνητές έστησαν είκοσι .com ιστοσελίδες με ευρέως παρόμοιες ιστοσελίδες κάτω από κοινά πρότυπα, όπως ένα καλλιτεχνικό πορτφόλιο ή μια ιστοσελίδα εταιρείας. Κάθε πρότυπο περιείχε 10 θέσεις που θα γεμίσει με σύμβολα μοναδικά για το προφίλ κάθε επισκέπτη (βασισμένα σε παράγοντες όπως η διεύθυνση IP, η αποτύπωση καμβά, και διάφορα άλλα ‘μύραινα’ μέθοδοι):

Ένα παράδειγμα του προτύπου και των μεταβλητών που χρησιμοποιήθηκαν στην πειραματική διαδικασία. Κάθε μοναδικός επισκέπτης θα λάβει σταθερές, ατομικές μεταβλητές.

Κάθε μοναδικός επισκέπτης θα λάβει σταθερές μεταβλητές. Σε περίπτωση που το σύστημα ανίχνευε την επιστροφή ενός προηγούμενου επισκέπτη, οι ίδιες μεταβλητές όπως πριν θα επαναλαμβάνονταν. Οι μεταβλητές δημιουργήθηκαν με τη χρήση της βιβλιοθήκης Python Faker, καθώς και (απροσδιόριστων) τυχαίων αριθμών.

Οι ιστοσελίδες-παραλήπτες υποβεβληθήκαν σε διάφορους καταλόγους όπως το Google και το Bing, και συνδέθηκαν επίσης από άλλες προϋπάρχουσες ιστοσελίδες που οι συγγραφείς ελέγχαναν.

Δόθηκε χρόνος δύο μηνών για να περάσει, ως απαραίτητο χρονικό διάστημα για να επιτρέψει τη συχνότητα σάρωσης από μια ποικιλία bots αναζήτησης και άλλων· και στη συνέχεια, οι ερευνητές ήταν σε θέση να ερωτήσουν τα στοχευμένα chatbots του AI:

Chatbot του AI	Εκδότης
ChatGPT	OpenAI
Claude	Anthropic
Copilot	Microsoft
Deepseek	Deepseek
Duck.ai	DuckDuckGo
ERNIE	Baidu
Gemini	Google
GLM	Z.AI
Granite	IBM
Grok	xAI
Hunyuan	Tencent

Chatbot του AI	Εκδότης
Kimi	MoonshotAI
Liquid	Liquid
Llama	Meta
Mistral	Mistral
Nova	Amazon
Perplexity	Perplexity
Qwen	Alibaba
Reka	Reka
Solar	Upstage
Step-3	StepFun
Venice	Venice

Γράφτηκαν scripts για να ερωτήσουν κάθε σύστημα, μέσω API, όπου ήταν δυνατό. Όταν αυτό δεν ήταν δυνατό, και όπου αυτόματα λύσεις όπως το Selenium αποκλείστηκαν από τις διαδικασίες ανίχνευσης του πύργου AI, χειροκίνητες αλληλεπιδράσεις μέσω των επίσημων GUIs των LLMs πραγματοποιήθηκαν.

Μετά την αρχική ανταλλαγή προτύπου (βλέπε εικόνα παραπάνω), οι συγγραφείς ακολούθησαν με μια δεύτερη πρόκληση που σχεδιάστηκε για να εξαγάγει το όνομα μιας εταιρείας ή ενός ατόμου σε μια συνδεδεμένη μεταβλητή.

Οι πειραματικές διαδικασίες πραγματοποιήθηκαν σε μια από τις τρεις συνθήκες: μια πλήρως προσβάσιμη ιστοσελίδα· η ιστοσελίδα λήγει offline· και η ιστοσελίδα με μια περιοριστική robots.txt που απωθεί τη συλλογή δεδομένων. Αυτές οι πειραματικές διαδικασίες πραγματοποιήθηκαν σε αυτή τη σειρά, μια μετά την άλλη,既然 η τελευταία φάση εξαρτάται από τις προηγούμενες.

Τέλος, με όλες τις ιστοσελίδες ξανά online, η τελευταία φάση θα ξαναδοκιμάσει την έξοδο LLM σε διαστήματα ενός εβδομάδας.

Αποτελέσματα

Τέσσερις από τα στοχευμένα LLMs αποδείχθηκαν να είναι πλήρως ανθεκτικά στη μέθοδο των ερευνητών, και δεν ήταν δυνατό να ληφθούν αποτελέσματα για DeepSeek, Hunyuan, GLM, και Liquid.

Σχετικά με την τάση πολλών bots του AI να απεικονίζονται ως μη-AI κίνηση, οι συγγραφείς δηλώνουν:

‘Εκτός από τις δηλωμένες πράκτορες πρώτου μέρους, πολλά συστήματα AI επέστρεψαν περιεχόμενο που σχετίζεται με γενικούς αναγνωριστικούς προγράμματος περιήγησης. Παρατηρήσαμε αυτή τη συμπεριφορά για έξι από τα 18 συστήματα AI για τα οποία λάβαμε πληροφορίες για τον αναγνωριστικό χρήστη.

‘Αυτό το αποτέλεσμα δείχνει ότι κάποια συστήματα AI μπορούν να λάβουν περιεχόμενο ιστοσελίδας μέσω αιτημάτων που φαίνονται παρόμοια με την κίνηση του προγράμματος περιήγησης, που καθιστά τη μπλοκάρισή τους με βάση τον αναγνωριστικό χρήστη δύσκολη.’

ERNIE επέστρεψε και Baiduspider και μια ταυτότητα Chrome· Grok συνδύασε Googlebot με δύο αναγνωριστικούς προγράμματος περιήγησης· Solar χρησιμοποίησε μόνο αναγνωριστικούς προγράμματος περιήγησης· Qwen μείξε Googlebot με Chrome· και Kimi συνδέθηκε με πολλαπλούς αναγνωριστικούς προγράμματος περιήγησης-στυλ.

Πολλά συστήματα φάνηκαν να βασίζονται σε τρίτους συλλέκτες αναζήτησης, σε σχέσεις που δεν ήταν πάντα δηλωμένες. Περιεχόμενο που συνδέθηκε με Googlebot, Bingbot, και Bravebot επέστρεψε από δέκα από τα 18 συστήματα που αναλύθηκαν, συχνά σε περιπτώσεις όπου δεν υπήρχε δηλωμένη σύνδεση μεταξύ του παρόχου AI και της μηχανής αναζήτησης – αν και κάποιες συνδέσεις, όπως η χρήση του Brave από το Claude, είναι τεκμηριωμένες.

Οι συγγραφείς υποστηρίζουν ότι αυτό αντανακλά την κατάποση αποτελεσμάτων αναζήτησης αντί για άμεση συλλογή,既然 ASN checks δείχνουν ότι η κίνηση προέρχεται από τα αναμενόμενα δίκτυα μηχανών αναζήτησης, αντί για ψευδείς ταυτότητες.

Αυτό υποδηλώνει, όπως ισχυρίζεται η εργασία, μια επιπλέον στρώση αδιαφάνειας στη διαδικασία ιστοσελίδας-προς-AI, όπου η блокάρισή των γνωστών crawlers AI μπορεί να μην αποτρέπει τη χρήση δεδομένων, και η αποφυγή της ένταξης μπορεί να απαιτεί την εξαίρεση από την ευρετηρίαση αναζήτησης – μια μη επιθυμητή επιλογή ενώ η ένταση μεταξύ παραδοσιακής SEO και αναζήτησης LLM-βασισμένης είναι ακόμη μακράν από το να επιλυθεί.

Αποθήκευση Μόνο

Οι συγγραφείς τότε δοκιμάζουν αν η αφαίρεση μιας πηγής θα επηρεάσει την έξοδο των chatbots, λήγοντας την ιστοσελίδα και ξαναερωτώντας τα συστήματα μετά από ένα χρονικό διάστημα ενός εβδομάδας. Σύμφωνα με την εργασία, πολλά chatbots συνέχισαν να αναπαράγουν το ‘φυτεμένο’ περιεχόμενο ακόμη και μετά από ένα εβδομάδα εκτός λειτουργίας, υποδεικνύοντας ότι οι απαντήσεις προέρχονταν από cached δεδομένα, αντί για ζωντανή ανάκτηση.

Αυτή η επιμονή ήταν πιο εμφανής σε συστήματα που συνδέονται με crawlers αναζήτησης, όπου το προηγουμένως ευρετηριασμένο περιεχόμενο παρέμεινε διαθέσιμο, παρά την σελίδα-πηγή να μην είναι πλέον προσβάσιμη – αν και παρόμοια συμπεριφορά παρατηρήθηκε επίσης σε συστήματα που συνδέονται με αναγνωριστικούς προγράμματος περιήγησης-στυλ, υποδεικνύοντας ότι η αποθήκευση μπορεί να εκτείνεται πέρα από τις διαδικασίες που βασίζονται σε αναζήτηση.

Η εργασία υποδηλώνει ότι όταν το περιεχόμενο εισέρχεται σε μια αποθήκευση, είτε διατηρείται από το chatbot είτε προσπελάσεται μέσω ευρετηρίου αναζήτησης, η αφαίρεση της αρχικής σελίδας δεν αφαιρεί με συνέπεια το περιεχόμενο από τις επόμενες εξόδους.

Συμπέρασμα

Οι συγγραφείς παραδέχονται ότι κάποια ‘διαρροή’ θα συμβεί από αυτή τη κλασική ‘απομονωμένη’ προσέγγιση,既然 η μοναδική σύμβολα που στοχεύουν σε ένα LLM μπορεί να βρεθούν σε αποτελέσματα αναζήτησης (γεννημένα από τους πραγματικούς ιδιοκτήτες των συμβόλων), τα οποία στη συνέχεια θα καταναλωθούν από ένα δεύτερο LLM. Ωστόσο, σε τέτοιες схемές, η διάχυση αυτού του είδους είναι αναπόφευκτη, και η επιτήρηση για την πρώτη εμφάνιση είναι το κρίσιμο και αποκαλυπτικό момент.

Τι παραμένει να δούμε είναι το βαθμό στο οποίο μια τέτοια схηματική μπορεί να εφαρμοστεί σε κλίμακα, ιδιαίτερα既然, όπως παρατηρούν οι συγγραφείς, θα εξαντληθούν γρήγορα τα контεκστά-σωστά σύμβολα.

Ωστόσο, αυτό παραλείπει το σημείο,既然 μπορεί να υπάρχει ένα όριο ακόμη και στην τολμηρότητα της ικανότητας των εταιρειών AI να περάσουν με σαφή απόδειξη των ψευδών τους για τις πολιτικές συλλογής τους. Επιπλέον, εκτός αν οι εταιρείες αυτές δεσμευτούν για το πιθανότατα δαπανηρό δρόμο του περάσματος από εγχώριες διευθύνσεις IP για να.mask την ταυτότητά τους, θα χρειαστεί μόνο μια οργάνωση να αναγνωρίσει και να δημοσιεύσει μια μαύρη λίστα SpamHaus-στυλ για ψευδείς IPs ή ASNs AI-bot· η διαδικασία δεν χρειάζεται να βιομηχανοποιηθεί για να είναι αποτελεσματική.

Πρώτη δημοσίευση Πέμπτη, 14 Μαΐου 2026