Η γωνία του Anderson

Το Καναρίνι που Αποκαλύπτει την Κυκλοφορία του AI

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

Σε μια νέα μελέτη, ερευνητές έκρυψαν μοναδικές φράσεις σε ιστοσελίδες και πήραν AI chatbots να τις επαναλαμβάνουν, αποκαλύπτοντας κρυφές διαδικασίες σκραπινγκ και, φαινομενικά, απάτη από μερικές από τις μεγαλύτερες εταιρείες AI.

 

Οι εταιρείες AI αγωνίζονται για το πλεονέκτημα σε έναν αγώνα που προβλέπεται να είναι απάνθρωπος και αναγωγικός· इसलिए, πραγματικά, πραγματικά θέλουν να σκραπάρουν την ιστοσελίδα/ες σας για δεδομένα εκπαίδευσης για να ταΐσουν τα μοντέλα AI τους. Κάποιες φορές συνεχώς· συχνά παρά την επιθυμία σας· και συχνά με την μορφή των ανθρώπινων αναγνωστών, ή αλλιώς ως ‘φιλικότεροι’ bots όπως το GoogleBot, αντί να αποκαλύπτουν την πραγματική τους ταυτότητα ως σκραπέρ δεδομένων AI.

Είναι目前 εκτιμώμενο ότι οι αυτόματοι σκραπέρ AI που σχεδιάστηκαν για να απορροφήσουν νέα δεδομένα εκπαίδευσης και να ανταποκριθούν στην απαίτηση των χρηστών για τις τελευταίες ειδήσεις μέσω RAG, θα ξεπεράσουν τους ανθρώπους μέσα σε ένα χρόνο.

Αυτή η τρελή, ανελέητη και επαναλαμβανόμενη λήψη δεδομένων συμβαίνει εν μέρει λόγω της ανάγκης κάθε οντότητας AI να έχει τη δική της τρέχουσα αντίγραφο του διαδικτύου, αντί να βασίζεται σε παλαιότερες αποθήκες όπως Common Crawl· και, ίσως, επειδή οι εταιρείες φοβούνται την ερχόμενη νομική περιοριστική και πρέπει να προχωρήσουν με IP-washing όσο το δυνατόν νωρίτερα.

Επιπλέον, με την συνεχή έρευνα σε όσο το δυνατόν περισσότερες (πιθανώς εύφορες) ιστοσελίδες, οι εταιρείες AI μπορεί να ελπίζουν να βελτιώσουν την τώρα μη καλή ικανότητά τους να ανταποκριθούν ενημερωτικά και ακριβώς σε突发 και αναδυόμενες καταστάσεις.

Εν πάση περιπτώσει, φαίνεται να υπάρχει κάποια αξιοπιστία στην άποψη ότι αυτές οι πρακτικές έχουν εξελιχθεί εκτός ελέγχου και ανεξέλεγκτες για κάποιο χρόνο.

Το πρόβλημα είναι ότι δεν είναι τόσο εύκολο να αποδείξει ποια είναι τα μέτρα που λαμβάνουν οι εταιρείες AI για να ικανοποιήσουν τη δίψα τους για τα τελευταία δεδομένα.

Ακολουθήστε τα Δεδομένα

Μια πρόταση, που προτείνεται σε μια νέα εργασία από τις ΗΠΑ, προσφέρει μια παραλλαγή μιας παλιάς μεθόδου για την ανακάλυψη κατασκόπων, πληροφοριοδοτών και άλλων υποτιθέμενων κακοποιών: την έκθεση σε προσαρμοσμένες πληροφορίες που κανείς άλλος δεν γνωρίζει, και να δείτε αν και πού αυτή η πληροφορία εμφανίζεται. Αν κανείς άλλος δεν γνώριζε αυτή την πληροφορία, τότε η πηγή της διαρροής αποδεικνύεται:

Η ιδέα των ερευνητών, περιγραφεί στην νέα εργασία, είναι να δώσουν σε κάθε επισκέπτη bot μια ελαφρώς διαφορετική εκδοχή της ίδιας σελίδας, και να ζητήσουν από τα chatbots να μιλήσουν για αυτή τη σελίδα και να δουν ποια εκδοχή επιστρέφει, καθιστώντας δυνατή την αναγνώριση ποια κρυφή αναζήτηση ιστοσελίδων παρείχε την απάντηση.

Η ιδέα των ερευνητών, περιγραφεί στην νέα εργασία, είναι να δώσουν σε κάθε επισκέπτη bot μια ελαφρώς διαφορετική εκδοχή της ίδιας σελίδας, και να ζητήσουν από τα chatbots να μιλήσουν για αυτή τη σελίδα και να δουν ποια εκδοχή επιστρέφει, καθιστώντας δυνατή την αναγνώριση ποια κρυφή αναζήτηση ιστοσελίδων παρείχε την απάντηση. Πηγή

Αυτή η δημοφιλής προσέγγιση είναι ίσως πιο γνωστή από τα μετρα κατά της πειρατείας που υιοθετήθηκαν από την επιτροπή των βραβείων Όσκαρ το 2000, όπου τα DVD που δόθηκαν στους ψηφοφόρους είχαν ψηφιακά σημάδια που μπορούσαν να ανατεθούν στον αρχικό παραλήπτη αν η ταινία διαρρεύσει στο διαδίκτυο. Στην κατασκοπεία, η τεχνική αυτή ονομάζεται γεύμα βαρίου, μετά την πρακτική της χρήσης ενός ραδιοενεργού ισοτόπου υγρού για να φωτίσει τα αιμοφόρα αγγεία σε μια ιατρική σάρωση και να αναγνωρίσει τις αποφράξεις.

(Ιронικά, η επιλεγμένη μεταφορά του καναρινιού δεν είναι τόσο κατάλληλη για το σενάριο που αντιμετωπίζει η εργασία, αν και είναι πιο αναγνωρίσιμη από τις προαναφερθείσες τροπές)

Στην περίπτωση της νέας έρευνας, οι συγγραφείς δημιούργησαν είκοσι “HONEYPOT” ιστοσελίδες και παρείχαν μοναδικούς συμβολισμούς σε κάθε μοναδικό επισκέπτη, ώστε κάθε ένας να λάβει διαφορετικά γεγονότα (βλέπε δεύτερη στήλη από αριστερά στην εικόνα παραπάνω).

Το αντικείμενο ήταν να αποκαλύψει την πραγματική ταυτότητα και συμπεριφορά των σκραπέρ LLM (AI). Σε 22 παραγωγικά συστήματα LLM, η τεχνική ήταν σε θέση να αναγνωρίσει με συνέπεια ποια σκραπέρ ταΐζαν ποιο LLM, αφού, μετά από λίγη υπομονή μετά την “φύτευση” των μοναδικών δεδομένων, απλά ζητώντας τις σωστές ερωτήσεις στα AI μετά από ένα μήνα ή δύο, θα έδιναν τα μοναδικά σύμβολα.

Απάτη

Φυσικά, τίποτα από αυτά δεν θα ήταν απαραίτητο αν δεν βρισκόμαστε ακόμη στη φάση “γουέστ” του AI V3, και αν οι εταιρείες ακολουθούσαν πραγματικά τις μικρές κείμενες που οι τομείς μπορούν να χρησιμοποιήσουν για να πούν στους εταιρείες AI να μην σκραπάρουν τα δεδομένα τους.

Όπως αποδείχθηκε στις δοκιμές των ερευνητών, μόνο μια εταιρεία AI φάνηκε να σέβεται τη δική της συμπεριφορά και αρχές: το DuckDuckbot της DuckDuckGo ήταν ο μόνος πράκτορας που αντιπροσώπευε τον εαυτό του ακριβώς, και σταμάτησε να αναφέρει τα “μυστικά δεδομένα” μόλις η σελίδα-στόχος απενεργοποιήθηκε (άλλες εταιρείες AI χρησιμοποίησαν cached εκδόσεις και άλλα κόλπα) ή το αρχείο robots.txt της σελίδας άλλαξε για να απορρίψει το σκραπινγκ AI.

Πολλοί από τους μεγαλύτερους παίκτες αντίθετα απομιμούνται γενικούς αναγνωριστικούς κωδικούς προγράμματος περιήγησης (τον ίδιο που θα έβλεπε μια ιστοσελίδα αν σας επισκεφτείτε) και, σύμφωνα με το πρότυπο του 2025 της Perplexity, απομιμούνται το GoogleBot, το οποίο έχει享有一個 “χρυσό διαβατήριο” για δεδομένα ιστοσελίδων επειδή επέστρεφε (σημειώστε το παρελθόν, επειδή αυτό αλλάζει) κυκλοφορία σε αντάλλαγμα δεδομένων.

Η χειρότερη παραβάτης, σύμφωνα με την εργασία, ήταν ο σκραπέρ που ταΐζει το οικοσύστημα Kimi AI:

‘Η Kimi φαίνεται να είναι η πιο ακραία περίπτωση αυτής της συμπεριφοράς: πολλά user-agents φαίνονται να συσχετίζονται με δεδομένα που εξόδων από την Kimi. Υποθέτουμε ότι η Kimi περιστρέφεται μέσα από μια μεγάλη λίστα συμβολισμών User-Agent ενώ σκραπάρει, πιθανώς για να αποφευχθεί η ανίχνευση bot.’

Τι κάνει αυτό το πρόβλημα μια μεγάλη πρόκληση είναι ότι όταν το ChatGPT ή παρόμοια εργαλεία “ψάχνουν κάτι”, αυτή η διαδικασία είναι σε μεγάλο βαθμό αόρατη, με τις εταιρείες να προσφέρουν μόνο μερικές ή αυτο-αναφερόμενες περιγραφές για το πώς τα συστήματά τους συλλέγουν ζωντανούς πληροφορίες. Αυτό αφήνει τους ιδιοκτήτες ιστοσελίδων χωρίς σαφή τρόπο να καταλάβουν ποια bots επισκέπτονται πραγματικά τις σελίδες τους, αν αυτές οι επισκέψεις είναι άμεσες ή διαμεσολαβούνται από μηχανές αναζήτησης, ή πώς αυτά τα δεδομένα καταλήγουν σε μια τελική απάντηση.

Τα ευρήματα από τη νέα μελέτη δείχνουν ότι τα LLM μπορεί να χρησιμοποιούν τις δικές τους cached εγγραφές από μια σελίδα, τις δικές τους εσωτερικές λίστες SEO-στυλ, και συχνά χρησιμοποιούν πληροφορίες από τα αποτελέσματα αναζήτησης εταιρειών με τις οποίες, σε πολλές περιπτώσεις, δεν έχουν δημόσια σύνδεση, και δεν έχουν εμφανείς συμφωνίες χρήσης.

Οι συγγραφείς πιστεύουν ότι αυτή η αποκάλυψη είναι η πρώτη φορά που μια εργασία έχει αντιμετωπίσει την αθέμιτη εισβολή από συστήματα RAG (ζωντανούς κλήσεις σε χρόνο inference από LLM που μπορεί να έχουν ή όχι ανθρώπινο χρήστη που τα χειρίζεται), αντί για bots σκραπινγκ που αναζητούν φρέσκα δεδομένα για συνόλους εκπαίδευσης.

Η νέα εργασία ονομάζεται Αναγνώριση Σκραπέρ AI με Χρήση Canary Tokens, και προέρχεται από έξι ερευνητές από το Πανεπιστήμιο Duke, το Πανεπιστήμιο του Pittsburgh και το Carnegie Mellon.

Μέθοδος

Οι ερευνητές έστησαν είκοσι ιστοσελίδες .com με γενικά παρόμοιες ιστοσελίδες κάτω από κοινά πρότυπα, όπως ένα artistικό πορτφόλιο ή μια ιστοσελίδα εταιρείας. Κάθε πρότυπο περιείχε 10 κενά που θα γεμίζαν με σύμβολα μοναδικά για κάθε επισκέπτη (βασισμένα σε παράγοντες όπως η διεύθυνση IP, η αποτύπωση καμβά και διάφορα άλλα “μύραινα” μέθοδοι):

Ένα παράδειγμα του προτύπου και των μεταβλητών που χρησιμοποιήθηκαν στην πειραματική διαδικασία. Κάθε μοναδικός επισκέπτης θα λάβει persistent, ατομικά προσαρμοσμένα σύμβολα.

Ένα παράδειγμα του προτύπου και των μεταβλητών που χρησιμοποιήθηκαν στην πειραματική διαδικασία. Κάθε μοναδικός επισκέπτης θα λάβει persistent, ατομικά προσαρμοσμένα σύμβολα.

Κάθε μοναδικός επισκέπτης θα λάβει custom variables. Στην περίπτωση που το σύστημα ανίχνευε την επιστροφή ενός προηγούμενου επισκέπτη, τα ίδια σύμβολα θα επανα-παρουσιαστούν. Τα σύμβολα δημιουργήθηκαν με τη χρήση της βιβλιοθήκης Python Faker, καθώς και (απροσδιόριστων) τυχαίων γεννητόρων αριθμών.

Οι “HONEYPOT” ιστοσελίδες υποβεβληθηκαν σε διάφορους καταλόγους όπως το Google και το Bing, και συνδέθηκαν επίσης από άλλες προϋπάρχουσες ιστοσελίδες που οι συγγραφείς ελέγχαναν.

Δόθηκε χρόνος δύο μηνών για να περάσει, ως απαραίτητο διάστημα για την αναζήτηση συχνότητας από μια μεγάλη ποικιλία bots αναζήτησης και παρόμοιων bots, καθώς και (πιθανώς) οργανικές επισκέψεις. Σε αυτό το σημείο, οι ερευνητές ήταν τώρα σε θέση να αναζητήσουν τα στόχους AI chatbots (που αναφέρονται παρακάτω):

AI chatbot Εκδότης
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
AI chatbot Εκδότης
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Γραφτήκαν scripts για να αναζητήσουν κάθε σύστημα, μέσω API, όπου ήταν δυνατό. Όταν αυτό δεν ήταν δυνατό, και όπου αυτόματα λύσεις όπως το Selenium αποκλείστηκαν από τις διαδικασίες ανίχνευσης του πύργου AI, αναλήφθηκαν χειροκίνητες αλληλεπιδράσεις μέσω των επίσημων GUI των LLM.

Μετά την αρχική ανταλλαγή προτύπου (βλέπε εικόνα παραπάνω), οι συγγραφείς ακολούθησαν με μια δεύτερη πρόκληση που σχεδιάστηκε για να εξαγάγει το όνομα μιας εταιρείας ή ενός ατόμου σε một συσχετισμένο σύμβολο.

Οι πειραματικές διαδικασίες πραγματοποιήθηκαν σε μια από τις τρεις συνθήκες: μια πλήρως προσβάσιμη ιστοσελίδα· η ιστοσελίδα λήγει offline· και η ιστοσελίδα με μια περιοριστική robots.txt που απωθούσε το σκραπινγκ. Αυτές οι πειραματικές διαδικασίες πραγματοποιήθηκαν σε αυτή τη συγκεκριμένη σειρά, μια μετά την άλλη,既然 η τελευταία φάση εξαρτάται από τις προηγούμενες.

Τέλος, με όλες τις ιστοσελίδες ξανά online, η τελευταία φάση θα ξανα-εξετάσει την έξοδο LLM σε διαστήματα ενός εβδομάδων.

Αποτελέσματα

Τέσσερις από τους στόχους LLM αποδείχθηκαν να είναι完全 ανθεκτικοί στις μεθόδους των ερευνητών, και δεν ήταν δυνατό να ληφθούν αποτελέσματα για DeepSeek, Hunyuan, GLM, και Liquid.

Σχετικά με την τάση πολλών bots AI να απομιμούνται μη-AI κυκλοφορία, οι συγγραφείς αναφέρουν:

‘Εκτός από τις πρώτες δηλωμένες πράκτορες, πολλά AI συστήματα επέστρεψαν περιεχόμενο που συνδέεται με γενικούς αναγνωριστικούς κωδικούς προγράμματος περιήγησης. Παρατηρήσαμε αυτή τη συμπεριφορά για έξι από τα 18 AI συστήματα για τα οποία λάβαμε πληροφορίες User-Agent.

‘Αυτό το αποτέλεσμα δείχνει ότι κάποια AI συστήματα μπορούν να αποκτήσουν περιεχόμενο ιστοσελίδας μέσω αιτημάτων που φαίνονται παρόμοια με την κανονική κυκλοφορία προγράμματος περιήγησης, κάνοντας την блокировή με βάση τον User-Agent δύσκολη.’

ERNIE επέστρεψε και Baiduspider και μια ταυτότητα Chrome· Grok συνδύασε Googlebot με δύο αναγνωριστικούς κωδικούς προγράμματος περιήγησης· Solar χρησιμοποίησε μόνο αναγνωριστικούς κωδικούς προγράμματος περιήγησης· Qwen mixed Googlebot με Chrome· και Kimi συνδέθηκε με πολλαπλούς αναγνωριστικούς κωδικούς προγράμματος περιήγησης.

Πολλά συστήματα φάνηκαν να βασίζονται σε τρίτους σκραπέρ αναζήτησης, σε σχέσεις που δεν ήταν πάντα δηλωμένες. Περιεχόμενο που συνδέεται με Googlebot, Bingbot, και Bravebot επέστρεψαν από δέκα από τα 18 συστήματα που αναλύθηκαν, συχνά σε περιπτώσεις όπου δεν υπάρχει δηλωμένη σύνδεση μεταξύ του AI πάροχου και της μηχανής αναζήτησης – αν και κάποιες συνδέσεις, όπως η χρήση του Brave από το Claude, είναι τεκμηριωμένες.

Οι συγγραφείς υποστηρίζουν ότι αυτό αντανακλά την κατάποση αποτελεσμάτων αναζήτησης αντί για άμεσο σκραπινγκ,既然 ASN checks δείχνουν ότι η κυκλοφορία προέρχεται από τα αναμενόμενα δίκτυα αναζήτησης, αντί για ψευδείς ταυτότητες.

Αυτό δείχνει, υποστηρίζει η εργασία, μια επιπλέον στρώση αδιαφάνειας στη διαδικασία ιστοσελίδας-προς-AI, όπου η блокировή γνωστών AI crawlers μπορεί να μην αποτρέψει τη χρήση δεδομένων, και η αποφυγή συμπερίληψης μπορεί να απαιτήσει εξόντωση της ευρετηρίασης αναζήτησης完全 – μια μη επιθυμητή επιλογή ενώ η ένταση μεταξύ παραδοσιακής SEO και LLM-βασισμένης αναζήτησης είναι ακόμη μακράν από το να επιλυθεί.

Cache μόνο

Οι συγγραφείς τότε έtested αν η αφαίρεση μιας πηγής θα επηρέαζε την έξοδο chatbots, παίρνοντας τις δοκιμαστικές ιστοσελίδες offline, και αναζητώντας τα συστήματα ξανά μετά από ένα εβδομάδων διάστημα. Σύμφωνα με την εργασία, πολλά chatbots συνέχισαν να αναπαράγουν το “φυσικό” περιεχόμενο ακόμη και μετά από ένα εβδομάδων διάστημα, δείχνοντας ότι οι απαντήσεις λαμβάνονταν από cached δεδομένα, αντί για ζωντανή ανάκτηση.

Αυτή η επιμονή ήταν πιο εμφανής σε συστήματα που συνδέονται με σκραπέρ αναζήτησης, όπου το προηγουμένως ευρετηριασμένο περιεχόμενο παρέμεινε διαθέσιμο, παρά την μη προσβασιμότητα των σελίδων-πηγών – αν και παρόμοια συμπεριφορά παρατηρήθηκε επίσης σε συστήματα που συνδέονται με αναγνωριστικούς κωδικούς προγράμματος περιήγησης, δείχνοντας ότι η缓存 μπορεί να εκτείνεται πέρα από τις διαδικασίες αναζήτησης.

Η εργασία υποστηρίζει ότι όταν το περιεχόμενο εισέρχεται σε μια缓存, είτε διατηρείται από το chatbot είτε πρόσβαση μέσω ευρετηριασμένων indeks, η αφαίρεση της αρχικής σελίδας δεν αφαιρεί με συνέπεια αυτό το περιεχόμενο από τις επόμενες εξόδους.

Συμπέρασμα

Οι συγγραφείς παραδέχονται ότι κάποια “διαρροή” θα συμβεί από αυτή τη κλασική “απομονωμένη” προσέγγιση,既然 τα μοναδικά σύμβολα που στοχεύουν σε ένα LLM μπορεί να βρεθούν σε αποτελέσματα αναζήτησης (γεννημένα από τα “πραγματικά” σύμβολα), τα οποία στη συνέχεια θα καταναλωθούν από ένα δεύτερο LLM. Ωστόσο, σε τέτοιες схемές, η διάχυση αυτού του είδους είναι αναπόφευκτη, και η επιμέλεια για την πρώτη εμφάνιση είναι το κρίσιμο και αποκαλυπτικό момент.

Τι μένει να δούμε είναι το βαθμό στο οποίο τέτοια một.scheme θα μπορούσε να εφαρμοστεί σε κλίμακα, ιδιαίτερα既然, όπως παρατηρούν οι συγγραφείς, θα εξαντληθούν τα contextually-σύνθετα σύμβολα πολύ γρήγορα.

Ωστόσο, αυτό το πρόβλημα είναι κάπως παρεκκλίνων από το σημείο,既然 μπορεί να υπάρχει ένα όριο ακόμη και για την τολμηρότητα της ικανότητας των εταιρειών AI να διαπράξουν σαφείς ψεύτικες δηλώσεις για τις πολιτικές σκραπινγκ. Επιπλέον, εκτός αν οι εταιρείες αυτές δεσμευτούν για το πιθανώς δαπανηρό μονοπάτι του ρολού των εγχώριων διευθύνσεων IP για να.mask την ταυτότητά τους, θα χρειαστεί μόνο μια οργάνωση να αναγνωρίσει και να δημοσιεύσει μια μαύρη λίστα SpamHaus-στυλ για ψευδείς IPs ή ASNs AI-bot· η διαδικασία δεν χρειάζεται να βιομηχανοποιηθεί για να είναι αποτελεσματική.

 

Πρώτη δημοσίευση Πέμπτη, 14 Μαΐου 2026

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]