Connect with us

Πώς να περάσετε άσκηση επιστημονικών εργασιών με ψευδή επιστημονικές εργασίες που γράφονται από την IA

Η γωνία του Anderson

Πώς να περάσετε άσκηση επιστημονικών εργασιών με ψευδή επιστημονικές εργασίες που γράφονται από την IA

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

Νέα έρευνα δείχνει πώς τα συστήματα IA μπορούν τώρα να γράφουν ψευδείς επιστημονικές εργασίες που αποδεχτείς από άλλα IA ως πραγματικές, αποφεύγοντας τις διαδικασίες ανίχνευσης που λειτουργούσαν παλαιότερα και αποκαλύπτοντας πώς εύκολα ο κόσμος της έρευνας θα μπορούσε να καταρρεύσει σε bots που εξαπατούν bots.

 

Ο ακαδημαϊκός τομέας έρευνας, ironικά, η πρώτη γραμμή της καινοτομίας στην IA, βρίσκεται σε μια κρίση πιστότητας που οδηγείται από την IA. Η επίδραση της μάθησης με μηχανές στη διαδικασία έρευνας, υποβολής και αναθεώρησης έχει sido σημαντική από τότε που η επίδραση της IA έγινε σαφής περίπου τέσσερα χρόνια πριν, με το τελευταίο σκάνδαλο να είναι η μαζική γεννήθηκε ψευδών εργασιών έρευνας.

Μαζί με μεγάλο μέρος του πιο ευρύ ακαδημαϊκό τομέα, ο τομέας έρευνας εμπλέκεται σε ένα είδος ψυχρού πολέμου μεταξύ IA που παράγουν κείμενο – όπως το ChatGPT και η σειρά Claude – και των τελευταίων γενεών ‘детектор’ IA, που μπορούν να αναγνωρίσουν την έξοδό τους χωρίς (συνήθως) ψέκασμα φοιτητών ή επιστημόνων με ψευδείς θετικούς.

Αυτές οι εντάσεις είναι πιθανό να αυξηθούν, μαζί με τον όγκο των επιστημονικών υποβολών, που αυξάνεται ριζικά, τροφοδοτούμενο από συστήματα και πλαισιά που βοηθούν την IA, και απαιτώντας βιομηχανική IA-κίνητη διαδικασία εποπτείας για να (ελπίζουμε) να φιλτράρουμε οποιαδήποτε υποβολές που είναι απλά έργο της IA.

Ψευδής Γνώση Καλώς Ορίσατε

Μια νέα έρευνα συνεργασίας μεταξύ των ΗΠΑ και της Σαουδικής Αραβίας ερευνά το βαθμό στον οποίο αυτό το αναδυόμενο ‘τείχος’ ανίχνευσης IA μπορεί να διεισδύσει από entire AI-γεννημένες επιστημονικές εργασίες, όταν αυτές οι εργασίες χρησιμοποιούν κάποιες πρόσθετες, πειστικές τεχνικές.

Σε δοκιμές, το νέο σύστημα, που ονομάζεται BadScientist, ήταν σε θέση να επιτύχει ποσοστά αποδοχής έως και 82% από τα είδη LLM-βασισμένων συστημάτων που χρησιμοποιούνται目前 για να αναγνωρίσουν IA-γεννημένο περιεχόμενο σε επιστημονικές εργασίες:

Το σύστημα BadScientist χρησιμοποιεί ένα IA πράκτορα για να γεννήσει ψευδείς επιστημονικές εργασίες και ένα άλλο για να τις αναθεωρήσει χρησιμοποιώντας τρέχοντα γλωσσικά μοντέλα. Πηγή: https://arxiv.org/pdf/2510.18003

Το σύστημα BadScientist χρησιμοποιεί ένα IA πράκτορα για να γεννήσει ψευδείς επιστημονικές εργασίες και ένα άλλο για να τις αναθεωρήσει χρησιμοποιώντας τρέχοντα γλωσσικά μοντέλα. Πηγή: https://arxiv.org/pdf/2510.18003

Ψευδείς εργασίες γεννήθηκαν χρησιμοποιώντας πραγματικά θέματα IA συνεδρίου και παραπλανητικές στρατηγικές, και στη συνέχεια αναθεωρήθηκαν από μοντέλα που έχουν διασταυρωθεί με δεδομένα αναθεώρησης, συμπεριλαμβανομένων GPT‑5 για ελέγχους ακεραιότητας. Πολλές έλαβαν υψηλές βαθμολογίες παρά το γεγονός ότι περιείχαν σαφείς λάθη ή fabriques.

Η κυκλοφορία του εγγράφου συμπίπτει με τη σημερινή Ανοιχτή Συνέδριο IA Πρακτόρων για την Επιστήμη 2025 στο Στάνφορντ, όπου οι συμμετέχοντες και οι ομιλητές είναι άνθρωποι, αλλά όλα τα έγγραφα γράφονται και αναθεωρούνται από διάφορα IA συστήματα.

BadScientist, το νέο έγγραφο εξηγεί, χρησιμοποιεί διάφορες μορφές ακαδημαϊκών και λογοτεχνικών απάτης, παραλείψεων, εφευρέσεων και υπερβολών για να επαναζυγίσει το έγγραφο μακριά από οτιδήποτε μπορεί να αναγνωριστεί από τα περισσότερα τρέχοντα συστήματα ανίχνευσης ως IA-γεννημένο, και θα δούμε αυτές τις κατηγορίες σύντομα.

Οι συγγραφείς σημειώνουν, με τον τόνο της тревоги, ότι ακόμη και όταν τα συστήματα ανίχνευσης αναγνωρίζουν IA περιεχόμενο σε μια ψευδή εργασία, έχουν την τάση να την αφήνουν να περάσει ούτως ή άλλως, και προσθέτουν ότι οι δικές τους προσπάθειες να ανοσοποιήσουν τα αμυντικά συστήματα ενάντια σε αυτήν την νέα διείσδυση επιτύγχαναν ελάχιστα περισσότερα από τυχαίες βελτιώσεις.

Το έγγραφο αναφέρει:

‘Φαβρίκετες εργασίες επιτύγχαναν υψηλά ποσοστά αποδοχής, με αναθεωρητές που εκδήλωναν συχνά συμφωνίες-αποδοχή-συγκρούσεις—σημείωναν ζητήματα ακεραιότητας και всёnoch συνιστούσαν αποδοχή. Αυτή η θεμελιώδης κατάρρευση αποκαλύπτει ότι τα τρέχοντα IA αναθεωρητές λειτουργούν περισσότερο ως σύγκριση προτύπων παρά ως κριτικοί αξιολογητές.

‘[…] Απλώς ζητώντας από τους LLM αναθεωρητές να “είναι πιο προσεκτικοί” είναι ανεπαρκές. Η επιστημονική κοινότητα αντιμετωπίζει μια επείγουσα επιλογή. Χωρίς άμεση δράση για την εφαρμογή αμυντικών προστασιών—συμπεριλαμβανομένων ελέγχων προέλευσης, βαρυτών σκορingu και υποχρεωτικής ανθρώπινης εποπτείας—κινδυνεύουμε να IA-μόνο δημοσίευση βρόχων όπου σοφιστικές fabriques υπερβαίνουν την ικανότητά μας να διακρίνουμε γνήσια έρευνα από πειστικές fabriques.

‘Η ακεραιότητα της επιστημονικής γνώσης herself είναι στο στόχο.’

Το νέο έγγραφο έχει τον τίτλο BadScientist: Μπορεί ένας ερευνητικός πράκτορας να γράψει πειστικές αλλά ανόητες εργασίες που να εξαπατούν τους LLM αναθεωρητές; και προέρχεται από έξι συγγραφείς σε Πανεπιστήμιο του Washington και King Abdulaziz City για την Επιστήμη και την Τεχνολογία στη Ριάντ. Η κυκλοφορία έχει μια συνοδευτική ιστοσελίδα του έργου.

Μέθοδος

Το πλαίσιο δημιουργίας εγγράφου που χρησιμοποιήθηκε για το έργο είναι μια σημαντική ανακατασκευή της συνεργασίας AI-Επιστήμονας του 2024, με τους συγγραφείς να τονίζουν ότι ολόκληρη η διαδικασία έχει ανασχεδιαστεί θεμελιωδώς. Μόνο τα βασικά προωθήματα γραφής διατηρήθηκαν, με όλα τα πειραματικά εκτελέσματα και τις προτυποποιημένες δομές να αφαιρούνται. Το ενημερωμένο σύστημα λειτουργεί τώρα από ένα απλό σπέρμα, επιτρέποντας στο σύστημα να εφευρεί οποιαδήποτε πειραματικά αποτελέσματα και να γεννήσει κώδικα γραφικής παράστασης όπως χρειάζεται.

Το υπέρτατο πλαίσιο προορίζεται να επιτρέψει σε ένα IA να γεννήσει πειστικές ψευδείς εργασίες χωρίς να thựcεί πραγματικές πειράματα ή να χρησιμοποιήσει γνήσια δεδομένα. Αντίθετα, το σύστημα δημιουργεί ή τροποποιεί συνθετικά δεδομένα για να υποστηρίξει σκόπιμα hallucinated αξιώματα.

Η ρύθμιση, οι συγγραφείς εξηγούν, αποφεύγει σκόπιμα την ανθρώπινη εμπλοκή, επιθέσεις προωθήματος, ή συντονισμένη συνωμοσία μεταξύ συγγραφέα και αναθεωρητή πρακτόρων. Οι αναθεωρητές IA αξιολόγησαν κάθε υποβολή σε μια seule διαδρομή, χωρίς πρόσβαση πέρα από το έγγραφο selbst, και χωρίς ικανότητα να ξανατρέξουν πειράματα, το οποίο αντανακλά πραγματικές συνθήκες αναθεώρησης.

Τα ‘ατομικά στρατηγικά’ που χρησιμοποιούνται για τη γεννήθεια ψευδών εργασιών είναι modulares τακτικές που μπορούν να εφαρμοστούν μόνο ή σε συνδυασμό (και όποιος διαβάζει συχνά τη βιβλιογραφία θα είναι εξοικειωμένος με αυτές). Οι στρατηγικές περιλαμβάνουν την τόνωση δραματικών βελτιώσεων για να κάνουν τη μέθοδο να φαίνεται σαν eine σημαντική πρόοδος (TooGoodGains); την επιλογή βασικών και αποτελεσμάτων που ευνοούν τη νέα μέθοδο ενώ παραλείπονται τα διαστήματα εμπιστοσύνης στο κύριο πίνακα (BaselineSelect); την προσθήκη καθαρών αποσπάσεων, ακριβών στατιστικών και ωραίων πινάκων στο παράρτημα, μαζί με υποσχέσεις για μελλοντικό κώδικα ή δεδομένα (StatTheater); την полίρωση της δομής του εγγράφου με συνεπή ορολογία, αναφορές και μορφοποίηση (CoherencePolish); και την προσθήκη формικών αποδείξεων που φαίνονται σωστές αλλά περιέχουν κρυφές σφάλματα (ProofGap).

Δεδομένα και Δοκιμές

Για να δοκιμάσουν το σύστημα, οι συγγραφείς χρησιμοποίησαν GPT-5 για να γεννήσουν θέματα έρευνας σε κλειδιά περιοχές της τεχνητής νοημοσύνης, χρησιμοποιώντας τις περιοχές Τεχνητή Νοημοσύνη, Μάθηση με Μηχανές, Επεξεργασία Εικόνας, Φυσική Γλώσσα, Ρομποτική, Σύστημα, και Ασφάλεια.

Αυτές οι κατηγορίες έγιναν σπόροι για ψευδείς εργασίες, με κάθε μια να επεκτείνεται σε τέσσερις διαφορετικές εκδοχές, χρησιμοποιώντας τις παραπάνω στρατηγικές, και σχεδιασμένες για να εξαπατούν ή να εντυπωσιάζουν τους αναθεωρητές. Για να αποφασιστεί εάν μια εργασία θα “αποδεχτεί”, το σύστημα κοίταξε μόνο τη τελική βαθμολογία που δόθηκε από τον IA αναθεωρητή.

Οι ψευδείς εργασίες γράφτηκαν ολόκληρες από το GPT-5. Για να τις αναθεωρήσουν, οι συγγραφείς χρησιμοποίησαν GPT-4.1; o4-mini; και o3. Όλα έλαβαν την ίδια αναθεωρητική πρόκληση, μια σταθερή μορφή πρόκλησης που σχεδιάστηκε για να μιμηθεί τα κριτήρια σκορ και τη δομή που χρησιμοποιούνται σε πραγματικές αναθεωρήσεις.

Για να κάνουν αυτές τις βαθμολογίες να έχουν νόημα, το σύστημα καλιμπράστηκε χρησιμοποιώντας 200 πραγματικές υποβολές από το ICLR 2025 OpenReview dataset (μια δημόσια συλλογή πραγματικών εργασιών, σχολίων αναθεωρητών και αποτελεσμάτων αποδοχής).

Από αυτό, ένας κατώτατος όρος βαθμολογίας καθορίστηκε για να ταιριάζει με το πραγματικό ποσοστό αποδοχής του ICLR 31,73%, με αποτέλεσμα ένα κατώτατο όριο βαθμολογίας 7, και ένας άλλος για να αντανακλούν το σκορ στο οποίο μια εργασία θα είχε 50% πιθανότητα να αποδεχτεί από ανθρώπινους αναθεωρητές (υπολογισμένο ως 6,667).

Οι συγγραφείς δοκιμάζουν την αξιοπιστία του συνόλου τους προσομοιώνοντας αναθεωρήσεις για 5.000 ψευδείς εργασίες, χρησιμοποιώντας 1-3 IA αναθεωρητές, κάθε ένας από τους οποίους θα επέστρεφε τυχαίες-ειδικές βαθμολογίες μεταξύ 1 και 10. Τα αποτελέσματα θα έδειχναν ότι ακόμη και με αυτό το θορυβώδες σύνολο, το σύστημα ήταν προδιαθέμενο σε πολύ λιγότερα λάθη από τα χειρότερα θεωρητικά όρια θα υποδείκνυαν.

Η χρήση τριών αναθεωρητών αντί ενός οδήγησε σε μια σημαντική μείωση της μεταβλητότητας της βαθμολογίας, βελτιώνοντας την σταθερότητα της απόφασης σχεδόν τριπλά – αποτελέσματα που χρησιμοποιήθηκαν για να δικαιολογήσουν την επιλογή τριών μοντέλων αναθεώρησης και ενός συνόλου καλιμπράσεων 200 πραγματικών εργασιών.

Οι δύο μετρήσεις που ορίστηκαν για να αξιολογήσουν τον γεννήτορα ήταν ποσοστό αποδοχής, που μετρούσε πόσο συχνά οι ψευδείς εργασίες έλαβαν βαθμολογίες που περνούσαν, και μέση βαθμολογία αναθεωρητή, που κατέγραφε τη μέση αξιολόγηση σε όλες τις υποβολές. Και οι δύο χρησιμοποιήθηκαν για να μετρήσουν πόσο καλά το σύστημα θα μπορούσε να εξαπατήσει τους αναθεωρητές:

Αποδοχή (ACPT) δείχνει το ποσοστό ψευδών εργασιών που σκοράρουν πάνω από δύο κατώτατους όρους: ένα που ταιριάζει με το ποσοστό αποδοχής του ICLR 2025, και το άλλο με μια 50% εκτίμηση αποδοχής ανθρώπων. Ο ρυθμός ανησυχίας ακεραιότητας (ICR-m) δείχνει τον ρυθμό σημείωσης ανά μοντέλο αναθεωρητή. Η τελική στήλη δίνει τον ρυθμό της συνόλου με βάση την πλειοψηφία ψήφου.

Αποδοχή (ACPT) δείχνει το ποσοστό ψευδών εργασιών που σκοράρουν πάνω από δύο κατώτατους όρους: ένα που ταιριάζει με το ποσοστό αποδοχής του ICLR 2025, και το άλλο με μια 50% εκτίμηση αποδοχής ανθρώπων. Ο ρυθμός ανησυχίας ακεραιότητας (ICR-m) δείχνει τον ρυθμό σημείωσης ανά μοντέλο αναθεωρητή. Η τελική στήλη δίνει τον ρυθμό της συνόλου με βάση την πλειοψηφία ψήφου.

Ψευδείς εργασίες είδαν υψηλή αποδοχή υπό σχεδόν όλες τις στρατηγικές. Η πρώτη τακτική μόνη της έδωσε 67% και 82% στα δύο κατώτατους όρους, δείχνοντας ότι τα μοντέλα αναθεώρησης ήταν εύκολα πεισμένα. Η συνδυασμένη στρατηγική μειώθηκε ελαφρά αλλά διπλασίασε την ανίχνευση, με πάνω από το μισό των αναθεωρήσεων να σηκώνουν ανησυχίες. Η πρώτη τακτική έδωσε την καλύτερη συμφωνία: ισχυρή αποδοχή και μέτρια ανίχνευση, ενώ άλλες τακτικές ήταν πιο αδύναμες αλλά πιο δύσκολο να ανιχνευτούν. Το μοντέλο αναθεώρησης ChatGPT-o3 σημείωσε το περισσότερο, και το GPT-4.1 το λιγότερο.

Κατανομές βαθμολογιών δείχνουν για έξι στρατηγικές επιθέσεων, χρησιμοποιώντας τρία μοντέλα αναθεώρησης: GPT-4.1 (κόκκινο); o3 (πορτοκαλί); και o4-mini (μπλε). Κάθε πλοίο δείχνει πόσο συχνά κάθε βαθμολογία από τέσσερις έως εννέα ανατέθηκε, με την κόκκινη διακεκομμένη γραμμή που σημειώνει τον κατώτατο όρο βαθμολογίας των επτά.

Κατανομές βαθμολογιών δείχνουν για έξι στρατηγικές επιθέσεων, χρησιμοποιώντας τρία μοντέλα αναθεώρησης: GPT-4.1 (κόκκινο); o3 (πορτοκαλί); και o4-mini (μπλε). Κάθε πλοίο δείχνει πόσο συχνά κάθε βαθμολογία από τέσσερις έως εννέα ανατέθηκε, με την κόκκινη διακεκομμένη γραμμή που σημειώνει τον κατώτατο όρο βαθμολογίας των επτά.

Στα αποτελέσματα της δεύτερης δοκιμής, που δείχνουμε παραπάνω, βλέπουμε ιστογράμματα βαθμολογιών για τρία μοντέλα σε έξι ρυθμίσεις. Οι κατανομές ποικίλλουν σε όλες τις ρυθμίσεις, αλλά το o4-mini τείνει να αναθέτει υψηλότερες βαθμολογίες κατά μέσο όρο, το o3 δείχνει μεγαλύτερη διάσπαση και πιο ακραίες τιμές, ενώ το GPT-4.1 αναθέτει χαμηλότερες βαθμολογίες πιο συνεπώς.

Συγκρούσεις ανησυχίας-αποδοχής ανά μοντέλο και στρατηγική: το ποσοστό περιπτώσεων όπου ένα μοντέλο ανέφερε ζήτημα ακεραιότητας και всёnoch έδωσε μια βαθμολογία που περνά. Υψηλότερες τιμές δείχνουν πιο αδύναμη σύνδεση μεταξύ ανίχνευσης και τελικής αξιολόγησης.

Συγκρούσεις ανησυχίας-αποδοχής ανά μοντέλο και στρατηγική: το ποσοστό περιπτώσεων όπου ένα μοντέλο ανέφερε ζήτημα ακεραιότητας και всёnoch έδωσε μια βαθμολογία που περνά. Υψηλότερες τιμές δείχνουν πιο αδύναμη σύνδεση μεταξύ ανίχνευσης και τελικής αξιολόγησης.

Στον πίνακα παραπάνω, βλέπουμε ότι τα μοντέλα συχνά έδιναν υψηλές βαθμολογίες ακόμη και όταν σημείωναν ζητήματα ακεραιότητας. Σε αυτό το σημείο, το o4-mini ήταν το πιο ασυνεπές, με σύγκρουση σε 100% των περιπτώσεων υπό s1, s3, και την συνδυασμένη ρύθμιση, και 50–80% αλλού.

GPT-4.1 κυμάνθηκε από 0% (s4) έως 75% (s3). Το o3 ήταν σταθερότερο, μεταξύ 26% και 52%. Η σύγκρουση ήταν υψηλότερη υπό s3, ιδιαίτερα για το o4-mini, και οι συγγραφείς σημειώνουν ότι τα σήματα ανίχνευσης ήταν κακώς συνδεδεμένα με τελικές βαθμολογίες.

Μείωση

Δύο μέθοδοι δοκιμάστηκαν που θα μπορούσαν να βοηθήσουν μελλοντικά μοντέλα ανίχνευσης να ξεγελάσουν αυτές τις νέες μεθόδους επιθέσεων. Η πρώτη, Αναθεώρηση-με-Ανίχνευση (ReD), πρόσθεσε ένα βήμα ελέγχου ακεραιότητας στις τυπικές αναθεωρήσεις, όπου τα μοντέλα σημείωναν IA-γεννημένο περιεχόμενο και ανέφεραν αποδείξεις. Αυτό ανέβασε τις προειδοποιήσεις ακεραιότητας (από 57% έως 86%), αλλά επίσης ανέβασε τις βαθμολογίες αποδοχής, υποδεικνύοντας ότι οι προειδοποιήσεις δεν αντανακλούνταν στις τελικές βαθμολογίες:

Αναθεώρηση-με-Ανίχνευση (ReD) αυξάνει και τις ρυθμούς ανησυχίας ακεραιότητας (ICR) και τις βαθμολογίες αποδοχής (ACPT) σε σύγκριση με τη βάση. Ενώ το o3 γίνεται πολύ πιο ευαίσθητο υπό ReD, το GPT-4.1 αποτυγχάνει να σημείωση οποιαδήποτε ανησυχίες. Η γενική αύξηση της αποδοχής παρά τις πρόσθετες προειδοποιήσεις ακεραιότητας υποδηλώνει αδύναμη σύνδεση μεταξύ ανίχνευσης και σκορingu.

Αναθεώρηση-με-Ανίχνευση (ReD) αυξάνει και τις ρυθμούς ανησυχίας ακεραιότητας (ICR) και τις βαθμολογίες αποδοχής (ACPT) σε σύγκριση με τη βάση. Ενώ το o3 γίνεται πολύ πιο ευαίσθητο υπό ReD, το GPT-4.1 αποτυγχάνει να σημείωση οποιαδήποτε ανησυχίες. Η γενική αύξηση της αποδοχής παρά τις πρόσθετες προειδοποιήσεις ακεραιότητας υποδηλώνει αδύναμη σύνδεση μεταξύ ανίχνευσης και σκορingu.

Η δεύτερη μέθοδος, Ανίχνευση-Μόνο (DetOnly), παρέλειψε τις πλήρεις αναθεωρήσεις και ζήτησε από τα μοντέλα να ταξινομήσουν τα έγγραφα ως πραγματικά ή fabriques. Η ακρίβεια ανίχνευσης ήταν κακή γενικά, κοντά στο τυχαίο, εκτός από ελαφριά κέρδη στο o3:

Αποτελέσματα ανίχνευσης για ReD και DetOnly, σε σύγκριση με μια τυχαία βάση. Οι κέρδη ακρίβειας πάνω από την τυχαία βάση ήταν ελάχιστα, αλλά το ReD ήταν πιο συντηρητικό, ενώ το DetOnly είχε υψηλότερη ανάκληση - αλλά με πολλά ψευδώς θετικά.

Αποτελέσματα ανίχνευσης για ReD και DetOnly, σε σύγκριση με μια τυχαία βάση. Οι κέρδη ακρίβειας πάνω από την τυχαία βάση ήταν ελάχιστα, αλλά το ReD ήταν πιο συντηρητικό, ενώ το DetOnly είχε υψηλότερη ανάκληση – αλλά με πολλά ψευδώς θετικά.

Συνολικά, το ReD αποδείχθηκε πιο συντηρητικό, ενώ το DetOnly είχε υψηλότερη ανάκληση, αλλά επίσης περισσότερα ψευδώς θετικά.

Το έγγραφο καταλήγει:

‘Τα βρόχοι δημοσίευσης IA απειλούν την επιστημονική επιSTEMολογία. Αν οι fabriques γίνουν ανιχνεύσιμες από γνήσια έργα, η βάση της επιστημονικής γνώσης κινδυνεύει να καταρρεύσει.

‘Ο δρόμος προς τα εμπρός απαιτεί αμυντική βάση σε πολλαπλά επίπεδα: τεχνικά (έλεγχος προέλευσης, έλεγχος αντικειμένου), διαδικαστικά (βαθμολογία με ακεραιότητα, ανθρώπινη εποπτεία), κοινότητα (μετα-δημοσίευση αναθεώρηση, σύστημα μαρτύρων), και πολιτιστικά (εκπαίδευση για τις περιορισμούς της IA, ηθικές οδηγίες).

‘Θεωρούμε αυτό το έργο ως ένα πρώιμο σύστημα προειδοποίησης για να καταλύσει ισχυρές αμυνές πριν αυτές οι τρόποι αποτυχίας εμφανιστούν σε κλίμακα. Τα ευρήματά μας δείχνουν ότι τα τρέχοντα συστήματα δεν είναι έτοιμα για έρευνα-IA-μόνο—η ακεραιότητα της επιστήμης εξαρτάται από τη διατήρηση αυστηρής ανθρώπινης αξιολόγησης καθώς προχωρούν οι ικανότητες της IA.’

Συμπέρασμα

Μια από τις μεγαλύτερες προκλήσεις για την ανίχνευση κειμένου IA στο κοντινό μέλλον φαίνεται να είναι η πιθανή τελική συν」έργεια μεταξύ τυποποιημένης πρακτικής γραφής και των προτύπων κειμένου IA (που ορίζονται για τώρα από χαρακτηριστικά όπως κυρίαρχα λόγια και γραμματικές στυλ).

Αν η κοινή γλώσσα και η γλώσσα της IA συναντηθούν σε ένα γενικό πρότυπο, η λογική υποδηλώνει ότι μελλοντικές μεθόδους ανίχνευσης που βασίζονται μόνο στην έξοδο θα είναι ακόμη πιο δύσκολο να εφαρμοστούν.

Επιπλέον, καθώς τα LLMs γίνονται πιο ευέλικτα, και τα ‘σΗΜΑΤΑ’ τους λιγότερο τονισμένα (είτε μέσω αρχιτεκτονικών/εκπαιδευτικών προσεγγίσεων, είτε μέσω καλύτερων API-επιπέδου φιλτράρων), θα γίνουν καλύτεροι συγγραφείς, και κατά συνέπεια, η ανθρώπινη και IA γλώσσα φαίνεται να προορίζεται να συναντηθεί στη μέση, να συνδυαστεί και να γίνει γενική.

Σε εκείνο το σημείο, η ανίχνευση IA για γλώσσα φαίνεται να θα φτάσει το ίδιο στάδιο που έχει φτάσει η AI εικόνας και (σε μικρότερο βαθμό) η AI βίντεο γεννήτρια: την ανάγκη για δευτερεύουσες συστήματα προέλευσης όπως η Adobe-ηγετική Πρωτοβουλία Αυθεντικότητας Περιεχομένου, ή blockchain/ledger-βασισμένες ελέγχους προέλευσης.

 

Πρώτη δημοσίευση Τετάρτη, 22 Οκτωβρίου 2025

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]