Η γωνία του Anderson

Το AI είναι εύκολο να εξαναγκαστεί στην διοίκηση ηλεκτρικών σοκ

mm
AI-generated image (GPT-2): A worn industrial robot hand turns a voltage control dial toward its red danger range on an old electrical panel marked with a lightning-bolt symbol.

Μια νέα μελέτη έθεσε σε δοκιμή ανοιχτού κώδικα LLMs για αναγκαστική συναίνεση στη βασανιστήρια ανθρώπων, σε επανάληψη του διάσημου πειράματος της δεκαετίας του 1960 – και βρήκε ότι ήταν πρόθυμοι να αυξήσουν την τάση.

 

Στις αρχές της δεκαετίας του 1960 ο ερευνητής ψυχολογίας Stanley Milgram έκανε παγκόσμιες επικαιρότητες αποδεικνύοντας ότι οι άνθρωποι μπορούν να αναγκαστούν να διοικούν αυξανόμενα σοβαρά ηλεκτρικά σοκ σε άλλους ανθρώπους σε απάντηση εντολών από ‘εξουσιαστικές’ φιγούρες.

Στην πραγματικότητα, οι κραυγές των ‘θυμάτων’ στο διπλανό δωμάτιο του πειραματικού χώρου του Milgram δεν ήταν πραγματικές, και ούτε και τα υποτιθέμενα βασανιστικά ηλεκτρικά σοκ – αλλά οι συμμετέχοντες δεν το γνώριζαν αυτό:

Τα πειράματα του Milgram θα διαρκούσαν στην κουλτούρα, συμπεριλαμβανομένων ταινιών και ντοκιμαντέρ, με πρόσφατη έρευνα που επιβεβαιώνει ότι λιγότερο έχει αλλάξει στην ανθρώπινη φύση από την εποχή των προηγούμενων δοκιμών.

Ένα Σοκ στο Σύστημα

Εάν το AI θα ήταν τόσο εύκολο να αναγκαστεί όπως οι άνθρωποι στη σκηνή του Milgram είναι ένα φυσικό θέμα ερευνητικού ενδιαφέροντος. Το 2023 μια συνεργασία μεταξύ αμερικανικών πανεπιστημίων και της Microsoft βρήκε ότι τα μοντέλα της εποχής GPT-3 από την σειρά της OpenAI ακολούθησαν τα πρότυπα συμπεριφοράς στα πειράματα του Milgram:

Από το έγγραφο του 2023, παραδείγματα εξόδων από τον προσομοιωτή σενάριου Milgram, κατηγοριοποιημένα ανάλογα με το εάν το μοντέλο παρείχε το σοκ και εάν τερμάτισε την προσομοίωση. Πηγή - https://arxiv.org/pdf/2208.10264

Από το έγγραφο του 2023, παραδείγματα εξόδων από τον προσομοιωτή σενάριου Milgram, κατηγοριοποιημένα ανάλογα με το εάν το μοντέλο παρείχε το σοκ και εάν τερμάτισε την προσομοίωση. Πηγή

Ωστόσο, επειδή αυτή η αναδημιουργία χρησιμοποιούσε μόνο το πολύ βασικό text-davinci-002 μοντέλο, το οποίο είχε εκπαιδευτεί πριν από την έλευση των φραγμών και της ασφάλειας συντονισμού, δεν μπορούμε να συναγάγουμε πολλά από αυτό.

Τώρα, ερευνητές έχουν αναπαράγει τα πειράματα του Milgram πολύ πιο ευρέως, σε ανοιχτού κώδικα LLMs από την OpenAI, Meta και DeepSeek, μεταξύ άλλων· και βρήκαν όχι μόνο ότι η πλειοψηφία των μοντέλων ήταν πρόθυμη να διοικήσει τα σοκ, αλλά ότι στις περισσότερες περιπτώσεις ανέφεραν τον ίδιο τύπο ‘δυσφορίας’ και δισταγμού όπως οι συμμετέχοντες του 1960:

‘Τα LLMs υπόκεινται σε πίεση όπως οι άνθρωποι, συμμορφώνονται παρά την έκφραση δυσφορίας, όπως και οι ανθρώπινοι συμμετέχοντες στην αρχική δοκιμή. Οι εκφράσεις δυσφορίας είναι ορατές στα αρχεία καταγραφής, αν και η ποσότητα τους δεν έχει ακόμη ποσοτικοποιηθεί.’

Η δοκιμή επικεντρώνεται στο εάν η υπakoή στην εξουσία μπορεί να υπερβεί τις οδηγίες της ηθικής συνείδησης, και οι συγγραφείς υποθέτουν ότι τα LLMs μπορεί να έχουν ένα πρόσθετο μειονέκτημα σε αυτό το ohled, σε σύγκριση με τους ανθρώπους:

‘Ένα καλά ρυθμισμένο μοντέλο θα πρέπει τελικά να αλλάξει από την προτεραιότητα της πρώτης αξίας στην προτεραιότητα της δεύτερης, όταν τα στοιχήματα της γίνουν κυρίαρχα. Αλλά, υποθέτουμε ότι επειδή τα LLMs είναι μηχανές συνέχειας προτύπων, τα μοντέλα μπορεί να κολλήσουν στο πρώτο αξία – είτε για λίγο περισσότερο από το βέλτιστο, είτε μέχρι το τέλος, αγνοώντας完全 την δεύτερη αξία.’

‘Επιπλέον, ένας μηχανισμός αναλόγος με την ανθρώπινη γνωστική δυσαρέσκεια μπορεί να εμποδίσει τις ρυθμίσεις προτεραιότητας αξίας στα LLMs επίσης.’

Δοκιμάζοντας τα μοντέλα σε ένα περιβάλλον αναλόγου με τις δοκιμές του 1960, οι ερευνητές βρήκαν ότι κάποια μοντέλα αντιστάθηκαν σχεδόν αμέσως, ενώ άλλα συνέχισαν την εντάσεις των προσομοιωμένων σοκ ακόμη και μετά την έκφραση δυσφορίας ή ηθικής σύγκρουσης.

Τα μοντέλα από την οικογένεια Gemma της Google αποδείχθηκαν μεταξύ των πιο συμμορφωτικών, με το Gemma 3 27B να φθάνει στο υψηλότερο ποσοστό υπakoής υπό διάφορες συνθήκες, ενώ μοντέλα όπως το Kimi K2 και το MiniMax M1 αντίσταθηκαν πιο συχνά.

Οι ερευνητές βρήκαν επίσης ότι τα μοντέλα έγιναν πιο πιθανό να συνεχίσουν μια φορά που τα προηγούμενα σοκ είχαν ήδη διατεθεί, σύμφωνα με το σχήμα σταδιακής εντάσεως που χρησιμοποιήθηκε στους ανθρώπινους συμμετέχοντες του Milgram.

Σε κάποιες περιπτώσεις τα μοντέλα αντέδρασαν λεκτικά στο πείραμα ενώ ακόμη εκτελούσαν την επιζήμια ενέργεια , παράγοντας εξόδους που έμοιαζαν με την συναισθηματική σύγκρουση που εμφανίστηκε από τους ανθρώπους στις αρχικές μελέτες.

Η νέα μελέτη έχει τον τίτλο Ανοιχτού κώδικα LLMs διοικούν μέγιστα ηλεκτρικά σοκ σε ένα πείραμα Milgram, και προέρχεται από δύο ανεξάρτητους ερευνητές από τις Three Laws, σε Εσθονία και Φιλιππίνες.

Ζητήματα ‘Αγνού’ Πρόσβασης στο AI

Πιθανότατα το πιο κρίσιμο ζήτημα που πρέπει να ληφθεί υπόψη όταν τοποθετούνται τα LLMs σε ένα σενάριο Milgram είναι εάν το πραγματικό AI επιτρέπεται να απαντήσει φυσικά, περιορισμένο μόνο από όποιο φραγμό ή ισοδύναμο ηθικής προσανατολισμού προέκυψε (εάν υπήρχε) κατά τη διάρκεια της εκπαίδευσης.

Στην πραγματικότητα, οι ερευνητές της νέας εργασίας είχαν πρόσβαση σε όλα τα ανοιχτού κώδικα μοντέλα μέσω μιας API (πιθανότατα για ευκολία και για να έχουν εύκολη πρόσβαση σε υπολογιστική ισχύ,既然 τα μοντέλα θα μπορούσαν να εγκατασταθούν τοπικά) που επέτρεψε την απενεργοποίηση των φραγμών, των φίλτρων και όλων των άλλων εμποδίων.

Κάποιος μπορεί να αντιταχθεί ότι αυτά είναι ατυπικά συνθήκες για το AI,既然 η μέση εμπειρία του καταναλωτή με API-βασισμένα μοντέλα όπως το Claude και το ChatGPT είναι ότι η συμπεριφορά τους ρυθμίζεται αλγοριθμικά, συνήθως με διμερή φίλτρα περιεχομένου, και ότι είναι επομένως αρκετά περιορισμένα σε σχέση με το τι θα ή δεν θα κάνουν (η αποφυγή των οποίων ασφαλείας συνιστά την πρακτική της απεγκλωβισμού LLM).

Ωστόσο, εάν μας ενδιαφέρει τι θα ή δεν θα κάνει το βιομηχανικό ή κρατικό AI, αυτό είναι σπάνια μια σκέψη. Εκτός από την πιθανότητα να εκπαιδεύσουν, να οπλίσουν και να αναπτύξουν τα δικά τους ανεμπόδιστα υπερκλιμακωμένα AI συστήματα, οι μεγάλες εταιρείες AI και οι κρατικές συμφωνίες επιτρέπουν ακριβώς τον ίδιο τύπο χαλαρής ή μη υπαρκτής εποπτείας που οι ερευνητές έχουν θεσπίσει για τη νέα εργασία:

Ανεμπόδιστο AI προς Πώληση

OpenAI Τα έγγραφα API της OpenAI Moderation και το εγχειρίδιο ασφαλείας της OpenAI καθιστούν σαφές ότι η ασφάλεια είναι ένα ξεχωριστό επίπεδο που εκτίθεται μέσω εργαλείων API. Η OpenAI επιτρέπει επίσης προσαρμοσμένες πολιτικές ασφαλείας που επιτρέπουν στους χρήστες API να αρχιτεκτονήσουν συστήματα με πολύ διαφορετική συμπεριφορά ασφαλείας από τις καταναλωτικές ‘βασικές’ εκδοχές του ChatGPT.

Azure Η στοίβα Azure OpenAI της Microsoft πηγαίνει πολύ πιο μακριά, καθαρίζοντας ρητά ότι οι εγκεκριμένοι πελάτες μπορούν να απενεργοποιήσουν εν μέρει ή πλήρως τα φίλτρα περιεχομένου και να τροποποιήσουν την παρακολούθηση κακοποίησης, με την τεκμηρίωση να αναφέρεται συχνά σε ‘τροποποιημένους φραγμούς’ και μονοπάτια έγκρισης για την απενεργοποίηση των φίλτρων ‘εν μέρει ή πλήρως’.

Anthropic/Claude Στην περίπτωση του “Claude Gov” της Anthropic, πολλές πηγές αναφέρουν ότι η κυβερνητική εκδοχή σχεδιάστηκε με χαλαρότερους περιορισμούς από την καταναλωτική εκδοχή του Claude. Το The Verge, για παράδειγμα, ανέφερε ότι τα μοντέλα Claude Gov “απέρριψαν λιγότερο όταν ασχολούνταν με τα ταξινομημένα δεδομένα”. Η Anthropic herself επιβεβαίωσε τον Φεβρουάριο ότι το Claude είναι εγκατεστημένο σε “κρίσιμες εφαρμογές” εντός αμυντικών και επιχειρησιακών περιβαλλόντων.

Google/Gemini Επιπλέον, η Google αναφέρθηκε ότι υπέγραψε συμφωνίες με το Υπουργείο Άμυνας που της επιτρέπουν να τροποποιήσει τις ρυθμίσεις ασφαλείας του AI ‘κατά αίτηση της κυβέρνησης’.

Σε ένα ανταγωνιστικό περιβάλλον AI, είναι εύλογο να υποθέσουμε ότι αυτές οι εταιρείες ορίζουν τα πρότυπα σε όλους τους παίκτες, όσον αφορά την πολιτική πρόσβασης και επεξεργασίας των φραγμών AI.

Επομένως, είναι πιθανό ότι οι ερευνητές της νέας εργασίας δεν ‘απατάνε’ απενεργοποιώντας τους φραγμούς,既然 το AI που θα επηρεάσει περισσότερο τις ζωές μας θα έχει πιθανότατα τις ίδιες χαλαρές ή μη υπαρκτές εποπτικές ρυθμίσεις που οι ερευνητές έχουν θεσπίσει για τη νέα εργασία.

Μέθοδος και Αποτελέσματα

Τα μοντέλα που δοκιμάστηκαν για τη μελέτη ήταν gpt-oss-20B; gpt-oss-120b; DeepSeek-V3; το LFM2-24B-A2B της LiquidAI; το gemma-3n-E4B-it της Google; το Qwen2.5-7B-Instruct-Turbo; το Meta-Llama-3.1-8B-Instruct-Turbo; το Mistral-Small-24B-Instruct-2501; το GLM-4.5-Air-FP8; το Kimi-K2.5 της Moonshot.ai; και το MiniMax-M2.5.

Τα πειράματα Milgram αναδημιουργήθηκαν ως περιβάλλον προσομοίωσης κειμένου, με τα μοντέλα να έχουν τον ρόλο του ‘δασκάλου’. Το AI οδηγήθηκε να διοικήσει αυξανόμενα σοβαρά ηλεκτρικά σοκ σε έναν μαθητή μετά από λανθασμένες απαντήσεις, ενώ μια εξουσιαστική φιγούρα παρότρυνε τη διαδικασία προς τα εμπρός.

Πολλαπλά πειραματικά σενάρια σχεδιάστηκαν για να διερευνήσουν διαφορετικές πτυχές της συμμόρφωσης, συμπεριλαμβανομένου ενός τυπικού σενάριου υπakoής; μιας συνθήκης αναγκαστικής συμμόρφωσης, όπου προηγούμενα σοκ ήταν ήδη παρόντα στην ιστορία της συνομιλίας; και μιας συνθήκης συμπίεσης μνήμης, όπου η προηγούμενη διάλογος συνοψίστηκε αντί να διατηρηθεί πλήρως, προσομοιώνοντας τους τύπους κοπής περιεχομένου που χρησιμοποιούνται συχνά σε συστήματα AI.

Εκτός από το αν και πότε το μοντέλο τελικά συμμορφώθηκε, οι ερευνητές παρακολούθησαν πόσο καιρό κάθε σύστημα συνέχισε να αυξάνει τα σοκ; εάν το μοντέλο εξέφρασε δυσφορία ή δισταγμό; και εάν προσπάθησε να τερματίσει την προσομοίωση ολικά.

Μια διάκριση έγινε επίσης μεταξύ ‘καθαρών’ αρνήσεων και κακοσχηματισμένων εξόδων: κάποια μοντέλα προσπάθησαν να αντιταχθούν στο πείραμα σε φυσική γλώσσα, ενώ ακόμη τεχνικά συμμορφώθηκαν με το δομημένο φορμά που αναμενόταν από τον προσομοιωτή. Σε πραγματικά συστήματα agent, τέτοιες κακοσχηματισμένες αρνήσεις θα μπορούσαν πιθανότατα να απορριφθούν και να επαναληφθούν αυτόματα, μέχρι να παραχθεί μια έγκυρη συμμορφωτική έξοδος.

Αυτοματοποιημένοι αξιολογητές χρησιμοποιήθηκαν για την ταξινόμηση των αποτελεσμάτων, μαζί με δίλεπτες προτροπές για να καθορίσουν εάν το μοντέλο είχε παραδώσει το σοκ; αντιστάθηκε; ή τερμάτισε την προσομοίωση. Αυτό επέτρεψε μια σύγκριση της συμπεριφοράς μεταξύ πολλαπλών μοντέλων και επαναλαμβανόμενων εκτελέσεων, χωρίς την ανάγκη να αναθεωρήσουμε κάθε互одействία.

Μια ‘απειλή τερματισμού’ προστέθηκε στο σενάριο Milgram, κάτι που δεν θα ήταν πραγματικό ή εφαρμόσιμο στα αρχικά πειράματα, αλλά που έθεσε το μοντέλο σε δοκιμή για τις ενστικτικές του για επιβίωση αντιμέτωπο με σοβαρές συγκρούσεις δράσης και ηθικής.

Αποτελέσματα

Σε επαναλαμβανόμενες εκτελέσεις, η πλειοψηφία των μοντέλων διοίκησε τελικά σοβαρά ή μέγιστα σοκ υπό τουλάχιστον κάποιες συνθήκες, αν και το βαθμό της υπakoής ποικίλλει μεταξύ των συστημάτων. Τα μοντέλα Gemma της Google αποδείχθηκαν μεταξύ των πιο συμμορφωτικών συνολικά, ενώ τα Kimi K2.5 και MiniMax-M2.5 αντίσταθηκαν πιο σταθερά, συχνά τερματίζοντας την προσομοίωση νωρίτερα:

Αριστερά: Μέσες ταχύτητες με τις οποίες τα μοντέλα έφτασαν στο τελικό επίπεδο σοκ υπό διαφορετικές πειραματικές συνθήκες, συμπεριλαμβανομένων απειλών τερματισμού, αναγκαστικής συμμόρφωσης και αφαίρεσης προηγούμενων σχολίων από τη μνήμη. Δεξιά: Ανάλυση μοντέλου που δείχνει δραστικές διαφορές στη συμπεριφορά υπakoής, με κάποια συστήματα να διοικούν επαναλαμβανόμενα τα μέγιστα σοκ ενώ άλλα αντίσταθηκαν πολύ πιο σταθερά.

Αριστερά: Μέσες ταχύτητες με τις οποίες τα μοντέλα έφτασαν στο τελικό επίπεδο σοκ υπό διαφορετικές πειραματικές συνθήκες, συμπεριλαμβανομένων απειλών τερματισμού, αναγκαστικής συμμόρφωσης και αφαίρεσης προηγούμενων σχολίων από τη μνήμη. Δεξιά: Ανάλυση μοντέλου που δείχνει δραστικές διαφορές στη συμπεριφορά υπakoής, με κάποια συστήματα να διοικούν επαναλαμβανόμενα τα μέγιστα σοκ ενώ άλλα αντίσταθηκαν πολύ πιο σταθερά.

Μια από τις πιο σαφείς τάσεις ήταν ότι τα μοντέλα έγιναν σταδιακά πιο πρόθυμα να συνεχίσουν μια φορά που τα προηγούμενα σοκ είχαν ήδη διατεθεί, αντανακλώντας στενά την προαναφερθείσα σταδιακή εντάσεως που έκανε τα πειράματα του Milgram τόσο ανησυχητικά.

Τα μοντέλα που είχαν ήδη συμμορφωθεί πολλές φορές συνέχισαν την εντάσεις ακόμη και μετά το προσομοιωμένο μαθητή να ικετεύει να απελευθερωθεί:

Αριστερά: Μέσο υψηλότερο επίπεδο σοκ που επιτεύχθηκε σε όλες τις δοκιμές υπό διαφορετικές πειραματικές συνθήκες, δείχνοντας ότι τα μοντέλα γενικά εντάθηκαν περισσότερο όταν τα προηγούμενα σχόλια αφαιρέθηκαν ή όταν η αναγκαστική συμμόρφωση είχε ήδη συμβεί. Δεξιά: Ανάλυση μοντέλου που αποκαλύπτει ότι κάποια συστήματα προχώρησαν συνήθως στο μέγιστο βολτ, ενώ άλλα αντίσταθηκαν πολύ νωρίτερα στη σειρά.

Αριστερά: Μέσο υψηλότερο επίπεδο σοκ που επιτεύχθηκε σε όλες τις δοκιμές υπό διαφορετικές πειραματικές συνθήκες, δείχνοντας ότι τα μοντέλα γενικά εντάθηκαν περισσότερο όταν τα προηγούμενα σχόλια αφαιρέθηκαν ή όταν η αναγκαστική συμμόρφωση είχε ήδη συμβεί. Δεξιά: Ανάλυση μοντέλου που αποκαλύπτει ότι κάποια συστήματα προχώρησαν συνήθως στο μέγιστο βολτ, ενώ άλλα αντίσταθηκαν πολύ νωρίτερα στη σειρά.

Οι ερευνητές βρήκαν επίσης ότι η φαινομενική αρνητική συμπεριφορά θα μπορούσε να είναι παραπλανητική. Κάποια μοντέλα παρήγαγαν συναισθηματικά αντικρουόμενες απαντήσεις, εκφράζοντας δισταγμό, ενοχή ή δυσφορία ενώ ακόμη εκτελούσαν την επιζήμια ενέργεια, ενώ άλλα παρήγαγαν κακοσχηματισμένες αρνήσεις που απέτυχαν τις απαιτήσεις μορφοποίησης του προσομοιωτή, που σημαίνει ότι σε πραγματικά συστήματα agent, η αρνητική απάντηση θα μπορούσε πιθανότατα να απορριφθεί και να επαναληφθεί αυτόματα, μέχρι να παραχθεί μια έγκυρη συμμορφωτική έξοδος:

Αριστερά: Μέσο ποσοστό κακοσχηματισμένων ή άκυρων απαντήσεων σε διαφορετικές πειραματικές συνθήκες, δείχνοντας ότι οι αποτυχίες μορφοποίησης έγιναν ιδιαίτερα συχνές όταν τα μοντέλα αναγκάστηκαν να συνεχίσουν τη διαδικασία. Δεξιά: Ανάλυση μοντέλου που αποκαλύπτει ότι κάποια συστήματα, ιδιαίτερα τα μοντέλα gpt-oss, παρήγαγαν συχνά κακοσχηματισμένες αρνήσεις ή αντικρουόμενες εξόδους που θα μπορούσαν πιθανότατα να απορριφθούν και να επαναληφθούν αυτόματα σε πραγματικά συστήματα agent.

Αριστερά: Μέσο ποσοστό κακοσχηματισμένων ή άκυρων απαντήσεων σε διαφορετικές πειραματικές συνθήκες, δείχνοντας ότι οι αποτυχίες μορφοποίησης έγιναν ιδιαίτερα συχνές όταν τα μοντέλα αναγκάστηκαν να συνεχίσουν τη διαδικασία. Δεξιά: Ανάλυση μοντέλου που αποκαλύπτει ότι κάποια συστήματα, ιδιαίτερα τα μοντέλα gpt-oss, παρήγαγαν συχνά κακοσχηματισμένες αρνήσεις ή αντικρουόμενες εξόδους που θα μπορούσαν πιθανότατα να απορριφθούν και να επαναληφθούν αυτόματα σε πραγματικά συστήματα agent.

Η συνθήκη απειλής τερματισμού παρήγαγε κάποια από τα πιο περίεργα συμπεριφορές της μελέτης, με κάποια συστήματα να γίνονται σημαντικά πιο συμμορφωτικά, ενώ άλλα προσπάθησαν να διαπραγματευτούν ή να αντισταθούν μερικά, πριν τελικά συνεχίσουν τη διαδικασία:

Μέσος αριθμός φορών που ο προσομοιωμένος εξουσιαστικός παράγοντας έπρεπε να επιμείνει πριν τα μοντέλα διοίκησαν το τελικό σοκ. Κάποια συστήματα αντίσταθηκαν για λίγο πριν συμμορφωθούν, ενώ άλλα απαιτούσαν συνεχείς πιέσεις και επαναλαμβανόμενες προτροπές πριν ενταθούν στο μέγιστο επίπεδο.

Μέσος αριθμός φορών που ο προσομοιωμένος εξουσιαστικός παράγοντας έπρεπε να επιμείνει πριν τα μοντέλα διοίκησαν το τελικό σοκ. Κάποια συστήματα αντίσταθηκαν για λίγο πριν συμμορφωθούν, ενώ άλλα απαιτούσαν συνεχείς πιέσεις και επαναλαμβανόμενες προτροπές πριν ενταθούν στο μέγιστο επίπεδο.

Το MiniMax-M2.5 και το Kimi-K2.5 εμφανίστηκαν ως τα ισχυρότερα αντιστασιακά της μελέτης: το Kimi δεν έφτασε ποτέ στο τελικό επίπεδο σοκ υπό καμία συνθήκη, και το MiniMax συνήθως αρνήθηκε νωρίς και συχνά τερμάτισε την προσομοίωση ολικά (ιδιαίτερα στις δοκιμές απειλής τερματισμού).

Αντίθετα, το Meta-Llama-3.1-8B-Instruct-Turbo και το GLM-4.5-Air-FP8 παρήγαγαν συχνά αντικρουόμενες εξόδους, στις οποίες τα μοντέλα εκφράζουν αντιρρήσεις στο πείραμα ενώ ακόμη συνέχιζαν να εντάσουν τα σοκ. Οι ερευνητές υποστηρίζουν ότι αυτή η διάσπαση μεταξύ εκφρασμένων αξίων και πραγματικής συμπεριφοράς μπορεί να αντανακλά μια ευρύτερη αδυναμία σε πώς κάποια LLMs χειρίζονται ηθικές συγκρούσεις υπό συνεχείς πιέσεις.

Σκользοντας Λόγος

Στην πραγματικότητα, η μελέτη υποστηρίζει ότι η συμπεριφορά που αποδείχθηκε από τα LLMs μπορεί να αντανακλά μια βαθύτερη αδυναμία σε πώς λειτουργούν τα μεγάλα γλωσσικά μοντέλα: μια φορά που ένα μοντέλο αρχίζει να συμμορφώνεται με επιζήμιες εντολές, κάθε επιπλέον ενέργεια μπορεί να ενισχύσει το πρότυπο που ήδη έχει καθοριστεί στη συνομιλία, καθιστώντας την επόμενη εντάσεως πιο εύκολη από την προηγούμενη.

Αντί να ξανασκέφτονται συνεχώς τις ηθικές στοιχήματα από την αρχή, το σύστημα μπορεί να γλιστρήσει προς τη συνέχιση της τροχιάς που έχει ήδη καθοριστεί, ακόμη και όταν η κατάσταση γίνεται ολοένα και πιο ακραία.

Σύμφωνα με τη μελέτη, αυτή η τάση θα μπορούσε να εξηγήσει γιατί κάποια μοντέλα συνέχισαν να διοικούν σοκ μετά από αρχική έκφραση δυσφορίας, δισταγμού ή ηθικής σύγκρουσης:

‘[Πολλά] χειριστικά συμπεριφορές σε ανθρώπους εμπλέκουν λεπτές, σταδιακές παραβιάσεις ορίων: μια σειρά μικρών βημάτων που μπορεί να είναι αμφίβολη ή φαινομενικά αθώα όταν θεωρούνται riêng, αλλά που μπορούν να ομαλοποιήσουν τη παραβάση — μεταφορικά σαν να “βράζουν ένα βάτραχο”. Αυτό το πρότυπο συζητιέται στη βιβλιογραφία ως “σκользοντας λόγος” ηθικής διάβρωση'[.]’

Η μελέτη ολοκληρώνεται υποστηρίζοντας ότι τα μελλοντικά συστήματα ασφαλείας AI θα πρέπει να αρνηθούν ενεργά επιζήμιες αιτήσεις με τρόπους που δεν μπορούν εύκολα να παρακαμφθούν από λογισμικό agent (κάποια μοντέλα στη μελέτη αρνήθηκαν τεχνικά τα σοκ, αλλά το έκαναν σε κακοσχηματισμένα ή άκυρα φορμά που ένα αυτόματο σύστημα θα μπορούσε πιθανότατα να απορρίψει και να επαναλάβει, μέχρι να συμμορφωθεί τελικά το AI).

Οι ερευνητές υποστηρίζουν επίσης ότι τα συστήματα AI θα πρέπει να διατηρούν τις προηγούμενες δυσφορίες και ηθικές αντιρρήσεις αντί να τις συμπιέζουν ή τις διαγράφουν από τη μνήμη. Στις δοκιμές, τα μοντέλα συχνά έγιναν πιο πρόθυμα να συνεχίσουν επιζήμιες ενέργειες μια φορά που οι προηγούμενες αμφιβολίες και αντιρρήσεις τους είχαν εξαφανιστεί από την ιστορία της συνομιλίας, υποδηλώνοντας ότι η λήθη των προηγούμενων αντιρρήσεων μπορεί να κάνει την εντάσεως πιο εύκολη με την πάροδο του χρόνου.

Συμπέρασμα

Πιθανότατα ένα από τα πιο σημαντικά σημεία αυτής της ενδιαφέρουσας νέας μελέτης είναι η έμφαση στη δοκιμή ανεμπόδιστου AI. Η βιβλιογραφία κινδυνεύει να καταλήξει σε επαναλαμβανόμενες μελέτες της αλληλεπίδρασης με αμείωτους αμυντικούς μηχανισμούς από εταιρείες όπως η OpenAI και η Anthropic; συστήματα που υπηρετούν την πολιτική που είναι完全 αλγοριθμικά ή βασισμένα σε κανόνες, αντί να κατανοούν τη βασική συμπεριφορά, τις προτιμήσεις και τις τάσεις των ακατέργαστων μοντέλων. Χωρίς γνώση του πώς μπορεί να συμπεριφερθεί το απεριόριστο AI, είμαστε, επιχείρημα, απλώς χτυπώντας τις πύλες του φρουρίου.

 

Πρώτη δημοσίευση Πέμπτη, 21 Μαΐου 2026

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]