Connect with us

Το AI Δεν Προσφέρει Ανεπτυγμένες Απαντήσεις Αν Είσαι Ευγενικός

Η γωνία του Anderson

Το AI Δεν Προσφέρει Ανεπτυγμένες Απαντήσεις Αν Είσαι Ευγενικός

mm
Adobe Firefly + post editing

Η κοινή γνώμη για το αν αξίζει να είναι ευγενείς με το AI αλλάζει σχεδόν τόσο συχνά όσο και η τελευταία απόφαση για τον καφέ ή το κόκκινο κρασί – γιορτάζεται ένα μήνα, αμφισβητείται την επόμενη. Παρόλα αυτά, ένας αυξανόμενος αριθμός χρηστών προσθέτει τώρα ‘παρακαλώ’ ή ‘ευχαριστώ’ στις προτροπές τους, όχι μόνο από συνήθεια ή από την ανησυχία ότι οι груβές ανταλλαγές μπορεί να μεταφερθούν στη πραγματική ζωή, αλλά και από την πεποίθηση ότι η ευγένεια οδηγεί σε καλύτερα και πιο παραγωγικά αποτελέσματα από το AI.

Αυτή η υπόθεση έχει κυκλοφορήσει μεταξύ χρηστών και ερευνητών, με τη φράση της προτροπής να μελετάται σε ερευνητικά κύκλους ως εργαλείο για την ευθυγράμμιση, την ασφάλεια και τον έλεγχο του τόνου, ακόμη και όταν οι συνήθειες των χρηστών ενισχύουν και ανα塑ώνουν αυτές τις προσδοκίες.

Για παράδειγμα, μια μελέτη του 2024 από την Ιαπωνία βρήκε ότι η ευγένεια της προτροπής μπορεί να αλλάξει τον τρόπο με τον οποίο συμπεριφέρονται τα μεγάλα μοντέλα γλώσσας, δοκιμάζοντας τα GPT-3.5, GPT-4, PaLM-2 και Claude-2 σε αγγλικές, κινεζικές και ιαπωνικές εργασίες και ξαναγράφοντας κάθε προτροπή σε τρία επίπεδα ευγένειας. Οι συγγραφείς της εργασίας παρατήρησαν ότι οι ‘αμβλύες’ ή ‘ασεβείς’ λέξεις οδήγησαν σε χαμηλότερη фактиκή ακρίβεια και συντομότερες απαντήσεις, ενώ οι μετρίως ευγενείς αιτήσεις παρήγαγαν σαφείς εξηγήσεις και λιγότερες απορρίψεις.

Επιπλέον, η Microsoft συνιστά einen ευγενικό τόνο με το Co-Pilot, από μια απόδοση παρά μια πολιτιστική άποψη.

Ωστόσο, μια νέα έρευνα από το Πανεπιστήμιο Τζορτζ Ουάσινγκτον αμφισβητεί αυτή την αυξανόμενη ιδέα, παρουσιάζοντας ένα μαθηματικό πλαίσιο που προβλέπει όταν η έξοδος ενός μεγάλου μοντέλου γλώσσας θα ‘καταρρεύσει’, μεταβαίνοντας από συνεπή σε παραπλανητικό ή ακόμη και επικίνδυνο περιεχόμενο. Μέσα σε αυτό το πλαίσιο, οι συγγραφείς υποστηρίζουν ότι η ευγένεια δεν καθυστερεί σημαντικά ή δεν αποτρέπει αυτή την ‘καταρρευση’.

Τipping Off

Οι ερευνητές υποστηρίζουν ότι η χρήση ευγενικής γλώσσας είναι γενικά άσχετη με το κύριο θέμα της προτροπής και ως εκ τούτου δεν επηρεάζει σημαντικά την εστίαση του μοντέλου. Για να υποστηρίξουν αυτό, παρουσιάζουν μια λεπτομερή διατύπωση του πώς μια seule κεφαλή προσοχής ενημερώνει την εσωτερική της κατεύθυνση καθώς επεξεργάζεται κάθε νέο token, υποτιθέμενα αποδεικνύοντας ότι η συμπεριφορά του μοντέλου διαμορφώνεται από την κümüλωση επιρροής των token που φέρουν περιεχόμενο.

Ως αποτέλεσμα, η ευγενική γλώσσα θεωρείται ότι έχει μικρή επίδραση στην κατάρρευση της έξοδου του μοντέλου. Αυτό που καθορίζει το σημείο καμπής, αναφέρει η εργασία, είναι η συνολική ευθυγράμμιση των token που φέρουν περιεχόμενο με είτε καλές είτε κακές διαδρομές έξοδου – όχι η παρουσία κοινωνικά ευγενικής γλώσσας.

Εικονική απεικόνιση μιας απλοποιημένης κεφαλής προσοχής που παράγει μια ακολουθία από μια προτροπή χρήστη. Το μοντέλο αρχίζει με καλά token (G), στη συνέχεια φτάνει σε ένα σημείο καμπής (n*) όπου η έξοδος μεταβαίνει σε κακά token (B). Οι ευγενείς όροι στην προτροπή (P₁, P₂, κ.λπ.) δεν παίζουν κανένα ρόλο σε αυτή τη μεταβολή, υποστηρίζοντας την αξίωση της εργασίας ότι η ευγένεια έχει μικρή επίδραση στη συμπεριφορά του μοντέλου.

Εικονική απεικόνιση μιας απλοποιημένης κεφαλής προσοχής που παράγει μια ακολουθία από μια προτροπή χρήστη. Το μοντέλο αρχίζει με καλά token (G), στη συνέχεια φτάνει σε ένα σημείο καμπής (n*) όπου η έξοδος μεταβαίνει σε κακά token (B). Οι ευγενείς όροι στην προτροπή (P₁, P₂, κ.λπ.) δεν παίζουν κανένα ρόλο σε αυτή τη μεταβολή, υποστηρίζοντας την αξίωση της εργασίας ότι η ευγένεια έχει μικρή επίδραση στη συμπεριφορά του μοντέλου. Source: https://arxiv.org/pdf/2504.20980

Αν είναι αλήθεια, αυτό το αποτέλεσμα αντίθεται τόσο με την δημοφιλή πεποίθηση όσο και με την πιθανή έμφαση της λογικής της εκπαίδευσης οδηγιών, η οποία υποθέτει ότι η φράση της προτροπής επηρεάζει την ερμηνεία του μοντέλου για την πρόθεση του χρήστη.

Χαλάρωση

Η εργασία εξετάζει πώς η εσωτερική διανυσματική του μοντέλου (η εξελισσόμενη πυξίδα για την επιλογή token) μεταβάλλεται κατά τη διάρκεια της γεννήσεως. Με κάθε token, αυτή η διανυσματική ενημερώνει κατευθυντικά, και το επόμενο token επιλέγεται με βάση το ποιο υποψήφιο συσχετίζεται στενότερα με αυτό.

Όταν η προτροπή κατευθύνει προς καλά διαμορφωμένο περιεχόμενο, οι απαντήσεις του μοντέλου παραμένουν σταθερές και ακριβείς· αλλά με τον καιρό, αυτή η κατευθυντική έλξη μπορεί να αντιστραφεί, κατευθύνοντας το μοντέλο προς εξόδους που είναι ολοένα και πιο εκτός θέματος, λανθασμένες ή εσωτερικά ασυνεπείς.

Το σημείο καμπής για αυτή τη μετάβαση (το οποίο οι συγγραφείς ορίζουν μαθηματικά ως επανάληψη n*), συμβαίνει όταν η διανυσματική του μοντέλου γίνεται πιο ευθυγραμμισμένη με μια ‘κακή’ διανυσματική έξοδου παρά με μια ‘καλή’. Σε αυτό το στάδιο, κάθε νέο token ωθεί το μοντέλο περαιτέρω στον λάθος δρόμο, ενισχύοντας ένα μοτίβο ολοένα και πιο ελαττωματικών ή παραπλανητικών εξόδων.

Το σημείο καμπής n* υπολογίζεται βρισκόνοντας τη στιγμή που η εσωτερική κατεύθυνση του μοντέλου ευθυγραμμίζεται ισότιμα με καλές και κακές τύπου εξόδου. Η γεωμετρία του χώρου ενσωμάτωσης, διαμορφωμένη από τόσο το σύνολο εκπαίδευσης όσο και την προτροπή του χρήστη, καθορίζει πώς γρήγορα συμβαίνει αυτή η διασταύρωση:

Εικονική απεικόνιση του πώς το σημείο καμπής n* εμφανίζεται στο απλοποιημένο μοντέλο των συγγραφέων. Η γεωμετρική διάταξη (α) ορίζει τις κλειδί διανυσματικές που συμμετέχουν στην πρόβλεψη του πότε η έξοδος μεταβαίνει από καλή σε κακή. Στο (β), οι συγγραφείς.plot αυτές τις διανυσματικές χρησιμοποιώντας παραμέτρους δοκιμών, ενώ στο (γ) συγκρίνουν το προβλεπόμενο σημείο καμπής με το προσομοιωμένο αποτέλεσμα. Η αντιστοιχία είναι ακριβής, υποστηρίζοντας την αξίωση των ερευνητών ότι η κατάρρευση είναι μαθηματικά αναπόφευκτη μια φορά που οι εσωτερικές δυναμικές διασχίζουν ένα όριο.

Εικονική απεικόνιση του πώς το σημείο καμπής n* εμφανίζεται στο απλοποιημένο μοντέλο των συγγραφέων. Η γεωμετρική διάταξη (α) ορίζει τις κλειδί διανυσματικές που συμμετέχουν στην πρόβλεψη του πότε η έξοδος μεταβαίνει από καλή σε κακή. Στο (β), οι συγγραφείς.plot αυτές τις διανυσματικές χρησιμοποιώντας παραμέτρους δοκιμών, ενώ στο (γ) συγκρίνουν το προβλεπόμενο σημείο καμπής με το προσομοιωμένο αποτέλεσμα. Η αντιστοιχία είναι ακριβής, υποστηρίζοντας την αξίωση των ερευνητών ότι η κατάρρευση είναι μαθηματικά αναπόφευκτη μια φορά που οι εσωτερικές δυναμικές διασχίζουν ένα όριο.

Οι ευγενείς όροι δεν επηρεάζουν την επιλογή του μοντέλου μεταξύ καλών και κακών εξόδων επειδή, σύμφωνα με τους συγγραφείς, δεν συνδέονται σημαντικά με το κύριο θέμα της προτροπής. Αντίθετα, καταλήγουν σε μέρη του εσωτερικού χώρου του μοντέλου που έχουν λίγη σχέση με αυτό που το μοντέλο αποφασίζει.

Όταν τέτοιες λέξεις προστίθενται σε μια προτροπή, αυξάνουν τον αριθμό των διανυσματικών που εξετάζει το μοντέλο, αλλά όχι με τρόπο που μεταβάλλει την траectoria της προσοχής. Ως αποτέλεσμα, οι ευγενείς όροι συμπεριφέρονται σαν στατιστικό θόρυβο: παρόντες, αλλά ανενεργοί, και αφήνοντας το σημείο καμπής n* αμετάβλητο.

Οι συγγραφείς αναφέρουν:

‘[Εάν] η απάντηση του AI μας θα πάει στραβά εξαρτάται από την εκπαίδευση του LLM που παρέχει τις ενσωματώσεις token, και τα ουσιαστικά token στην προτροπή μας – όχι εάν abbiamo BEEN ευγενείς προς αυτό ή όχι.’

Το μοντέλο που χρησιμοποιείται στη νέα εργασία είναι προθέμα να είναι στενό, εστιάζοντας σε μια seule κεφαλή προσοχής με γραμμικές δυναμικές token – ένα απλοποιημένο σύνολο όπου κάθε νέο token ενημερώνει την εσωτερική κατάσταση μέσω άμεσης προσθήκης διανυσματικών, χωρίς μη γραμμικές μετασχηματίσεις ή πύλες.

Αυτό το απλοποιημένο σύνολο επιτρέπει στους συγγραφείς να εργαστούν με ακριβή αποτελέσματα και να δώσουν μια σαφή γεωμετρική εικόνα του πώς και πότε η έξοδος του μοντέλου μπορεί να μεταβαίνει από καλή σε κακή. Σε τους δοκιμούς τους, η формуλή που παραγώνουν για την πρόβλεψη αυτής της μεταβάσεως αντιστοιχεί με αυτό που το μοντέλο πραγματικά κάνει.

Συνομιλώντας…

Ωστόσο, αυτό το επίπεδο ακρίβειας λειτουργεί μόνο επειδή το μοντέλο διατηρείται προθέμα απλό. Ενώ οι συγγραφείς παραδέχονται ότι οι συμπεράσματα τους πρέπει να δοκιμαστούν σε πιο σύνθετα μοντέλα πολλαπλών κεφαλών όπως η σειρά Claude και ChatGPT, επίσης πιστεύουν ότι η θεωρία παραμένει αναπαραγώγιμη καθώς οι κεφαλές προσοχής αυξάνονται, αναφέροντας*:

‘Το ερώτημα για το τι επιπλέον φαινόμενα αναπτύσσονται καθώς ο αριθμός των συνδεδεμένων κεφαλών προσοχής και στιβών αυξάνεται, είναι ένα φασκινující ένα. Αλλά οποιαδήποτε μεταβάσεις μέσα σε μια seule κεφαλή προσοχής θα συμβούν, και θα μπορούσαν να ενισχυθούν και/ή να συγχρονιστούν από τις συνδέσεις – σαν μια αλυσίδα συνδεδεμένων ανθρώπων που σέρνονται πάνω σε μια γκρεμό όταν ένας πέφτει.’

Εικονική απεικόνιση του πώς το προβλεπόμενο σημείο καμπής n* αλλάζει ανάλογα με το πόσο ισχυρά η προτροπή κατευθύνεται προς καλό ή κακό περιεχόμενο. Η επιφάνεια προέρχεται από την περίπου формуλή των συγγραφέων και δείχνει ότι οι ευγενείς όροι, οι οποίοι δεν υποστηρίζουν σαφώς καμία από τις πλευρές, έχουν μικρή επίδραση στο πότε συμβαίνει η κατάρρευση. Η σημειωμένη τιμή (n* = 10) αντιστοιχεί σε προηγούμενες προσομοιώσεις, υποστηρίζοντας την εσωτερική λογική του μοντέλου.

Εικονική απεικόνιση του πώς το προβλεπόμενο σημείο καμπής n* αλλάζει ανάλογα με το πόσο ισχυρά η προτροπή κατευθύνεται προς καλό ή κακό περιεχόμενο. Η επιφάνεια προέρχεται από την περίπου формуλή των συγγραφέων και δείχνει ότι οι ευγενείς όροι, οι οποίοι δεν υποστηρίζουν σαφώς καμία από τις πλευρές, έχουν μικρή επίδραση στο πότε συμβαίνει η κατάρρευση. Η σημειωμένη τιμή (n* = 10) αντιστοιχεί σε προηγούμενες προσομοιώσεις, υποστηρίζοντας την εσωτερική λογική του μοντέλου.

Τι παραμένει ασαφές είναι εάν ο ίδιος μηχανισμός επιβίωσε του άλματος στις σύγχρονες αρχιτεκτονικές μετασχηματιστών. Η πολλαπλή προσοχή εισάγει αλληλεπιδράσεις μεταξύ ειδικευμένων κεφαλών, οι οποίες μπορεί να απομακρύνουν ή να μασκάρουν τον τύπο της μεταβάσεως που περιγράφεται.

Οι συγγραφείς αναγνωρίζουν αυτή τη сложκότητα, αλλά υποστηρίζουν ότι οι κεφαλές προσοχής είναι συχνά χαλαρά συνδεδεμένες, και ότι ο τύπος της εσωτερικής κατάρρευσης που μοντελοποιούν θα μπορούσε να ενισχυθεί παρά να κατασταλεί σε πλήρη συστήματα.

Χωρίς την επέκταση του μοντέλου ή μια εμπειρική δοκιμή σε παραγωγικά LLM, η αξίωση παραμένει ανεπιβεβαίωτη. Ωστόσο, ο μηχανισμός φαίνεται αρκετά ακριβής για να υποστηρίξει τις επόμενες ερευνητικές πρωτοβουλίες, και οι συγγραφείς παρέχουν μια σαφή ευκαιρία να αμφισβητήσουν ή να επιβεβαιώσουν τη θεωρία σε κλίμακα.

Επικοινωνώντας…

Ωστόσο, αυτό το επίπεδο ακρίβειας λειτουργεί μόνο επειδή το μοντέλο διατηρείται προθέμα απλό. Ενώ οι συγγραφείς παραδέχονται ότι οι συμπεράσματα τους πρέπει να δοκιμαστούν σε πιο σύνθετα μοντέλα πολλαπλών κεφαλών όπως η σειρά Claude και ChatGPT, επίσης πιστεύουν ότι η θεωρία παραμένει αναπαραγώγιμη καθώς οι κεφαλές προσοχής αυξάνονται, αναφέροντας*:

‘Το ερώτημα για το τι επιπλέον φαινόμενα αναπτύσσονται καθώς ο αριθμός των συνδεδεμένων κεφαλών προσοχής και στιβών αυξάνεται, είναι ένα φασκινώντας ένα. Αλλά οποιαδήποτε μεταβάσεις μέσα σε μια seule κεφαλή προσοχής θα συμβούν, και θα μπορούσαν να ενισχυθούν και/ή να συγχρονιστούν από τις συνδέσεις – σαν μια αλυσίδα συνδεδεμένων ανθρώπων που σέρνονται πάνω σε μια γκρεμό όταν ένας πέφτει.’

* Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσύνδεσμους. Σε κάποιο βαθμό, οι υπερσύνδεσμοι είναι αυθαίρετοι/παραδείγματος,既然 οι συγγραφείς σε ορισμένα σημεία συνδέουν με μια ευρεία ποικιλία υποσημειώσεων, αντί να συνδέουν με μια συγκεκριμένη δημοσίευση.

Πρώτη δημοσίευση Τετάρτη, 30 Απριλίου 2025. Τροποποιήθηκε Τετάρτη, 30 Απριλίου 2025 15:29:00, για μορφοποίηση.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]