Connect with us

Η Κωδικοποίηση Vibe Υποφέρει Όταν Ο Ρόλος του AI Επεκτείνεται

Η γωνία του Anderson

Η Κωδικοποίηση Vibe Υποφέρει Όταν Ο Ρόλος του AI Επεκτείνεται

mm
An AI-generated stock-style image depicting a human Caucasian male and a larger glossy humanoid robot attempting to collaborate on a document; but the aggressive robot is causing the annoyed man to be sidelined. GPT-5 Image + Photoshop enhancement.

Μια νέα μελέτη ανακαλύπτει ότι η κωδικοποίηση vibe βελτιώνεται όταν οι άνθρωποι δίνουν τις οδηγίες, αλλά μειώνεται όταν το κάνει το AI, με το καλύτερο υβριδικό σύστημα να διατηρεί τους ανθρώπους στο προσκήνιο, με το AI ως διαιτητή ή κριτή.

 

Νέα έρευνα από τις Ηνωμένες Πολιτείες, που εξετάζει τι συμβαίνει όταν τα συστήματα AI επιτρέπεται να καθοδηγούν κωδικοποίηση vibe, αντί να εκτελούν απλώς ανθρώπινες οδηγίες, έχει διαπιστώσει ότι όταν τα Μεγάλου Λόγου Μοντέλα (LLMs) αναλαμβάνουν μεγαλύτερο κατευθυντικό ρόλο, τα αποτελέσματα είναι σχεδόν πάντα χειρότερα.

хотя οι ερευνητές χρησιμοποίησαν το GPT-5 της OpenAI ως πλαίσιο για τους πειραματισμούς ανθρώπινης/AI συνεργασίας, αργότερα επιβεβαιώθηκε ότι και το Claude Opus 4.5 της Anthropic και το Google Gemini 3 Pro υπέφεραν από την ίδια επιδείνωση της καμπύλης καθώς αυξανόταν οι ευθύνες, αναφέροντας ότι ‘ακόμη και η περιορισμένη ανθρώπινη εμπλοκή βελτιώνει συνεχώς την απόδοση’:

‘[Οι άνθρωποι] παρέχουν μοναδικά αποτελεσματικές υψηλού επιπέδου οδηγίες σε διαδοχικές επαναλήψεις, [ενώ] οι οδηγίες του AI συχνά οδηγούν σε κατάρρευση της απόδοσης. Επίσης, βρήκαμε ότι μια προσεκτική κατανομή ρόλων που διατηρεί τους ανθρώπους υπεύθυνους για την κατεύθυνση ενώ αναθέτει την αξιολόγηση στο AI μπορεί να βελτιώσει την υβριδική απόδοση.’

Για να παρέχει μια συνεπή δοκιμή που θα μπορούσε να αξιολογηθεί εξίσου από ανθρώπους και από AI, ένα ελεγχόμενο πειραματικό πλαίσιο κατασκευάστηκε γύρω από μια επαναληπτική εργασία κωδικοποίησης στην οποία μια αναφορά εικόνα – που απεικονίζει μια φωτογραφία ενός γάτου, σκύλου, τίγρη, πουλιού, ελέφαντα, πιγκουίνου, καρχαρία, ζέβρα, γιράντ ή πάντα – έπρεπε να αναδημιουργηθεί χρησιμοποιώντας διανυσματικές γραφικές (SVG), και αυτή η αναδημιουργία να αξιολογηθεί σε σχέση με την φωτογραφική πηγή από την οποία προέρχεται:

Και οι ανθρώπινες και οι συμμετέχοντες του AI έδειξαν μια φωτογραφική αναφορά εικόνα μαζί με μια αναδημιουργημένη SVG αναπαράσταση, και ζητήθηκε να αξιολογήσουν πόσο παρόμοια ήταν τα δύο σε μια κλίμακα επτά σημείων. Πηγή - https://arxiv.org/pdf/2602.10473

Και οι ανθρώπινες και οι συμμετέχοντες του AI έδειξαν μια φωτογραφική αναφορά εικόνα μαζί με μια αναδημιουργημένη SVG αναπαράσταση, και ζητήθηκε να αξιολογήσουν πόσο παρόμοια ήταν τα δύο σε μια κλίμακα επτά σημείων. Πηγή

Σε κάθε γύρο, ένας πράκτορας παρείχε υψηλού επιπέδου φυσικές οδηγίες γλώσσας για να καθοδηγήσει einen γεννήτρια κώδικα, και ένας άλλος αποφάσισε εάν να διατηρήσει την νέα έκδοση ή να επαναφέρει την προηγούμενη – μια δομημένη βρόχου που αντανακλά πραγματικές συνεργατικές ροές εργασίας.

Σε 16 πειράματα που涉 вовлекли 604 συμμετέχοντες και χιλιάδες κλήσεις API, πλήρως ανθρώπινες δοκιμές γύρων συγκρίθηκαν απευθείας με πλήρως AI-οδηγούμενες γύρους, υπό άλλες συνθήκες.

Ορισμένες από τις ποικίλες λύσεις που επιτεύχθηκαν από διαφορετικές συνδυασμούς ανθρώπινης/AI συνεργασίας ποσοστών και τύπων (παρommen από μια μεγαλύτερη εικονογράφηση στο πρωτότυπο έγγραφο, στο οποίο αναφερόμαστε τον αναγνώστη).

Ορισμένες από τις ποικίλες λύσεις που επιτεύχθηκαν από διαφορετικές συνδυασμούς ανθρώπινης/AI συνεργασίας ποσοστών και τύπων (παρommen από μια μεγαλύτερη εικονογράφηση στο πρωτότυπο έγγραφο, στο οποίο αναφερόμαστε τον αναγνώστη).

Αν και οι άνθρωποι και το AI εκτέλεσαν σε παρόμοια επίπεδα στην αρχή των δοκιμών, με το χρόνο, οι τροχιές τους διέφεραν: όταν οι άνθρωποι παρείχαν τις οδηγίες και έκαναν τις επιλογές, οι βαθμολογίες ομοιότητας αυξήθηκαν σε διαδοχικές επαναλήψεις, με σταθερή συσσώρευση βελτίωσης· αλλά όταν τα συστήματα AI κατέλαβαν και τους δύο ρόλους, η απόδοση έδειξε keine σταθερές κέρδη, και συχνά μειώθηκε σε γύρους – ακόμη και αν το ίδιο υποκείμενο μοντέλο χρησιμοποιήθηκε για τη γεννήτρια κώδικα, και το AI είχε πρόσβαση στις ίδιες πληροφορίες με τους ανθρώπινους συμμετέχοντες.

Το Εφέ της Περιορισμένης Λεκτικής Ικανότητας

Τα αποτελέσματα έδειξαν επίσης ότι οι ανθρώπινες οδηγίες ήταν συνήθως σύντομες και προσανατολισμένες στην δράση, εστιάζοντας σε τι να αλλάξει επόμενο στην τρέχουσα εικόνα· αντίθετα, οι οδηγίες του AI ήταν πολύ μεγαλύτερες και περιγραφικές (ένας παράγοντας που ήταν παραμετροποιημένος για το GPT-5), περιγράφοντας οπτικά χαρακτηριστικά αντί να προτιμούν την επανεπεξεργασία.

Αλλά, όπως φαίνεται στο γράφημα παρακάτω, η επιβολή αυστηρών ορίων λέξεων στις οδηγίες του AI δεν ανέτρεψε το μοτίβο· ακόμη και όταν περιορίστηκαν σε 10, 20 ή 30 λέξεις, οι αλυσίδες του AI vẫn δεν κατάφεραν να βελτιώσουν την απόδοση με το χρόνο:

Βαθμολογίες ομοιότητας σε διαδοχικές επαναλήψεις για ανθρώπινες αλυσίδες σε σύγκριση με πλήρως AI-οδηγούμενες αλυσίδες και AI-οδηγούμενες αλυσίδες περιορισμένες σε 10, 20 ή 30-λέξεις οδηγίες, δείχνοντας ότι η συντομεύωση των προτροπών του AI δεν εμποδίζει την πτώση της απόδοσης που παρατηρείται όταν το AI κατευθύνει και την οδηγία και την επιλογή.

Βαθμολογίες ομοιότητας σε διαδοχικές επαναλήψεις για ανθρώπινες αλυσίδες σε σύγκριση με πλήρως AI-οδηγούμενες αλυσίδες και AI-οδηγούμενες αλυσίδες περιορισμένες σε 10, 20 ή 30-λέξεις οδηγίες. Εμφανώς, η συντομεύωση των προτροπών του AI δεν εμποδίζει την πτώση της απόδοσης που παρατηρείται όταν το AI κατευθύνει και την οδηγία και την επιλογή.

Οι υβριδικές πειραματικές δομές έκαναν το μοτίβο πιο σαφές, δείχνοντας ότι η προσθήκη ακόμη και λίγης ανθρώπινης εμπλοκής βελτίωσε τα αποτελέσματα, σε σύγκριση με πλήρως AI-οδηγούμενες διατάξεις· ωστόσο, η απόδοση συνήθως μειώθηκε καθώς αυξανόταν το ποσοστό της οδηγίας του AI.

Όταν οι ρόλοι χωρίστηκαν, η αξιολόγηση και η επιλογή θα μπορούσαν να ανατεθούν στο AI με σχετικά μικρή απώλεια ποιότητας· αλλά η αντικατάσταση ανθρώπινης υψηλού επιπέδου οδηγίας με οδηγία του AI οδήγησε σε αξιοσημείωτες πτώσεις της απόδοσης, υποδεικνύοντας ότι αυτό που μετρούσε περισσότερο δεν ήταν ποιος δημιούργησε τον κώδικα, αλλά ποιος καθόρισε και διατήρησε την κατεύθυνση σε διαδοχικές επαναλήψεις.

Οι συγγραφείς καταλήγουν:

‘Σε πολλαπλά πειράματα, η ανθρώπινη οδηγία της κωδικοποίησης βελτιώθηκε συνεχώς σε διαδοχικές επαναλήψεις, ενώ η AI-οδηγία της κωδικοποίησης συχνά κατέρρευσε παρά την πρόσβαση στις ίδιες πληροφορίες και παρόμοιες ικανότητες εκτέλεσης.

‘Αυτό δείχνει τις βασικές δυσκολίες των σημερινών συστημάτων AI στην διατήρηση συνεπούς υψηλού επιπέδου κατεύθυνσης σε επαναλαμβανόμενες αλληλεπιδράσεις, του είδους που απαιτείται για επιτυχημένη κωδικοποίηση vibe’

Το νέο έγγραφο έχει τον τίτλο Γιατί η Ανθρώπινη Καθοδήγηση Μετράει στη Συνεργατική Κωδικοποίηση Vibe, και προέρχεται από επτά ερευνητές από το Πανεπιστήμιο Κορνέλ, το Πανεπιστήμιο Πρίνστον, το Ινστιτούτο Τεχνολογίας της Μασαχουσέτης και το Πανεπιστήμιο της Νέας Υόρκης.

Μέθοδος

Για τους πειραματισμούς, ένας ανθρώπινος διδάσκων έβλεπε μια GPT-5-γεννημένη φωτογραφία ζώου, μαζί με την τελευταία συσχετισμένη προσπάθεια μίμησης SVG. Στη συνέχεια, έγραψε φυσικές οδηγίες γλώσσας για να καθοδηγήσει τον γεννήτρια κώδικα προς μια πιο κοντινή αντιστοίχιση.

Έτσι, ο γεννήτριας θα παρήγαγε μια νέα SVG κάθε γύρο, παρέχοντας μια διαδοχική βρόχου για δοκιμή του πώς το αποτέλεσμα της καθοδήγησης συσσωρεύεται με το χρόνο. Οι στόχοι ήταν δέκα GPT-5-γεννημένες εικόνες ζώων, που καλύπτουν μια σειρά από σχήματα και υφές, ώστε οι βελτιώσεις ή τα λάθη να είναι εύκολα ανιχνεύσιμα:

Σχήμα για τη ροή εργασίας κωδικοποίησης που χρησιμοποιήθηκε στη μελέτη. Σε A), ένας ανθρώπινος διδάσκων βλέπει μια φωτογραφική αναφορά εικόνα μαζί με το καλύτερο SVG που παράχθηκε μέχρι τώρα και γράφει φυσικές οδηγίες γλώσσας για τον γεννήτρια κώδικα να ακολουθήσει όταν παράγει το επόμενο SVG· σε B), ένας ανθρώπινος επιλέκτης συγκρίνει το νέο SVG με το προηγούμενο και επιλέγει ποιο από τα δύο ταιριάζει καλύτερα στην αναφορά εικόνα, πριν περάσει το επιλεγμένο SVG για την επόμενη επαναλήπτρια οδηγία. και σε C), ανεξάρτητοι ανθρώπινοι αξιολογητές βαθμολογούν πόσο παρόμοια είναι κάθε γεννημένο SVG με την αναφορά εικόνα, παρέχοντας τις βαθμολογίες που χρησιμοποιούνται για να αξιολογήσουν την συνολική απόδοση.

Σχήμα για τη ροή εργασίας κωδικοποίησης που χρησιμοποιήθηκε στη μελέτη. Σε A), ένας ανθρώπινος διδάσκων βλέπει μια φωτογραφική αναφορά εικόνα μαζί με το καλύτερο SVG που παράχθηκε μέχρι τώρα και γράφει φυσικές οδηγίες γλώσσας για τον γεννήτρια κώδικα να ακολουθήσει όταν παράγει το επόμενο SVG· σε B), ένας ανθρώπινος επιλέκτης συγκρίνει το νέο SVG με το προηγούμενο και επιλέγει ποιο από τα δύο ταιριάζει καλύτερα στην αναφορά εικόνα, πριν περάσει το επιλεγμένο SVG για την επόμενη επαναλήπτρια οδηγία· και σε C), ανεξάρτητοι ανθρώπινοι αξιολογητές βαθμολογούν πόσο παρόμοια είναι κάθε γεννημένο SVG με την αναφορά εικόνα, παρέχοντας τις βαθμολογίες που χρησιμοποιούνται για να αξιολογήσουν την συνολική απόδοση.

Ένας ανθρώπινος επιλέκτης σύγκρινε κάθε νεοδημιουργημένο SVG με το προηγούμενο και είτε το αποδέχθηκε είτε το απέρριψε, διατηρώντας τη διαδικασία συγχρονισμένη με την αναφορά εικόνα σε διαδοχικές επαναλήψεις. Σε αυτό το βασικό σύστημα, ο ίδιος άνθρωπος εκτέλεσε και τους δύο ρόλους.

Για να μετρήσουν την ποιότητα, ανεξάρτητοι ανθρώπινοι αξιολογητές βαθμολογούν πόσο παρόμοια είναι κάθε γεννημένο SVG με την αναφορά εικόνα. Σε 16 πειράματα, 120 άνθρωποι παρήγαγαν 4.800 βαθμολογίες. Όλα τα πειράματα εκτελέστηκαν στο PsyNet framework, một πύλη που σχεδιάστηκε για να διευκολύνει τις δομημένες αλληλεπιδράσεις μεταξύ ανθρώπων και συστημάτων AI.

Η μελέτη θα στρατολογήσει 604 φυσικούς ομιλητές της αγγλικής γλώσσας, σε δοκιμές που θα καούν 4.800 κλήσεις API για γεννήτρια κώδικα και 5.327 κλήσεις API για οδηγία. Αν και το GPT-5 ήταν το κύριο μοντέλο που χρησιμοποιήθηκε, μικρότερες σύγκρισης δόσεις έγιναν με το Claude Opus 4.5 και το Gemini 3 Pro, τα οποία χειρίστηκαν 280 ερωτήματα.

Αποτελέσματα

Τριάντα γύροι κωδικοποίησης vibe εκτελέστηκαν, κάθε ένας αποτελούμενος από δεκαπέντε επεξεργασίες των βασικών δέκα αναφορά εικόνων. Για αυτά, 45 ανθρώπινοι συμμετέχοντες επιλέχθηκαν, каждый υπηρετώντας ως επιλέκτης και διδάσκων σε δέκα επαναλήψεις, στις ‘ανθρώπινες-οδηγούμενες’ γύρους.

Σε κάθε γύρο, ο ίδιος συμμετέχων πρώτα επέλεξε μεταξύ της τρέχουσας και της προηγούμενης SVG, και στη συνέχεια έγραψε την επόμενη οδηγία γύρου. Μια δεύτερη εκδοχή της δοκιμής αντικατέστησε τις ανθρώπινες αποφάσεις με κλήσεις API στο GPT 5, ενώ διατήρησε το υπόλοιπο σύστημα αμετάβλητο. Σε όλες τις περιπτώσεις, ο διδάσκων και ο επιλέκτης ρόλοι προώθησαν τον γεννήτρια κώδικα με απλή γλώσσα.

Ένα αντιπροσωπευτικό παράδειγμα πολλαπλών γύρων κωδικοποίησης vibe δείχνει πώς η διαδικασία απομακρύνεται με το χρόνο· όταν οι άνθρωποι ενεργούσαν ως επιλέκτες και διδάσκοντες, η έξοδος SVG βελτιώθηκε σταθερά σε διαδοχικές επαναλήψεις, μετακινούμενη πιο κοντά στην αναφορά εικόνα με κάθε γύρο:

Παραδείγματα προόδου για μια αναφορά εικόνα υπό ανθρώπινη οδηγία (πάνω) και AI-οδηγία (κάτω) κωδικοποίηση vibe, δείχνοντας σταθερή βελτίωση σε διαδοχικές επαναλήψεις με ανθρώπους σε cả τους ρόλους, και στασιμότητα ή διαφυγή όταν και οι δύο ρόλοι χειρίζονται από το AI.

Παραδείγματα προόδου για μια αναφορά εικόνα υπό ανθρώπινη οδηγία (πάνω) και AI-οδηγία (κάτω) κωδικοποίηση vibe, δείχνοντας σταθερή βελτίωση σε διαδοχικές επαναλήψεις με ανθρώπους σε cả τους ρόλους, και στασιμότητα ή διαφυγή όταν και οι δύο ρόλοι χειρίζονται από το AI.

Αντίθετα, στην AI-οδηγούμενη εκδοχή, οι πρώτες επαναλήψεις μερικές φορές κατέλαβαν βασικά οπτικά χαρακτηριστικά, αλλά οι μεταγενέστερες προσπάθειες δεν κατάφεραν να κτίσουν πάνω σε αυτά τα κέρδη, και σε ορισμένες περιπτώσεις απομακρύνθηκαν από το στόχο:

Τελικές εξόδους από την τελική επαναλήπτρια, συγκρίνοντας ανθρώπινες-οδηγούμενες γύρους (πάνω σειρά) με AI-οδηγούμενες αλυσίδες (κάτω σειρά), σε σχέση με το ίδιο σύνολο αναφορά εικόνων. Τα ανθρώπινα-οδηγούμενα αποτελέσματα ταιριάζουν πιο κοντά στα αρχικά ζώα, και τα AI-οδηγούμενα αποτελέσματα δείχνουν ορατές παραμορφώσεις, ή απώλεια βασικών χαρακτηριστικών.

Τελικές εξόδους από την τελική επαναλήπτρια, συγκρίνοντας ανθρώπινες-οδηγούμενες γύρους (πάνω σειρά) με AI-οδηγούμενες αλυσίδες (κάτω σειρά), σε σχέση με το ίδιο σύνολο αναφορά εικόνων. Τα ανθρώπινα-οδηγούμενα αποτελέσματα ταιριάζουν πιο κοντά στα αρχικά ζώα, και τα AI-οδηγούμενα αποτελέσματα δείχνουν ορατές παραμορφώσεις, ή απώλεια βασικών χαρακτηριστικών.

Για να μετρήσουν τις αναδυόμενες τάσεις ποσοτικά, οι τελικές εικόνες παρουσιάστηκαν σε ανεξάρτητους ανθρώπινους αξιολογητές και βαθμολογήθηκαν για ομοιότητα με την αναφορά εικόνα. Σε όλες τις περιπτώσεις, οι άνθρωποι και το AI εκτέλεσαν σε παρόμοια επίπεδα στην αρχή των δοκιμών, αλλά με το χρόνο, οι τροχιές τους διέφεραν: όταν οι άνθρωποι παρείχαν τις οδηγίες και έκαναν τις επιλογές, οι βαθμολογίες ομοιότητας αυξήθηκαν σε διαδοχικές επαναλήψεις, με σταθερή συσσώρευση βελτίωσης· αλλά όταν τα συστήματα AI κατέλαβαν και τους δύο ρόλους, η απόδοση έδειξε keine σταθερές κέρδη, και συχνά μειώθηκε σε γύρους – ακόμη και αν το ίδιο υποκείμενο μοντέλο χρησιμοποιήθηκε για τη γεννήτρια κώδικα, και το AI είχε πρόσβαση στις ίδιες πληροφορίες με τους ανθρώπινους συμμετέχοντες.

Η Μεγαλύτερη Εικόνα

Ωστόσο, αν το GPT-5 αξιολόγησε τις εξόδους από μόνη της, θα παραδέχθηκε ότι τα ανθρώπινα αποτελέσματα ήταν καλύτερα; Οι ανθρώπινες και AI βαθμολογίες γενικά κινούνταν στην ίδια κατεύθυνση, ώστε το μοντέλο να μπορούσε να διακρίνει το καλό από το κακό, αλλά συνέχισε να βαθμολογεί AI-γεννημένες εικόνες υψηλότερα από ότι οι άνθρωποι.

‘Συγκεκριμένα, ρωτήσαμε εάν τα συστήματα AI θα αναγνώριζαν ότι οι δικές τους εξόδους είναι κατώτερες από αυτές που παράγονται από ανθρώπους, ή αντίθετα θα δείχνουν προτίμηση για τις δικές τους δημιουργίες, το οποίο θα δείχνε μια πιθανή ανταπόκριση θέματος.’

Όπως αποδείχθηκε, υπάρχει μια ανταπόκριση θέματος*:

‘Οι αξιολογητές του AI ανέθεσαν υψηλότερες βαθμολογίες στις AI-γεννημένες [εξόδους]. Αυτά τα ευρήματα δείχνουν ότι οι παρατηρημένες διαφορές απόδοσης μπορεί να προέρχονται από μια απώλεια συναρμογής στις αναπαραστάσεις μεταξύ ανθρώπων και AI.’

Στη διερεύνηση του πώς οι άνθρωποι και το AI φράζουν τις οδηγίες τους, οι αποκλίσεις έγιναν σαφείς σε δοκιμές. Όπως φαίνεται στο παρακάτω σχήμα, και εστίαση και μήκος είναι θέματα απόκλισης μεταξύ AI και ανθρώπων:

Σύγκριση του πώς οι άνθρωποι και το AI έδωσαν οδηγίες κατά τη διάρκεια της εργασίας κωδικοποίησης. 'A' δείχνει ότι οι άνθρωποι γράφουν σύντομες,直接ικές οδηγίες, ενώ το AI γράφει μακρές, λεπτομερείς περιγραφές. 'B' χαρτογραφεί τις οδηγίες, αποκαλύπτοντας ότι οι προτροπές των ανθρώπων συσσωρεύονται μαζί, ενώ οι προτροπές του AI χωρίζονται ανά ζώο. 'C' παρακολουθεί πώς η περιορισμός του μήκους οδηγίας του AI δεν επιδιορθώνει την κακή απόδοσή του με το χρόνο· και 'D' δείχνει ότι οι άνθρωποι δίνουν πιο ποικίλες και ισορροπημένες οδηγίες από το AI, ακόμη και όταν επιβάλλονται όρια λέξεων.

Σύγκριση του πώς οι άνθρωποι και το AI έδωσαν οδηγίες κατά τη διάρκεια της εργασίας κωδικοποίησης. ‘A’ δείχνει ότι οι άνθρωποι γράφουν σύντομες,直接ικές οδηγίες, ενώ το AI γράφει μακρές, λεπτομερείς περιγραφές. ‘B’ χαρτογραφεί τις οδηγίες, αποκαλύπτοντας ότι οι προτροπές των ανθρώπων συσσωρεύονται μαζί, ενώ οι προτροπές του AI χωρίζονται ανά ζώο. ‘C’ παρακολουθεί πώς η περιορισμός του μήκους οδηγίας του AI δεν επιδιορθώνει την κακή απόδοσή του με το χρόνο· και ‘D’ δείχνει ότι οι άνθρωποι δίνουν πιο ποικίλες και ισορροπημένες οδηγίες από το AI, ακόμη και όταν επιβάλλονται όρια λέξεων.

Οι ανθρώπινες οδηγίες τείνουν να είναι σύντομες και στο σημείο, προσφέροντας σαφείς επεξεργασίες που μπορούν να εφαρμοστούν γενικά σε στόχους. Οι οδηγίες του AI, από την άλλη πλευρά, ήταν πυκνές με περιγραφικές λεπτομέρειες, και συχνά φουσκωμένες με συγκεκριμένα στοιχεία για σκιές, υφές, φωτισμό, ή ανατομικά λεπτομέρειες – περιγραφές που μπορεί να έχουν νόημα σε απομόνωση, αλλά αποτυγχάνουν να παρέχουν χρήσιμα επόμενα βήματα για το μοντέλο (και τα οποία θα είναι οικεία σε εκείνους που είναι εξοικειωμένοι με τα θέματα των LLMs γύρω από το μήκος контекст, δηλαδή, να μπορούν να διατηρούν ‘τη μεγάλη εικόνα’ καθώς ένα έργο αναπτύσσεται και μεγαλώνει).

Για να δουν εάν η μειωμένη ομιλία θα βελτίωνε την απόδοση, το GPT-5 περιορίστηκε σε 10, 20 ή 30 λέξεις ανά οδηγία· αλλά ακόμη και αυτές οι συμπιεσμένες οδηγίες δεν κατάφεραν να δείξουν καμία βελτίωση (βλέπε κάτω-δεξιά του σχήματος παραπάνω).

Συνεργατικές Προσπάθειες

Για να δοκιμάσουν τι συμβαίνει όταν οι άνθρωποι και το AI μοιράζονται τον έλεγχο, οι ερευνητές εκτέλεσαν εργασίες κωδικοποίησης με διαφορετικά μείγματα ανθρώπινης και AI εισαγωγής, που κυμαίνονται από πřevážně ανθρώπινη σε πřevážně AI.

Κάθε υβριδικό μείγμα ξεπέρασε τον πλήρη έλεγχο του AI, ώστε ακόμη και μια μικρή ποσότητα ανθρώπινης καθοδήγησης να βελτιώσει τα αποτελέσματα:

Υβριδικά συνθήκες κωδικοποίησης με διαφορετικά ανθρώπινη/AI μείγματα. (A) Δείχνει πώς οι άνθρωποι και το AI έπαιρναν σειρά ως διδάσκοντες και επιλέκτες για κάθε βήμα κωδικοποίησης· (B) δείχνει ότι περισσότερη ανθρώπινη εμπλοκή οδήγησε σε υψηλότερη ποιότητα αποτελεσμάτων, ενώ μεγαλύτερη εισαγωγή AI μειώθηκε στις βαθμολογίες· και (C) απεικονίζει μια σταθερή πτώση στην ποιότητα της τελικής εξόδου καθώς μειώνεται το ποσοστό ανθρώπινης συμμετοχής, επιβεβαιώνοντας ότι πιο συνεχής ανθρώπινη κατεύθυνση παρήγαγε καλύτερα αποτελέσματα.

Υβριδικά συνθήκες κωδικοποίησης με διαφορετικά ανθρώπινη/AI μείγματα. (A) Δείχνει πώς οι άνθρωποι και το AI έπαιρναν σειρά ως διδάσκοντες και επιλέκτες για κάθε βήμα κωδικοποίησης· (B) δείχνει ότι περισσότερη ανθρώπινη εμπλοκή οδήγησε σε υψηλότερη ποιότητα αποτελεσμάτων, ενώ μεγαλύτερη εισαγωγή AI μειώθηκε στις βαθμολογίες· και (C) απεικονίζει μια σταθερή πτώση στην ποιότητα της τελικής εξόδου καθώς μειώνεται το ποσοστό ανθρώπινης συμμετοχής, επιβεβαιώνοντας ότι πιο συνεχής ανθρώπινη κατεύθυνση παρήγαγε καλύτερα αποτελέσματα.

Όσο το AI ανέλαβε περισσότερο της διαδικασίας, η απόδοση έπεσε, με τα καλύτερα αποτελέσματα να εμφανίζονται όταν οι άνθρωποι οδηγούσαν τους περισσότερους γύρους, και τα πιο αδύναμα όταν το AI οδηγούσε τους περισσότερους γύρους. Κανένα από αυτά τα μεικτά σχήματα δεν κατάφερε να συνεχίσει να βελτιώνεται με κάθε νέα επαναλήπτρια, υποδεικνύοντας ότι η ανθρώπινη κατεύθυνση λειτουργεί καλύτερα όταν είναι σταθερή και συνεχής, 而 όχι περιστασιακή.

Αντιστροφή Ρόλων

Η μελέτη εξέτασε επίσης εάν έχει σημασία ποιος κάνει τι σε αυτούς τους τύπους εργασιών, και έτρεξε δοκιμές για αυτό. Η αναθεωρημένη άσκηση εμπλέκει δύο εργασίες: ένας συμμετέχων θα δώσει οδηγίες για το πώς να αλλάξει την εικόνα, και ένας άλλος θα επιλέξει μια προτιμώμενη έκδοση.

Όταν και οι δύο εργασίες εκτελέστηκαν από ανθρώπους, η ποιότητα διατηρήθηκε· αλλά όταν ένας άνθρωπος έδωσε τις οδηγίες και κανείς δεν επέλεξε μεταξύ εκδόσεων, η ποιότητα χειροτέρευσε:

Δοκιμές για διαίρεση ρόλων στην κωδικοποίηση vibe: σε (A), η αφαίρεση του ρόλου του επιλέκτη οδήγησε σε χειρότερη απόδοση, ακόμη και όταν ένας άνθρωπος παρείχε οδηγίες· σε (B), η αντικατάσταση του ανθρώπινου επιλέκτη με ένα AI μειώθηκε την ποιότητα ελαφρά, αλλά όχι τόσο σοβαρά όσο η πλήρης αφαίρεση της επιλογής.

Δοκιμές για διαίρεση ρόλων στην κωδικοποίηση vibe: σε (A), η αφαίρεση του ρόλου του επιλέκτη οδήγησε σε χειρότερη απόδοση, ακόμη και όταν ένας άνθρωπος παρείχε οδηγίες· σε (B), η αντικατάσταση του ανθρώπινου επιλέκτη με ένα AI μειώθηκε την ποιότητα ελαφρά, αλλά όχι τόσο σοβαρά όσο η πλήρης αφαίρεση της επιλογής.

Όταν το AI ήταν υπεύθυνο, η παρακολούθηση του βήματος της επιλογής δεν είχε σημασία, поскольку οι εξόδους του παρέμειναν συνεπείς σε κάθε περίπτωση· αλλά όταν οι άνθρωποι έδωσαν τις οδηγίες και το AI επέλεξε μεταξύ αποτελεσμάτων, η ποιότητα παρέμεινε κοντά στο σύνολο ανθρώπινου σχήματος.

Η αντίστροφη δεν λειτουργούσε: έχοντας το AI να δίνει οδηγίες ενώ οι άνθρωποι επέλεξαν εξόδους οδήγησε σε αδύναμα αποτελέσματα, υποδεικνύοντας ότι η ανθρώπινη δημιουργική καθοδήγηση παραμένει απαραίτητη, ενώ η εργασία της επιλογής μεταξύ επιλογών μπορεί να ανατεθεί στο AI χωρίς σημαντική απώλεια.

Το έγγραφο καταλήγει:

‘[Υψηλού επιπέδου] γεννήτρια ιδεών και οδηγία είναι οι κρίσιμες ανθρώπινες συνεισφορές, ενώ η αξιολόγηση και η επιλογή μπορούν συχνά να ανατεθούν στο AI χωρίς απώλεια στην απόδοση.

‘Αυτό υποδηλώνει ένα πρακτικό αρχή σχεδιασμού για υβριδικά συστήματα: οι άνθρωποι πρέπει να ορίζουν την κατεύθυνση, ενώ το AI μπορεί να υποστηρίξει την αξιολόγηση και την εκτέλεση.’

Συμπέρασμα

Παραμένει να δούμε σε ποιο βαθμό η βελτίωση και/ή η αύξηση των παραθύρων контекστ θα επηρεάσει την απόδοση των LLMs σε εργασίες αυτού του είδους. Η ημέρα που η ‘αμνησία LLM’ παύει να είναι μια καθημερινή ψύχρα της ανθρώπινης-AI συνεργασίας μπορεί να είναι αιτία και για γιορτή και για ανησυχία,既然 το πρόβλημα που το AI προσπαθεί να λύσει, επιχείρημα, είναι άνθρωποι.

Ωστόσο, η εργασία των συγγραφέων καθιστά επίσης σαφές ότι υπάρχουν εμφυτεύματα και κρίσιμες διαφωνίες μεταξύ AI και ανθρώπων σχετικά με ποιότητα, οι οποίες μπορεί να καθοριστούν, από τους καταναλωτές, ως μια αδιαμφισβήτητη ανθρώπινη концепция.

 

* Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση Παρασκευή, 13 Φεβρουαρίου 2026

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]