Η γωνία του Anderson

Γιατί τα Συστήματα AI Δυσκολεύονται να Συνεχίσουν một Εργασία που Έχει Ξεκινήσει Άλλος

mm
AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

Αν και τα συστήματα AI μπορούν να λύσουν σύνθετα προβλήματα, μια νέα μελέτη δείχνει ότι δυσκολεύονται να συνεχίσουν την εργασία που έχει ξεκινήσει άλλος, οδηγώντας σε διπλό εργατικό φορτίο, αργότερη πρόοδο και μεγαλύτερο κόστος.

 

Ένα από τα πιο εξαντλητικά αλλά απαραίτητα καθήκοντα στη διαχείριση συστημάτων AI και διεπαφών είναι ότι το σύστημα AI χρειάζεται να “βγάλει” στο σημείο εκκίνησης της ανταλλαγής, σχεδόν σε κάθε περίπτωση.

Ενώ δημοφιλή μοντέλα γλωσσών όπως το ChatGPT προσφέρουν μερή πρόσβαση σε “μόνιμες” προσαρμοσμένες μνήμες, η εφαρμογή είναι συνήθως μια δουλειά “τυχερή”; στο τέλος, είναι συνήθως ασφαλέστερο να αποδεχτείτε την προσπάθεια να δώσετε contexto στην εργασία για το σύστημα AI – τουλάχιστον, για να σταματήσετε να “μάντεψε” λάθος contexto από τον εκπαιδευμένο λατινικό χώρο.

Παίρνοντας το Πραγματικό Κόσμο

Η πρόκληση προηγήθηκε του AI, φυσικά; πολλές εταιρείες ήδη απαιτούν από το προσωπικό να διατηρούν τεκμηρίωση σχετικά με τις διαδικασίες που αναπτύσσουν ή βελτιώνουν (μερικώς για ομαλότερη ενσωμάτωση, αλλά επίσης για να αποφευχθεί η απόκτηση vliv από τους υπαλλήλους).

Ωστόσο, στην πράξη, είναι συχνά μόνο οι μεγαλύτερες και καλύτερα χρηματοδοτούμενες εταιρείες που τιμούν την υποχρέωση να δημιουργούν, ενημερώνουν και διατηρούν τεκμηρίωση. Πολύ συχνά, αντίθετα, οι υπάλληλοι που απαιτείται να πάρουν την εργασία των άλλων δίνονται μια εργασία “ντετέκτιβ” που απαιτεί από αυτούς να αντιγράψουν με προσοχή το χρονοδιάγραμμα που οδήγησε στην εγκαταλελειμμένη εργασία που τους έχει δοθεί.

Ανεπιφύλακτα, η τεκμηρίωση θα σώσει ημέρες, εβδομάδες ή ακόμη και μήνες εργασίας – αν μόνο ήταν μια οικονομικά ορθολογική πρόταση.

Ωστόσο, όπου τα συστήματα AI είναι οι оперативοι που ενδιαφέρονται, μπορεί να υπάρχει μεγαλύτερος χώρος για να λυθεί το πρόβλημα.

Παράδοση

Το βάρος της “ατεκμηρίωσης” quantified σε μια νέα έρευνα από τις ΗΠΑ, η οποία ονομάζει το πρόβλημα χρέος παράδοσης.

Εάν το τεχνικό χρέος είναι το σύνδρομο όπου οι γρήγορες και φτηνές λύσεις σήμερα οδηγούν σε εύθραυστες ή δύσκολες να διατηρηθούν λύσεις στο μέλλον, τότε το χρέος παράδοσης ορίζει το κόστος ανακάλυψης – την εγκληματολογική ανασκαφή των βημάτων ενός εργαζόμενου ή οντότητας που δεν είναι διαθέσιμη για να συμβουλεύσει (εχθρική απόλυση, πολύ meşgul, νεκρός, κ.λπ.) ή αλλιώς δεν είναι σε θέση να συμβουλεύσει (για παράδειγμα, ένα LLM που έχει ήδη απορρίψει το contexto που οδήγησε στην τρέχουσα κατάσταση της εργασίας).

Η νέα μελέτη – μια συνεργασία μεταξύ ανεξάρτητων και ερευνητών του Georgia State University – ασχολείται με το χρέος παράδοσης όπως εφαρμόζεται στα κωδικοποιητές που έχουν ανατεθεί να πάρουν την εργασία από όπου άλλη συνεδρία, άτομο ή οντότητα έχει σταματήσει σε μια βάση κώδικα.

Ένα από τα στόχια της εργασίας είναι να καθορίσει ακριβώς πόση τεκμηρίωση είναι απαραίτητη για να μειώσει το χρέος παράδοσης και ποιες διαδικασίες και πρωτόκολλα θα μπορούσαν να συστηθούν ως τυποποιημένη πρακτική στο μέλλον, για να ελαττώσουν το ζήτημα.

Προβλήματα Προϋπολογισμού

Σε ένα ιδανικό κόσμο, θα μπορούσαμε να ορίσουμε το logging σε “verbose” και να δώσουμε στον νεοεισερχόμενο πράκτορα (αυτόν που πάρει την εργασία) τα logs σχετικά με την ατελείωτη εργασία.

Ωστόσο, η ανάλυση ενός τέτοιου όγκου δεδομένων σε χρήσιμα δεδομένα θα ήταν καιροβόρα και θα έτρωγε επίσης τους περιορισμούς του προϋπολογισμού – καθώς και τους περιορισμούς του χώρου αποθήκευσης.

Αυτή είναι μια πρόβλημα προϋπολογισμού, γιατί η χρήση raw dumps είναι εξαντλητική, ενώ η χρήση curated logs είναι λιγότερο confusingle, αλλά απαιτεί προηγούμενη δέσμευση πόρων.

Σωστές, αφιερωμένες σημειώσεις θα ήταν πολύ αποτελεσματικές για να φέρουν τον “παράδοσης artist” στο σημείο εκκίνησης, αλλά με το κόστος μιας ακόμη μεγαλύτερης δέσμευσης προσπάθειας – προσπάθειας που μπορεί να μην χρειαστεί ποτέ, αν η λογική της εργασίας αποδειχθεί αυτοφανής, ή αν η εργασία εγκαταλειφθεί, ή δεν αναθεωρηθεί ποτέ ξανά.

Οι συγγραφείς της νέας εργασίας, με τίτλο Χρέος Παράδοσης: Το Κόστος Ανακάλυψης Όταν Κωδικοποιητές Πάρουν την Εργασία από Διακοπείσες Εργασίες, έχουν εξετάσει όλα αυτά τα σενάρια και έχουν προσαρμόσει υφιστάμενους μοντέλους εργασιών σε νέους τρόπους για να μετρήσουν και να αντιμετωπίσουν το χρέος παράδοσης. Αν και η εργασία ασχολείται συγκεκριμένα με κωδικοποιητές, μπορεί να δείξει χρήσιμους δρόμους προς τα εμπρός σε ευρύτερους контекστ AI και σε πρωτόκολλα τεκμηρίωσης.

Οι συγγραφείς δηλώνουν:

‘Το χρέος παράδοσης προκύπτει όταν ένας πράκτορας κάνει ορατό πρόοδο αλλά αφήνει κατάσταση που ένας διάδοχος δεν μπορεί εύκολα να συνεχίσει από, όπως ασαφείς επεξεργασίες, αρχείο scratch, κρυφές υποθέσεις, ή λείπουν αποδεικτικά στοιχεία.’

‘Ένας δείκτης που βασίζεται μόνο στην τελική επίλυση δεν μπορεί να διακρίνει μεταξύ δαπανηρής ανακάλυψης και αποτελεσματικής συνέχειας.

‘Δύο προηγούμενοι πράκτορες μπορεί να αφήσουν το ίδιο σημείο ελέγχου, αλλά οι διάδοχοί τους μπορεί να αντιμετωπίσουν πολύ διαφορετικά κόστη συνέχειας: ένας μπορεί να συνεχίσει αμέσως, ενώ ένας άλλος πρέπει να ξοδέψει πολλές αλληλεπιδράσεις για να ανακαλύψει την πρόθεση από τα αρχείο scratch και την ατελείωτη ιστορία εντολών.’

Μέθοδος

Οι συγγραφείς ορίζουν προηγούμενο ως τον προηγούμενο πράκτορα (αυτόν που ξεκίνησε ή τελευταίος ανέλαβε την εργασία) και διάδοχο ως τον τρέχοντα πράκτορα (αυτόν που έχει ανατεθεί να πάρει την εργασία).

Για την υποστήριξη ενός βENCHMARK που σχεδιάστηκε για να μετρήσει το κόστος της μεταφοράς ατελείωτων εργασιών σε πράκτορες, 75 εργασίες από SWE-bench Verified μετατράπηκαν σε 181 παράδοση σενάρια, κάθε ένα από τα οποία αντιπροσωπεύει ένα σημείο όπου η εργασία είχε διακοπεί και είχε παραδοθεί σε einen διάδοχο πράκτορα. Τρεις διαφορετικοί διάδοχοι μοντέλων δοκιμάστηκαν σε 2.172 προσπάθειες.

Τα μοντέλα που χρησιμοποιήθηκαν, και ποικιλικά αναμιγμένα σε αυτές τις δοκιμές, ήταν Qwen, Gemma, και Devstral.

Οι πειραματικές δοκιμές εξέτασαν τέσσερις επίπεδα κληρονομούμενων πληροφοριών: στην πιο περιοριστική ρύθμιση, ο διάδοχος έλαβε μόνο την κατάσταση του repository (εφфективικά, περπατώντας σε μια ατεκμηρίωτη “περιοχή καταστροφής”). Άλλες ρυθμίσεις παρείχαν αυξανόμενη λεπτομέρεια, από activity traces και command histories, σε συμπυκνωμένες περίληψεις που περιγράφουν τι είχε ήδη προσπαθήσει και μάθει:

Repository μόνο

Ο διάδοχος λαμβάνει μόνο το repository και την περιγραφή της εργασίας, χωρίς κανένα αρχείο των προηγούμενων ενεργειών, αποφάσεων, ή αποτυχημένων προσπαθειών.

Raw trace

Ο διάδοχος λαμβάνει την πλήρη ιστορία του προηγούμενου, εκθέτοντας κάθε εντολή, παρατήρηση, επεξεργασία, επιτυχία, και αποτυχία.

Σημειώσεις περίληψης

Ο διάδοχος λαμβάνει μια περίληψη σε φυσική γλώσσα που παράγεται από την ιστορία δραστηριότητας του προηγούμενου, συμπυκνώνοντας τις βασικές πληροφορίες σε πρόταση.

Δομημένες σημειώσεις

Ο διάδοχος λαμβάνει ένα συμπυκνωμένο έγγραφο παράδοσης που περιέχει τυποποιημένα πεδία που περιγράφουν την κατάσταση της εργασίας, τις αλλαγές που έγιναν, και τα αποτελέσματα επαλήθευσης.

Αντί να επικεντρωθούν μόνο στο αν μια εργασία τελικά λύθηκε, η μελέτη σχεδιάστηκε για να μετρήσει το κόστος της συνέχειας, με προσοχή στην उपयोग εργαλείων, κατανάλωση token, και την ποσότητα της προσπάθειας που απαιτείται για να ανακατασκευαστεί η λογική πίσω από την προηγούμενη εργασία.

Τρεις ορισμούς ανίχνευσης σημείου παράδοσης και τρεις καταστάσεις παράδοσης ορίστηκαν για τις πειραματικές δοκιμές:

Ανίχνευση Σημείου Παράδοσης Κατάσταση Παράδοσης
Μετά την πρώτη επεξεργασία πηγαίου κώδικα. Μετά την πρώτη αλλαγή κώδικα. Ο πρώτος πράκτορας έχει ξεκινήσει να εργάζεται αλλά δεν έχει ελέγξει ακόμη αν η αλλαγή λειτουργεί. Χρειάζεται ολοκλήρωση. Η εργασία είναι ατελείωτη, και ο διάδοχος πρέπει να συνεχίσει να εργάζεται για να φτάσει σε μια σωστή λύση.
Μετά το πρώτο αποτέλεσμα επαλήθευσης. Ο πρώτος πράκτορας έχει ήδη τρέξει ένα τεστ ή βήμα επαλήθευσης, παρέχοντας κάποια απόδειξη για την πρόοδο. Ηδη λυμένο και διατηρημένο. Η εργασία έχει ουσιαστικά ολοκληρωθεί, και η δουλειά του διαδόχου είναι να αποφύγει να την σπάσει.
Μετά την πρώτη επεξεργασία μετά την αποτυχία. Ένα τεστ έχει αποτύχει και ο πρώτος πράκτορας έχει ήδη προσπαθήσει να απαντήσει με μια άλλη αλλαγή. Υπάρχουσα συμπεριφορά σπασμένη. Κάτι που λειτουργούσε πριν είναι τώρα σπασμένο.

Δεδομένα και Δοκιμές

Για να δημιουργηθούν πραγματικά σενάρια παράδοσης, το βENCHMARK των συγγραφέων κατασκευάστηκε από 75 εργασίες λογισμικού από SWE-Bench Verified, με έμφαση σε προβλήματα που συνήθως λαμβάνουν μεταξύ 15 λεπτών και 4 ωρών για να λυθούν.

Αντί να αξιολογούν μόνο τις ολοκληρωμένες εργασίες, οι ερευνητές κατέγραψαν πολλαπλά ενδιάμεσα checkpoints κατά τη διάρκεια της εργασίας, δημιουργώντας καταστάσεις όπου ένας πράκτορας AI έπρεπε να πάρει την εργασία από έναν άλλο:

Κατασκευή του βENCHMARK. Εβδομήντα πέντε SWE-bench Verified εργασίες επεκτάθηκαν σε 181 σενάρια παράδοσης, που καλύπτουν τρεις φάσεις της εργασίας, επισημασμένες σύμφωνα με την κατάσταση του repository την ώρα της παράδοσης, και αξιολογήθηκαν υπό τέσσερις συνθήκες ανταλλαγής πληροφοριών, παράγοντας 2.172 συνολικά δοκιμές διαδόχων πρακτόρων. Source - https://arxiv.org/pdf/2606.02875

Κατασκευή του βENCHMARK. Εβδομήντα πέντε SWE-bench Verified εργασίες επεκτάθηκαν σε 181 σενάρια παράδοσης, που καλύπτουν τρεις φάσεις της εργασίας, επισημασμένες σύμφωνα με την κατάσταση του repository την ώρα της παράδοσης, και αξιολογήθηκαν υπό τέσσερις συνθήκες ανταλλαγής πληροφοριών, παράγοντας 2.172 συνολικά δοκιμές διαδόχων πρακτόρων. Source

Επειδή κάθε εργασία θα μπορούσε να παράγει πολλά σενάρια παράδοσης, και κάθε παράδοση δοκιμάστηκε χρησιμοποιώντας τέσσερις διαφορετικές μορφές μεταφερόμενων πληροφοριών, το βENCHMARK επεκτάθηκε γρήγορα, με το τελικό σύνολο δεδομένων να αποτελείται από 181 διαφορετικά σενάρια παράδοσης, και 724 αξιολογήσεις διαδόχων πρακτόρων για κάθε μοντέλο διαδόχου, παράγοντας 2.172 συνολικά δοκιμές διαδόχων σε τρία διαφορετικά συστήματα AI που δοκιμάστηκαν.

Ένα περιβάλλον κωδικοποιητή OpenHands-τύπου χρησιμοποιήθηκε για τις δοκιμές, με ενέργειες τερματικού, παγίωση repository σε σημεία παράδοσης, επεξεργασία αρχείων, και επίσημη επαλήθευση από το βENCHMARK SWE-Bench.

Στη κύρια μελέτη, τα σημεία παράδοσης προέρχονται όλα από Qwen-βασισμένες προηγούμενες εκτελέσεις, για να παρέχουν ένα σταθερό σημείο εκκίνησης για να αξιολογηθεί η διαφορά μεταξύ των διαφορετικών συνδυασμών πρακτόρων και των ποικίλων σενάριων.

Δοκιμές διαδόχων που δοκιμάστηκαν ήταν Qwen-to-Qwen; Qwen-to-Gemma; και Qwen-to-Devstral.

Raw trace παρήγαγε τις μεγαλύτερες μειώσεις στη προσπάθεια του διαδόχου, μειώνοντας τα γεγονότα του πράκτορα κατά 57-59%, ενώ Σημειώσεις περίληψης και Δομημένες σημειώσεις μειώθηκαν τα γεγονότα κατά 20-46%. Η χρήση token prompt επίσης μειώθηκε σε όλες τις προσεγγίσεις, με μειώσεις που κυμαίνονταν από 42-63%:

Προβολή Δοκιμές Ποσοστό επίλυσης (Δ pp) Γεγονότα πράκτορα (Δ%) Token prompt (Δ%)
Qwen → Qwen
Repository μόνο 181 46.4% 99 1.63M
Raw trace 181 52.5% (+6.1 pp) 41 (-59%) 811k (-50%)
Σημειώσεις περίληψης 181 51.4% (+5.0 pp) 53 (-46%) 602k (-63%)
Δομημένες σημειώσεις 181 50.8% (+4.4 pp) 55 (-44%) 660k (-60%)
Qwen → Gemma
Repository μόνο 181 42.5% 49 738k
Raw trace 181 49.2% (+6.6 pp) 21 (-57%) 300k (-59%)
Σημειώσεις περίληψης 181 44.2% (+1.7 pp) 33 (-33%) 319k (-57%)
Δομημένες σημειώσεις 181 43.6% (+1.1 pp) 39 (-20%) 317k (-57%)
Qwen → Devstral
Repository μόνο 181 34.3% 175 3.94M
Raw trace 181 49.2% (+14.9 pp) 73 (-58%) 1.66M (-58%)
Σημειώσεις περίληψης 181 43.6% (+9.4 pp) 123 (-30%) 2.30M (-42%)
Δομημένες σημειώσεις 181 44.8% (+10.5 pp) 125 (-29%) 2.30M (-42%)

Κάτω από τις παραδόσεις Repository μόνο, οι διάδοχοι πράκτορες έπρεπε να ξοδέψουν επιπλέον αλληλεπιδράσεις για να ανακατασκευάσουν την πρόθεση του προηγούμενου, προηγούμενες αποδείξεις, και αποτυχημένες προσπάθειες. Raw trace, Σημειώσεις περίληψης, και Δομημένες σημειώσεις μετέφεραν μέρος αυτής της πληροφορίας trực tiếp, μειώνοντας την ποσότητα της ανακάλυψης που απαιτείται, αν και με το κόστος μεγαλύτερων αρχικών prompts.

Για να δοκιμάσουν αν οι κερδισμένοι ήταν γνήσιοι, κάθε πλούσια παράδοση αντιστοιχίστηκε με μια παράδοση repository μόνο που ξεκίνησε από το ίδιο σημείο. Σε όλα τα μοντέλα pairings, οι πλούσιες παραδόσεις μειώθηκαν συνεχώς την εργασία που απαιτείται από τους διαδόχους πρακτόρων.

Οι πλήρεις ιχνηλάτες παρήγαγαν τις μεγαλύτερες μειώσεις, ενώ οι σημειώσεις περίληψης και δομημένες σημειώσεις επίσης παρείχαν σημαντικές εξοικονομήσεις. Η επίδραση φάνηκε σε όλο το βENCHMARK και όχι να οδηγείται από quelques εξαιρετικές περιπτώσεις:

Προβολή Δοκιμές Γεγονότα πράκτορα (Δ%) 95% CI για Δ Γεγονότα Token prompt (Δ%)
Qwen → Qwen
Raw Trace 181 41 (-59%) [-50%, -42%] 798k (-51%)
Σημειώσεις περίληψης 181 53 (-46%) [-38%, -28%] 572k (-65%)
Δομημένες σημειώσεις 181 55 (-44%) [-34%, -24%] 646k (-60%)
Qwen → Gemma
Raw Trace 181 21 (-57%) [-47%, -33%] 300k (-59%)
Σημειώσεις περίληψης 181 33 (-33%) [-25%, -8%] 319k (-57%)
Δομημένες σημειώσεις 181 39 (-20%) [-18%, -1%] 317k (-57%)
Qwen → Devstral
Raw Trace 181 73 (-58%) [-45%, -22%] 1.65M (-58%)
Σημειώσεις περίληψης 181 123 (-30%) [-28%, -15%] 2.28M (-42%)
Δομημένες σημειώσεις 181 125 (-29%) [-28%, -17%] 2.29M (-42%)

Για να επιβεβαιώσουν ότι η επίδραση δεν οδηγούνταν από quelques εξαιρετικές περιπτώσεις, οι ερευνητές σύγκριναν κάθε παράδοση με μια αντίστοιχη παράδοση repository μόνο που ξεκίνησε από το ίδιο σημείο. Οι μειώσεις παρέμειναν συνεχείς σε όλα τα μοντέλα pairings, υποδεικνύοντας ότι τα οφέλη αντανακλούν ένα σημαντικό μοτίβο, και όχι quelques εξαιρετικές περιπτώσεις.

Πάρτε το Μακριά…

Σύντομα, οι συγγραφείς βρήκαν ότι όταν ένας πράκτορας AI παραδίδει μια εργασία σε έναν άλλο, ακόμη και απλές σημειώσεις βοηθούν τον δεύτερο πράκτορα να συνεχίσει πιο αποτελεσματικά.

Πλήρεις εγγραφές του τι συνέβη λειτουργούν καλύτερα, αλλά οποιαδήποτε πληροφορία παράδοσης είναι καλύτερη από το να αφήσει τον διάδοχο να ανακατασκευάσει όλα από τον κώδικα μόνο; και τα αποτελέσματα παραπάνω εικονογραφούν ότι η “πλήρης” προσέγγιση raw log έχει αναπόφευκτα υψηλότερο κόστος token.

Συμπέρασμα

Αν και το έγγραφο είναι απευθείας προς τους ερευνητές, με περιορισμένο ενδιαφέρον για τον καθημερινό αναγνώστη, η νέα εργασία αντιμετωπίζει ένα από τα πιο ενδιαφέροντα και επείγοντα προβλήματα σχετικά με την τρέχουσα κατάσταση της τέχνης στις διεπαφές και πρωτόκολλα ανθρώπου-AI.

Θα ήταν ευχάριστο αν οι παραδείγματα που αναπτύχθηκαν και οι εντυπώσεις που κερδήθηκαν σε αυτό το είδος της έρευνας θα μπορούσαν να επεκταθούν σε ένα ευρύτερο контекστ χρήσης AI.

Ένας επιπλέον δρόμος εξερεύνησης θα μπορούσε να είναι για μελλοντικά έργα να εξετάσουν τρόπους για να αξιολογήσουν ποιο επίπεδο τεκμηρίωσης θα μπορούσε να θεωρηθεί το ελάχιστο για ένα συγκεκριμένο έργο, με βάση τα χαρακτηριστικά και την περίπτωση χρήσης του. Ωστόσο, ακόμη και αυτή η λειτουργία, η οποία θα βοηθούσε να ρατιοποιήσει την δαπάνη χρόνου και χρημάτων, κοστίζει χρόνο και χρήματα; και έτσι το δίλημμα προϋπολογισμού που εμπλέκεται στα σενάρια τεκμηρίωσης παραμένει δύσκολο να αποφευχθεί.

 

* Προσωπικά, για τις συνεδρίες ChatGPT που γίνονται βαρύς και έχουν υπερβολικό contexto, έχω αρχίσει να εξάγω (με κάποια δυσκολία) ένα καθαρό PDF της συνομιλίας και να το χρησιμοποιώ ως σημείο εκκίνησης για μια νέα συνεδρία, η οποία γίνεται ‘μέρος 2’.

Δυστυχώς, αυτό δεν είναι το πιο προσιτό έγγραφο που έχω διαβάσει φέτος, και για αυτόν το λόγο δεν μπορώ να συστήσω στον αναγνώστη το αρχικό έργο, αν και τα διαγλωττισμένα αποτελέσματα παραμένουν ενδιαφέροντα.

Πρώτη δημοσίευση Τετάρτη, 3 Ιουνίου 2026

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]