Η γωνία του Anderson
Ανθρώπινος Κώδικας Από το 2020 Κατέστρεψε τους Vibe-Coded Agents σε Αγωνιστικούς Τεστ

Το ChatGPT και άλλα εργαλεία vibe-coding υποβεβληθηκαν σε τεστ σε σχεδόν 40.000 αγώνες – και ηττήθηκαν από τον κώδικα που γράφτηκε από φοιτητές πριν από την εφεύρεση των Μεγάλων Μοντέλων Γλώσσας.
Σε μια νέα μελέτη από το Ηνωμένο Βασίλειο, ερευνητές αντιπαρατέθηκαν ανθρώπινους κωδικοποιημένους πράκτορες με vibe-coded πράκτορες που αναπτύχθηκαν με τα τελευταία Μεγάλα Μοντέλα Γλώσσας (LLMs), όπως το ChatGPT-5 και το Claude, και διαπίστωσαν ότι οι πράκτορες που δημιουργήθηκαν χωρίς τη βοήθεια του AI νίκησαν πολύ εύκολα τις εκδόσεις που υποστηρίζονται από AI.
Και οι δύο ομάδες πρακτόρων δημιουργήθηκαν από διαφορετικές γενιές φοιτητών από το Εργαστήριο Τεχνητής Νοημοσύνης του Ομοσπονδιακού Τεχνολογικού Ινστιτούτου της Λωζανής. Οι μη-AI πράκτορες αναπτύχθηκαν ως μέρος του μαθήματος το 2020, δύο χρόνια πριν από την εφεύρεση του ChatGPT και την έναρξη της επανάστασης των LLM, ενώ οι νέοι πράκτορες δημιουργήθηκαν από τους τρέχοντες φοιτητές, με τη βοήθεια των τελευταίων και καλύτερων LLM που διατίθενται.
Ακόμη και με ένα ριγμένο παιχνίδι, οι vibe-coded λύσεις δεν μπορούσαν να κερδίσουν, και οι πέντε πρώτες θέσεις κατελήφθησαν συνεχώς από ‘ακατέργαστους’ πράκτορες, με την πλειοψηφία των LLM πρακτόρων (33 από 40) να ηττώνται εύκολα από ‘πολύ απλούς’ βασικούς πράκτορες, σε 38.304 αγώνες σε ένα τουρνουά, σε ένα ευρύ φάσμα μεταβλητών και περιστάσεων.
Το έγγραφο αναφέρει:
‘Η εργασία μας αποδεικνύει ότι ενώ τα state-of-the-art LLMs μπορούν να γεννήσουν κώδικα που τρέχει (δηλ. χωρίς σφάλματα σύνταξης), η γεννημένη λύση δεν είναι ανταγωνιστική με τις ανθρώπινες λύσεις σε διαστάσεις όπως η στρατηγική σχεδίαση, η βελτιστοποίηση ή η ανταγωνιστική πολυ-πράκτορας.
‘Έτσι, αυτή η εργασία φέρνει στο προσκήνιο αυτό το νέο μέτωπο στη γεννήση κώδικα, και στοχεύει να διευκολύνει την ανάπτυξη βεντσών, συνόλων δεδομένων και ανοιχτών πηγαίων που δίνουν έμφαση στη σύνθεση κώδικα που οδηγείται από τη σκέψη.’
Η πρόκληση που σχεδιάστηκε ήταν να συμμετάσχει δημιουργικά σε δημοπρασίες, σε eine ποικιλία στρατηγικών, και να διευθετήσει την логιστική της παράδοσης των κερδισμένων αντικειμένων στους νικητές.
Οι συγγραφείς σημειώνουν ότι ένας αριθμός πλεονεκτημάτων δόθηκε στα LLMs, όπως η παρέμβαση στον κώδικά τους για να βελτιώσουν την απόδοσή τους – ένα πλεονέκτημα που δεν επιτρεπόταν στον κώδικα της εποχής 2020.尽管如此, ακόμη και όταν παρέχονταν διορθωτικός κώδικας που θα είχε βελτιώσει σίγουρα τα αποτελέσματά τους, τα LLMs δεν μπορούσαν να τα αποδεχθούν ή να τα χρησιμοποιήσουν:
‘[Στο] μας βεστικό, ακόμη και όταν εκθέτουμε μια καλή λύση στο контέκστ, το LLM δεν μπορεί να τη χρησιμοποιήσει.
‘Αυτό το αποτέλεσμα επίσης θέτει ενδιαφέροντα ερωτήματα για τα όρια της μάθησης και της λύσης προβλημάτων σε σύνθετες καταστάσεις.’
Τα LLMs που χρησιμοποιήθηκαν στο τεστ ήταν GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1, ΚΑΙ DeepSeek R1*.
Το νέο έγγραφο έχει τον τίτλο Μπορεί το Vibe Coding να Νικήσει τους Φοιτητές του Μεταπτυχιακού; Ένας Αγώνας LLM vs. Ανθρώπινου Κώδικα σε Αγωνιστική Στρατηγική, και προέρχεται από έναν συγγραφέα στο Πανεπιστήμιο του Southampton και έναν άλλον στο Πανεπιστήμιο του Oxford και το Ινστιτούτο Alan Turing. Η βεστική θα κυκλοφορήσει σύντομα, όπως αναφέρουν οι συγγραφείς.
Μέθοδος
Οι συγγραφείς σημειώνουν ότι οι παραδοσιακές δοκιμές σε αυτή τη σφαίρα εστιάζουν σε προκλήσεις με σαφώς καθορισμένες δυαδικές λύσεις (σωστές ή λΑΘΟΣ), που επαληθεύονται μέσω τεστ μονάδας. Υποστηρίζοντας ότι αυτό δεν είναι ο ιδανικός τρόπος για να εξερευνηθούν τα όρια του κώδικα που υποστηρίζεται από LLM, οι συγγραφείς αντίθετα σχεδίασαν μια πιο σύνθετη πρόκληση, με πολλαπλά εσωτερικά βεστικά και ορόσημα, όπου η νίκη είναι δυνατή, αλλά μακριά από απλή:

Σύγκριση των τυπικών, unit-test-βασισμένων προσεγγίσεων (πάνω), και του πιο ανοιχτού σценαρίου πρόκλησης που σχεδιάστηκε από τους συγγραφείς (σε μπλε, κάτω). Πηγή
Η πρόκληση του Προβλήματος Δημοπρασιών, Παραλαβής και Παράδοσης (APDP) που χρησιμοποιήθηκε για τη μελέτη των συγγραφέων ήταν εν μέρει αυτο-επιλεγμένη, λόγω της διαθεσιμότητας eines σώματος εργασίας φοιτητών του 2020 από το Ελβετικό πανεπιστήμιο· εργασία που αποσκοπούσε στη δημιουργία αυτόματων πρακτόρων για την εργασία APDP, πριν από την ικανότητα να ενισχύσει την ανάπτυξη μέσω AI. Έτσι ήταν σχετικά εύκολο να ζητηθεί από τους σύγχρονους φοιτητές να εκτελέσουν την ίδια εργασία, αλλά να τους παρέχουν τα τρέχοντα εργαλεία.
Οι συγγραφείς ζήτησαν να αποφύγουν δημοφιλείς πλαισίες δοκιμών όπως HumanEval, BigCodeBench και WebDev Arena (μεταξύ πολλών άλλων), поскольку αυτή η κατηγορία δοκιμαστικών διαδικασιών έχει την τάση να υποφέρει από μόλυνση δεδομένων (δηλ. περιπτώσεις όπου το σύστημα μπορεί να έχει εκπαιδευτεί σε δεδομένα δοκιμής αντί να σέβεται ένα διαχωρισμό).
Το APDP είναι ένα δίωρο πρόβλημα λογιστικής που βασίζεται σε αντίστροφες δημοπρασίες και δίαυλος οχημάτων. Στο πρώτο στάδιο, οι πράκτορες ανταγωνίζονται για να κερδίσουν εργασίες παράδοσης υποβάλλοντας προσφορές για το πόσο θα πρέπει να πληρωθούν για την ολοκλήρωση κάθε μιας. Η προσφορά σε υψηλό ποσοστό σημαίνει απώλεια της εργασίας· η προσφορά σε χαμηλό ποσοστό μπορεί να σημαίνει απώλεια χρημάτων.
Στο δεύτερο στάδιο, κάθε πράκτορας πρέπει να δημιουργήσει einen αποτελεσματικό σχέδιο για την εκπλήρωση μόνο των εργασιών που κέρδισε, αναθέτοντας τις σε οχήματα με διαφορετικές ικανότητες και κόστη, υπό χρονικούς και πόρων περιορισμούς:

Στο APDP, οι εταιρείες συμμετέχουν σε αντίστροφες δημοπρασίες για εργασίες παράδοσης, και στη συνέχεια βελτιστοποιούν τις διαδρομές οχημάτων για να εκπληρώσουν μόνο τις εργασίες που κέρδισαν, με στόχο την μεγιστοποίηση του κέρδους.
Ο στόχος δεν είναι απλά να ολοκληρώσουν τις εργασίες, αλλά να μεγιστοποιήσουν το συνολικό κέρδος προβλέποντας ποια πακέτα εργασιών θα δουλέψουν καλύτερα μαζί, και προβλέποντας τις στρατηγικές των αντιπάλων που προσπαθούν να κάνουν το ίδιο.
Το βασικό πρόβλημα παράδοσης είναι NP-δύσκολο, δηλ. δεν υπάρχει αλγόριθμος που μπορεί να βρει την καλύτερη λύση σε 合理 χρόνο καθώς ο αριθμός των εργασιών αυξάνεται. Αυτό καθιστά την βίαιη προσέγγιση μη εφικτή, και αναγκάζει τους πράκτορες να ανταλλάξουν ακρίβεια για ταχύτητα.
Ο Αγώνας Έχει Ξεκινήσει
Η αξιολόγηση των συγγραφέων σύγκρινε 40 LLM-κωδικοποιημένους πράκτορες με 17 ανθρώπινους κωδικοποιημένους πράκτορες σε μια σειρά από αγώνες. Κάθε ένας από τους 12 αγώνες χρησιμοποιούσε eine διαφορετική συνδυασμό τεσσάρων τοπολογιών οδικών δικτύων, και αποτελούνταν από όλους-παν-πάν ζευγαρώματα, με πράκτορες που αντιμετωπίζουν κάθε άλλον αντίπαλο δύο φορές: μία φορά ελέγχοντας κάθε eine από δύο εταιρείες, με διαφορετικά οχήματα.
Αυτή η ρύθμιση έδωσε 3.192 αγώνες ανά τουρνουά, συνολικά 38.304 αγώνες. Σε κάθε αγώνα, 50 εργασίες παράδοσης δημοπρατήθηκαν, που ορίστηκαν από τους σημεία παραλαβής και παράδοσης και βάρος, και τραβήχτηκαν τυχαία σε οδικά σχέδια που μοντελοποιήθηκαν στη Σουηδία, Γαλλία, Μεγάλη Βρετανία και Ολλανδία:

Απλοποιημένα οδικά δίκτυα που χρησιμοποιήθηκαν στο τουρνουά: Μεγάλη Βρετανία (πάνω αριστερά), Ελβετία (πάνω δεξιά), Ολλανδία (κάτω αριστερά), και Γαλλία (κάτω δεξιά). Μπλε και κόκκινα τετράγωνα σημειώνουν εργασίες παραλαβής και παράδοσης. Χρωματισμένα τρίγωνα δείχνουν τις τρέχουσες θέσεις των οχημάτων των πρακτόρων.
Οι φοιτητές πράκτορες επιλέχθηκαν από ένα τουρνουά φοιτητών το 2020. Όγδοι προέρχονταν από τους κορυφαίους επιδότες σε ένα τελικό μονό ελιμιναção, και τέσσερις επιπλέον επιλέχθηκαν για την ισχυρή απόδοση τους ενάντια στους βασικούς πράκτορες σε αγώνες.
Οι βασικοί πράκτορες ακολούθησαν σταθερές ευριστικές. Απλό υπολόγισε τη συνολική απόσταση και προσέφερε ανάλογα, χρησιμοποιώντας μόνο ένα όχημα και αγνοώντας τη δέσμη; ExpCostFixedBid προσομοίωσε 10 τυχαίες εργασίες, και προσέφερε το μέσο όρο της марγινάλης κόστους; Ειλικρινής υπολόγισε το πραγματικό маргινάλε κόστος της εισαγωγής της εργασίας στο πρόγραμμα; Μοντέλο αντίπαλου έκανε το ίδιο, αλλά πρόσθεσε μια εκτίμηση του κόστους του αντίπαλου, προσέφερε το μέγιστο; και Ρίσκο-αναζητών συνδύασε μια χρονικά-εκπνέουσα προηγούμενη με ζωντανούς εκτιμήσεις κόστους και μοντέλο αντίπαλου – ξανά, προσέφερε το υψηλότερο από τα δύο.
Η αξιολόγηση περιελάμβανε 40 LLM-κωδικοποιημένους πράκτορες που κατασκευάστηκαν χρησιμοποιώντας το (παραπάνω αναφερθέν) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro, και DeepSeek R1. Κάθε μοντέλο προτράπηκε με πέντε διαφορετικές στρατηγικές, εφαρμοσμένες δύο φορές ανά μοντέλο.
Δύο στρατηγικές χρησιμοποιούσαν στατικές προτροπές γραμμένες από διαφορετικούς συγγραφείς, ενώ μια τρίτη ζήτησε από το μοντέλο να αυτο-ανακλήθηκε και να αναθεώρησε την δική του έξοδο; μια άλλη εμπλέκει κριτική και αναθεώρηση από ένα ξεχωριστό LLM. Η τελική στρατηγική χρησιμοποίησε το GPT-4 για να συνθέσει μια νέα προτροπή αναθεωρώντας όλες τις τέσσερις προηγούμενες προσεγγίσεις.
Η βασική προτροπή αντανακλούσε την αρχική εργασία φοιτητή, περιγράφοντας το περιβάλλον παράδοσης και οδηγώντας το μοντέλο να προσέφερε και να σχεδιάσει για να μεγιστοποιήσει το κέρδος, χωρίς να βασίζεται σε μεθόδους υψηλής πολυπλοκότητας.
Όλοι οι LLM πράκτορες δοκιμάστηκαν σε αυτο-παιχνίδι και τουρνουά ρυθμίσεις μέχρι όλοι οι观察ABLE σφάλματα να επιδιορθωθούν. Η διόρθωση σφαλμάτων χειριζόταν αυτονομamente από τα LLMs themselves, προτρεπόμενα με τις πληροφορίες σφάλματος.
Κοινά LLM αποτυχίες, το έγγραφο σημειώνει, περιελάμβαναν παραβιάσεις ορίων χρόνου, αποτυχία να παραλάβουν ή να παραδώσουν ανατεθειμένες εργασίες, και παραβιάσεις ορίων χωρητικότητας οχήματος – σφάλματα που συχνά προέκυψαν από την αγνόηση ρητών οδηγιών, ή από ελαττωματική λογική επανασχεδίασης†:
‘Ένα άλλο κοινό ζήτημα που βρήκαμε (κυρίως με Gemini, Claude, και DeepSeek, και όχι τόσο με GPT) είναι ότι khá συχνά το LLM θα αποτύχει να επιλύσει ένα σφάλμα.
‘Για παράδειγμα, ένας πράκτορας θα αποτύχει συνεχώς να επιλύσει ένα σφάλμα, παρά πολλαπλά (π.χ. 5 − 15) κύκλους προτροπής του LLM με το σφάλμα και λήψη της ενημερωμένης έκδοσης του κώδικα.
‘Η μόνη λύση που βρήκαμε για τέτοιες περιπτώσεις (όπου το LLM επαναλαμβάνει να αποτύχει να επιλύσει το ίδιο σφάλμα) είναι να ξαναρχίσω από την αρχή. Συνολικά, παρατηρήσαμε την ανάγκη για σημαντική χειροκίνητη προσπάθεια για να επιτύχουμε απαλλαγμένο από σφάλματα κώδικα. Έπρεπε να γεννήσουμε σημαντικά περισσότερους πράκτορες για να πάρουμε τους 40 απαλλαγμένους από σφάλματα που αξιολογήσαμε.’
Τα αποτελέσματα που εμφανίζονται παρακάτω συνοψίζουν αποτελέσματα από 12 διπλούς γύρους τουρνουά, που καλύπτουν τέσσερις τοπολογίες δικτύων και τρεις τουρνουά ανά τοπολογία, που έδωσαν σχεδόν 40.000 αγώνες:
| Πράκτορας | Μέσος Όρος #Νίκες / Τουρ | Τυπική Απόκλιση #Νίκες / Τουρ | Μέσος Όρος #Ήττες / Τουρ | Τυπική Απόκλιση #Ήττες / Τουρ | Συνολικές Νίκες | Συνολικές Ήττες | Ποσοστό Νικών |
|---|---|---|---|---|---|---|---|
| Φοιτητής 1 | 108.167 | 1.193 | 3.833 | 1.193 | 1298 | 46 | 0.9658 |
| Φοιτητής 2 | 104.917 | 2.539 | 7.083 | 2.539 | 1259 | 85 | 0.9368 |
| Φοιτητής 3 | 103.917 | 2.466 | 8.083 | 2.466 | 1247 | 97 | 0.9278 |
| Φοιτητής 4 | 103.25 | 1.815 | 8.75 | 1.815 | 1239 | 105 | 0.9219 |
| Φοιτητής 5 | 96.5 | 2.908 | 15.5 | 2.908 | 1158 | 186 | 0.8616 |
| LLM(O, IR, 1) | 95.417 | 2.314 | 16.583 | 2.314 | 1145 | 199 | 0.8519 |
| LLM(O, A2, 1) | 94.583 | 2.314 | 17.417 | 2.314 | 1135 | 209 | 0.8445 |
| Φοιτητής 6 | 93.167 | 1.899 | 18.833 | 1.899 | 1118 | 226 | 0.8318 |
| Φοιτητής 7 | 93.167 | 3.563 | 18.833 | 3.563 | 1118 | 226 | 0.8318 |
| LLM(O, A1, 1) | 86.083 | 3.029 | 25.917 | 3.029 | 1033 | 311 | 0.7686 |
| LLM(O, GEN, 2) | 84.083 | 6.947 | 27.917 | 6.947 | 1009 | 335 | 0.7507 |
| LLM(O, CR, 2) | 83.5 | 4.442 | 28.5 | 4.442 | 1002 | 342 | 0.7455 |
| Φοιτητής 8 | 83.417 | 4.122 | 28.583 | 4.122 | 1001 | 343 | 0.7448 |
| RiskSeeking | 82.417 | 3.343 | 29.583 | 3.343 | 989 | 355 | 0.7359 |
| LLM(O, GEN, 1) | 80.667 | 4.355 | 31.25 | 4.372 | 968 | 375 | 0.7208 |
| ModelOpponent | 80.583 | 3.26 | 31.417 | 3.26 | 967 | 377 | 0.7195 |
| LLM(D, A1, 1) | 79.417 | 3.965 | 32.583 | 3.965 | 953 | 391 | 0.7091 |
| ExpCostFixedBid | 77.167 | 4.951 | 34.833 | 4.951 | 926 | 418 | 0.689 |
| LLM(O, IR, 2) | 73.917 | 3.502 | 38 | 3.618 | 887 | 456 | 0.6605 |
| LLM(O, A1, 2) | 72.417 | 2.193 | 39.583 | 2.193 | 869 | 475 | 0.6466 |
| LLM(G, A1, 2) | 68.5 | 3.555 | 43.5 | 3.555 | 822 | 522 | 0.6116 |
| LLM(A, GEN, 2) | 67.917 | 2.968 | 44.083 | 2.968 | 815 | 529 | 0.6064 |
| LLM(G, IR, 2) | 65.917 | 2.314 | 46.083 | 2.314 | 791 | 553 | 0.5885 |
| Φοιτητής 9 | 64.167 | 11.044 | 47.833 | 11.044 | 770 | 574 | 0.5729 |
| LLM(G, A1, 1) | 64 | 4.243 | 47.917 | 4.316 | 768 | 575 | 0.5719 |
| LLM(G, IR, 1) | 60.333 | 3.725 | 51.667 | 3.725 | 724 | 620 | 0.5387 |
| LLM(O, A2, 2) | 59.333 | 4.499 | 52.667 | 4.499 | 712 | 632 | 0.5298 |
| LLM(D, CR, 1) | 55.083 | 6.694 | 56.833 | 6.59 | 661 | 682 | 0.4922 |
| LLM(G, GEN, 2) | 53.167 | 3.664 | 58.833 | 3.664 | 638 | 706 | 0.4747 |
| LLM(D, GEN, 2) | 52.083 | 9.06 | 59.917 | 9.06 | 625 | 719 | 0.465 |
| Honest | 50.583 | 3.848 | 61.417 | 3.848 | 607 | 737 | 0.4516 |
| Φοιτητής 10 | 48.833 | 2.98 | 63.167 | 2.98 | 586 | 758 | 0.436 |
| LLM(D, IR, 1) | 48.583 | 10.211 | 63.417 | 10.211 | 583 | 761 | 0.4338 |
| LLM(A, A1, 1) | 48 | 4.69 | 64 | 4.69 | 576 | 768 | 0.4286 |
| LLM(G, A2, 1) | 47.25 | 3.864 | 64.75 | 3.864 | 567 | 777 | 0.4219 |
| LLM(A, CR, 1) | 43.833 | 4.609 | 68.167 | 4.609 | 526 | 818 | 0.3914 |
| LLM(A, A1, 2) | 43.75 | 2.05 | 68.25 | 2.05 | 525 | 819 | 0.3906 |
| Φοιτητής 11 | 42.083 | 5.664 | 69.917 | 5.664 | 505 | 839 | 0.3757 |
| LLM(A, IR, 1) | 39.5 | 2.541 | 72.5 | 2.541 | 474 | 870 | 0.3527 |
| Naive | 36.75 | 1.712 | 75.25 | 1.712 | 441 | 903 | 0.3281 |
| Φοιτητής 12 | 36.333 | 1.775 | 75.667 | 1.775 | 436 | 908 | 0.3244 |
| LLM(D, A2, 1) | 33.917 | 2.193 | 78.083 | 2.193 | 407 | 937 | 0.3028 |
| LLM(A, GEN, 1) | 30.167 | 1.749 | 81.833 | 1.749 | 362 | 982 | 0.2693 |
| LLM(D, A2, 2) | 29.833 | 2.038 | 82.167 | 2.038 | 358 | 986 | 0.2664 |
| LLM(G, A2, 2) | 27 | 2.256 | 85 | 2.256 | 324 | 1020 | 0.2411 |
| LLM(A, A2, 1) | 26.333 | 0.985 | 85.667 | 0.985 | 316 | 1028 | 0.2351 |
| LLM(O, CR, 1) | 25 | 3.411 | 87 | 3.411 | 300 | 1044 | 0.2232 |
| LLM(A, IR, 2) | 24.333 | 8.542 | 87.667 | 8.542 | 292 | 1052 | 0.2173 |
| LLM(A, A2, 2) | 24 | 1.809 | 88 | 1.809 | 288 | 1056 | 0.2143 |
| LLM(A, CR, 2) | 23.333 | 1.557 | 88.667 | 1.557 | 280 | 1064 | 0.2083 |
| LLM(D, GEN, 1) | 22.5 | 1.784 | 89.5 | 1.784 | 270 | 1074 | 0.2009 |
| LLM(D, A1, 2) | 13.333 | 1.826 | 98.667 | 1.826 | 160 | 1184 | 0.119 |
| LLM(G, CR, 1) | 9.5 | 1.087 | 102.5 | 1.087 | 114 | 1230 | 0.0848 |
| LLM(G, GEN, 1) | 9.167 | 0.937 | 102.833 | 0.937 | 110 | 1234 | 0.0818 |
| LLM(D, IR, 2) | 7.75 | 0.622 | 104.25 | 0.622 | 93 | 1251 | 0.0692 |
| LLM(G, CR, 2) | 7.25 | 1.422 | 104.75 | 1.422 | 87 | 1257 | 0.0647 |
| LLM(D, CR, 2) | 5.667 | 0.985 | 106.333 | 0.985 | 68 | 1276 | 0.0506 |
Για контέκστ, κάθε πράκτορας έπαιξε 112 αγώνες ανά τουρνουά, οπότε το μέγιστο δυνατό μέσο όρο για νίκες ή ήττες ανά πράκτορα είναι 112. Τυπική απόκλιση (SD) αντανακλά τη μεταβλητότητα ανά τουρνουά. Ανθρώπινοι κωδικοποιημένοι πράκτορες εμφανίζονται με έντονα γράμματα. LLM-κωδικοποιημένοι πράκτορες σημειώνονται με το μοντέλο (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1), ακολουθούμενο από einen δύο-γραμμάτιο κωδικό προτροπής και έναν αριθμό που υποδεικνύει εάν ο πράκτορας είναι ο πρώτος ή ο δεύτερος που γεννήθηκε με αυτήν την προτροπή. Πηγή
Σχετικά με τα αποτελέσματα που εμφανίζονται παραπάνω, οι συγγραφείς αναφέρουν†:
‘Τα LLMs δεν παρήγαγαν αναμενόμενες/ανταγωνιστικές λύσεις ακόμη και σε απλούστερες παραλλαγές του προβλήματος APDP (παρά το γεγονός ότι ο κώδικας ήταν σε μεγάλο βαθμό απαλλαγμένος από σφάλματα σύνταξης). Αυτό υπογραμμίζει τη σημασία των βεντσών αξιολόγησης κώδικα που οδηγούνται από τη σκέψη που ξεπερνούν την αυτόματη συμπλήρωση και αναγνωρίζουν новые αδυναμίες των LLMs.’
‘Τα αποτελέσματά μας αποδεικνύουν μια σαφή υπεροχή των ανθρώπινων κωδικοποιημένων πρακτόρων: (i) οι πέντε πρώτες θέσεις κατέχονται συνεχώς από φοιτητές πράκτορες, και (ii) η πλειοψηφία των LLM πρακτόρων (33 από 40) ηττώνται από πολύ απλούς βασικούς πράκτορες (όπως η προσφορά σταθερής маргινάλης κόστους).’
‘Είναι σημαντικό να σημειωθεί ότι δεν διόρθωσαμε τον κώδικα των φοιτητών (ενώ διέτρεξαμε πλήρως το LLM κώδικα, και σε αυτο-παιχνίδι και τουρνουά ρυθμίσεις). Κάθε φορά που ένας φοιτητής πράκτορας κατέρρευε, αυτομάτως δίναμε τη νίκη στο LLM. Ένα μεγάλο αριθμός από αυτές τις καταρρεύσεις θα ήταν εύκολο να διορθωθούν (π.χ. πράκτορες που υπερέβησαν το όριο χρόνου), οπότε οι φοιτητές πράκτορες θα μπορούσαν потенτικά να κατατάσσονται ακόμη υψηλότερα.’
Ως μια περαιτέρω πείραμα, το GPT-5 Thinking προτράπηκε να βελτιώσει τον κώδικα του κορυφαίου ανθρώπινου πράκτορα, Φοιτητής 1; αλλά ο τώρα LLM-τροποποιημένος πράκτορας στη συνέχεια έπεσε στην δέκατη θέση, τώρα η χειρότερη από όλους τους ανθρώπινους βαθμούς. Αντί να βελτιώσει τη λύση, οι αλλαγές των LLMs την χειροτέρεψαν σχεδόν 20%.
Οι συγγραφείς καταλήγουν:
‘[Τα] αποτελέσματά μας υπογραμμίζουν σημαντικά όρια της γεννήσης κώδικα LLM, πιο αξιοσημείωτα τις περιορισμένες ικανότητες σκέψης και σχεδίασης ενώ γεννά κώδικα. Τα σύγχρονα LLMs μπορούν να παρέχουν κώδικα χωρίς σφάλματα σύνταξης που τρέχει, αλλά αυτό δεν είναι το βεστικό που πρέπει να χρησιμοποιούμε για να μετρήσουμε την πρόοδο προς την προηγμένη γενική AI.’
Συμπέρασμα
Οι συγγραφείς παρατηρούν ότι το vibe-coding έχει ενδυναμώσει ανθρώπους όλων των τεχνικών υποβάθρων, και το χαρακτηρίζουν ως μια θετική δύναμη. Ωστόσο, επίσης υποδηλώνουν ότι επειδή το vibe-coding έχει μόλις φτάσει, τα όριά του δεν είναι γνωστά, και μπορεί να υποτεθεί ότι είναι κάπως υψηλότερα από ό,τι μπορεί να αναμενθεί πραγματικά.
Κλείνουν την προσφορά τους καλώντας για μια μετατόπιση στόχου ‘από κώδικα που συντάσσεται σε κώδικα που ανταγωνίζεται’.
Ένα ερώτημα που ο τυχαίος αναγνώστης αυτού του ενδιαφέροντος νέου εγγράφου μπορεί να έχει είναι εάν οι συγγραφείς χτυπούν ψηλά ή χαμηλά,既然 η αγωνιστική εργασία που αναφέρεται είναι σημαντικά πιο σύνθετη και εμπλεκόμενη από το να βγάζει PowerShell scripts και άλλα είδη μικρής λειτουργικότητας και διορθώσεων για τις οποίες το vibe-coding είναι καλά-προσαρμοσμένο.
* Παρακαλώ σημειώστε ότι το έγγραφο αναφέρεται συνεχώς στο ‘DeepThink R1′, το οποίο φαίνεται να μην υπάρχει, εμφανιζόμενο μόνο σε quelques αναφορές στο διαδίκτυο (πιθανότατα από άλλους συγγραφείς που έχουν λανθασμένα γραφτεί ‘DeepSeek R1)’. Εάν αυτό είναι το λάθος μου, παρακαλώ επικοινωνήστε μαζί μου μέσω των πληροφοριών του προφίλ μου, και θα το διορθώσω.
† Τόνωση των συγγραφέων, όχι δική μου.
Πublished για πρώτη φορά την Τετάρτη, 26 Νοεμβρίου 2025. Τροποποιήθηκε 17:35 est για μορφοποίηση.












