Η γωνία του Anderson

Ανθρώπινος Κώδικας Από το 2020 Κατέστρεψε τους Vibe-Coded Agents σε Αγωνιστικούς Τεστ

Published November 26, 2025

Updated April 1, 2026

Martin Anderson

AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

Το ChatGPT και άλλα εργαλεία vibe-coding υποβεβληθηκαν σε τεστ σε σχεδόν 40.000 αγώνες – και ηττήθηκαν από τον κώδικα που γράφτηκε από φοιτητές πριν από την εφεύρεση των Μεγάλων Μοντέλων Γλώσσας.

Σε μια νέα μελέτη από το Ηνωμένο Βασίλειο, ερευνητές αντιπαρατέθηκαν ανθρώπινους κωδικοποιημένους πράκτορες με vibe-coded πράκτορες που αναπτύχθηκαν με τα τελευταία Μεγάλα Μοντέλα Γλώσσας (LLMs), όπως το ChatGPT-5 και το Claude, και διαπίστωσαν ότι οι πράκτορες που δημιουργήθηκαν χωρίς τη βοήθεια του AI νίκησαν πολύ εύκολα τις εκδόσεις που υποστηρίζονται από AI.

Και οι δύο ομάδες πρακτόρων δημιουργήθηκαν από διαφορετικές γενιές φοιτητών από το Εργαστήριο Τεχνητής Νοημοσύνης του Ομοσπονδιακού Τεχνολογικού Ινστιτούτου της Λωζανής. Οι μη-AI πράκτορες αναπτύχθηκαν ως μέρος του μαθήματος το 2020, δύο χρόνια πριν από την εφεύρεση του ChatGPT και την έναρξη της επανάστασης των LLM, ενώ οι νέοι πράκτορες δημιουργήθηκαν από τους τρέχοντες φοιτητές, με τη βοήθεια των τελευταίων και καλύτερων LLM που διατίθενται.

Ακόμη και με ένα ριγμένο παιχνίδι, οι vibe-coded λύσεις δεν μπορούσαν να κερδίσουν, και οι πέντε πρώτες θέσεις κατελήφθησαν συνεχώς από ‘ακατέργαστους’ πράκτορες, με την πλειοψηφία των LLM πρακτόρων (33 από 40) να ηττώνται εύκολα από ‘πολύ απλούς’ βασικούς πράκτορες, σε 38.304 αγώνες σε ένα τουρνουά, σε ένα ευρύ φάσμα μεταβλητών και περιστάσεων.

Το έγγραφο αναφέρει:

‘Η εργασία μας αποδεικνύει ότι ενώ τα state-of-the-art LLMs μπορούν να γεννήσουν κώδικα που τρέχει (δηλ. χωρίς σφάλματα σύνταξης), η γεννημένη λύση δεν είναι ανταγωνιστική με τις ανθρώπινες λύσεις σε διαστάσεις όπως η στρατηγική σχεδίαση, η βελτιστοποίηση ή η ανταγωνιστική πολυ-πράκτορας.

‘Έτσι, αυτή η εργασία φέρνει στο προσκήνιο αυτό το νέο μέτωπο στη γεννήση κώδικα, και στοχεύει να διευκολύνει την ανάπτυξη βεντσών, συνόλων δεδομένων και ανοιχτών πηγαίων που δίνουν έμφαση στη σύνθεση κώδικα που οδηγείται από τη σκέψη.’

Η πρόκληση που σχεδιάστηκε ήταν να συμμετάσχει δημιουργικά σε δημοπρασίες, σε eine ποικιλία στρατηγικών, και να διευθετήσει την логιστική της παράδοσης των κερδισμένων αντικειμένων στους νικητές.

Οι συγγραφείς σημειώνουν ότι ένας αριθμός πλεονεκτημάτων δόθηκε στα LLMs, όπως η παρέμβαση στον κώδικά τους για να βελτιώσουν την απόδοσή τους – ένα πλεονέκτημα που δεν επιτρεπόταν στον κώδικα της εποχής 2020.尽管如此, ακόμη και όταν παρέχονταν διορθωτικός κώδικας που θα είχε βελτιώσει σίγουρα τα αποτελέσματά τους, τα LLMs δεν μπορούσαν να τα αποδεχθούν ή να τα χρησιμοποιήσουν:

‘[Στο] μας βεστικό, ακόμη και όταν εκθέτουμε μια καλή λύση στο контέκστ, το LLM δεν μπορεί να τη χρησιμοποιήσει.

‘Αυτό το αποτέλεσμα επίσης θέτει ενδιαφέροντα ερωτήματα για τα όρια της μάθησης και της λύσης προβλημάτων σε σύνθετες καταστάσεις.’

Τα LLMs που χρησιμοποιήθηκαν στο τεστ ήταν GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1, ΚΑΙ DeepSeek R1*.

Το νέο έγγραφο έχει τον τίτλο Μπορεί το Vibe Coding να Νικήσει τους Φοιτητές του Μεταπτυχιακού; Ένας Αγώνας LLM vs. Ανθρώπινου Κώδικα σε Αγωνιστική Στρατηγική, και προέρχεται από έναν συγγραφέα στο Πανεπιστήμιο του Southampton και έναν άλλον στο Πανεπιστήμιο του Oxford και το Ινστιτούτο Alan Turing. Η βεστική θα κυκλοφορήσει σύντομα, όπως αναφέρουν οι συγγραφείς.

Μέθοδος

Οι συγγραφείς σημειώνουν ότι οι παραδοσιακές δοκιμές σε αυτή τη σφαίρα εστιάζουν σε προκλήσεις με σαφώς καθορισμένες δυαδικές λύσεις (σωστές ή λΑΘΟΣ), που επαληθεύονται μέσω τεστ μονάδας. Υποστηρίζοντας ότι αυτό δεν είναι ο ιδανικός τρόπος για να εξερευνηθούν τα όρια του κώδικα που υποστηρίζεται από LLM, οι συγγραφείς αντίθετα σχεδίασαν μια πιο σύνθετη πρόκληση, με πολλαπλά εσωτερικά βεστικά και ορόσημα, όπου η νίκη είναι δυνατή, αλλά μακριά από απλή:

Σύγκριση των τυπικών, unit-test-βασισμένων προσεγγίσεων (πάνω), και του πιο ανοιχτού σценαρίου πρόκλησης που σχεδιάστηκε από τους συγγραφείς (σε μπλε, κάτω). Πηγή

Η πρόκληση του Προβλήματος Δημοπρασιών, Παραλαβής και Παράδοσης (APDP) που χρησιμοποιήθηκε για τη μελέτη των συγγραφέων ήταν εν μέρει αυτο-επιλεγμένη, λόγω της διαθεσιμότητας eines σώματος εργασίας φοιτητών του 2020 από το Ελβετικό πανεπιστήμιο· εργασία που αποσκοπούσε στη δημιουργία αυτόματων πρακτόρων για την εργασία APDP, πριν από την ικανότητα να ενισχύσει την ανάπτυξη μέσω AI. Έτσι ήταν σχετικά εύκολο να ζητηθεί από τους σύγχρονους φοιτητές να εκτελέσουν την ίδια εργασία, αλλά να τους παρέχουν τα τρέχοντα εργαλεία.

Οι συγγραφείς ζήτησαν να αποφύγουν δημοφιλείς πλαισίες δοκιμών όπως HumanEval, BigCodeBench και WebDev Arena (μεταξύ πολλών άλλων), поскольку αυτή η κατηγορία δοκιμαστικών διαδικασιών έχει την τάση να υποφέρει από μόλυνση δεδομένων (δηλ. περιπτώσεις όπου το σύστημα μπορεί να έχει εκπαιδευτεί σε δεδομένα δοκιμής αντί να σέβεται ένα διαχωρισμό).

Το APDP είναι ένα δίωρο πρόβλημα λογιστικής που βασίζεται σε αντίστροφες δημοπρασίες και δίαυλος οχημάτων. Στο πρώτο στάδιο, οι πράκτορες ανταγωνίζονται για να κερδίσουν εργασίες παράδοσης υποβάλλοντας προσφορές για το πόσο θα πρέπει να πληρωθούν για την ολοκλήρωση κάθε μιας. Η προσφορά σε υψηλό ποσοστό σημαίνει απώλεια της εργασίας· η προσφορά σε χαμηλό ποσοστό μπορεί να σημαίνει απώλεια χρημάτων.

Στο δεύτερο στάδιο, κάθε πράκτορας πρέπει να δημιουργήσει einen αποτελεσματικό σχέδιο για την εκπλήρωση μόνο των εργασιών που κέρδισε, αναθέτοντας τις σε οχήματα με διαφορετικές ικανότητες και κόστη, υπό χρονικούς και πόρων περιορισμούς:

Στο APDP, οι εταιρείες συμμετέχουν σε αντίστροφες δημοπρασίες για εργασίες παράδοσης, και στη συνέχεια βελτιστοποιούν τις διαδρομές οχημάτων για να εκπληρώσουν μόνο τις εργασίες που κέρδισαν, με στόχο την μεγιστοποίηση του κέρδους.

Ο στόχος δεν είναι απλά να ολοκληρώσουν τις εργασίες, αλλά να μεγιστοποιήσουν το συνολικό κέρδος προβλέποντας ποια πακέτα εργασιών θα δουλέψουν καλύτερα μαζί, και προβλέποντας τις στρατηγικές των αντιπάλων που προσπαθούν να κάνουν το ίδιο.

Το βασικό πρόβλημα παράδοσης είναι NP-δύσκολο, δηλ. δεν υπάρχει αλγόριθμος που μπορεί να βρει την καλύτερη λύση σε 合理 χρόνο καθώς ο αριθμός των εργασιών αυξάνεται. Αυτό καθιστά την βίαιη προσέγγιση μη εφικτή, και αναγκάζει τους πράκτορες να ανταλλάξουν ακρίβεια για ταχύτητα.

Ο Αγώνας Έχει Ξεκινήσει

Η αξιολόγηση των συγγραφέων σύγκρινε 40 LLM-κωδικοποιημένους πράκτορες με 17 ανθρώπινους κωδικοποιημένους πράκτορες σε μια σειρά από αγώνες. Κάθε ένας από τους 12 αγώνες χρησιμοποιούσε eine διαφορετική συνδυασμό τεσσάρων τοπολογιών οδικών δικτύων, και αποτελούνταν από όλους-παν-πάν ζευγαρώματα, με πράκτορες που αντιμετωπίζουν κάθε άλλον αντίπαλο δύο φορές: μία φορά ελέγχοντας κάθε eine από δύο εταιρείες, με διαφορετικά οχήματα.

Αυτή η ρύθμιση έδωσε 3.192 αγώνες ανά τουρνουά, συνολικά 38.304 αγώνες. Σε κάθε αγώνα, 50 εργασίες παράδοσης δημοπρατήθηκαν, που ορίστηκαν από τους σημεία παραλαβής και παράδοσης και βάρος, και τραβήχτηκαν τυχαία σε οδικά σχέδια που μοντελοποιήθηκαν στη Σουηδία, Γαλλία, Μεγάλη Βρετανία και Ολλανδία:

Απλοποιημένα οδικά δίκτυα που χρησιμοποιήθηκαν στο τουρνουά: Μεγάλη Βρετανία (πάνω αριστερά), Ελβετία (πάνω δεξιά), Ολλανδία (κάτω αριστερά), και Γαλλία (κάτω δεξιά). Μπλε και κόκκινα τετράγωνα σημειώνουν εργασίες παραλαβής και παράδοσης. Χρωματισμένα τρίγωνα δείχνουν τις τρέχουσες θέσεις των οχημάτων των πρακτόρων.

Οι φοιτητές πράκτορες επιλέχθηκαν από ένα τουρνουά φοιτητών το 2020. Όγδοι προέρχονταν από τους κορυφαίους επιδότες σε ένα τελικό μονό ελιμιναção, και τέσσερις επιπλέον επιλέχθηκαν για την ισχυρή απόδοση τους ενάντια στους βασικούς πράκτορες σε αγώνες.

Οι βασικοί πράκτορες ακολούθησαν σταθερές ευριστικές. Απλό υπολόγισε τη συνολική απόσταση και προσέφερε ανάλογα, χρησιμοποιώντας μόνο ένα όχημα και αγνοώντας τη δέσμη; ExpCostFixedBid προσομοίωσε 10 τυχαίες εργασίες, και προσέφερε το μέσο όρο της марγινάλης κόστους; Ειλικρινής υπολόγισε το πραγματικό маргινάλε κόστος της εισαγωγής της εργασίας στο πρόγραμμα; Μοντέλο αντίπαλου έκανε το ίδιο, αλλά πρόσθεσε μια εκτίμηση του κόστους του αντίπαλου, προσέφερε το μέγιστο; και Ρίσκο-αναζητών συνδύασε μια χρονικά-εκπνέουσα προηγούμενη με ζωντανούς εκτιμήσεις κόστους και μοντέλο αντίπαλου – ξανά, προσέφερε το υψηλότερο από τα δύο.

Η αξιολόγηση περιελάμβανε 40 LLM-κωδικοποιημένους πράκτορες που κατασκευάστηκαν χρησιμοποιώντας το (παραπάνω αναφερθέν) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro, και DeepSeek R1. Κάθε μοντέλο προτράπηκε με πέντε διαφορετικές στρατηγικές, εφαρμοσμένες δύο φορές ανά μοντέλο.

Δύο στρατηγικές χρησιμοποιούσαν στατικές προτροπές γραμμένες από διαφορετικούς συγγραφείς, ενώ μια τρίτη ζήτησε από το μοντέλο να αυτο-ανακλήθηκε και να αναθεώρησε την δική του έξοδο; μια άλλη εμπλέκει κριτική και αναθεώρηση από ένα ξεχωριστό LLM. Η τελική στρατηγική χρησιμοποίησε το GPT-4 για να συνθέσει μια νέα προτροπή αναθεωρώντας όλες τις τέσσερις προηγούμενες προσεγγίσεις.

Η βασική προτροπή αντανακλούσε την αρχική εργασία φοιτητή, περιγράφοντας το περιβάλλον παράδοσης και οδηγώντας το μοντέλο να προσέφερε και να σχεδιάσει για να μεγιστοποιήσει το κέρδος, χωρίς να βασίζεται σε μεθόδους υψηλής πολυπλοκότητας.

Όλοι οι LLM πράκτορες δοκιμάστηκαν σε αυτο-παιχνίδι και τουρνουά ρυθμίσεις μέχρι όλοι οι观察ABLE σφάλματα να επιδιορθωθούν. Η διόρθωση σφαλμάτων χειριζόταν αυτονομamente από τα LLMs themselves, προτρεπόμενα με τις πληροφορίες σφάλματος.

Κοινά LLM αποτυχίες, το έγγραφο σημειώνει, περιελάμβαναν παραβιάσεις ορίων χρόνου, αποτυχία να παραλάβουν ή να παραδώσουν ανατεθειμένες εργασίες, και παραβιάσεις ορίων χωρητικότητας οχήματος – σφάλματα που συχνά προέκυψαν από την αγνόηση ρητών οδηγιών, ή από ελαττωματική λογική επανασχεδίασης^†:

‘Ένα άλλο κοινό ζήτημα που βρήκαμε (κυρίως με Gemini, Claude, και DeepSeek, και όχι τόσο με GPT) είναι ότι khá συχνά το LLM θα αποτύχει να επιλύσει ένα σφάλμα.

‘Για παράδειγμα, ένας πράκτορας θα αποτύχει συνεχώς να επιλύσει ένα σφάλμα, παρά πολλαπλά (π.χ. 5 − 15) κύκλους προτροπής του LLM με το σφάλμα και λήψη της ενημερωμένης έκδοσης του κώδικα.

‘Η μόνη λύση που βρήκαμε για τέτοιες περιπτώσεις (όπου το LLM επαναλαμβάνει να αποτύχει να επιλύσει το ίδιο σφάλμα) είναι να ξαναρχίσω από την αρχή. Συνολικά, παρατηρήσαμε την ανάγκη για σημαντική χειροκίνητη προσπάθεια για να επιτύχουμε απαλλαγμένο από σφάλματα κώδικα. Έπρεπε να γεννήσουμε σημαντικά περισσότερους πράκτορες για να πάρουμε τους 40 απαλλαγμένους από σφάλματα που αξιολογήσαμε.’

Τα αποτελέσματα που εμφανίζονται παρακάτω συνοψίζουν αποτελέσματα από 12 διπλούς γύρους τουρνουά, που καλύπτουν τέσσερις τοπολογίες δικτύων και τρεις τουρνουά ανά τοπολογία, που έδωσαν σχεδόν 40.000 αγώνες:

Πράκτορας	Μέσος Όρος #Νίκες / Τουρ	Τυπική Απόκλιση #Νίκες / Τουρ	Μέσος Όρος #Ήττες / Τουρ	Τυπική Απόκλιση #Ήττες / Τουρ	Συνολικές Νίκες	Συνολικές Ήττες	Ποσοστό Νικών
Φοιτητής 1	108.167	1.193	3.833	1.193	1298	46	0.9658
Φοιτητής 2	104.917	2.539	7.083	2.539	1259	85	0.9368
Φοιτητής 3	103.917	2.466	8.083	2.466	1247	97	0.9278
Φοιτητής 4	103.25	1.815	8.75	1.815	1239	105	0.9219
Φοιτητής 5	96.5	2.908	15.5	2.908	1158	186	0.8616
LLM(O, IR, 1)	95.417	2.314	16.583	2.314	1145	199	0.8519
LLM(O, A2, 1)	94.583	2.314	17.417	2.314	1135	209	0.8445
Φοιτητής 6	93.167	1.899	18.833	1.899	1118	226	0.8318
Φοιτητής 7	93.167	3.563	18.833	3.563	1118	226	0.8318
LLM(O, A1, 1)	86.083	3.029	25.917	3.029	1033	311	0.7686
LLM(O, GEN, 2)	84.083	6.947	27.917	6.947	1009	335	0.7507
LLM(O, CR, 2)	83.5	4.442	28.5	4.442	1002	342	0.7455
Φοιτητής 8	83.417	4.122	28.583	4.122	1001	343	0.7448
RiskSeeking	82.417	3.343	29.583	3.343	989	355	0.7359
LLM(O, GEN, 1)	80.667	4.355	31.25	4.372	968	375	0.7208
ModelOpponent	80.583	3.26	31.417	3.26	967	377	0.7195
LLM(D, A1, 1)	79.417	3.965	32.583	3.965	953	391	0.7091
ExpCostFixedBid	77.167	4.951	34.833	4.951	926	418	0.689
LLM(O, IR, 2)	73.917	3.502	38	3.618	887	456	0.6605
LLM(O, A1, 2)	72.417	2.193	39.583	2.193	869	475	0.6466
LLM(G, A1, 2)	68.5	3.555	43.5	3.555	822	522	0.6116
LLM(A, GEN, 2)	67.917	2.968	44.083	2.968	815	529	0.6064
LLM(G, IR, 2)	65.917	2.314	46.083	2.314	791	553	0.5885
Φοιτητής 9	64.167	11.044	47.833	11.044	770	574	0.5729
LLM(G, A1, 1)	64	4.243	47.917	4.316	768	575	0.5719
LLM(G, IR, 1)	60.333	3.725	51.667	3.725	724	620	0.5387
LLM(O, A2, 2)	59.333	4.499	52.667	4.499	712	632	0.5298
LLM(D, CR, 1)	55.083	6.694	56.833	6.59	661	682	0.4922
LLM(G, GEN, 2)	53.167	3.664	58.833	3.664	638	706	0.4747
LLM(D, GEN, 2)	52.083	9.06	59.917	9.06	625	719	0.465
Honest	50.583	3.848	61.417	3.848	607	737	0.4516
Φοιτητής 10	48.833	2.98	63.167	2.98	586	758	0.436
LLM(D, IR, 1)	48.583	10.211	63.417	10.211	583	761	0.4338
LLM(A, A1, 1)	48	4.69	64	4.69	576	768	0.4286
LLM(G, A2, 1)	47.25	3.864	64.75	3.864	567	777	0.4219
LLM(A, CR, 1)	43.833	4.609	68.167	4.609	526	818	0.3914
LLM(A, A1, 2)	43.75	2.05	68.25	2.05	525	819	0.3906
Φοιτητής 11	42.083	5.664	69.917	5.664	505	839	0.3757
LLM(A, IR, 1)	39.5	2.541	72.5	2.541	474	870	0.3527
Naive	36.75	1.712	75.25	1.712	441	903	0.3281
Φοιτητής 12	36.333	1.775	75.667	1.775	436	908	0.3244
LLM(D, A2, 1)	33.917	2.193	78.083	2.193	407	937	0.3028
LLM(A, GEN, 1)	30.167	1.749	81.833	1.749	362	982	0.2693
LLM(D, A2, 2)	29.833	2.038	82.167	2.038	358	986	0.2664
LLM(G, A2, 2)	27	2.256	85	2.256	324	1020	0.2411
LLM(A, A2, 1)	26.333	0.985	85.667	0.985	316	1028	0.2351
LLM(O, CR, 1)	25	3.411	87	3.411	300	1044	0.2232
LLM(A, IR, 2)	24.333	8.542	87.667	8.542	292	1052	0.2173
LLM(A, A2, 2)	24	1.809	88	1.809	288	1056	0.2143
LLM(A, CR, 2)	23.333	1.557	88.667	1.557	280	1064	0.2083
LLM(D, GEN, 1)	22.5	1.784	89.5	1.784	270	1074	0.2009
LLM(D, A1, 2)	13.333	1.826	98.667	1.826	160	1184	0.119
LLM(G, CR, 1)	9.5	1.087	102.5	1.087	114	1230	0.0848
LLM(G, GEN, 1)	9.167	0.937	102.833	0.937	110	1234	0.0818
LLM(D, IR, 2)	7.75	0.622	104.25	0.622	93	1251	0.0692
LLM(G, CR, 2)	7.25	1.422	104.75	1.422	87	1257	0.0647
LLM(D, CR, 2)	5.667	0.985	106.333	0.985	68	1276	0.0506

Για контέκστ, κάθε πράκτορας έπαιξε 112 αγώνες ανά τουρνουά, οπότε το μέγιστο δυνατό μέσο όρο για νίκες ή ήττες ανά πράκτορα είναι 112. Τυπική απόκλιση (SD) αντανακλά τη μεταβλητότητα ανά τουρνουά. Ανθρώπινοι κωδικοποιημένοι πράκτορες εμφανίζονται με έντονα γράμματα. LLM-κωδικοποιημένοι πράκτορες σημειώνονται με το μοντέλο (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1), ακολουθούμενο από einen δύο-γραμμάτιο κωδικό προτροπής και έναν αριθμό που υποδεικνύει εάν ο πράκτορας είναι ο πρώτος ή ο δεύτερος που γεννήθηκε με αυτήν την προτροπή. Πηγή

Σχετικά με τα αποτελέσματα που εμφανίζονται παραπάνω, οι συγγραφείς αναφέρουν^†:

‘Τα LLMs δεν παρήγαγαν αναμενόμενες/ανταγωνιστικές λύσεις ακόμη και σε απλούστερες παραλλαγές του προβλήματος APDP (παρά το γεγονός ότι ο κώδικας ήταν σε μεγάλο βαθμό απαλλαγμένος από σφάλματα σύνταξης). Αυτό υπογραμμίζει τη σημασία των βεντσών αξιολόγησης κώδικα που οδηγούνται από τη σκέψη που ξεπερνούν την αυτόματη συμπλήρωση και αναγνωρίζουν новые αδυναμίες των LLMs.’

‘Τα αποτελέσματά μας αποδεικνύουν μια σαφή υπεροχή των ανθρώπινων κωδικοποιημένων πρακτόρων: (i) οι πέντε πρώτες θέσεις κατέχονται συνεχώς από φοιτητές πράκτορες, και (ii) η πλειοψηφία των LLM πρακτόρων (33 από 40) ηττώνται από πολύ απλούς βασικούς πράκτορες (όπως η προσφορά σταθερής маргινάλης κόστους).’

‘Είναι σημαντικό να σημειωθεί ότι δεν διόρθωσαμε τον κώδικα των φοιτητών (ενώ διέτρεξαμε πλήρως το LLM κώδικα, και σε αυτο-παιχνίδι και τουρνουά ρυθμίσεις). Κάθε φορά που ένας φοιτητής πράκτορας κατέρρευε, αυτομάτως δίναμε τη νίκη στο LLM. Ένα μεγάλο αριθμός από αυτές τις καταρρεύσεις θα ήταν εύκολο να διορθωθούν (π.χ. πράκτορες που υπερέβησαν το όριο χρόνου), οπότε οι φοιτητές πράκτορες θα μπορούσαν потенτικά να κατατάσσονται ακόμη υψηλότερα.’

Ως μια περαιτέρω πείραμα, το GPT-5 Thinking προτράπηκε να βελτιώσει τον κώδικα του κορυφαίου ανθρώπινου πράκτορα, Φοιτητής 1; αλλά ο τώρα LLM-τροποποιημένος πράκτορας στη συνέχεια έπεσε στην δέκατη θέση, τώρα η χειρότερη από όλους τους ανθρώπινους βαθμούς. Αντί να βελτιώσει τη λύση, οι αλλαγές των LLMs την χειροτέρεψαν σχεδόν 20%.

Οι συγγραφείς καταλήγουν:

‘[Τα] αποτελέσματά μας υπογραμμίζουν σημαντικά όρια της γεννήσης κώδικα LLM, πιο αξιοσημείωτα τις περιορισμένες ικανότητες σκέψης και σχεδίασης ενώ γεννά κώδικα. Τα σύγχρονα LLMs μπορούν να παρέχουν κώδικα χωρίς σφάλματα σύνταξης που τρέχει, αλλά αυτό δεν είναι το βεστικό που πρέπει να χρησιμοποιούμε για να μετρήσουμε την πρόοδο προς την προηγμένη γενική AI.’

Συμπέρασμα

Οι συγγραφείς παρατηρούν ότι το vibe-coding έχει ενδυναμώσει ανθρώπους όλων των τεχνικών υποβάθρων, και το χαρακτηρίζουν ως μια θετική δύναμη. Ωστόσο, επίσης υποδηλώνουν ότι επειδή το vibe-coding έχει μόλις φτάσει, τα όριά του δεν είναι γνωστά, και μπορεί να υποτεθεί ότι είναι κάπως υψηλότερα από ό,τι μπορεί να αναμενθεί πραγματικά.

Κλείνουν την προσφορά τους καλώντας για μια μετατόπιση στόχου ‘από κώδικα που συντάσσεται σε κώδικα που ανταγωνίζεται’.

Ένα ερώτημα που ο τυχαίος αναγνώστης αυτού του ενδιαφέροντος νέου εγγράφου μπορεί να έχει είναι εάν οι συγγραφείς χτυπούν ψηλά ή χαμηλά,既然 η αγωνιστική εργασία που αναφέρεται είναι σημαντικά πιο σύνθετη και εμπλεκόμενη από το να βγάζει PowerShell scripts και άλλα είδη μικρής λειτουργικότητας και διορθώσεων για τις οποίες το vibe-coding είναι καλά-προσαρμοσμένο.

* Παρακαλώ σημειώστε ότι το έγγραφο αναφέρεται συνεχώς στο ‘DeepThink R1′, το οποίο φαίνεται να μην υπάρχει, εμφανιζόμενο μόνο σε quelques αναφορές στο διαδίκτυο (πιθανότατα από άλλους συγγραφείς που έχουν λανθασμένα γραφτεί ‘DeepSeek R1)’. Εάν αυτό είναι το λάθος μου, παρακαλώ επικοινωνήστε μαζί μου μέσω των πληροφοριών του προφίλ μου, και θα το διορθώσω.

^† Τόνωση των συγγραφέων, όχι δική μου.

Πublished για πρώτη φορά την Τετάρτη, 26 Νοεμβρίου 2025. Τροποποιήθηκε 17:35 est για μορφοποίηση.

Related Topics:Advanced LLMs Agentic AI chatgpt Large Language Models (LLMs)LLM vibe coding

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]