El ángulo de Anderson
El código humano de 2020 destrozó a los agentes codificados por vibración en pruebas agénticas.

ChatGPT y otras herramientas de codificación de vibraciones se pusieron a prueba en casi 40,000 coincidencias, y perdieron ante el código de estudiantes de posgrado escrito antes de la invención de los modelos de lenguaje grandes.
En un nuevo estudio del Reino Unido, los investigadores enfrentaron a agentes codificados por humanos contra... codificado por vibraciones agentes desarrollados con los últimos modelos de lenguaje grande (LLM), como ChatGPT-5 y Claude, y descubrieron que los agentes creados sin la ayuda de IA superaban muy fácilmente a las versiones facilitadas por IA.
Ambos conjuntos de agentes fueron creados por estudiantes de distintas generaciones del Laboratorio de Inteligencia Artificial del Instituto Federal Suizo de Tecnología de Lausana. Los agentes sin IA se desarrollaron como parte de los cursos de 2020, dos años antes de la creación de ChatGPT y el inicio de la revolución de los LLM, mientras que los nuevos agentes fueron creados por estudiantes actuales, con la ayuda de los mejores y más recientes LLM disponibles.
Incluso con un juego manipulado, las soluciones codificadas por vibración no pudieron ganar, y los cinco primeros lugares estuvieron consistentemente en manos de agentes "brutos", con la mayoría de los agentes LLM (33 de 40) superados sin esfuerzo por agentes de base "muy simples", en 38,304 desafíos en un torneo, en una amplia cantidad de variables y circunstancias.
El documento dice:
'Nuestro trabajo demuestra que si bien los LLM de última generación pueden generar código que se ejecuta (es decir, libre de errores de sintaxis), la solución generada no es competitiva con las soluciones diseñadas por humanos en dimensiones como la planificación estratégica, la optimización o la competencia entre múltiples agentes.
'Por lo tanto, este trabajo trae a la vanguardia esta nueva frontera en la generación de código y tiene como objetivo facilitar el desarrollo de puntos de referencia, conjuntos de datos y líneas base de código abierto que enfaticen la síntesis de código basada en el razonamiento'.
El desafío planteado fue participar creativamente en subastas, a través de una variedad de estrategias, y organizar la logística de entrega de los artículos ganados a los ganadores.
Los autores señalan que se otorgaron diversas ventajas a los LLM, como la intervención en su código para mejorar su rendimiento, una ventaja que no se permitía en el código de la era 2020. A pesar de ello, incluso cuando se les proporcionó código correctivo que sin duda habría mejorado sus resultados, los LLM no pudieron aceptarlo ni utilizarlo:
'En nuestra evaluación comparativa, incluso cuando exponemos una buena solución en contexto, el LLM todavía no puede utilizarla.
'Este resultado también plantea interesantes cuestiones de investigación futura sobre los límites del aprendizaje en contexto y la resolución de problemas aumentada por recuperación en escenarios complejos'.
Los LLM utilizados en la prueba fueron Pensamiento GPT-5, Géminis 2.5 Pro, Claude Opus 4.1, Y Búsqueda profunda R1*.
La nuevo documento se titula ¿Puede Vibe Coding superar a los estudiantes de posgrado en informática? Un torneo de LLM vs. Human Coding sobre planificación estratégica orientada al mercado., y proviene de un autor de la Universidad de Southampton y otro de la Universidad de Oxford y el Instituto Alan Turing. El punto de referencia, afirman los autores, será publicado en breve.
Método
Los autores señalan que las pruebas tradicionales en este ámbito se centran en desafíos con soluciones binarias claramente definidas (correcta or incorrecto), verificado a través de pruebas unitariasAl argumentar que esta no es la forma ideal de explorar las limitaciones del código asistido por LLM, los autores idearon un escenario de desafío más complejo, con múltiples puntos de referencia e hitos internos, en el que la victoria es posible, pero nada sencilla:
![Comparación de los enfoques estándar basados en pruebas unitarias (arriba) y el escenario de desafío más abierto ideado por los autores (en azul, abajo). Fuente: [ https://arxiv.org/pdf/2511.20613 ]](https://www.unite.ai/wp-content/uploads/2025/11/figure-1-2.jpg)
Comparación de los enfoques estándar basados en pruebas unitarias (arriba) y el escenario de desafío más abierto ideado por los autores (en azul, abajo). Fuente
El Problema de Subasta, Recogida y Entrega (APDP) utilizado en el estudio de los autores fue en parte autoseleccionado, debido a la disponibilidad de un corpus de trabajos estudiantiles de 2020 de la universidad suiza; trabajos que buscaban crear agentes automatizados para la tarea APDP, antes de cualquier posibilidad de impulsar el desarrollo mediante IA. Por lo tanto, fue relativamente fácil asignar a estudiantes modernos el mismo encargo, pero con herramientas actuales.
Los autores intentaron evitar los marcos de prueba populares como evaluación humana, Banco de código grande y WebDev Arena (entre muchos otros), ya que esta clase de procedimientos de prueba tiende a sufrir contaminación de datos (es decir, instancias en las que el sistema puede tener entrenado con datos de prueba En lugar de respetar una split).
El APDP es un problema logístico de dos etapas basado en subastas inversas y enrutamiento de vehículosEn la primera etapa, los agentes compiten para ganar tareas de entrega presentando ofertas sobre el precio que deberían cobrar por completar cada una. Una oferta demasiado alta significa perder la tarea; una oferta demasiado baja puede significar perder dinero.
En la segunda etapa, cada agente debe crear un plan eficiente para cumplir únicamente las tareas que le corresponden, asignándolas a vehículos con diferentes capacidades y costos, bajo restricciones de tiempo y recursos:

En el APDP, las empresas ofertan en subastas inversas por tareas de entrega y luego optimizan las rutas de los vehículos para cumplir solo las tareas que ganan, con el objetivo de maximizar las ganancias.
El objetivo no es simplemente completar las tareas, sino maximizar el beneficio general anticipando qué paquetes de tareas funcionarán mejor juntos y prediciendo las estrategias de los competidores que intentan hacer lo mismo.
El punto de referencia APDP aumenta la dificultad de las tareas de generación de código al introducir una planificación estratégica a lo largo de una secuencia de subastas interdependientes, donde cada oferta reconfigura el panorama de opciones futuras; y, por lo tanto, requiere que los agentes razonen no sólo sobre los costos inmediatos, sino también sobre el posicionamiento, el tiempo y las consecuencias a largo plazo.
El problema central de la entrega es NP-duroEs decir, ningún algoritmo puede encontrar la mejor solución de forma fiable en un tiempo razonable a medida que aumenta el número de tareas. Esto hace que la fuerza bruta sea un enfoque inviable y obliga a los agentes a sacrificar precisión por velocidad.
La carrera está en marcha
La evaluación de los autores comparó 40 agentes codificados por LLM con 17 agentes codificados por humanos en una serie de torneos cara a cara. Cada uno de los 12 torneos utilizó una combinación diferente de cuatro topologías de red vial y consistió en todos contra todos emparejamientos, con agentes enfrentándose a cada oponente dos veces: una vez controlando cada una de dos compañías, con diferentes especificaciones de vehículos.
Esta configuración generó 3,192 partidas por torneo, con un total de 38 304. En cada partida, se subastaron 50 tareas de entrega, definidas por sus puntos de recogida y entrega, así como por su peso, y se sortearon aleatoriamente en trazados de carreteras basados en Suiza, Francia, Gran Bretaña y los Países Bajos.

Redes de carreteras simplificadas utilizadas en el torneo: Gran Bretaña (arriba a la izquierda), Suiza (arriba a la derecha), Países Bajos (abajo a la izquierda) y Francia (abajo a la derecha). Los cuadrados azules y rojos marcan las tareas de recogida y entrega. Los triángulos de colores muestran la posición actual de los vehículos de los agentes.
Los agentes estudiantiles fueron seleccionados en un torneo de cursos de 2020. Ocho fueron de los mejores en una final de eliminación simple, y cuatro más fueron elegidos por su excelente desempeño contra los agentes de base en partidos cara a cara.
Los agentes de referencia siguieron una pauta fija Heurística. Ingenuo calculó la distancia total y realizó la oferta correspondiente, utilizando solo un vehículo e ignorando la agrupación en lotes; Oferta fija de costo de exposición simuló 10 tareas aleatorias y ofertó el costo marginal promedio; Honesto calculó el costo marginal real de insertar la tarea en el cronograma; Modelo Oponente hizo lo mismo pero agregó una estimación del costo del oponente, ofertando el máximo; y Búsqueda de riesgos combinó un decaimiento temporal previo con una estimación de costos en vivo y un modelo del oponente, nuevamente ofertando el más alto de los dos.
La evaluación incluyó 40 agentes codificados con LLM, desarrollados con los programas GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro y DeepSeek R1 (antes mencionados). Cada modelo contó con cinco estrategias distintas, aplicadas dos veces por modelo.
Dos estrategias emplearon indicaciones estáticas escritas por diferentes autores, mientras que una tercera requirió que el modelo reflexionara sobre sí mismo y revisara su propio trabajo; otra implicó la crítica y revisión por parte de un LLM independiente. La última estrategia empleó GPT-4 para sintetizar una nueva indicación mediante la revisión de los cuatro enfoques anteriores.
La solicitud base reflejó la tarea original del estudiante, describiendo el entorno de entrega e instruyendo al modelo para que oferte y planifique para maximizar las ganancias, sin depender de métodos de alta complejidad.
Todos los agentes LLM se probaron tanto en modo de juego propio como en torneo hasta que se corrigieron todos los errores observables. La corrección de errores fue gestionada de forma autónoma por los propios LLM, avisados con la información del error.
Las fallas comunes del LLM, señala el documento, incluían violaciones de los límites de tiempo de espera, imposibilidad de recoger o entregar tareas asignadas e incumplimientos de las restricciones de capacidad del vehículo: errores que a menudo surgían por ignorar instrucciones explícitas o por una lógica de replanificación defectuosa.†:
'Otro problema común que encontramos (principalmente con Gemini, Claude y DeepSeek, y no tanto con GPT) es que, muy a menudo, LLM no lograba resolver un error.
'Por ejemplo, un agente siempre caducaba, a pesar de varios ciclos (por ejemplo, 5 a 15) de aviso al LLM con el error y de recibir la versión actualizada del código.
'La única solución que encontramos para tales situaciones (donde el LLM falla repetidamente al resolver exactamente el mismo error) es reiniciar desde ceroEn general, observamos la necesidad de esfuerzo manual significativo para lograr un código libre de erroresTuvimos que generar muchos más agentes para obtener los 40 libres de errores que evaluamos.
Los resultados que se muestran a continuación resumen los resultados de 12 torneos de doble ronda, que abarcan cuatro topologías de red y tres torneos por topología, y que arrojaron la mayor parte de 40 000 partidos:
| Agente | Promedio de victorias/giro | SD #Victorias / Gira | Promedio de pérdidas/gira | SD #Pérdidas / Gira | Victorias totales | Pérdidas Totales | Ratio de victorias |
|---|---|---|---|---|---|---|---|
| Estudiante 1 | 108.167 | 1.193 | 3.833 | 1.193 | 1298 | 46 | 0.9658 |
| Estudiante 2 | 104.917 | 2.539 | 7.083 | 2.539 | 1259 | 85 | 0.9368 |
| Estudiante 3 | 103.917 | 2.466 | 8.083 | 2.466 | 1247 | 97 | 0.9278 |
| Estudiante 4 | 103.25 | 1.815 | 8.75 | 1.815 | 1239 | 105 | 0.9219 |
| Estudiante 5 | 96.5 | 2.908 | 15.5 | 2.908 | 1158 | 186 | 0.8616 |
| LLM(O, IR, 1) | 95.417 | 2.314 | 16.583 | 2.314 | 1145 | 199 | 0.8519 |
| Maestría en Derecho (O, A2, 1) | 94.583 | 2.314 | 17.417 | 2.314 | 1135 | 209 | 0.8445 |
| Estudiante 6 | 93.167 | 1.899 | 18.833 | 1.899 | 1118 | 226 | 0.8318 |
| Estudiante 7 | 93.167 | 3.563 | 18.833 | 3.563 | 1118 | 226 | 0.8318 |
| Maestría en Derecho (O, A1, 1) | 86.083 | 3.029 | 25.917 | 3.029 | 1033 | 311 | 0.7686 |
| LLM(O, GEN, 2) | 84.083 | 6.947 | 27.917 | 6.947 | 1009 | 335 | 0.7507 |
| Maestría en Derecho (O, CR, 2) | 83.5 | 4.442 | 28.5 | 4.442 | 1002 | 342 | 0.7455 |
| Estudiante 8 | 83.417 | 4.122 | 28.583 | 4.122 | 1001 | 343 | 0.7448 |
| Búsqueda de riesgos | 82.417 | 3.343 | 29.583 | 3.343 | 989 | 355 | 0.7359 |
| LLM(O, GEN, 1) | 80.667 | 4.355 | 31.25 | 4.372 | 968 | 375 | 0.7208 |
| Modelo Oponente | 80.583 | 3.26 | 31.417 | 3.26 | 967 | 377 | 0.7195 |
| Maestría en Derecho (D, A1, 1) | 79.417 | 3.965 | 32.583 | 3.965 | 953 | 391 | 0.7091 |
| Oferta fija de costo de exposición | 77.167 | 4.951 | 34.833 | 4.951 | 926 | 418 | 0.689 |
| LLM(O, IR, 2) | 73.917 | 3.502 | 38 | 3.618 | 887 | 456 | 0.6605 |
| Maestría en Derecho (O, A1, 2) | 72.417 | 2.193 | 39.583 | 2.193 | 869 | 475 | 0.6466 |
| Maestría en Derecho (G, A1, 2) | 68.5 | 3.555 | 43.5 | 3.555 | 822 | 522 | 0.6116 |
| Maestría en Derecho (A, GEN, 2) | 67.917 | 2.968 | 44.083 | 2.968 | 815 | 529 | 0.6064 |
| Maestría en Derecho (G, IR, 2) | 65.917 | 2.314 | 46.083 | 2.314 | 791 | 553 | 0.5885 |
| Estudiante 9 | 64.167 | 11.044 | 47.833 | 11.044 | 770 | 574 | 0.5729 |
| Maestría en Derecho (G, A1, 1) | 64 | 4.243 | 47.917 | 4.316 | 768 | 575 | 0.5719 |
| Maestría en Derecho (G, IR, 1) | 60.333 | 3.725 | 51.667 | 3.725 | 724 | 620 | 0.5387 |
| Maestría en Derecho (O, A2, 2) | 59.333 | 4.499 | 52.667 | 4.499 | 712 | 632 | 0.5298 |
| Maestría en Derecho (D, CR, 1) | 55.083 | 6.694 | 56.833 | 6.59 | 661 | 682 | 0.4922 |
| Maestría en Derecho (G, GEN, 2) | 53.167 | 3.664 | 58.833 | 3.664 | 638 | 706 | 0.4747 |
| Maestría en Derecho (D, GEN, 2) | 52.083 | 9.06 | 59.917 | 9.06 | 625 | 719 | 0.465 |
| Honesto | 50.583 | 3.848 | 61.417 | 3.848 | 607 | 737 | 0.4516 |
| Estudiante 10 | 48.833 | 2.98 | 63.167 | 2.98 | 586 | 758 | 0.436 |
| Maestría en Derecho (D, IR, 1) | 48.583 | 10.211 | 63.417 | 10.211 | 583 | 761 | 0.4338 |
| Maestría en Derecho (A, A1, 1) | 48 | 4.69 | 64 | 4.69 | 576 | 768 | 0.4286 |
| Maestría en Derecho (G, A2, 1) | 47.25 | 3.864 | 64.75 | 3.864 | 567 | 777 | 0.4219 |
| Maestría en Derecho (A, CR, 1) | 43.833 | 4.609 | 68.167 | 4.609 | 526 | 818 | 0.3914 |
| Maestría en Derecho (A, A1, 2) | 43.75 | 2.05 | 68.25 | 2.05 | 525 | 819 | 0.3906 |
| Estudiante 11 | 42.083 | 5.664 | 69.917 | 5.664 | 505 | 839 | 0.3757 |
| Maestría en Derecho (A, IR, 1) | 39.5 | 2.541 | 72.5 | 2.541 | 474 | 870 | 0.3527 |
| Ingenuo | 36.75 | 1.712 | 75.25 | 1.712 | 441 | 903 | 0.3281 |
| Estudiante 12 | 36.333 | 1.775 | 75.667 | 1.775 | 436 | 908 | 0.3244 |
| Maestría en Derecho (D, A2, 1) | 33.917 | 2.193 | 78.083 | 2.193 | 407 | 937 | 0.3028 |
| Maestría en Derecho (A, GEN, 1) | 30.167 | 1.749 | 81.833 | 1.749 | 362 | 982 | 0.2693 |
| Maestría en Derecho (D, A2, 2) | 29.833 | 2.038 | 82.167 | 2.038 | 358 | 986 | 0.2664 |
| Maestría en Derecho (G, A2, 2) | 27 | 2.256 | 85 | 2.256 | 324 | 1020 | 0.2411 |
| Maestría en Derecho (A, A2, 1) | 26.333 | 0.985 | 85.667 | 0.985 | 316 | 1028 | 0.2351 |
| Maestría en Derecho (O, CR, 1) | 25 | 3.411 | 87 | 3.411 | 300 | 1044 | 0.2232 |
| Maestría en Derecho (A, IR, 2) | 24.333 | 8.542 | 87.667 | 8.542 | 292 | 1052 | 0.2173 |
| Maestría en Derecho (A, A2, 2) | 24 | 1.809 | 88 | 1.809 | 288 | 1056 | 0.2143 |
| Maestría en Derecho (A, CR, 2) | 23.333 | 1.557 | 88.667 | 1.557 | 280 | 1064 | 0.2083 |
| Maestría en Derecho (D, GEN, 1) | 22.5 | 1.784 | 89.5 | 1.784 | 270 | 1074 | 0.2009 |
| Maestría en Derecho (D, A1, 2) | 13.333 | 1.826 | 98.667 | 1.826 | 160 | 1184 | 0.119 |
| Maestría en Derecho (G, CR, 1) | 9.5 | 1.087 | 102.5 | 1.087 | 114 | 1230 | 0.0848 |
| Maestría en Derecho (G, GEN, 1) | 9.167 | 0.937 | 102.833 | 0.937 | 110 | 1234 | 0.0818 |
| Maestría en Derecho (D, IR, 2) | 7.75 | 0.622 | 104.25 | 0.622 | 93 | 1251 | 0.0692 |
| Maestría en Derecho (G, CR, 2) | 7.25 | 1.422 | 104.75 | 1.422 | 87 | 1257 | 0.0647 |
| Maestría en Derecho (D, CR, 2) | 5.667 | 0.985 | 106.333 | 0.985 | 68 | 1276 | 0.0506 |
Para contextualizar, cada agente jugó 112 partidos por torneo, por lo que el promedio máximo posible de victorias o derrotas por agente es de 112. La desviación estándar (DE) refleja la variabilidad entre torneos. Los agentes con codificación humana aparecen en negrita. Los agentes con codificación LLM se etiquetan por modelo (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1), seguido de un código de estrategia de dos letras para la indicación y un dígito que indica si el agente es el primero o el segundo generado con esa indicación. Fuente
En relación con los resultados mostrados anteriormente, los autores afirman†:
Los LLM no generaron código esperado/competitivo ni siquiera en variantes más simples del problema APDP (a pesar de que el código estaba prácticamente libre de errores de sintaxis). Esto subraya la importancia de los puntos de referencia de evaluación de código basados en el razonamiento que van más allá del autocompletado e identifican nuevas debilidades de los LLM.
'Nuestros resultados demuestran una clara superioridad de los agentes codificados por humanos: (i) El Los 5 primeros puestos los ocupan constantemente los agentes estudiantiles, y (ii) La mayoría de los agentes LLM (33 de 40) son superados por agentes de línea base muy simples. (como por ejemplo la oferta fija de costo esperado).
Es importante destacar que no depuramos el código de los estudiantes (aunque probamos y depuramos exhaustivamente el código de LLM, tanto en la configuración de juego propio como en la de torneo). Cada vez que un agente de estudiante fallaba, automáticamente le dábamos la victoria al LLM. Muchos de estos fallos serían fáciles de solucionar (por ejemplo, el tiempo de espera de los agentes), por lo que los agentes de estudiante podrían... rango aún más alto. "
Como experimento adicional, se impulsó el pensamiento GPT-5 para mejorar el código del agente humano de mayor rendimiento, Estudiante 1Pero el agente modificado por LLM cayó posteriormente al décimo puesto, ahora con la peor puntuación para humanos. En lugar de mejorar la solución, los cambios de LLM la degradaron casi un 20 %.
Los autores concluyen:
Nuestros resultados resaltan importantes limitaciones en la generación de código LLM, en particular sus limitadas capacidades de razonamiento y planificación durante la generación. Los LLM modernos pueden proporcionar código sin errores de sintaxis y ejecutable, pero ese no es el parámetro que deberíamos usar para medir el progreso hacia una IA general avanzada.
Conclusión
Los propios autores observan hacia el final del artículo que la codificación de vibraciones ha empoderado a personas de todos los niveles técnicos y caracterizan la práctica de forma positiva, como una fuerza niveladora. Sin embargo, también insinúan que, dado que la codificación de vibraciones es una práctica reciente, se desconocen sus límites y se puede suponer que son bastante más altos de lo que se puede esperar de forma realista.
Cierran su oferta pidiendo un cambio de objetivo.Del código que se compila al código que compite.
Una pregunta que el lector ocasional de este interesante artículo nuevo puede tener es si los autores están trabajando hacia arriba o hacia abajo, ya que la tarea de agencia en cuestión es considerablemente más compleja y complicada que generar scripts de PowerShell y otras formas de funcionalidades y correcciones menores para las que la codificación vibe es adecuada.
* Tenga en cuenta que el documento se refiere continuamente a 'DeepPiense si R1', que parece inexistente, y solo aparecen unas pocas referencias en internet (presumiblemente de otros autores que escribieron mal "DeepSeek R1"). Si este es mi error, por favor, contácteme a través de los datos de mi perfil y lo corregiré.
† El énfasis es del autor, no mío.
Primera publicación: miércoles 26 de noviembre de 2025. Modificado a las 17:35 (hora estándar del este) por motivos de formato.












