El ángulo de Anderson

El código humano de 2020 destrozó a los agentes codificados por vibración en pruebas agénticas.

Publicado 26 de noviembre.

Martin anderson

Imagen generada por IA: un carruaje victoriano y caballos ganando la Fórmula 1 contra competidores de autos de carrera modernos. gpt-image-1.

ChatGPT y otras herramientas de codificación de vibraciones se pusieron a prueba en casi 40,000 coincidencias, y perdieron ante el código de estudiantes de posgrado escrito antes de la invención de los modelos de lenguaje grandes.

En un nuevo estudio del Reino Unido, los investigadores enfrentaron a agentes codificados por humanos contra... codificado por vibraciones agentes desarrollados con los últimos modelos de lenguaje grande (LLM), como ChatGPT-5 y Claude, y descubrieron que los agentes creados sin la ayuda de IA superaban muy fácilmente a las versiones facilitadas por IA.

Ambos conjuntos de agentes fueron creados por estudiantes de distintas generaciones del Laboratorio de Inteligencia Artificial del Instituto Federal Suizo de Tecnología de Lausana. Los agentes sin IA se desarrollaron como parte de los cursos de 2020, dos años antes de la creación de ChatGPT y el inicio de la revolución de los LLM, mientras que los nuevos agentes fueron creados por estudiantes actuales, con la ayuda de los mejores y más recientes LLM disponibles.

Incluso con un juego manipulado, las soluciones codificadas por vibración no pudieron ganar, y los cinco primeros lugares estuvieron consistentemente en manos de agentes "brutos", con la mayoría de los agentes LLM (33 de 40) superados sin esfuerzo por agentes de base "muy simples", en 38,304 desafíos en un torneo, en una amplia cantidad de variables y circunstancias.

El documento dice:

'Nuestro trabajo demuestra que si bien los LLM de última generación pueden generar código que se ejecuta (es decir, libre de errores de sintaxis), la solución generada no es competitiva con las soluciones diseñadas por humanos en dimensiones como la planificación estratégica, la optimización o la competencia entre múltiples agentes.

'Por lo tanto, este trabajo trae a la vanguardia esta nueva frontera en la generación de código y tiene como objetivo facilitar el desarrollo de puntos de referencia, conjuntos de datos y líneas base de código abierto que enfaticen la síntesis de código basada en el razonamiento'.

El desafío planteado fue participar creativamente en subastas, a través de una variedad de estrategias, y organizar la logística de entrega de los artículos ganados a los ganadores.

Los autores señalan que se otorgaron diversas ventajas a los LLM, como la intervención en su código para mejorar su rendimiento, una ventaja que no se permitía en el código de la era 2020. A pesar de ello, incluso cuando se les proporcionó código correctivo que sin duda habría mejorado sus resultados, los LLM no pudieron aceptarlo ni utilizarlo:

'En nuestra evaluación comparativa, incluso cuando exponemos una buena solución en contexto, el LLM todavía no puede utilizarla.

'Este resultado también plantea interesantes cuestiones de investigación futura sobre los límites del aprendizaje en contexto y la resolución de problemas aumentada por recuperación en escenarios complejos'.

Los LLM utilizados en la prueba fueron Pensamiento GPT-5, Géminis 2.5 Pro, Claude Opus 4.1, Y Búsqueda profunda R1*.

La nuevo documento se titula ¿Puede Vibe Coding superar a los estudiantes de posgrado en informática? Un torneo de LLM vs. Human Coding sobre planificación estratégica orientada al mercado., y proviene de un autor de la Universidad de Southampton y otro de la Universidad de Oxford y el Instituto Alan Turing. El punto de referencia, afirman los autores, será publicado en breve.

Método

Los autores señalan que las pruebas tradicionales en este ámbito se centran en desafíos con soluciones binarias claramente definidas (correcta or incorrecto), verificado a través de pruebas unitariasAl argumentar que esta no es la forma ideal de explorar las limitaciones del código asistido por LLM, los autores idearon un escenario de desafío más complejo, con múltiples puntos de referencia e hitos internos, en el que la victoria es posible, pero nada sencilla:

Comparación de los enfoques estándar basados en pruebas unitarias (arriba) y el escenario de desafío más abierto ideado por los autores (en azul, abajo). Fuente

El Problema de Subasta, Recogida y Entrega (APDP) utilizado en el estudio de los autores fue en parte autoseleccionado, debido a la disponibilidad de un corpus de trabajos estudiantiles de 2020 de la universidad suiza; trabajos que buscaban crear agentes automatizados para la tarea APDP, antes de cualquier posibilidad de impulsar el desarrollo mediante IA. Por lo tanto, fue relativamente fácil asignar a estudiantes modernos el mismo encargo, pero con herramientas actuales.

Los autores intentaron evitar los marcos de prueba populares como evaluación humana, Banco de código grande y WebDev Arena (entre muchos otros), ya que esta clase de procedimientos de prueba tiende a sufrir contaminación de datos (es decir, instancias en las que el sistema puede tener entrenado con datos de prueba En lugar de respetar una split).

El APDP es un problema logístico de dos etapas basado en subastas inversas y enrutamiento de vehículosEn la primera etapa, los agentes compiten para ganar tareas de entrega presentando ofertas sobre el precio que deberían cobrar por completar cada una. Una oferta demasiado alta significa perder la tarea; una oferta demasiado baja puede significar perder dinero.

En la segunda etapa, cada agente debe crear un plan eficiente para cumplir únicamente las tareas que le corresponden, asignándolas a vehículos con diferentes capacidades y costos, bajo restricciones de tiempo y recursos:

En el APDP, las empresas ofertan en subastas inversas por tareas de entrega y luego optimizan las rutas de los vehículos para cumplir solo las tareas que ganan, con el objetivo de maximizar las ganancias.

El objetivo no es simplemente completar las tareas, sino maximizar el beneficio general anticipando qué paquetes de tareas funcionarán mejor juntos y prediciendo las estrategias de los competidores que intentan hacer lo mismo.

El punto de referencia APDP aumenta la dificultad de las tareas de generación de código al introducir una planificación estratégica a lo largo de una secuencia de subastas interdependientes, donde cada oferta reconfigura el panorama de opciones futuras; y, por lo tanto, requiere que los agentes razonen no sólo sobre los costos inmediatos, sino también sobre el posicionamiento, el tiempo y las consecuencias a largo plazo.

El problema central de la entrega es NP-duroEs decir, ningún algoritmo puede encontrar la mejor solución de forma fiable en un tiempo razonable a medida que aumenta el número de tareas. Esto hace que la fuerza bruta sea un enfoque inviable y obliga a los agentes a sacrificar precisión por velocidad.

La carrera está en marcha

La evaluación de los autores comparó 40 agentes codificados por LLM con 17 agentes codificados por humanos en una serie de torneos cara a cara. Cada uno de los 12 torneos utilizó una combinación diferente de cuatro topologías de red vial y consistió en todos contra todos emparejamientos, con agentes enfrentándose a cada oponente dos veces: una vez controlando cada una de dos compañías, con diferentes especificaciones de vehículos.

Esta configuración generó 3,192 partidas por torneo, con un total de 38 304. En cada partida, se subastaron 50 tareas de entrega, definidas por sus puntos de recogida y entrega, así como por su peso, y se sortearon aleatoriamente en trazados de carreteras basados en Suiza, Francia, Gran Bretaña y los Países Bajos.

Redes de carreteras simplificadas utilizadas en el torneo: Gran Bretaña (arriba a la izquierda), Suiza (arriba a la derecha), Países Bajos (abajo a la izquierda) y Francia (abajo a la derecha). Los cuadrados azules y rojos marcan las tareas de recogida y entrega. Los triángulos de colores muestran la posición actual de los vehículos de los agentes.

Los agentes estudiantiles fueron seleccionados en un torneo de cursos de 2020. Ocho fueron de los mejores en una final de eliminación simple, y cuatro más fueron elegidos por su excelente desempeño contra los agentes de base en partidos cara a cara.

Los agentes de referencia siguieron una pauta fija Heurística. Ingenuo calculó la distancia total y realizó la oferta correspondiente, utilizando solo un vehículo e ignorando la agrupación en lotes; Oferta fija de costo de exposición simuló 10 tareas aleatorias y ofertó el costo marginal promedio; Honesto calculó el costo marginal real de insertar la tarea en el cronograma; Modelo Oponente hizo lo mismo pero agregó una estimación del costo del oponente, ofertando el máximo; y Búsqueda de riesgos combinó un decaimiento temporal previo con una estimación de costos en vivo y un modelo del oponente, nuevamente ofertando el más alto de los dos.

La evaluación incluyó 40 agentes codificados con LLM, desarrollados con los programas GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro y DeepSeek R1 (antes mencionados). Cada modelo contó con cinco estrategias distintas, aplicadas dos veces por modelo.

Dos estrategias emplearon indicaciones estáticas escritas por diferentes autores, mientras que una tercera requirió que el modelo reflexionara sobre sí mismo y revisara su propio trabajo; otra implicó la crítica y revisión por parte de un LLM independiente. La última estrategia empleó GPT-4 para sintetizar una nueva indicación mediante la revisión de los cuatro enfoques anteriores.

La solicitud base reflejó la tarea original del estudiante, describiendo el entorno de entrega e instruyendo al modelo para que oferte y planifique para maximizar las ganancias, sin depender de métodos de alta complejidad.

Todos los agentes LLM se probaron tanto en modo de juego propio como en torneo hasta que se corrigieron todos los errores observables. La corrección de errores fue gestionada de forma autónoma por los propios LLM, avisados con la información del error.

Las fallas comunes del LLM, señala el documento, incluían violaciones de los límites de tiempo de espera, imposibilidad de recoger o entregar tareas asignadas e incumplimientos de las restricciones de capacidad del vehículo: errores que a menudo surgían por ignorar instrucciones explícitas o por una lógica de replanificación defectuosa.^†:

'Otro problema común que encontramos (principalmente con Gemini, Claude y DeepSeek, y no tanto con GPT) es que, muy a menudo, LLM no lograba resolver un error.

'Por ejemplo, un agente siempre caducaba, a pesar de varios ciclos (por ejemplo, 5 a 15) de aviso al LLM con el error y de recibir la versión actualizada del código.

'La única solución que encontramos para tales situaciones (donde el LLM falla repetidamente al resolver exactamente el mismo error) es reiniciar desde ceroEn general, observamos la necesidad de esfuerzo manual significativo para lograr un código libre de erroresTuvimos que generar muchos más agentes para obtener los 40 libres de errores que evaluamos.

Los resultados que se muestran a continuación resumen los resultados de 12 torneos de doble ronda, que abarcan cuatro topologías de red y tres torneos por topología, y que arrojaron la mayor parte de 40 000 partidos:

Agente	Promedio de victorias/giro	SD #Victorias / Gira	Promedio de pérdidas/gira	SD #Pérdidas / Gira	Victorias totales	Pérdidas Totales	Ratio de victorias
Estudiante 1	108.167	1.193	3.833	1.193	1298	46	0.9658
Estudiante 2	104.917	2.539	7.083	2.539	1259	85	0.9368
Estudiante 3	103.917	2.466	8.083	2.466	1247	97	0.9278
Estudiante 4	103.25	1.815	8.75	1.815	1239	105	0.9219
Estudiante 5	96.5	2.908	15.5	2.908	1158	186	0.8616
LLM(O, IR, 1)	95.417	2.314	16.583	2.314	1145	199	0.8519
Maestría en Derecho (O, A2, 1)	94.583	2.314	17.417	2.314	1135	209	0.8445
Estudiante 6	93.167	1.899	18.833	1.899	1118	226	0.8318
Estudiante 7	93.167	3.563	18.833	3.563	1118	226	0.8318
Maestría en Derecho (O, A1, 1)	86.083	3.029	25.917	3.029	1033	311	0.7686
LLM(O, GEN, 2)	84.083	6.947	27.917	6.947	1009	335	0.7507
Maestría en Derecho (O, CR, 2)	83.5	4.442	28.5	4.442	1002	342	0.7455
Estudiante 8	83.417	4.122	28.583	4.122	1001	343	0.7448
Búsqueda de riesgos	82.417	3.343	29.583	3.343	989	355	0.7359
LLM(O, GEN, 1)	80.667	4.355	31.25	4.372	968	375	0.7208
Modelo Oponente	80.583	3.26	31.417	3.26	967	377	0.7195
Maestría en Derecho (D, A1, 1)	79.417	3.965	32.583	3.965	953	391	0.7091
Oferta fija de costo de exposición	77.167	4.951	34.833	4.951	926	418	0.689
LLM(O, IR, 2)	73.917	3.502	38	3.618	887	456	0.6605
Maestría en Derecho (O, A1, 2)	72.417	2.193	39.583	2.193	869	475	0.6466
Maestría en Derecho (G, A1, 2)	68.5	3.555	43.5	3.555	822	522	0.6116
Maestría en Derecho (A, GEN, 2)	67.917	2.968	44.083	2.968	815	529	0.6064
Maestría en Derecho (G, IR, 2)	65.917	2.314	46.083	2.314	791	553	0.5885
Estudiante 9	64.167	11.044	47.833	11.044	770	574	0.5729
Maestría en Derecho (G, A1, 1)	64	4.243	47.917	4.316	768	575	0.5719
Maestría en Derecho (G, IR, 1)	60.333	3.725	51.667	3.725	724	620	0.5387
Maestría en Derecho (O, A2, 2)	59.333	4.499	52.667	4.499	712	632	0.5298
Maestría en Derecho (D, CR, 1)	55.083	6.694	56.833	6.59	661	682	0.4922
Maestría en Derecho (G, GEN, 2)	53.167	3.664	58.833	3.664	638	706	0.4747
Maestría en Derecho (D, GEN, 2)	52.083	9.06	59.917	9.06	625	719	0.465
Honesto	50.583	3.848	61.417	3.848	607	737	0.4516
Estudiante 10	48.833	2.98	63.167	2.98	586	758	0.436
Maestría en Derecho (D, IR, 1)	48.583	10.211	63.417	10.211	583	761	0.4338
Maestría en Derecho (A, A1, 1)	48	4.69	64	4.69	576	768	0.4286
Maestría en Derecho (G, A2, 1)	47.25	3.864	64.75	3.864	567	777	0.4219
Maestría en Derecho (A, CR, 1)	43.833	4.609	68.167	4.609	526	818	0.3914
Maestría en Derecho (A, A1, 2)	43.75	2.05	68.25	2.05	525	819	0.3906
Estudiante 11	42.083	5.664	69.917	5.664	505	839	0.3757
Maestría en Derecho (A, IR, 1)	39.5	2.541	72.5	2.541	474	870	0.3527
Ingenuo	36.75	1.712	75.25	1.712	441	903	0.3281
Estudiante 12	36.333	1.775	75.667	1.775	436	908	0.3244
Maestría en Derecho (D, A2, 1)	33.917	2.193	78.083	2.193	407	937	0.3028
Maestría en Derecho (A, GEN, 1)	30.167	1.749	81.833	1.749	362	982	0.2693
Maestría en Derecho (D, A2, 2)	29.833	2.038	82.167	2.038	358	986	0.2664
Maestría en Derecho (G, A2, 2)	27	2.256	85	2.256	324	1020	0.2411
Maestría en Derecho (A, A2, 1)	26.333	0.985	85.667	0.985	316	1028	0.2351
Maestría en Derecho (O, CR, 1)	25	3.411	87	3.411	300	1044	0.2232
Maestría en Derecho (A, IR, 2)	24.333	8.542	87.667	8.542	292	1052	0.2173
Maestría en Derecho (A, A2, 2)	24	1.809	88	1.809	288	1056	0.2143
Maestría en Derecho (A, CR, 2)	23.333	1.557	88.667	1.557	280	1064	0.2083
Maestría en Derecho (D, GEN, 1)	22.5	1.784	89.5	1.784	270	1074	0.2009
Maestría en Derecho (D, A1, 2)	13.333	1.826	98.667	1.826	160	1184	0.119
Maestría en Derecho (G, CR, 1)	9.5	1.087	102.5	1.087	114	1230	0.0848
Maestría en Derecho (G, GEN, 1)	9.167	0.937	102.833	0.937	110	1234	0.0818
Maestría en Derecho (D, IR, 2)	7.75	0.622	104.25	0.622	93	1251	0.0692
Maestría en Derecho (G, CR, 2)	7.25	1.422	104.75	1.422	87	1257	0.0647
Maestría en Derecho (D, CR, 2)	5.667	0.985	106.333	0.985	68	1276	0.0506

Para contextualizar, cada agente jugó 112 partidos por torneo, por lo que el promedio máximo posible de victorias o derrotas por agente es de 112. La desviación estándar (DE) refleja la variabilidad entre torneos. Los agentes con codificación humana aparecen en negrita. Los agentes con codificación LLM se etiquetan por modelo (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1), seguido de un código de estrategia de dos letras para la indicación y un dígito que indica si el agente es el primero o el segundo generado con esa indicación. Fuente

En relación con los resultados mostrados anteriormente, los autores afirman^†:

Los LLM no generaron código esperado/competitivo ni siquiera en variantes más simples del problema APDP (a pesar de que el código estaba prácticamente libre de errores de sintaxis). Esto subraya la importancia de los puntos de referencia de evaluación de código basados en el razonamiento que van más allá del autocompletado e identifican nuevas debilidades de los LLM.

'Nuestros resultados demuestran una clara superioridad de los agentes codificados por humanos: (i) El Los 5 primeros puestos los ocupan constantemente los agentes estudiantiles, y (ii) La mayoría de los agentes LLM (33 de 40) son superados por agentes de línea base muy simples. (como por ejemplo la oferta fija de costo esperado).

Es importante destacar que no depuramos el código de los estudiantes (aunque probamos y depuramos exhaustivamente el código de LLM, tanto en la configuración de juego propio como en la de torneo). Cada vez que un agente de estudiante fallaba, automáticamente le dábamos la victoria al LLM. Muchos de estos fallos serían fáciles de solucionar (por ejemplo, el tiempo de espera de los agentes), por lo que los agentes de estudiante podrían... rango aún más alto. "

Como experimento adicional, se impulsó el pensamiento GPT-5 para mejorar el código del agente humano de mayor rendimiento, Estudiante 1Pero el agente modificado por LLM cayó posteriormente al décimo puesto, ahora con la peor puntuación para humanos. En lugar de mejorar la solución, los cambios de LLM la degradaron casi un 20 %.

Los autores concluyen:

Nuestros resultados resaltan importantes limitaciones en la generación de código LLM, en particular sus limitadas capacidades de razonamiento y planificación durante la generación. Los LLM modernos pueden proporcionar código sin errores de sintaxis y ejecutable, pero ese no es el parámetro que deberíamos usar para medir el progreso hacia una IA general avanzada.

Conclusión

Los propios autores observan hacia el final del artículo que la codificación de vibraciones ha empoderado a personas de todos los niveles técnicos y caracterizan la práctica de forma positiva, como una fuerza niveladora. Sin embargo, también insinúan que, dado que la codificación de vibraciones es una práctica reciente, se desconocen sus límites y se puede suponer que son bastante más altos de lo que se puede esperar de forma realista.

Cierran su oferta pidiendo un cambio de objetivo.Del código que se compila al código que compite.

Una pregunta que el lector ocasional de este interesante artículo nuevo puede tener es si los autores están trabajando hacia arriba o hacia abajo, ya que la tarea de agencia en cuestión es considerablemente más compleja y complicada que generar scripts de PowerShell y otras formas de funcionalidades y correcciones menores para las que la codificación vibe es adecuada.

* Tenga en cuenta que el documento se refiere continuamente a 'DeepPiense si R1', que parece inexistente, y solo aparecen unas pocas referencias en internet (presumiblemente de otros autores que escribieron mal "DeepSeek R1"). Si este es mi error, por favor, contácteme a través de los datos de mi perfil y lo corregiré.

^† El énfasis es del autor, no mío.

Primera publicación: miércoles 26 de noviembre de 2025. Modificado a las 17:35 (hora estándar del este) por motivos de formato.

Temas relacionados:LLM avanzados IA agente chat gpt Modelos de lenguaje grande (LLM)LLM codificación de vibraciones

Martin anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai

Unir.AI

El código humano de 2020 destrozó a los agentes codificados por vibración en pruebas agénticas.

Método

La carrera está en marcha

Conclusión

Te podría gustar