Contáctenos

Una visión personal sobre las tendencias de la literatura sobre visión artificial en 2025

El ángulo de Anderson

Una visión personal sobre las tendencias de la literatura sobre visión artificial en 2025

mm
Imagen generada por IA, por gpt-image-1 a través de ChatGPT-5.2, que presenta una ilustración isométrica estilizada de científicos con batas blancas en un laboratorio de computación.

Las divulgaciones éticas y el Gaussian Splatting están disminuyendo, mientras que el gran volumen de artículos enviados representa un nuevo problema que la IA deberá abordar en 2026.

 

Opinión He seguido la investigación sobre visión artificial y síntesis de imágenes en arXiv y plataformas afines durante aproximadamente siete años, en diversos medios, tiempo suficiente para distinguir patrones recurrentes y cambios de tendencia. Pero estas observaciones son anecdóticas. Sinceramente, desearía tener tiempo para aprovechar el vasto corpus de datos en constante crecimiento que representa el flujo de publicaciones de ArXiv, que sin duda es rico en información oculta, mediante el análisis de aprendizaje automático. Actualmente, solo puedo informar de forma más informal sobre lo que me llamó la atención. Desde la última vez que consideré el asunto.

Volumen a las 11

Muchas de las tendencias en la presentación de artículos de investigación sobre IA que observé en 2024 se consolidaron como fijas en 2025; una de ellas, y no la menos importante, es el aumento inexorable y continuo en volumen de artículos relacionados con la IA, en sí mismos impulsados ​​por la IA, hasta el punto de una crisis percibida:

Envíos mensuales de informática a Arxiv, octubre de 2023-noviembre de 2025, con promedio móvil de 3 meses superpuesto. Fuente: https://arxiv.org/stats/monthly_submissions

Envíos mensuales de Arxiv sobre informática, de octubre de 2023 a noviembre de 2025, con promedio móvil de 3 meses superpuesto. Fuente

Esta tasa de crecimiento se caracterizó por una duplicación exponencial del volumen de presentaciones de artículos sobre IA, muchos años atrás, y ha cobrado una fuerza aún más profunda con la reciente llegada de Manía de inversión en IA Ha aumentado las apuestas, así como la cantidad de fondos disponibles para la investigación relacionada con la IA.

Las estadísticas completas de 2025 aún no están disponibles, y las estadísticas agregadas que se muestran arriba representan el aumento general en todas las categorías. A continuación, podemos observar que la informática continúa con una tendencia dominante, muy por encima de sus similares:

Aumento en el número de trabajos enviados en CS entre 2022 y 2025. Fuente: https://info.arxiv.org/about/reports/submission_category_by_year.html

Aumento en las presentaciones de CS entre 2022 y 2025. Fuente

Clasificando la paja

En octubre, el inicio de la temporada de conferencias de otoño, que siempre trae consigo una avalancha de nuevas investigaciones, trajo en cambio una Volumen de envíos a nivel de ataque DOS, dando un impulso y una urgencia adicionales a la línea de investigación hasta ahora poco solicitada análisis de tendencias de investigación; en otras palabras, aparecen cada vez más artículos y repositorios que, por sí mismos, buscan superar la relación señal-ruido, cada vez más grave, en el panorama de la investigación.

Lo último llegó la semana pasada, en forma de NoveltyRank, y Repositorio GitHub que perfecciona los LLM como Qwen3-4B-Instrucción-2507 y cienciaberto para que puedan realizar una clasificación binaria de los artículos enviados (prediciendo la "novedad" a partir de envíos anteriores), o bien una comparación de novedad por pares (comparando los envíos actuales en busca de "novedad"):

El sistema NoveltyRank compara el título y el resumen de un trabajo con artículos anteriores similares, resume las diferencias mediante un LLM y lo pasa a un modelo Qwen3-4B perfeccionado que decide si el trabajo se considera conceptualmente nuevo. Fuente: https://arxiv.org/pdf/2512.14738

El sistema NoveltyRank compara el título y el resumen de un envío con trabajos anteriores similares, resume las diferencias utilizando un LLM y pasa esto a un modelo Qwen3-4B perfeccionado que decide si el trabajo cuenta como "conceptualmente nuevo". Fuente

El problema con estos enfoques de "selección" es el desafío de definir variables significativasEl enfoque NoveltyRank utiliza la aceptación de un artículo en una conferencia como un índice de novedad y, quizás de manera un tanto despectiva, utiliza la publicación en Arxiv como un índice de antecedentes. negativas novedad.

Esto presupone dos premisas falsas: en primer lugar, que todas las propuestas aceptadas en congresos son novedosas o relevantes, lo cual manifiestamente no es el caso; y en segundo lugar, que la novedad en sí misma tiene un valor incalculable. Cualquiera que haya perdido media hora en algunos de los artículos engañosos, incluso ridículos, presentados, quizás solo para mantener... cuotas de 'publicar o morir'Sabrán que la novedad es a menudo trivial y el trabajo incremental a menudo significativo.

Comprender el valor de un nuevo artículo implica un área en la que la IA está actualmente en desarrollo. muy débil – a largo plazo contextoDebido a la forma a menudo engañosa en que se redactan, los artículos que parecen innovadores a menudo pueden revelarse como avances menores en trabajos existentes; sin embargo, los sistemas automatizados deberán desarrollar una "intuición" para tales casos, sin detectar múltiples falsos positivos y sin depender de la honestidad de los autores que los envían.

Zambullida ética

Como yo tengo observado antes, portales como Arxiv son bastante resistentes a laissez-faire El raspado y los volcados de datos que proporcionan a menudo carecen de detalles granulares.

Por lo tanto, incluso si tuviera los recursos y el tiempo para descargar y extraer características de una muestra representativa adecuadamente de artículos de informática, muchas de las tendencias más sutiles no habrían sido detectadas ni analizadas.

Una de ellas es la presencia o ausencia de codicilos de la declaración ética; largo un inclusión obligatoria Para las ciencias biológicas que abordan la experimentación animal, el año 2024 marcó el apogeo de la tendencia hacia la caracterización ética de los trabajos propuestos, al final de los trabajos presentados en la categoría de Ciencias de la Computación.

Como anécdota, digo que esta práctica ha caído en picado a lo largo de 2025. Supongo que los fervientes esfuerzos de desregulación del actual gobierno de Estados Unidos, en relación con el desarrollo de la IA, han dado a la comunidad de investigación, tanto en Estados Unidos como en el extranjero, una cierta mayor licencia y una sensación de protección implícita frente a la exposición legal.

A pesar de ello múltiples proveedores En cuanto a la regulación anti-deepfake, la actual administración estadounidense ha restaurado de manera efectiva gran parte de la postura del "salvaje oeste" que caracterizó la era 2021-23, aun cuando el contexto de investigación científica pura que la definió ha evolucionado desde entonces hacia niveles fervientes, incluso históricos, de inversión.

Documentos de video generativos como 'basura de IA'

Con la puesta en marcha de la Vídeo y WAN de Hunyuan Serie de videos generativos durante el invierno pasado, el video de IA se ha transformado por completo en 2025. Viejos obstáculos como el dificultad de hacer avatares de cuerpo completo, o de Obtener vistas de perfil convincentes de una persona, fueron arrastrados aparentemente durante la noche.

Los abundantes lanzamientos de este tipo, incluidos los pesos, desde China tienen, sin duda, marcan el ritmo de los lanzamientos de videos generativos este año y son al menos una presión contraria a la tendencia de las arquitecturas de video de IA occidentales a ser mucho más censuradas, precomercializadas y prescritas.

En el sitio web ausencia de foso En esta escena irónicamente democrática liderada por el CCCP, ha surgido cientos, si no miles, de empresas que buscan explotar el naciente mercado de inferencia ofreciendo portales fáciles de usar, con actores tan diversos como civit.ai y EjecutarPod aprovechando procedimientos y tecnologías que, en muchos casos, podrían ejecutarse en ordenadores domésticos.

En general, estas iniciativas son intentos de obtener efectivo a corto plazo, que se espera que sean usurpados por una eventual consolidación del mercado (aunque, sin duda, sus fundadores no se opondrían a tropezar accidentalmente con una participación dominante en el mercado, si eso ocurriera).

Esta misma mundanidad y replicación ha afectado al sector del video generativo en las presentaciones de Arxiv en 2025. Como yo observado la semana pasadaLa relación señal-ruido para esta categoría ha llegado a un punto alarmante, ya que los investigadores compiten públicamente por las enormes cantidades de financiación potencial que sin duda han liberado los avances de este año.

Dicho esto, la gran mayoría de las propuestas de este tipo son, en el mejor de los casos, meros avances graduales. Los problemas fundamentales que persisten en la IA generativa no han surgido mucho este año: la necesidad de mantener la identidad, Estilo LoRA, a lo largo de la representación de un personaje; la necesidad de tiempos de ejecución más largos para los videos de salida, manteniendo la consistencia general (es decir, de entornos y temas, etc., no solo la identificación); y para mejorar generación de audio y manipulación dentro de arquitecturas de vídeo generativo y edición de vídeo; entre otros.

La fiebre de las mallas disminuye

El año pasado observé que la escena estaba experimentando un aumento notable en los artículos que promocionaban sistemas que aprovechaban la CGI tradicional (es decir, representaciones basadas en malla del tipo que se remonta a la década de 1970), o incorporarlo a los marcos neuronalesHe observado una disminución significativa del impulso hacia las soluciones basadas en malla, particularmente en la segunda mitad del año, con respecto a 2025.

Muchas de las soluciones CGI incorporadas en esa ola anterior de artículos, especialmente aquellas que tratan con figuras de "control" humano paramétrico como Modelos 3D transformables, pueden haber sido suplantados por las nuevas capacidades de los marcos generativos basados ​​en la difusión, como Veo, Kling, Hunyuan y WAN, entre muchos otros.

Al mismo tiempo, se publicaron artículos que tratan sobre Salpicadura gaussiana Los enfoques también se han visto aparentemente afectados ya sea por el estancamiento del desarrollo o por haber sido eclipsados ​​por los sistemas de IA basados ​​en la difusión de 2025; o ambos.

Hace un año noté que el entusiasmo inicial de GSplat, que hizo que Impresión notable a finales de 2023, se había reducido a líneas de investigación más limitadas. Este año, veo una oleada de artículos destinados a abordar las importantes demandas de recursos de este enfoque, entre otros problemas.

Aunque yo caracterizaría el Gaussian Splatting como "actualmente estancado", deberíamos recordar que esta tecnología se remonta a principios de la década de 1990 y es un renacido por naturaleza.

Una excepción a este alejamiento general de los enfoques basados ​​en mallas es un aparente aumento del interés en incorporar IA en marcos destinados a la impresión 3D.

Disminución de las solicitudes de seguridad de IA

Mi observación final para 2025 es que la categoría de envíos de 'Seguridad' en la sección de Ciencias de la Computación en Arxiv ha evidenciado una caída notable en frecuencia y calidad en 2025, y no es fácil adivinar por qué.

En el sitio web Criptografía y Seguridad Se podría decir que el archivo siempre ha sido un lugar de segunda clase para publicar artículos, ya que esta rama de investigación está, como era de esperar, dominada por propiedad intelectual del sector privado, de la cual poco aparece en revistas académicas y casi nada en plataformas gratuitas como Arxiv.

Además, los artículos de esta categoría en Arxiv presentan una cantidad superior a la media de trampas: admisiones poco valoradas, a menudo ocultas en lugares inesperados, que niegan o disminuyen el valor aparente y la novedad del artículo. Un ejemplo sería un método de infracción de seguridad aparentemente sensacionalista que, en realidad, se basa en algún aspecto de "caja blanca", es decir, acceso privilegiado a datos o procedimientos que un atacante probablemente no podría obtener.

Qué esperar en 2026

Aunque los medios de comunicación son riffing constantemente sobre el auge de la IA como una repetición de la debacle del auge y caída de las puntocom de principios de los años 2000 (con cierta disidencia), esto en realidad parece representar una especie de falsa seguridad. En términos de infraestructura, inversión y cultura... y Según las investigaciones, probablemente no ha habido un momento como éste en la historia de la humanidad.

Por lo tanto, es difícil ver qué tendencia tomará el panorama de la investigación en 2026, excepto que, como es habitual, una serie de esfuerzos a largo plazo culminarán entre ahora y abril, con un cierto "sello" de las obsesiones y tendencias de 2025 que los distinguirá.

Un avance que puede ayudar a resolver la crisis del volumen de envíos a Arxiv y otros portales es la prohibición o el control de los artículos generados o asistidos por IA, como Arxiv se ha promulgado recientemente para la revisión de artículos – sin embargo, el grado de participación de la IA en cualquier artículo puede resultar difícil de cuantificar, ya que la IA tiene cultura de investigación penetrada (y de revisión por pares) de la misma manera que ha invadido otros dominios, como una gota de "tinta" que afecta a todo el vaso de agua (existente), en lugar de cambiar radicalmente el medio.

 

Primera publicación: lunes 22 de diciembre de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai