Contáctenos

Un cartel de conjuntos de datos influyentes está dominando la investigación de aprendizaje automático, sugiere un nuevo estudio

Inteligencia Artificial

Un cartel de conjuntos de datos influyentes está dominando la investigación de aprendizaje automático, sugiere un nuevo estudio

mm

Un nuevo artículo de la Universidad de California y Google Research ha descubierto que una pequeña cantidad de conjuntos de datos de aprendizaje automático de referencia, en su mayoría provenientes de instituciones occidentales influyentes y con frecuencia de organizaciones gubernamentales, están dominando cada vez más el sector de investigación de IA.

Los investigadores concluyen que esta tendencia a optar por conjuntos de datos de código abierto muy populares, como ImagenNet, plantea una serie de motivos de preocupación prácticos, éticos e incluso políticos.

Entre sus hallazgos, basados ​​en datos básicos del proyecto comunitario dirigido por Facebook Papeles Con Código (PWC) – los autores sostienen que 'Los conjuntos de datos ampliamente utilizados son introducidos por sólo un puñado de instituciones de élite', y que esta 'consolidación' ha aumentado hasta el 80% en los últimos años.

'Encontramos que hay una creciente desigualdad en el uso de conjuntos de datos a nivel mundial, y que más del 50% de todos los usos de conjuntos de datos en nuestra muestra de 43,140 correspondieron a conjuntos de datos introducidos por doce instituciones de élite, principalmente occidentales'.

Un mapa de usos de conjuntos de datos no específicos de tareas durante los últimos diez años. El criterio de inclusión es cuando la institución o empresa representa más del 50% de los usos conocidos. A la derecha se muestra el coeficiente de Gini para la concentración de conjuntos de datos a lo largo del tiempo, tanto para instituciones como para conjuntos de datos. Fuente: https://arxiv.org/pdf/2112.01716.pdf

Un mapa de usos de conjuntos de datos no específicos de tareas durante los últimos diez años. El criterio de inclusión es cuando la institución o empresa representa más del 50% de los usos conocidos. A la derecha se muestra el coeficiente GINI para la concentración de conjuntos de datos a lo largo del tiempo tanto para instituciones como para conjuntos de datos. Fuente: https://arxiv.org/pdf/2112.01716.pdf

Las instituciones dominantes incluyen la Universidad de Stanford, Microsoft, Princeton, Facebook, Google, el Instituto Max Planck y AT&T. Cuatro de las diez principales fuentes de conjuntos de datos son instituciones corporativas.

El documento también caracteriza el uso creciente de estos conjuntos de datos de élite como 'Un vehículo para la desigualdad en la ciencia'. Esto se debe a que los equipos de investigación que buscan la aprobación de la comunidad están más motivados para lograr resultados de última generación (SOTA) contra un conjunto de datos consistente que para generar conjuntos de datos originales que no tienen tal estatus y que requerirían que sus pares se adapten a nuevos métricas en lugar de índices estándar.

En cualquier caso, como reconoce el artículo, crear un conjunto de datos propio es una tarea prohibitivamente costosa para instituciones y equipos con menos recursos.

'El primera facción La validez científica otorgada por la evaluación comparativa de SOTA se confunde genéricamente con la credibilidad social que obtienen los investigadores al demostrar que pueden competir en un conjunto de datos ampliamente reconocido, incluso si una evaluación comparativa más específica del contexto podría ser técnicamente más apropiada.

'Postulamos que esta dinámica crea un "Efecto Mateo" (es decir, "los ricos se vuelven más ricos y los pobres más pobres") donde los puntos de referencia exitosos y las instituciones de élite que los introducen ganan una estatura descomunal dentro del campo.

La sección se titula Reducido, reutilizado y reciclado: la vida de un conjunto de datos en la investigación de aprendizaje automático, y proviene de Bernard Koch y Jacob G. Foster en UCLA, y Emily Denton y Alex Hanna en Google Research.

El trabajo plantea una serie de problemas con la creciente tendencia hacia la consolidación que documenta, y ha sido recibido con aprobación general en Revisión abierta. Un revisor de NeurIPS 2021 comentó que el trabajo es "extremadamente relevante para cualquiera involucrado en la investigación del aprendizaje automático". y preveía su inclusión como lectura asignada en los cursos universitarios.

De la necesidad a la corrupción

Los autores señalan que la cultura actual de "superar el punto de referencia" surgió como un remedio a la falta de herramientas de evaluación objetivas que provocaron que el interés y la inversión en IA colapsaran por segunda vez. hace más de treinta años, tras el declive del entusiasmo empresarial hacia las nuevas investigaciones en 'Sistemas Expertos':

Los puntos de referencia suelen formalizar una tarea específica mediante un conjunto de datos y una métrica cuantitativa de evaluación asociada. Esta práctica se introdujo originalmente en la investigación del aprendizaje automático tras el "Invierno de la IA" de la década de 1980 gracias a los financiadores gubernamentales, que buscaban evaluar con mayor precisión el valor de las subvenciones.

El artículo sostiene que las ventajas iniciales de esta cultura informal de estandarización (reducción de barreras a la participación, métricas consistentes y oportunidades de desarrollo más ágiles) están empezando a verse superadas por las desventajas que surgen naturalmente cuando un conjunto de datos se vuelve lo suficientemente poderoso como para definir eficazmente sus "términos de uso" y alcance de influencia.

Los autores sugieren, en consonancia con gran parte del pensamiento industrial y académico reciente sobre el tema, que la comunidad investigadora ya no plantea nuevos problemas si estos no pueden abordarse mediante los conjuntos de datos de referencia existentes.

También señalan que la adhesión ciega a este pequeño número de conjuntos de datos "de oro" alienta a los investigadores a lograr resultados que son sobreajustado (es decir, que son específicos del conjunto de datos y que no es probable que tengan el mismo rendimiento en datos del mundo real, en nuevos conjuntos de datos académicos u originales, o incluso necesariamente en conjuntos de datos diferentes del "estándar de oro").

'Dada la alta concentración observada de investigación en un pequeño número de conjuntos de datos de referencia, creemos que diversificar las formas de evaluación es especialmente importante para evitar el sobreajuste a los conjuntos de datos existentes y la tergiversación del progreso en el campo.'

Influencia del gobierno en la investigación de la visión por computadora

Según el artículo, la investigación en visión por computadora se ve notablemente más afectada por el síndrome que describe que otros sectores, y los autores señalan que la investigación en procesamiento del lenguaje natural (PNL) se ve mucho menos afectada. Los autores sugieren que esto podría deberse a que las comunidades de PNL son 'más coherente' y más grandes en tamaño, y porque los conjuntos de datos de NLP son más accesibles y más fáciles de seleccionar, además de ser más pequeños y menos intensivos en recursos en términos de recopilación de datos.

En Computer Vision, y particularmente con respecto a los conjuntos de datos de reconocimiento facial (FR), los autores sostienen que los intereses corporativos, estatales y privados a menudo chocan:

'Las instituciones corporativas y gubernamentales tienen objetivos que pueden entrar en conflicto con la privacidad (por ejemplo, la vigilancia), y es probable que la ponderación que dan a estas prioridades sea diferente a la que tienen los académicos o los actores sociales más amplios de la IA.'

Para las tareas de reconocimiento facial, los investigadores encontraron que la incidencia de conjuntos de datos puramente académicos cae drásticamente en comparación con el promedio:

[Cuatro] de los ocho conjuntos de datos (33.69 % del total de usos) fueron financiados exclusivamente por corporaciones, el ejército estadounidense o el gobierno chino (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M fue finalmente retirado debido a la controversia en torno al valor de la privacidad para diferentes partes interesadas.

Los principales conjuntos de datos utilizados en las comunidades de investigación de generación de imágenes y reconocimiento facial.

Los principales conjuntos de datos utilizados en las comunidades de investigación de generación de imágenes y reconocimiento facial.

En el gráfico anterior, como señalan los autores, también vemos que el campo relativamente reciente de generación de imágenes (o síntesis de imágenes) depende en gran medida de conjuntos de datos existentes mucho más antiguos que no estaban destinados a este uso.

De hecho, el artículo observa una tendencia creciente a la "migración" de conjuntos de datos lejos de su propósito previsto, lo que pone en tela de juicio su idoneidad para las necesidades de sectores de investigación nuevos o periféricos, y el grado en que las restricciones presupuestarias pueden estar "genericizando" el alcance de las ambiciones de los investigadores en el marco más estrecho proporcionado tanto por los materiales disponibles como por una cultura tan obsesionada con las calificaciones de referencia año tras año que los conjuntos de datos nuevos tienen dificultades para ganar terreno.

Nuestros hallazgos también indican que los conjuntos de datos se transfieren regularmente entre diferentes comunidades de tareas. En el extremo más extremo, la mayoría de los conjuntos de datos de referencia en circulación para algunas comunidades de tareas se crearon para otras tareas.

Con respecto a las luminarias de aprendizaje automático (incluido Andrew Ng) quienes han pedido cada vez más diversidad y conservación de conjuntos de datos en los últimos años, los autores apoyan el sentimiento, pero creen que este tipo de esfuerzo, incluso si tiene éxito, podría verse potencialmente socavado por la dependencia de la cultura actual de los resultados de SOTA y los conjuntos de datos establecidos:

'Nuestra investigación sugiere que simplemente pedir a los investigadores de ML que desarrollen más conjuntos de datos y cambiar las estructuras de incentivos para que el desarrollo de conjuntos de datos sea valorado y recompensado puede no ser suficiente para diversificar el uso de conjuntos de datos y las perspectivas que en última instancia configuran y establecen las agendas de investigación de MLR.

Además de incentivar el desarrollo de conjuntos de datos, abogamos por intervenciones políticas orientadas a la equidad que prioricen una financiación significativa para que las personas en instituciones con menos recursos creen conjuntos de datos de alta calidad. Esto diversificaría, desde una perspectiva social y cultural, los conjuntos de datos de referencia que se utilizan para evaluar los métodos modernos de aprendizaje automático.

 

 6 de diciembre de 2021, 4:49 GMT+2 – Posesivo corregido en el titular. – MA

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai