Connect with us

La nueva tecnología de etiquetado automático de Voxel51 promete reducir los costos de anotación en 100,000x

Inteligencia artificial

La nueva tecnología de etiquetado automático de Voxel51 promete reducir los costos de anotación en 100,000x

mm

Un estudio innovador de la startup de visión por computadora Voxel51 sugiere que el modelo tradicional de anotación de datos está a punto de ser revolucionado. En una investigación publicada hoy, la empresa informa que su nuevo sistema de etiquetado automático logra hasta el 95% de la precisión humana mientras es 5,000x más rápido y hasta 100,000x más barato que la etiquetación manual.

El estudio evaluó modelos base como YOLO-World y Grounding DINO en conjuntos de datos conocidos como COCO, LVIS, BDD100K y VOC. Sorprendentemente, en muchos escenarios del mundo real, los modelos entrenados exclusivamente con etiquetas generadas por IA funcionaron al mismo nivel o incluso mejor que aquellos entrenados con etiquetas humanas. Para las empresas que desarrollan visión por computadora, las implicaciones son enormes: se podrían ahorrar millones de dólares en costos de anotación y los ciclos de desarrollo de modelos podrían reducirse de semanas a horas.

La nueva era de la anotación: de trabajo manual a pipelines lideradas por modelos

Durante décadas, la anotación de datos ha sido un cuello de botella doloroso en el desarrollo de la IA. Desde ImageNet hasta conjuntos de datos de vehículos autónomos, los equipos han dependido de vastos ejércitos de trabajadores humanos para dibujar cuadros delimitadores y segmentar objetos, un esfuerzo tanto costoso como lento.

La lógica prevaleciente era simple: más datos etiquetados por humanos = mejor IA. Pero la investigación de Voxel51 voltea esta suposición de cabeza.

Su enfoque aprovecha modelos base preentrenados, algunos con capacidades de disparo cero, e integra estos en una pipeline que automatiza la etiquetación rutinaria mientras utiliza el aprendizaje activo para marcar casos inciertos o complejos para revisión humana. Este método reduce drásticamente tanto el tiempo como el costo.

En una prueba, etiquetar 3,4 millones de objetos utilizando una GPU NVIDIA L40S tardó solo un poco más de una hora y costó $1,18. Hacer lo mismo manualmente con AWS SageMaker habría tomado casi 7.000 horas y costado más de $124.000. En casos particularmente desafiantes, como la identificación de categorías raras en los conjuntos de datos COCO o LVIS, los modelos con etiquetas automáticas ocasionalmente superaron a sus contrapartes con etiquetas humanas. Este resultado sorprendente puede deberse a los patrones de etiquetado consistentes de los modelos base y su entrenamiento en datos de internet a gran escala.

Dentro de Voxel51: El equipo que redefine los flujos de trabajo de IA visual

Fundada en 2016 por Professor Jason Corso y Brian Moore en la Universidad de Michigan, Voxel51 originalmente comenzó como una consultoría enfocada en análisis de video. Corso, un veterano en visión por computadora y robótica, ha publicado más de 150 artículos académicos y contribuye con código de código abierto a la comunidad de la IA. Moore, un ex estudiante de doctorado de Corso, se desempeña como CEO.

El punto de inflexión llegó cuando el equipo reconoció que la mayoría de los cuellos de botella de la IA no estaban en el diseño del modelo, sino en los datos. Esa percepción los inspiró a crear FiftyOne, una plataforma diseñada para empoderar a los ingenieros para explorar, curar y optimizar conjuntos de datos visuales de manera más eficiente.

A lo largo de los años, la empresa ha recaudado más de $45M, incluyendo una $12.5M Series A y una $30M Series B liderada por Bessemer Venture Partners. La adopción empresarial siguió, con clientes importantes como LG Electronics, Bosch, Berkshire Grey, Precision Planting y RIOS integrando las herramientas de Voxel51 en sus flujos de trabajo de IA de producción.

De herramienta a plataforma: El papel en expansión de FiftyOne

FiftyOne ha crecido desde una simple herramienta de visualización de conjuntos de datos hasta una plataforma de IA integral y centrada en los datos. Soporta una amplia variedad de formatos y esquemas de etiquetado —COCO, Pascal VOC, LVIS, BDD100K, Open Images— e integra de manera transparente con frameworks como TensorFlow y PyTorch.

Más que una herramienta de visualización, FiftyOne permite operaciones avanzadas: encontrar imágenes duplicadas, identificar muestras mal etiquetadas, resaltar valores atípicos y medir modos de falla del modelo. Su ecosistema de plugins admite módulos personalizados para reconocimiento óptico de caracteres, preguntas y respuestas de video y análisis basado en incrustaciones.

La versión empresarial, FiftyOne Teams, introduce características colaborativas como control de versiones, permisos de acceso e integración con almacenamiento en la nube (por ejemplo, S3), así como herramientas de anotación como Labelbox y CVAT. Notablemente, Voxel51 también se asoció con V7 Labs para agilizar el flujo entre la curación de conjuntos de datos y la anotación manual.

Reconsiderando la industria de la anotación

La investigación de autoetiquetado de Voxel51 desafía las suposiciones que subyacen a una industria de anotación que casi alcanza los $1B. En flujos de trabajo tradicionales, cada imagen debe ser tocada por un humano, un proceso costoso y a menudo redundante. Voxel51 argumenta que la mayoría de este trabajo puede ser eliminado ahora.

Con su sistema, la mayoría de las imágenes son etiquetadas por la IA, mientras que solo los casos de borde son escalados a humanos. Esta estrategia híbrida no solo reduce costos, sino que también garantiza una calidad general de datos más alta, ya que el esfuerzo humano se reserva para las anotaciones más difíciles o valiosas.

Este cambio se alinea con tendencias más amplias en el campo de la IA hacia la IA centrada en los datos, una metodología que se centra en optimizar los datos de entrenamiento en lugar de ajustar constantemente las arquitecturas de los modelos.

Paisaje competitivo y recepción de la industria

Inversionistas como Bessemer ven a Voxel51 como la “capa de orquestación de datos” para la IA, similar a cómo las herramientas DevOps transformaron el desarrollo de software. Su herramienta de código abierto ha tenido millones de descargas, y su comunidad incluye a miles de desarrolladores y equipos de ML en todo el mundo.

Mientras que otras startups como Snorkel AI, Roboflow y Activeloop también se centran en flujos de trabajo de datos, Voxel51 se destaca por su amplitud, ética de código abierto y infraestructura de nivel empresarial. En lugar de competir con los proveedores de anotación, la plataforma de Voxel51 complementa los servicios existentes, haciéndolos más eficientes a través de la curación selectiva.

Implicaciones futuras

Las implicaciones a largo plazo son profundas. Si se adopta ampliamente, la metodología de Voxel51 podría reducir drásticamente la barrera de entrada para la visión por computadora, democratizando el campo para startups y investigadores que carecen de vastos presupuestos para etiquetado.

Más allá de ahorrar costos, este enfoque también establece la base para sistemas de aprendizaje continuo, donde los modelos en producción marcan automáticamente los fallos, que luego se revisan, reetiquetan y se incorporan nuevamente a los datos de entrenamiento, todo dentro de la misma pipeline orquestada.

La visión más amplia de la empresa se alinea con cómo está evolucionando la IA: no solo modelos más inteligentes, sino flujos de trabajo más inteligentes. En esa visión, la anotación no está muerta, pero ya no es el dominio del trabajo de fuerza bruta. Es estratégica, selectiva y impulsada por la automatización.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.