Entrevistas
Andreas Hellander, CEO y cofundador de Scaleout Systems – Serie de entrevistas

Andreas Hellander es el CEO y cofundador de Scaleout Systems, una empresa que construye infraestructura para inteligencia artificial en el borde y aprendizaje federado que entrena modelos en datos distribuidos y sensibles sin centralizarlos. Su empresa ha trabajado con la OTAN y empresas de defensa como BAE Systems. Tiene un doctorado en Computación Científica y una maestría en Ingeniería de Biotecnología, y es profesor asociado en la Universidad de Uppsala, donde creó uno de los mejores grupos de investigación en el Departamento de Tecnología de la Información antes de fundar Scaleout.
Usted cofundó Scaleout después de años de investigación en computación distribuida, infraestructura en la nube y computación científica en la Universidad de Uppsala. ¿Cuál fue el momento en que se dio cuenta de que el aprendizaje federado y la inteligencia artificial en el borde necesitaban ir más allá de la academia y convertirse en una plataforma comercial?
Años de investigación en sistemas distribuidos a gran escala hicieron que una cosa quedara cada vez más clara: a medida que la inteligencia artificial comenzó a mostrar promesas reales en various industrias, aplicarla de manera responsable requería resolver el problema de los datos primero. Para muchas organizaciones, los datos más valiosos simplemente no pueden centralizarse, ya sea por razones regulatorias, prácticas o de seguridad. El aprendizaje federado surgió como una respuesta de investigación a esa restricción. Nuestro software de aprendizaje federado comenzó como un prototipo de investigación en la Universidad de Uppsala y en algún momento se hizo claro que el momento era adecuado para llevarlo más lejos. La infraestructura para hacer que la inteligencia artificial sea segura y segura para datos sensibles no existía en ninguna forma lista para producción, y sentimos que estábamos bien posicionados para construirla. Scaleout fue fundada para hacer eso.
La asociación de Scaleout con AI Verse combina la generación de datos de batalla sintéticos con el aprendizaje federado en el borde táctico. ¿Cómo ve esto cambiando la forma en que se desarrollan los sistemas de inteligencia artificial militares en comparación con los enfoques tradicionales que dependen de conjuntos de datos centralizados?
Tradicionalmente, el enfoque ha sido recopilar imágenes operativas, enviarlas centralmente, entrenar, redeployar. Cada etapa introduce un cuello de botella. Nos asociamos con AI Verse, una empresa de datos sintéticos respaldada por la OTAN, para eliminar gran parte del primer obstáculo. La plataforma GAIA de AI Verse genera imágenes fotorealistas, completamente anotadas, en RGB e IR, a demanda, eliminando la necesidad de recopilación en el campo, etiquetado manual y largos tiempos de espera. Scaleout elimina el cuello de botella de entrenamiento en el otro extremo. Una vez desplegados, los modelos mejoran continuamente desde los datos en vivo en el borde sin centralizar nada. El efecto combinado es que las organizaciones pueden ir de no tener modelo a un modelo desplegado y mejorado sin tocar nunca los datos operativos restringidos.
Uno de los mayores desafíos en la inteligencia artificial de defensa es que las condiciones de batalla evolucionan más rápido que los ciclos de entrenamiento. ¿Cómo puede ayudar el aprendizaje en el borde a que los sistemas militares se adapten a nuevos drones, vehículos y amenazas sin esperar a la reentrenamiento centralizado?
La visión por computadora para contramedidas de drones y vigilancia, reconocimiento y reconocimiento (ISR) hoy en día se entrena comúnmente de manera centralizada, se despliega una vez y luego se vuelve obsoleta. La reentrenamiento centralizada es un proceso por lotes que implica recopilar datos, etiquetarlos, reentrenar el modelo, probarlo y luego redeployarlo. Ese ciclo tarda semanas o meses. Mientras tanto, los modelos de detección se deterioran a medida que cambian las estaciones, los sensores, los entornos y las tácticas de los adversarios.
El aprendizaje en el borde cierra el ciclo en la fuente. Cada sitio ejecuta detección en tiempo real en las fuentes de sensores en vivo mientras simultáneamente filtra los marcos más útiles para el entrenamiento a través del aprendizaje activo. Un nodo en tierra en un campo de pruebas que encuentra un nuevo tipo de dron marca las detecciones inciertas, los anotadores revisan una cola curada en lugar de terabytes de video crudo, el afinamiento local se ejecuta en el sitio y el modelo mejorado se vuelve a producir dentro de días. El aprendizaje federado luego propaga esa mejora en todos los sitios.
Muchos sistemas de inteligencia artificial todavía dependen en gran medida de la infraestructura en la nube. ¿Por qué cree que el futuro de la inteligencia artificial de defensa se moverá cada vez más hacia entornos distribuidos y desconectados en lugar de arquitecturas centralizadas en la nube?
Hay tres razones estructurales para esto. Primero, los límites de clasificación significan que los datos de sensores operativos a menudo no pueden dejar el sitio. Segundo, los entornos disputados significan que no se puede asumir la conexión de red. Y finalmente, un modelo que requiere conectividad en la nube para funcionar es un punto único de falla en exactamente el entorno en el que se necesita más. Estas no son preferencias, son restricciones que descalifican las arquitecturas de nube primero antes de que comiencen.
Los datos sintéticos están convirtiéndose en una herramienta importante para el desarrollo de la inteligencia artificial. En aplicaciones de defensa, donde la precisión puede tener consecuencias de vida o muerte, ¿cuáles son las fortalezas y limitaciones de utilizar datos de batalla sintéticos para entrenar modelos de visión por computadora?
Los datos sintéticos ofrecen varias ventajas importantes. Pueden generar escenarios imposibles o impracticables de recopilar en el campo, por ejemplo, clases de amenazas raras, IR, condiciones adversas y geometrías de sensores exactas. También eliminan la etiquetado manual, el riesgo de datos operativos y se pueden escalar de inmediato.
Al mismo tiempo, hay limitaciones. La brecha entre los datos sintéticos y los reales es real y varía según el escenario. Los detalles finos que determinan la clasificación de la amenaza pueden no transferirse a menos que la fidelidad de la simulación sea alta. La posición honesta es que los datos sintéticos son un mecanismo de inicio en frío fuerte y llenan las brechas que la recopilación en el campo no puede estructuralmente, pero no reemplazan los datos operativos en vivo para el rendimiento final del modelo. Es por eso que la canalización combina ambos.
Scaleout ha pasado años desarrollando tecnologías de aprendizaje federado que permiten a las organizaciones entrenar la inteligencia artificial sin mover datos sensibles. ¿Qué lecciones de la atención médica, la inteligencia artificial industrial y otros sectores regulados ahora están demostrando ser valiosas en las implementaciones de defensa?
A medida que la inteligencia artificial se aplicó en various industrias reguladas, surgió un patrón común. Los datos que más mejorarían los modelos también eran los datos que no podían moverse.
Abordar eso requirió más que algoritmos de alta calidad, requirió infraestructura que hiciera que el aprendizaje distribuido fuera seguro, auditable y gobernable. Lo que ese trabajo sacó a la superficie fue la importancia de las pistas de auditoría rigurosas, el desafío de la calidad y la selección de datos cuando no se puede ver el conjunto de datos completo centralmente, y la pregunta de si las actualizaciones del modelo podrían filtrar información sobre los datos de entrenamiento. Esa última preocupación llevó a LeakPro, nuestro marco de auditoría de privacidad de código abierto. Los problemas subyacentes de datos sensibles, entornos distribuidos y requisitos de gobernanza se traducen directamente a la defensa, incluso si las restricciones específicas difieren.
La OTAN y las naciones aliadas están cada vez más enfocadas en la soberanía tecnológica. ¿Ve el aprendizaje federado convirtiéndose en una capacidad estratégica que permita a las naciones aliadas colaborar en el desarrollo de la inteligencia artificial sin compartir datos operativos sensibles?
Sí, y esto ya está sucediendo. El programa FEDAIR bajo la DIANA de la OTAN es una prueba directa de si las naciones aliadas pueden mejorar conjuntamente la capacidad de inteligencia artificial compartida sin intercambiar datos de sensores clasificados. La arquitectura responde que sí. Cada nación entrena en sus propios datos, contribuye actualizaciones de peso a un punto de agregación compartido y recibe un modelo global mejorado. No se cruzan datos crudos en las fronteras nacionales.
La soberanía aquí significa más que la protección de datos. Significa mantener el control total del ciclo de vida de la inteligencia artificial con la capacidad de desplegar cualquier modelo en cualquier flujo de sensores y utilizar los datos que posee para mejorar continuamente los modelos. Eso requiere resistir el bloqueo, incluyendo la infraestructura capaz de funcionar en un entorno aislado, la procedencia completa del modelo y la integración de sensores neutral desde el proveedor. Esas propiedades son estructurales, no contractuales, y esa distinción importa en la adquisición.
Los sistemas de contramedidas de drones están surgiendo como una de las aplicaciones de inteligencia artificial más importantes en la guerra moderna. ¿Qué obstáculos técnicos aún necesitan ser superados antes de que las plataformas de contramedidas de drones impulsadas por la inteligencia artificial puedan operar de manera confiable en entornos de combate diversos y rápidamente cambiantes?
Desde nuestra perspectiva, los desafíos técnicos en la inteligencia artificial de contramedidas de drones parecen significativos y probablemente subestimados. El paisaje de sensores solo es complejo. Diferentes modalidades de sensores producen características de datos diferentes, y un modelo entrenado en uno puede no transferirse limpiamente a otro. La diversidad de amenazas complica esto. La proliferación de plataformas comerciales de bajo costo significa que la población de objetos que un sistema necesita detectar y clasificar se expande más rápido de lo que la mayoría de los conjuntos de datos de entrenamiento pueden seguir.
Más allá de los desafíos de la inteligencia artificial pura, hay una pregunta arquitectónica que parece importante: ¿quién posee y controla el modelo, y quién puede actualizarlo? Los sistemas que dependen del modelo cerrado de un proveedor y del ciclo de actualización heredan las restricciones de ese proveedor. La capacidad de adaptar los modelos a los datos operativos propios, en la propia infraestructura, en el propio calendario, parece una condición previa para un rendimiento confiable a largo plazo en lugar de una característica opcional.
A medida que la guerra cada vez más involucra sistemas autónomos y toma de decisiones asistida por la inteligencia artificial, ¿cómo deben equilibrar las organizaciones militares el aprendizaje continuo en el campo con la necesidad de confiabilidad, previsibilidad y supervisión humana?
La plataforma está diseñada como un acompañante de los sistemas de mando y control existentes, no como un reemplazo. Las detecciones se alimentan en el kit de asalto táctico (TAK) y los sistemas de mando y control (C2) estándar utilizando formatos de datos y protocolos estandarizados, lo que permite visualizarlos y actuar sobre ellos dentro de los flujos de trabajo operativos existentes. La inteligencia artificial mejora la toma de decisiones humana en lugar de sustituirla.
En el lado del modelo, continuo no significa descontrolado. Cada actualización se valida contra una suite de benchmark antes de la promoción, los operadores aprueban las versiones del modelo antes de la implementación en la flota y la implementación de sombra permite que una nueva versión se ejecute en paralelo antes de reemplazar la producción. La pista de auditoría registra qué versión se ejecutó dónde y qué mostró. El ciclo de mejora es sistemático y gobernado, no automático y sin control.
Mirando hacia adelante cinco años, ¿qué distinguirá a las arquitecturas de inteligencia artificial militar más avanzadas de las que se están desplegando hoy en día, y qué tecnologías cree que tendrán el mayor impacto en las capacidades de defensa del futuro?
La división actual es entre sistemas que pueden adaptarse en el campo y aquellos que no pueden. La mayoría de los sistemas desplegados hoy en día son estáticos. En cinco años, el diferenciador será cómo se gobierna la adaptación, qué versión de qué modelo se ejecutó en qué plataforma, moldeada por qué datos, en qué condiciones, y si esa cadena puede ser auditada, validada y confiada por los operadores y la adquisición.
El aprendizaje subyacente se commodificará. La infraestructura para el aprendizaje continuo gobernado en el borde, especialmente a través de redes aliadas donde cada nación debe retener la soberanía sobre sus propios datos, no lo hará. Las naciones y los programas que construyen esa infraestructura ahora tendrán una ventaja compuesta: modelos que siguen mejorando desde los datos operativos, bajo control nacional, sin depender del ciclo de actualización de ningún proveedor de nube ni de la disponibilidad de ningún proveedor de nube.
Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar Scaleout Systems.












