Connect with us

Steven Hillion, Vicepresidente Senior de Datos y IA en Astronomer – Serie de Entrevistas

Entrevistas

Steven Hillion, Vicepresidente Senior de Datos y IA en Astronomer – Serie de Entrevistas

mm

Steven Hillion es el Vicepresidente Senior de Datos y IA en Astronomer, donde aprovecha su extensa formación académica en investigación matemática y más de 15 años de experiencia en el desarrollo de plataformas de aprendizaje automático en Silicon Valley. En Astronomer, lidera la creación de características de Apache Airflow diseñadas específicamente para equipos de ML y IA, y supervisa el equipo interno de ciencia de datos. Bajo su liderazgo, Astronomer ha avanzado en su plataforma de orquestación de datos moderna, mejorando significativamente sus capacidades de canalización de datos para admitir una amplia variedad de fuentes y tareas de datos a través del aprendizaje automático.

¿Puede compartir algo sobre su trayectoria en ciencia de datos y IA, y cómo ha moldeado su enfoque para liderar equipos de ingeniería y análisis?

Tenía una formación en matemáticas de investigación en Berkeley antes de mudarme al otro lado de la bahía a Silicon Valley y trabajar como ingeniero en una serie de startups exitosas. Me alegraba dejar atrás la política y la burocracia de la academia, pero encontré que, después de unos años, extrañaba las matemáticas. Así que me cambié a desarrollar plataformas para aprendizaje automático y análisis, y eso es básicamente lo que he hecho desde entonces.

Mi formación en matemáticas puras ha resultado en una preferencia por lo que los científicos de datos llaman ‘parsimonia’ — la herramienta adecuada para el trabajo, y nada más. Debido a que los matemáticos tienden a favorecer soluciones elegantes sobre máquinas complejas, siempre he intentado enfatizar la simplicidad al aplicar aprendizaje automático a problemas comerciales. El aprendizaje profundo es genial para algunas aplicaciones — los modelos de lenguaje grande son brillantes para resumir documentos, por ejemplo — pero sometimes un modelo de regresión simple es más adecuado y más fácil de explicar.

Ha sido fascinante ver el papel cambiante del científico de datos y el ingeniero de software en estos últimos veinte años desde que el aprendizaje automático se volvió común. Haber usado ambos sombreros, soy muy consciente de la importancia del ciclo de vida de desarrollo de software (especialmente la automatización y las pruebas) aplicado a proyectos de aprendizaje automático.

¿Cuáles son los mayores desafíos al mover, procesar y analizar datos no estructurados para IA y modelos de lenguaje grande (LLM)?

En el mundo de la IA generativa, sus datos son su activo más valioso. Los modelos son cada vez más estandarizados, así que su diferenciación es todo ese conocimiento institucional difícil de ganar capturado en sus conjuntos de datos propietarios y curados.

Entregar los datos adecuados en el momento adecuado coloca demandas altas en sus canalizaciones de datos — y esto se aplica a datos no estructurados tanto como a datos estructurados, o quizás más. A menudo estás ingiriendo datos de muchas fuentes diferentes, en muchos formatos diferentes. Necesitas acceso a una variedad de métodos para desempacar los datos y prepararlos para su uso en inferencia de modelo o entrenamiento de modelo. También necesitas entender la procedencia de los datos, y dónde terminan para poder “mostrar su trabajo”.

Si solo lo haces de vez en cuando para entrenar un modelo, está bien. No necesariamente necesitas operacionalizarlo. Si usas el modelo diariamente, para entender la opinión del cliente de los foros en línea, o para resumir y enrutar facturas, entonces comienza a parecerse a cualquier otra canalización de datos operacional, lo que significa que debes pensar en confiabilidad y reproducibilidad. O si afinas el modelo regularmente, entonces debes preocuparte por monitorear la precisión y el costo.

La buena noticia es que los ingenieros de datos han desarrollado una gran plataforma, Airflow, para gestionar canalizaciones de datos, que ya se ha aplicado con éxito para gestionar la implementación de modelos y monitoreo por parte de algunos de los equipos de ML más sofisticados del mundo. Así que los modelos pueden ser nuevos, pero la orquestación no lo es.

¿Puede elaborar sobre el uso de datos sintéticos para afinar modelos más pequeños para la precisión? ¿Cómo se compara con el entrenamiento de modelos más grandes?

Es una técnica poderosa. Puedes pensar en los mejores modelos de lenguaje grande como si de alguna manera encapsularan lo que han aprendido sobre el mundo, y pueden pasarlo a modelos más pequeños generando datos sintéticos. Los LLM encapsulan vastas cantidades de conocimiento aprendido de un entrenamiento extensivo en conjuntos de datos diversos. Estos modelos pueden generar datos sintéticos que capturan los patrones, estructuras y información que han aprendido. Estos datos sintéticos luego se pueden usar para entrenar modelos más pequeños, transfiriendo efectivamente algo del conocimiento de los modelos más grandes a los más pequeños. Este proceso a menudo se conoce como “destilación de conocimiento” y ayuda a crear modelos eficientes y más pequeños que aún realizan bien tareas específicas. Y con datos sintéticos, entonces puedes evitar problemas de privacidad y llenar los vacíos en los datos de entrenamiento que son pequeños o incompletos.

Esto puede ser útil para entrenar un modelo de IA generativa más específico del dominio, y puede ser incluso más efectivo que entrenar un “modelo más grande”, con un mayor nivel de control.

Los científicos de datos han estado generando datos sintéticos durante un tiempo, y la imputación ha existido desde que existen conjuntos de datos desordenados. Pero siempre tuviste que ser muy cuidadoso para no introducir sesgos, o hacer suposiciones incorrectas sobre la distribución de los datos. Ahora que sintetizar datos es tan fácil y poderoso, debes ser aún más cuidadoso. Los errores pueden magnificarse.

Una falta de diversidad en los datos generados puede llevar a un “colapso del modelo”. El modelo piensa que está haciendo bien, pero eso es porque no ha visto la imagen completa. Y, más en general, una falta de diversidad en los datos de entrenamiento es algo que los equipos de datos siempre deben buscar.

En un nivel básico, ya sea que uses datos sintéticos o datos orgánicos, el linaje y la calidad son fundamentales para entrenar o afinar cualquier modelo. Como sabemos, los modelos solo son tan buenos como los datos con los que se entrenan. Mientras que los datos sintéticos pueden ser una herramienta útil para representar un conjunto de datos sensibles sin exponerlo o para llenar los vacíos que pueden quedar en un conjunto de datos representativo, debes tener un registro que muestre de dónde viene el dato y poder probar su nivel de calidad.

¿Cuáles son algunas técnicas innovadoras que su equipo en Astronomer está implementando para mejorar la eficiencia y la confiabilidad de las canalizaciones de datos?

¡Muchas! La infraestructura de Airflow completamente administrada por Astro y el Astro Hypervisor admite escalado dinámico y monitoreo proactivo a través de métricas de salud avanzadas. Esto garantiza que los recursos se utilicen de manera eficiente y que los sistemas sean confiables en cualquier escala. Astro proporciona alertas de datos centradas y personalizables que se pueden enviar a través de varios canales como Slack y PagerDuty. Esto garantiza una intervención oportuna antes de que los problemas se agraven.

Las pruebas de validación de datos, las pruebas unitarias y las comprobaciones de calidad de los datos desempeñan un papel fundamental para garantizar la confiabilidad, precisión y eficiencia de las canalizaciones de datos y, en última instancia, los datos que impulsan su negocio. Estas comprobaciones garantizan que, mientras construyes rápidamente canalizaciones de datos para cumplir con tus plazos, estás activamente capturando errores, mejorando los tiempos de desarrollo y reduciendo los errores imprevistos en segundo plano. En Astronomer, hemos construido herramientas como Astro CLI para ayudar a comprobar la funcionalidad del código o identificar problemas de integración dentro de su canalización de datos.

¿Cómo ve la evolución de la gobernanza de la IA generativa, y qué medidas deben tomarse para apoyar la creación de más herramientas?

La gobernanza es imperativa si las aplicaciones de la IA generativa van a tener éxito. Se trata de transparencia y reproducibilidad. ¿Sabes cómo obtuviste este resultado, y de dónde, y por quién? Airflow por sí solo ya te da una forma de ver qué están haciendo las canalizaciones de datos individuales. Su interfaz de usuario fue una de las razones de su adopción rápida al principio, y en Astronomer hemos aumentado eso con visibilidad a través de equipos y despliegues. También proporcionamos a nuestros clientes paneles de informes que ofrecen información completa sobre el uso de la plataforma, el rendimiento y la atribución de costos para la toma de decisiones informadas. Además, la API de Astro permite a los equipos implementar, automatizar y administrar sus canalizaciones de Airflow de forma programática, mitigando los riesgos asociados con los procesos manuales y garantizando operaciones sin problemas a escala cuando se administran múltiples entornos de Airflow. Las capacidades de linaje están integradas en la plataforma.

Estos son todos los pasos hacia ayudar a gestionar la gobernanza de los datos, y creo que las empresas de todos los tamaños están reconociendo la importancia de la gobernanza de los datos para garantizar la confianza en las aplicaciones de IA. Este reconocimiento y conciencia impulsarán en gran medida la demanda de herramientas de gobernanza de datos, y anticipo la creación de más de estas herramientas para acelerar a medida que la IA generativa se propaga. Pero necesitan ser parte de la pila de orquestación más grande, por lo que vemos que es fundamental para la forma en que construimos nuestra plataforma.

¿Puede proporcionar ejemplos de cómo las soluciones de Astronomer han mejorado la eficiencia operativa y la productividad para los clientes?

Los procesos de IA generativa implican tareas complejas y exigentes en términos de recursos que necesitan ser optimizados y ejecutados repetidamente. Astro, la plataforma de Airflow administrada por Astronomer, proporciona un marco en el centro del stack de aplicaciones de IA emergente para ayudar a simplificar estas tareas y mejorar la capacidad de innovar rápidamente.

Al orquestar tareas de IA generativa, las empresas pueden garantizar que los recursos computacionales se utilicen de manera eficiente y que los flujos de trabajo se optimicen y ajusten en tiempo real. Esto es particularmente importante en entornos donde los modelos generativos deben actualizarse o volver a entrenarse con frecuencia en función de nuevos datos.

Al aprovechar la gestión de flujos de trabajo de Airflow y las capacidades de implementación y escalado de Astronomer, los equipos pueden pasar menos tiempo administrando la infraestructura y centrar su atención en la transformación de datos y el desarrollo de modelos, lo que acelera la implementación de aplicaciones de IA generativa y mejora el rendimiento.

De esta manera, la plataforma Astro de Astronomer ha ayudado a los clientes a mejorar la eficiencia operativa de la IA generativa en una amplia variedad de casos de uso. Para nombrar algunos, los casos de uso incluyen el descubrimiento de productos de comercio electrónico, el análisis de riesgo de abandono del cliente, la automatización de soporte, la clasificación y resumen de documentos legales, la obtención de información de productos a partir de reseñas de clientes y la provisión dinámica de clústeres para la generación de imágenes de productos.

¿Cuál es el papel que desempeña Astronomer en la mejora del rendimiento y la escalabilidad de las aplicaciones de IA y ML?

La escalabilidad es un desafío importante para las empresas que aprovechan la IA generativa en 2024. Cuando se pasa de un prototipo a la producción, los usuarios esperan que sus aplicaciones de IA generativa sean confiables y de alto rendimiento, y que los resultados que producen sean confiables. Esto debe hacerse de manera rentable y las empresas de todos los tamaños deben poder aprovechar su potencial. Con esto en mente, al usar Astronomer, las tareas se pueden escalar horizontalmente para procesar dinámicamente grandes cantidades de fuentes de datos. Astro puede escalar despliegues y clústeres de manera elástica, y la ejecución de tareas basada en colas con tipos de máquina dedicados proporciona una mayor confiabilidad y uso eficiente de los recursos de cómputo. Para ayudar con la parte de la rentabilidad, Astro ofrece funciones de escalado cero y hibernación, que ayudan a controlar los costos en espiral y reducir los gastos en la nube. También proporcionamos transparencia completa sobre el costo de la plataforma. Mi propio equipo de datos genera informes sobre el consumo que hacemos disponibles diariamente para nuestros clientes.

¿Cuáles son algunas tendencias futuras en IA y ciencia de datos que lo emocionan, y cómo se está preparando Astronomer para ellas?

La IA explicativa es un área de desarrollo enormemente importante y fascinante. Ser capaz de mirar dentro de los mecanismos internos de modelos muy grandes es casi inquietante. Y también estoy interesado en ver cómo la comunidad lucha con el impacto ambiental del entrenamiento y afinamiento de modelos. En Astronomer, seguimos actualizando nuestro Registro con todas las últimas integraciones, para que los equipos de datos y ML puedan conectarse a los mejores servicios de modelo y las plataformas de cómputo más eficientes sin esfuerzo alguno.

¿Cómo vislumbra la integración de herramientas de IA avanzadas como LLM con sistemas de gestión de datos tradicionales evolucionar en los próximos años?

Hemos visto que tanto Databricks como Snowflake han hecho anuncios recientemente sobre cómo incorporan el uso y el desarrollo de LLM dentro de sus plataformas respectivas. Otras plataformas de gestión de bases de datos y ML harán lo mismo. Es genial ver que los ingenieros de datos tienen acceso tan fácil a métodos tan poderosos, directamente desde la línea de comandos o el prompt de SQL.

Estoy particularmente interesado en cómo las bases de datos relacionales incorporan el aprendizaje automático. Siempre estoy esperando a que los métodos de ML se incorporen en el estándar SQL, pero por alguna razón las dos disciplinas nunca realmente han conectado. Quizás esta vez será diferente.

Estoy muy emocionado con el futuro de los modelos de lenguaje grande para asistir el trabajo del ingeniero de datos. Para empezar, los LLM han tenido un éxito particular con la generación de código, aunque los esfuerzos iniciales para suministrar a los científicos de datos sugerencias impulsadas por IA han sido mixtos: Hex es genial, por ejemplo, mientras que Snowflake es insulso hasta ahora. Pero hay un enorme potencial para cambiar la naturaleza del trabajo para los equipos de datos, mucho más que para los desarrolladores. ¿Por qué? Para los ingenieros de software, el prompt es un nombre de función o la documentación, pero para los ingenieros de datos también hay los datos. Hay tanto contexto con el que los modelos pueden trabajar para hacer sugerencias útiles y precisas.

¿Qué consejo le daría a los científicos de datos y ingenieros de IA aspirantes que buscan tener un impacto en la industria?

Aprenda haciendo. Es increíblemente fácil construir aplicaciones estos días, y aumentarlas con inteligencia artificial. Así que construya algo genial, y envíelo a un amigo de un amigo que trabaja en una empresa que admira. O envíemelo a mí, y prometo que lo miraré.

El truco es encontrar algo que te apasione y encontrar una buena fuente de datos relacionados. Un amigo mío hizo un análisis fascinante de temporadas de béisbol anómalas que se remontan al siglo XIX y descubrió historias que merecen tener una película hecha sobre ellas. Y algunos de los ingenieros de Astronomer se reunieron un fin de semana para construir una plataforma para canalizaciones de datos auto-sanadoras. No puedo imaginar siquiera intentar hacer algo así hace unos años, pero con solo unos días de esfuerzo ganamos el hackathon de Cohere y construimos la base de una nueva función importante en nuestra plataforma.

Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar Astronomer.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.