Entretiens
Steven Hillion, SVP de données et d’IA chez Astronomer – Série d’entretiens

Steven Hillion est le vice-président senior des données et de l’IA chez Astronomer, où il utilise son expérience académique approfondie en mathématiques de recherche et plus de 15 ans d’expérience dans le développement de plateformes d’apprentissage automatique dans la vallée de Silicon. Chez Astronomer, il dirige la création de fonctionnalités Apache Airflow spécifiquement conçues pour les équipes de ML et d’IA et supervise l’équipe interne de science des données. Sous sa direction, Astronomer a amélioré sa plateforme moderne d’orchestration de données, améliorant considérablement ses capacités de pipeline de données pour prendre en charge une gamme diversifiée de sources de données et de tâches via l’apprentissage automatique.
Pouvez-vous partager des informations sur votre parcours en science des données et en IA, et comment cela a façonné votre approche pour diriger les équipes d’ingénierie et d’analyse ?
J’avais un background en mathématiques de recherche à Berkeley avant de traverser la baie pour travailler en tant qu’ingénieur dans une série de startups réussies dans la vallée de Silicon. J’étais heureux de laisser derrière moi la politique et la bureaucratie de l’université, mais j’ai découvert au bout de quelques années que je manquais les mathématiques. Alors, j’ai décidé de passer au développement de plateformes pour l’apprentissage automatique et l’analyse, et c’est à peu près ce que j’ai fait depuis.
Ma formation en mathématiques pures a abouti à une préférence pour ce que les scientifiques des données appellent « la parsimonie » — l’outil approprié pour la tâche, et rien de plus. Puisque les mathématiciens ont tendance à favoriser les solutions élégantes plutôt que les machines complexes, j’ai toujours essayé de mettre l’accent sur la simplicité lors de l’application de l’apprentissage automatique aux problèmes commerciaux. L’apprentissage profond est excellent pour certaines applications — les grands modèles de langage sont brillants pour résumer des documents, par exemple — mais parfois, un modèle de régression simple est plus approprié et plus facile à expliquer.
C’est fascinant de voir l’évolution du rôle du scientifique des données et de l’ingénieur logiciel au cours de ces vingt dernières années depuis que l’apprentissage automatique est devenu répandu. Ayant porté les deux chapeaux, je suis très conscient de l’importance du cycle de vie du développement logiciel (en particulier, l’automatisation et les tests) appliqué aux projets d’apprentissage automatique.
Quels sont les plus grands défis pour déplacer, traiter et analyser les données non structurées pour l’IA et les grands modèles de langage (LLM) ?
Dans le monde de l’IA générative, vos données sont votre actif le plus précieux. Les modèles sont de plus en plus standardisés, donc votre différenciation, c’est toute cette connaissance institutionnelle gagnée grâce à vos jeux de données propriétaires et curatoriaux.
Fournir les bonnes données au bon moment impose des exigences élevées sur vos pipelines de données — et cela s’applique aux données non structurées tout autant qu’aux données structurées, ou peut-être plus. Souvent, vous ingérez des données de nombreuses sources différentes, dans de nombreux formats différents. Vous avez besoin d’accéder à une variété de méthodes pour déballer les données et les préparer pour une utilisation dans l’inférence de modèles ou la formation de modèles. Vous devez également comprendre la provenance des données et où elles se terminent pour « montrer votre travail ».
Si vous ne le faites qu’une fois de temps en temps pour former un modèle, ce n’est pas grave. Vous n’avez pas nécessairement besoin de l’opérationnaliser. Si vous utilisez le modèle quotidiennement pour comprendre le sentiment des clients à partir de forums en ligne ou pour résumer et acheminer des factures, alors cela commence à ressembler à n’importe quel autre pipeline de données opérationnel, ce qui signifie que vous devez réfléchir à la fiabilité et à la reproductibilité. Ou si vous affinez régulièrement le modèle, alors vous devez vous soucier de la surveillance de la précision et du coût.
La bonne nouvelle, c’est que les ingénieurs de données ont développé une excellente plateforme, Airflow, pour gérer les pipelines de données, qui a déjà été appliquée avec succès à la gestion du déploiement de modèles et à la surveillance par certaines des équipes de ML les plus sophistiquées du monde. Donc, les modèles peuvent être nouveaux, mais l’orchestration ne l’est pas.
Pouvez-vous élaborer sur l’utilisation de données synthétiques pour affiner les petits modèles pour la précision ? Comment cela se compare-t-il à la formation de plus grands modèles ?
C’est une technique puissante. Vous pouvez penser aux meilleurs grands modèles de langage comme encapsulant ce qu’ils ont appris sur le monde et qu’ils peuvent le transmettre à des modèles plus petits en générant des données synthétiques. Les LLM encapsulent d’énormes quantités de connaissances apprises grâce à une formation extensive sur des jeux de données diversifiés. Ces modèles peuvent générer des données synthétiques qui capturent les modèles, les structures et les informations qu’ils ont apprises. Ces données synthétiques peuvent ensuite être utilisées pour former des modèles plus petits, transférant efficacement une partie des connaissances des plus grands modèles aux plus petits. Ce processus est souvent appelé « distillation de connaissances » et aide à créer des modèles plus petits et efficaces qui fonctionnent toujours bien sur des tâches spécifiques. Et avec des données synthétiques, vous pouvez éviter les problèmes de confidentialité et combler les lacunes dans les données d’entraînement qui sont petites ou incomplètes.
Cela peut être utile pour former un modèle d’IA générative plus spécifique au domaine et peut même être plus efficace que la formation d’un « plus grand » modèle, avec un niveau de contrôle plus élevé.
Les scientifiques des données génèrent des données synthétiques depuis un certain temps et l’imputation existe depuis que les jeux de données sont désordonnés. Mais vous deviez toujours être très prudent pour ne pas introduire de biais ou faire des hypothèses incorrectes sur la distribution des données. Maintenant que la synthèse de données est si facile et puissante, vous devez être encore plus prudent. Les erreurs peuvent être amplifiées.
Un manque de diversité dans les données générées peut entraîner un « effondrement du modèle ». Le modèle pense qu’il fonctionne bien, mais c’est parce qu’il n’a pas vu l’image complète. Et, plus généralement, un manque de diversité dans les données d’entraînement est quelque chose que les équipes de données devraient toujours rechercher.
À un niveau de base, que vous utilisiez des données synthétiques ou des données organiques, la lignée et la qualité sont essentielles pour former ou affiner n’importe quel modèle. Comme nous le savons, les modèles ne sont que aussi bons que les données sur lesquelles ils sont formés. Alors que les données synthétiques peuvent être un outil précieux pour représenter un jeu de données sensible sans l’exposer ou pour combler les lacunes qui pourraient être omises dans un jeu de données représentatif, vous devez avoir une traçabilité montrant d’où viennent les données et être capable de prouver leur niveau de qualité.
Quelles sont certaines des techniques innovantes que votre équipe chez Astronomer met en œuvre pour améliorer l’efficacité et la fiabilité des pipelines de données ?
Il y en a tant ! L’infrastructure Astro entièrement gérée et l’Astro Hypervisor d’Astro prennent en charge le scaling dynamique et la surveillance proactive via des métriques de santé avancées. Cela garantit que les ressources sont utilisées efficacement et que les systèmes sont fiables à n’importe quelle échelle. Astro fournit une alerte robuste centrée sur les données avec des notifications personnalisables qui peuvent être envoyées via divers canaux tels que Slack et PagerDuty. Cela garantit une intervention en temps opportun avant que les problèmes ne s’aggravent.
Les tests de validation des données, les tests unitaires et les contrôles de qualité des données jouent des rôles vitaux pour garantir la fiabilité, l’exactitude et l’efficacité des pipelines de données et, finalement, des données qui alimentent votre entreprise. Ces contrôles garantissent que, même si vous construisez rapidement des pipelines de données pour respecter vos délais, ils détectent activement les erreurs, améliorent les temps de développement et réduisent les erreurs imprévues en arrière-plan. Chez Astronomer, nous avons construit des outils comme Astro CLI pour aider à vérifier la fonctionnalité du code ou à identifier les problèmes d’intégration dans votre pipeline de données.
Comment voyez-vous l’évolution de la gouvernance de l’IA générative, et quelles mesures devraient être prises pour soutenir la création d’outils plus nombreux ?
La gouvernance est impérative si les applications de l’IA générative doivent être couronnées de succès. Il s’agit de transparence et de reproductibilité. Savez-vous comment vous avez obtenu ce résultat, et d’où, et par qui ? Airflow lui-même vous donne déjà un moyen de voir ce que font les pipelines de données individuels. Son interface utilisateur était l’une des raisons de son adoption rapide au début, et chez Astronomer, nous avons augmenté cela avec une visibilité sur les équipes et les déploiements. Nous offrons également à nos clients des tableaux de bord de rapports qui offrent des insights complets sur l’utilisation de la plateforme, les performances et l’attribution des coûts pour une prise de décision éclairée. De plus, l’API Astro permet aux équipes de déployer, d’automatiser et de gérer leurs pipelines Airflow de manière programmatique, atténuant les risques associés aux processus manuels et garantissant des opérations sans faille à grande échelle lors de la gestion de plusieurs environnements Airflow. Les capacités de lignée sont intégrées à la plateforme.
Ce sont tous des pas vers l’aide à la gestion de la gouvernance des données, et je crois que les entreprises de toutes tailles reconnaissent l’importance de la gouvernance des données pour garantir la confiance dans les applications d’IA. Cette reconnaissance et cette prise de conscience entraîneront en grande partie la demande de outils de gouvernance des données, et je prévois la création de davantage de ces outils pour accélérer à mesure que l’IA générative se propage. Mais ils doivent faire partie de la pile d’orchestration plus large, c’est pourquoi nous considérons cela comme fondamental pour la façon dont nous construisons notre plateforme.
Pouvez-vous fournir des exemples de la façon dont les solutions d’Astronomer ont amélioré l’efficacité opérationnelle et la productivité pour les clients ?
Les processus d’IA générative impliquent des tâches complexes et gourmandes en ressources qui doivent être soigneusement optimisées et exécutées à plusieurs reprises. Astro, la plateforme Airflow gérée par Astronomer, fournit un cadre au centre de la pile d’applications d’IA émergente pour aider à simplifier ces tâches et à améliorer la capacité à innover rapidement.
En orchestrant les tâches d’IA générative, les entreprises peuvent garantir que les ressources de calcul sont utilisées efficacement et que les flux de travail sont optimisés et ajustés en temps réel. C’est particulièrement important dans les environnements où les modèles génératifs doivent être fréquemment mis à jour ou réentraînés sur la base de nouvelles données.
En utilisant la gestion de flux de travail d’Airflow et les capacités de déploiement et de mise à l’échelle d’Astronomer, les équipes peuvent passer moins de temps à gérer l’infrastructure et se concentrer davantage sur la transformation des données et le développement de modèles, ce qui accélère le déploiement des applications d’IA générative et améliore les performances.
De cette façon, la plateforme Astro d’Astronomer a aidé les clients à améliorer l’efficacité opérationnelle de l’IA générative dans une large gamme de cas d’utilisation. Pour n’en citer que quelques-uns, les cas d’utilisation incluent la découverte de produits e-commerce, l’analyse des risques d’abandon des clients, l’automatisation du support, la classification et la résumé de documents juridiques, l’obtention d’informations sur les produits à partir d’avis clients et la provision dynamique de clusters pour la génération d’images de produits.
Quel rôle Astronomer joue-t-il pour améliorer les performances et la scalabilité des applications d’IA et de ML ?
La scalabilité est un défi majeur pour les entreprises qui exploitent l’IA générative en 2024. Lorsque vous passez du prototype à la production, les utilisateurs s’attendent à ce que leurs applications d’IA générative soient fiables et performantes, et que les sorties qu’elles produisent soient fiables. Cela doit être fait de manière rentable et les entreprises de toutes tailles doivent être en mesure de tirer parti de son potentiel. À cette fin, en utilisant Astronomer, les tâches peuvent être mises à l’échelle horizontalement pour traiter dynamiquement un grand nombre de sources de données. Astro peut mettre à l’échelle élastiquement les déploiements et les clusters sur lesquels ils sont hébergés, et l’exécution de tâches basée sur des files d’attente avec des types de machines dédiés offre une fiabilité et une utilisation efficace des ressources de calcul. Pour aider à résoudre le problème de la rentabilité, Astro propose des fonctionnalités de mise à l’échelle à zéro et d’hibernation, qui aident à contrôler les coûts en spirale et à réduire les dépenses cloud. Nous offrons également une transparence complète sur le coût de la plateforme. Mon propre équipe de données génère des rapports sur la consommation que nous mettons à disposition de nos clients quotidiennement.
Quels sont les futurs tendances en IA et en science des données qui vous passionnent, et comment Astronomer se prépare-t-il à ces tendances ?
L’IA explicative est un domaine de développement énormément important et fascinant. Pouvoir regarder le fonctionnement interne de très grands modèles est presque inquiétant. Et je suis également intéressé de voir comment la communauté lutte contre l’impact environnemental de la formation et du réglage des modèles. Chez Astronomer, nous continuons de mettre à jour notre Registre avec toutes les dernières intégrations, afin que les équipes de données et de ML puissent se connecter aux meilleurs services de modèles et aux plates-formes de calcul les plus efficaces sans aucun effort.
Comment voyez-vous l’intégration d’outils d’IA avancés comme les LLM avec les systèmes de gestion de données traditionnels évoluer au cours des prochaines années ?
Nous avons vu Databricks et Snowflake annoncer récemment comment ils intègrent à la fois l’utilisation et le développement des LLM dans leurs plates-formes respectives. D’autres SGBD et plates-formes de ML feront de même. C’est formidable de voir les ingénieurs de données avoir un accès si facile à de telles méthodes puissantes, directement depuis la ligne de commande ou la invite SQL.
Je suis particulièrement intéressé par la façon dont les bases de données relationnelles intègrent l’apprentissage automatique. J’attends toujours que les méthodes de ML soient intégrées à la norme SQL, mais pour une raison ou une autre, les deux disciplines n’ont jamais vraiment fusionné. Peut-être que cette fois-ci sera différente.
Je suis très enthousiaste à l’idée de l’avenir des grands modèles de langage pour aider le travail de l’ingénieur de données. Pour commencer, les LLM ont déjà été particulièrement réussis avec la génération de code, bien que les premiers efforts pour fournir aux scientifiques des données des suggestions alimentées par l’IA aient été mitigés : Hex est excellent, par exemple, tandis que Snowflake est peu inspirant jusqu’à présent. Mais il y a un énorme potentiel pour changer la nature du travail pour les équipes de données, bien plus que pour les développeurs. Pourquoi ? Pour les ingénieurs logiciels, la invite est un nom de fonction ou la documentation, mais pour les ingénieurs de données, il y a aussi les données. Il y a tellement de contexte que les modèles peuvent travailler pour faire des suggestions utiles et précises.
Quels conseils donneriez-vous aux scientifiques des données et aux ingénieurs d’IA aspirants qui souhaitent avoir un impact dans l’industrie ?
Apprenez en faisant. Il est incroyablement facile de construire des applications ces jours-ci et de les enrichir avec l’intelligence artificielle. Alors, construisez quelque chose de cool et envoyez-le à un ami d’un ami qui travaille dans une entreprise que vous admirez. Ou envoyez-le-moi, et je promets que je vais y jeter un coup d’œil !
Le truc, c’est de trouver quelque chose que vous êtes passionné et de trouver une bonne source de données liées. Un ami à moi a fait une analyse fascinante des saisons de baseball anormales remontant au 19e siècle et a découvert des histoires qui méritent d’avoir un film réalisé à leur sujet. Et certains des ingénieurs d’Astronomer ont récemment passé un week-end à construire une plateforme pour des pipelines de données auto-réparateurs. Je ne peux même pas imaginer essayer de faire quelque chose comme cela il y a quelques années, mais avec juste quelques jours d’efforts, nous avons gagné le hackathon de Cohere et avons construit les fondations d’une nouvelle fonctionnalité majeure dans notre plateforme.
Je vous remercie pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Astronomer.












