Entretiens
Julian LaNeve, CTO chez Astronomer – SĂ©rie d’entretiens

Julian LaNeve est le directeur technique (CTO) d’Astronomer, la force motrice derrière Apache Airflow et l’orchestration de données modernes pour alimenter tout, de l’IA à l’analyse générale.
Julian travaille sur les produits et l’ingénierie chez Astronomer, où il se concentre sur l’expérience du développeur, l’observabilité des données et l’IA. Il est également l’auteur de Cosmos, un fournisseur Airflow pour exécuter des projets dbt Core en tant que DAG Airflow.
Il est passionné par tout ce qui concerne les données et le logiciel libre, car il passe son temps libre à participer à des hackathons, à créer de nouveaux projets et à explorer les dernières tendances en matière de données.
Pouvez-vous partager votre histoire personnelle de la façon dont vous êtes devenu impliqué dans l’ingénierie logicielle et comment vous êtes devenu CTO d’Astronomer ?
J’ai commencé à coder au collège. Pour moi, l’ingénierie a toujours été un excellent moyen de expression créative : je peux avoir une idée et utiliser la technologie nécessaire pour la concrétiser. Après avoir passé un certain temps dans l’ingénierie, j’ai voulu en faire plus. Je voulais comprendre comment les entreprises sont gérées, comment les produits sont vendus et comment les équipes sont constituées – et je voulais apprendre rapidement.
J’ai passé quelques années à travailler dans le conseil en gestion chez BCG, où j’ai travaillé sur une grande variété de projets dans différents secteurs. J’ai appris énormément, mais j’ai fini par manquer de créer des produits et de travailler vers une vision à long terme. J’ai décidé de rejoindre l’équipe de gestion de produits d’Astronomer, où je pouvais travailler avec les clients et créer des stratégies (les choses que j’aimais dans le conseil), mais que je pouvais également être très impliqué dans la création réelle du produit et la technologie.
Pendant un certain temps, j’ai agi comme un hybride PM/ingénieur – je travaillais avec les clients pour comprendre les défis qu’ils rencontrés et concevoir des produits et des fonctionnalités en tant que PM. Ensuite, je prenais les exigences du produit et travaillais avec l’équipe d’ingénierie pour créer réellement le produit ou la fonctionnalité. Au fil du temps, j’ai fait cela avec un plus grand nombre de produits chez Astronomer, ce qui a finalement conduit au rôle de CTO que j’occupe actuellement.
Pour les utilisateurs qui ne connaissent pas Airflow, pouvez-vous expliquer ce qui fait d’Airflow la plate-forme idéale pour créer, planifier et surveiller des flux de travail de manière programmatique ?
Apache Airflow est une plate-forme open-source pour développer, planifier et surveiller des flux de travail orientés batch. Airflow fournit les capacités de gestion de flux de travail qui sont intégrales aux plates-formes de données cloud natives modernes. Il automatise l’exécution des tâches, coordonne les dépendances entre les tâches et donne aux organisations un point central de contrôle pour surveiller et gérer les flux de travail.
Les architectes de plates-formes de données utilisent Airflow pour automatiser le déplacement et le traitement des données à travers et entre les différents systèmes, en gérant des flux de données complexes et en offrant une planification, une surveillance et une alerte flexibles. Toutes ces fonctionnalités sont extrêmement utiles pour les équipes de données modernes, mais ce qui fait d’Airflow la plate-forme idéale, c’est qu’il s’agit d’un projet open-source – ce qui signifie qu’il existe une communauté d’utilisateurs et de contributeurs d’Airflow qui travaillent constamment à développer la plate-forme, à résoudre les problèmes et à partager les meilleures pratiques.
Airflow dispose également de nombreuses intégrations de données avec des bases de données, des applications et des outils populaires, ainsi que des dizaines de services cloud — et de nouveaux sont ajoutés chaque mois.
Comment Astronomer utilise-t-il Airflow pour les processus internes ?
Nous utilisons Airflow énormément ! Naturellement, nous avons notre propre équipe de données qui utilise Airflow pour livrer des données à l’entreprise et à nos clients. Ils ont créé des outils très sophistiqués autour d’Airflow qui nous ont inspirés pour le développement de fonctionnalités sur la plate-forme plus large.
Nous utilisons également Airflow pour des cas d’utilisation plutôt inhabituels, mais il fonctionne très bien. Par exemple, notre équipe CRE utilise Airflow pour surveiller les centaines de clusters Kubernetes et les milliers de déploiements Airflow que nous exécutons pour le compte de nos clients. Leurs pipelines s’exécutent en permanence pour vérifier les problèmes, et si nous en détectons, nous ouvrons des tickets de support proactifs au nom de nos clients.
J’ai même utilisé Airflow pour des cas d’utilisation personnels. Mon préféré (jusqu’à présent) était lorsque j’ai déménagé à New York. Si vous avez déjà vécu ici, vous savez que le marché locatif est fou. Les appartements sont loués dans les heures qui suivent leur mise en ligne. Mes colocataires et moi avions une liste de critères que nous avions tous acceptés (emplacement, nombre de chambres, salles de bain, etc.), et j’ai créé un DAG Airflow qui s’exécutait toutes les quelques minutes, récupérait de nouvelles annonces de sites de location d’appartements et m’envoyait un SMS (merci Twilio !) chaque fois qu’il y avait quelque chose de nouveau qui correspondait à nos critères. L’appartement dans lequel je vis maintenant a été trouvé grâce à Airflow !
Astronomer a conçu Astro, une plate-forme d’orchestration de données moderne, alimentée par Airflow. Pouvez-vous nous expliquer comment cet outil permet aux entreprises de placer facilement Airflow au cœur de leurs opérations de données ?
Astro permet aux organisations et plus spécifiquement aux ingénieurs de données, aux scientifiques de données et aux analystes de données de créer, d’exécuter et de développer leurs pipelines de données critiques sur une seule plate-forme pour tous leurs flux de données. Il s’agit du seul service géré Airflow qui offre des niveaux élevés de sécurité et de protection des données et aide les entreprises à mettre à l’échelle leurs déploiements et à libérer des ressources pour se concentrer sur leurs objectifs commerciaux globaux.
L’un de nos clients, Anastasia, une société de technologie de pointe, a choisi Astro pour gérer Airflow car ils n’avaient pas suffisamment de temps ou de ressources pour maintenir Airflow par eux-mêmes. Astro fonctionne en arrière-plan afin que les équipes puissent se concentrer sur les activités commerciales principales, plutôt que de passer du temps sur des activités non différenciées comme la gestion d’Airflow.
L’un des composants clés d’Astro est la scalabilité élastique, pouvez-vous définir ce que c’est et pourquoi c’est important pour les environnements de calcul cloud ?
Pour nous, cela signifie simplement notre capacité à répondre aux demandes de calcul de nos clients sans exécuter une grande quantité d’infrastructure en permanence. Nos clients utilisent notre plate-forme pour une grande variété de cas d’utilisation, dont la plupart ont des exigences de calcul élevées (formation de modèles d’apprentissage automatique, traitement de grandes quantités de données, etc.). L’un des avantages clés d’Astronomer est que, en tant que client, vous n’avez pas à réfléchir aux machines qui exécutent vos pipelines. Vous déployez vos pipelines sur Astro, et vous pouvez vous attendre à ce qu’ils fonctionnent. Nous avons créé un ensemble de fonctionnalités et de systèmes qui nous aident à mettre à l’échelle notre infrastructure pour répondre aux demandes changeantes de nos clients, et c’est quelque chose que nous sommes impatients de continuer à développer à l’avenir.
Vous étiez responsable de l’équipe d’Astronomer qui a créé Ask-Astro, le chatbot LLM pour Apache Airflow. Pouvez-vous nous donner des détails sur ce qu’est Ask-Astro et les LLM qui le alimentent ?
<p Notre équipe chez Astronomer compte certains des membres les plus compétents de la communauté Airflow et nous voulions faciliter le partage de leurs connaissances. Pour ce faire, nous avons créé une implémentation de référence des architectures émergentes d'Andreessen Horowitz pour les applications LLM, qui montre les systèmes, les outils et les modèles de conception les plus courants qu'ils ont vus utilisés par les startups et les sociétés de technologie sophistiquées. Nous avons commencé avec certaines opinions éclairées sur cette implémentation de référence et Apache Airflow joue également un rôle central dans l'architecture. Ask Astro est une référence réelle pour montrer comment relier tous les différents éléments.
Ask Astro est plus qu’un simple chatbot. L’équipe d’Astronomer a choisi de développer l’application de manière ouverte et publie régulièrement des articles sur les défis, les idées et les solutions afin de développer des connaissances institutionnelles au profit de la communauté. Quels ont été les plus grands défis que l’équipe a rencontrés ?
Le plus grand défi était le manque de bonnes pratiques claires dans la communauté. Puisque l’état de l’art était redéfini chaque semaine, il était difficile de comprendre comment aborder certains problèmes (ingestion de documents, sélection de modèles, mesure de la précision de la sortie, etc.). C’était un facteur clé pour nous pour construire Ask Astro de manière ouverte. Nous voulions établir un ensemble de pratiques pour l’orchestration LLM qui fonctionnent bien pour différents cas d’utilisation afin que nos clients et la communauté puissent se sentir bien préparés à adopter les technologies LLM et l’IA générative.
Cela s’est avéré être un excellent choix – l’outil lui-même reçoit beaucoup d’utilisation, nous avons donné plusieurs conférences publiques sur la façon de construire des applications LLM et nous avons même commencé à travailler avec un groupe sélectionné de clients pour déployer des versions internes d’Ask Astro !
Quelle est votre vision personnelle pour l’avenir d’Airflow et d’Astronomer ?
Je suis vraiment enthousiaste à l’égard de l’avenir d’Airflow et d’Astronomer. La communauté Airflow continue de grandir et chez Astronomer, nous nous engageons à favoriser son développement, son soutien et sa connexion entre les équipes et les individus.
Avec la demande croissante d’informations basées sur les données et l’afflux de sources de données, les ingénieurs de données ont un travail difficile. Nous voulons alléger la charge pour ces individus et ces équipes en leur permettant d’intégrer et de gérer des données complexes à grande échelle. Aujourd’hui, cela signifie également soutenir l’adoption de l’IA. En 2023, comme de nombreuses autres sociétés, nous nous sommes concentrés sur la façon dont nous pouvons accélérer l’utilisation de l’IA pour nos clients. Notre plate-forme, Astro, accélère le déploiement de l’IA, rationalise le développement du ML et fournit la puissance de calcul robuste nécessaire pour les applications de nouvelle génération. L’IA continuera d’être une priorité pour nous cette année et nous soutiendrons nos clients à mesure que de nouvelles technologies et de nouveaux cadres émergent.
En outre, Astronomer est un excellent endroit pour travailler et faire carrière. Au fur et à mesure que le paysage des données continue d’évoluer, travailler ici devient de plus en plus excitant. Nous construisons une excellente équipe ici et nous avons de nombreux défis techniques à relever. Nous venons également de déménager notre siège social à New York, où nous pouvons devenir une partie encore plus importante de la communauté technologique qui existe là et nous serons mieux équipés pour attirer les meilleurs talents les plus compétents de l’industrie. Si vous êtes intéressé pour rejoindre l’équipe pour nous aider à livrer les données du monde à temps, n’hésitez pas à nous contacter !
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus peuvent visiter Astronomer.












