Entretiens

Dr. Mike Flaxman, VP de Produit chez HEAVY.AI – Série d’entretiens

mm

Dr. Mike Flaxman est actuellement le VP de Produit chez HEAVY.AI, après avoir occupé le poste de Product Manager et dirigé la pratique de la science des données spatiales dans les services professionnels. Il a passé les 20 dernières années à travailler dans la planification environnementale spatiale. Avant HEAVY.AI, il a fondé Geodesign Technologies, Inc. et co-fondé GeoAdaptive LLC, deux startups qui appliquent les technologies d’analyse spatiale à la planification. Avant de rejoindre le monde des startups, il était professeur de planification au MIT et responsable de l’industrie chez ESRI.

HEAVY.AI est une plateforme accélérée par matériel pour l’analyse de données en temps réel et à forte incidence. Elle utilise à la fois le traitement par GPU et CPU pour interroger de grandes bases de données rapidement, avec une prise en charge de SQL et des données géospatiales. La plateforme comprend des outils d’analyse visuelle pour les tableaux de bord interactifs, le filtrage croisé et les visualisations de données évolutives, permettant une analyse efficace de grandes bases de données dans diverses industries.

Pouvez-vous nous parler de votre parcours professionnel et de ce qui vous a amené à rejoindre HEAVY.AI ?

Avant de rejoindre HEAVY.AI, j’ai passé des années dans le monde universitaire, enseignant finalement l’analyse spatiale au MIT. J’ai également dirigé une petite entreprise de consulting, avec une variété de clients du secteur public. J’ai été impliqué dans des projets de SIG dans 17 pays. Mon travail m’a emmené de la consultation d’organisations comme la Banque interaméricaine de développement à la gestion de la technologie SIG pour l’architecture, l’ingénierie et la construction chez ESRI, le plus grand développeur de SIG au monde.

Je me souviens vivement de ma première rencontre avec ce qui est maintenant HEAVY.AI, qui remonte à l’époque où, en tant que consultant, j’étais responsable de la planification de scénarios pour le programme de conservation de l’habitat des plages de Floride. Mes collègues et moi avions du mal à modéliser l’habitat des tortues de mer à l’aide de données Landsat de 30 m et un ami m’a indiqué une nouvelle donnée très pertinente – des données LiDAR de 5 cm. C’était exactement ce dont nous avions besoin sur le plan scientifique, mais quelque chose comme 3600 fois plus grand que ce que nous avions prévu d’utiliser. Personne ne voulait augmenter mon budget, même d’une fraction de ce montant. Donc, ce jour-là, j’ai posé les outils que j’avais utilisés et enseignés pendant plusieurs décennies et je suis allé chercher quelque chose de nouveau. HEAVY.AI a traversé et rendu ces données si facilement et sans effort que j’ai été instantanément accroché.

En avançant dans le temps, je pense toujours que ce que fait HEAVY.AI est plutôt unique et que son pari précoce sur l’analyse GPU est exactement là où l’industrie doit aller. HEAVY.AI se concentre fermement sur la démocratisation de l’accès aux grandes bases de données. Cela comprend bien sûr la composante volume de données et vitesse de traitement, essentiellement en donnant à chacun son propre supercalculateur. Mais un aspect de plus en plus important avec l’avènement des grands modèles de langage est de rendre la modélisation spatiale accessible à beaucoup plus de personnes. Ces jours-ci, plutôt que de passer des années à apprendre une interface complexe avec des milliers d’outils, vous pouvez simplement commencer une conversation avec HEAVY.AI dans la langue humaine de votre choix. Le programme ne génère pas seulement les commandes requises, mais présente également des visualisations pertinentes.

Derrière les scènes, offrir une facilité d’utilisation est bien sûr très difficile. Actuellement, en tant que VP de la gestion de produit chez HEAVY.AI, je suis fortement impliqué dans la détermination des fonctionnalités et des capacités que nous priorisons pour nos produits. Mon expérience approfondie en SIG me permet de vraiment comprendre les besoins de nos clients et de guider notre feuille de route de développement en conséquence.

Comment votre expérience précédente dans la planification environnementale spatiale et les startups a-t-elle influencé votre travail chez HEAVY.AI ?

La planification environnementale est un domaine particulièrement difficile dans la mesure où vous devez tenir compte à la fois des besoins humains différents et du monde naturel. La solution générale que j’ai apprise tôt est de combiner une méthode appelée planification participative avec les technologies de télédétection et de SIG. Avant de décider d’un plan d’action, nous créions plusieurs scénarios et simulions leurs impacts positifs et négatifs sur l’ordinateur à l’aide de visualisations. L’utilisation de processus participatifs nous a permis de combiner diverses formes d’expertise et de résoudre des problèmes très complexes.

Même si nous ne faisons pas typiquement de la planification environnementale chez HEAVY.AI, ce modèle fonctionne toujours très bien dans les contextes commerciaux. Nous aidons donc les clients à construire des jumeaux numériques de parties clés de leur entreprise et nous leur permettons de créer et d’évaluer rapidement des scénarios commerciaux.

Je suppose que mon expérience d’enseignement m’a donné une grande empathie pour les utilisateurs de logiciels, en particulier pour les systèmes de logiciels complexes. Là où un élève bute sur un point est aléatoire, mais là où des dizaines ou des centaines de personnes font des erreurs similaires, vous savez que vous avez un problème de conception. Peut-être que ma partie préférée de la conception de logiciels est de prendre ces enseignements et de les appliquer pour concevoir de nouvelles générations de systèmes.

Pouvez-vous expliquer comment HeavyIQ utilise le traitement du langage naturel pour faciliter l’exploration et la visualisation des données ?

Ces jours-ci, il semble que tout le monde et son frère vantent un nouveau modèle d’IA de génération, la plupart d’entre eux étant des clones oubliables les uns des autres. Nous avons pris un chemin très différent. Nous croyons que l’exactitude, la reproductibilité et la confidentialité sont des caractéristiques essentielles pour tout outil d’analyse commerciale, y compris ceux générés avec de grands modèles de langage (LLM). Nous avons donc intégré ces éléments à notre offre à un niveau fondamental. Par exemple, nous limitons strictement les entrées de modèle aux bases de données d’entreprise et fournissons des documents à l’intérieur d’un périmètre de sécurité d’entreprise. Nous limitons également les sorties aux derniers HeavySQL et Charts. Cela signifie que quelle que soit la question que vous posez, nous essayerons de répondre avec vos données et nous vous montrerons exactement comment nous avons dérivé cette réponse.

Avec ces garanties en place, cela importe moins à nos clients de savoir exactement comment nous traitons les requêtes. Mais derrière les scènes, une autre différence importante par rapport aux modèles de consommation est que nous affinons considérablement les modèles contre les types de questions que les utilisateurs commerciaux posent aux données commerciales, y compris les données spatiales. Par exemple, notre modèle est excellent pour effectuer des joints spatiaux et des joints de série chronologique, qui ne sont pas dans les benchmarks SQL classiques mais que nos utilisateurs utilisent quotidiennement.

Nous emballons ces capacités de base dans une interface de notebook que nous appelons HeavyIQ. IQ est destiné à rendre l’exploration et la visualisation des données aussi intuitives que possible en utilisant le traitement du langage naturel (NLP). Vous posez une question en anglais – comme « Quels étaient les modèles météorologiques en Californie la semaine dernière ? » – et HeavyIQ traduit cela en requêtes SQL que notre base de données accélérée par GPU traite rapidement. Les résultats sont présentés non seulement sous forme de données mais également sous forme de visualisations – cartes, graphiques, ce qui est le plus pertinent. Il s’agit de permettre une interrogation interactive rapide, en particulier lorsqu’il s’agit de grandes bases de données ou de données à débit élevé. Ce qui est clé ici est que ce n’est souvent pas la première question que vous posez, mais peut-être la troisième, qui obtient vraiment l’insight clé, et HeavyIQ est conçu pour faciliter cette exploration plus approfondie.

Quels sont les principaux avantages de l’utilisation de HeavyIQ par rapport aux outils de BI traditionnels pour les opérateurs de télécommunications, les services publics et les agences gouvernementales ?

HeavyIQ excelle dans les environnements où vous avez affaire à des données à grande échelle et à débit élevé – exactement le type de données que les opérateurs de télécommunications, les services publics et les agences gouvernementales gèrent. Les outils de business intelligence traditionnels ont souvent du mal avec le volume et la vitesse de ces données. Par exemple, dans les télécommunications, vous pouvez avoir des milliards d’enregistrements d’appels, mais c’est la petite fraction d’appels interrompus que vous devez cibler. HeavyIQ vous permet de passer au crible ces données 10 à 100 fois plus vite grâce à notre infrastructure GPU. Cette vitesse, combinée à la capacité d’interroger et de visualiser des données de manière interactive, en fait un outil inestimable pour l’analyse des risques dans les services publics ou la planification de scénarios en temps réel pour les agences gouvernementales.

L’autre avantage déjà évoqué ci-dessus est que les requêtes SQL spatiales et temporelles sont extrêmement puissantes sur le plan analytique – mais peuvent être lentes ou difficiles à écrire à la main. Lorsqu’un système fonctionne à ce que nous appelons « la vitesse de la curiosité », les utilisateurs peuvent poser à la fois plus de questions et des questions plus nuancées. Par exemple, un ingénieur de télécommunications peut remarquer une pointe temporelle dans les défaillances d’équipement à partir d’un système de surveillance, avoir l’intuition que quelque chose ne va pas dans une installation particulière et vérifier cela avec une requête spatiale qui renvoie une carte.

Quelles mesures sont en place pour prévenir la fuite de métadonnées lors de l’utilisation de HeavyIQ ?

Comme décrit ci-dessus, nous avons conçu HeavyIQ avec la confidentialité et la sécurité à son cœur. Cela inclut non seulement les données mais également plusieurs types de métadonnées. Nous utilisons des métadonnées au niveau de la colonne et de la table de manière extensive pour déterminer quelles tables et colonnes contiennent les informations nécessaires pour répondre à une requête. Nous utilisons également des documents internes à l’entreprise lorsque ceux-ci sont fournis pour aider à ce que l’on appelle la génération assistée par récupération (RAG). Enfin, les modèles de langage eux-mêmes génèrent davantage de métadonnées. Toutes ces métadonnées, mais surtout les deux dernières, peuvent être très sensibles sur le plan commercial.

Contrairement aux modèles tiers où vos données sont généralement envoyées à des serveurs externes, HeavyIQ s’exécute localement sur la même infrastructure GPU que le reste de notre plateforme. Cela garantit que vos données et métadonnées restent sous votre contrôle, sans risque de fuite. Pour les organisations qui nécessitent les niveaux de sécurité les plus élevés, HeavyIQ peut même être déployé dans un environnement complètement isolé, garantissant que les informations sensibles ne quittent jamais des équipements spécifiques.

Comment HEAVY.AI parvient-il à une haute performance et une évolutivité avec des jeux de données massifs en utilisant l’infrastructure GPU ?

Le secret réside essentiellement dans l’évitement du déplacement de données prévalent dans d’autres systèmes. Au cœur de cela se trouve une base de données conçue à des fins spécifiques pour fonctionner sur les GPU NVIDIA. Nous travaillons dessus depuis plus de 10 ans maintenant et nous croyons vraiment que nous avons la meilleure solution de classe mondiale en matière d’analyse accélérée par GPU.

Même les meilleurs systèmes basés sur CPU s’essoufflent bien avant un GPU moyen. La stratégie une fois que cela se produit sur CPU nécessite de distribuer les données sur plusieurs cœurs, puis sur plusieurs systèmes (appelé « mise à l’échelle horizontale »). Cela fonctionne bien dans certains contextes où les choses sont moins critiques en termes de temps, mais commence généralement à être gêné par les performances du réseau.

En plus d’éviter tous ces déplacements de données sur les requêtes, nous évitons également cela pour de nombreuses autres tâches courantes. La première est que nous pouvons rendre des graphiques sans déplacer les données. Ensuite, si vous souhaitez un modèle de déduction ML, nous le faisons à nouveau sans déplacement de données. Et si vous interrogez les données avec un grand modèle de langage, nous le faisons encore une fois sans déplacement de données. Même si vous êtes un data scientist et que vous souhaitez interroger les données à partir de Python, nous fournissons des méthodes pour le faire sur GPU sans déplacement de données.

Cela signifie en pratique que nous pouvons effectuer non seulement des requêtes mais également des rendus 10 à 100 fois plus rapides que les bases de données et les serveurs de cartes basés sur CPU traditionnels. Lorsque vous avez affaire aux grandes bases de données à débit élevé avec lesquelles nos clients travaillent – comme les modèles météorologiques, les enregistrements d’appels de télécommunications ou les images satellites – ce type d’amélioration des performances est absolument essentiel.

Comment HEAVY.AI maintient-il son avance concurrentielle dans le paysage en constante évolution de l’analyse de grandes bases de données et de l’IA ?

C’est une excellente question et c’est quelque chose à quoi nous réfléchissons constamment. Le paysage de l’analyse de grandes bases de données et de l’IA évolue à un rythme incroyablement rapide, avec de nouvelles avancées et innovations se produisant tout le temps. Il ne nous fait certainement pas de mal d’avoir une avance de 10 ans sur la technologie de base de données GPU.

Je pense que la clé pour nous est de rester concentrés sur notre mission fondamentale – démocratiser l’accès aux grandes bases de données géospatiales. Cela signifie continuellement repousser les limites de ce qui est possible avec l’analyse accélérée par GPU et nous assurer que nos produits offrent des performances et des capacités sans précédent dans ce domaine. Une grande partie de cela consiste en notre investissement continu dans le développement de modèles de langage personnalisés et affinés qui comprennent vraiment les nuances de SQL spatial et de l’analyse géospatiale.

Nous avons construit une vaste bibliothèque de données d’entraînement, allant bien au-delà des benchmarks génériques, pour nous assurer que nos outils d’analyse conversationnelle peuvent interagir avec les utilisateurs de manière naturelle et intuitive. Mais nous savons également que la technologie seule ne suffit pas. Nous devons rester profondément connectés à nos clients et à leurs besoins évoluant. Au final, notre avance concurrentielle repose sur notre focalisation sans relâche pour apporter une valeur transformative à nos utilisateurs. Nous ne suivons pas simplement le marché – nous poussons les limites de ce qui est possible avec les grandes bases de données et l’IA. Et nous allons continuer à le faire, peu importe à quel rythme le paysage évolue.

Comment HEAVY.AI soutient-il les efforts de réponse aux situations d’urgence via HeavyEco ?

Nous avons construit HeavyEco lorsque nous avons vu certains de nos plus grands clients dans les services publics rencontrer des difficultés importantes pour simplement ingérer les sorties actuelles des modèles météorologiques, ainsi que pour les visualiser pour des comparaisons conjointes. Il fallait à un client jusqu’à quatre heures pour simplement charger les données, et lorsque vous êtes confronté à des conditions météorologiques extrêmes en mouvement rapide comme les incendies… cela n’est tout simplement pas suffisant.

HeavyEco est conçu pour fournir des informations en temps réel dans des situations à haute conséquence, comme lors d’un incendie de forêt ou d’une inondation. Dans de telles situations, vous devez prendre des décisions rapidement et sur la base des meilleures données possibles. HeavyEco sert donc d’abord de pipeline de données géré professionnellement pour des modèles autorisés tels que ceux de la NOAA et de l’USGS. Sur ces derniers, HeavyEco permet de exécuter des scénarios, de modéliser les impacts au niveau des bâtiments et de visualiser les données en temps réel. Cela donne aux premiers intervenants les informations critiques dont ils ont besoin lorsqu’il en va de leur sécurité. Il s’agit de transformer des ensembles de données complexes et à grande échelle en une intelligence actionnable qui peut guider la prise de décision immédiate.

En fin de compte, notre objectif est de donner à nos utilisateurs la capacité d’explorer leurs données à la vitesse de la pensée. Que ce soit pour exécuter des modèles spatiaux complexes, comparer les prévisions météorologiques ou essayer d’identifier des modèles dans les séries chronologiques géospatiales, nous voulons qu’ils puissent le faire sans obstacle technique.

Qu’est-ce qui distingue le LLM propriétaire de HEAVY.AI des autres LLM tiers en termes de précision et de performance ?

Notre LLM propriétaire est spécifiquement réglé pour les types d’analyses sur lesquelles nous nous concentrons – comme le texte-à-SQL et le texte-à-visualisation. Nous avons initialement essayé des modèles tiers traditionnels, mais nous avons constaté qu’ils ne répondaient pas aux exigences élevées d’exactitude de nos utilisateurs, qui prennent souvent des décisions critiques. Nous avons donc affiné une gamme de modèles open source et les avons testés contre des benchmarks de l’industrie.

Notre LLM est beaucoup plus précis pour les concepts SQL avancés dont nos utilisateurs ont besoin, en particulier dans les données géospatiales et temporelles. De plus, comme il s’exécute sur notre infrastructure GPU, il est également plus sécurisé.

En plus des capacités de modèle intégrées, nous fournissons également une interface utilisateur interactive complète pour les administrateurs et les utilisateurs pour ajouter des métadonnées pertinentes au domaine ou à l’entreprise. Par exemple, si le modèle de base ne fonctionne pas comme prévu, vous pouvez importer ou ajuster les métadonnées au niveau de la colonne, ajouter des informations de guidage et obtenir immédiatement des commentaires.

Comment HEAVY.AI envisage-t-il le rôle de l’analyse de données géospatiales et temporelles dans l’élaboration de l’avenir de diverses industries ?

Nous croyons que l’analyse de données géospatiales et temporelles sera cruciale pour l’avenir de nombreuses industries. Ce sur quoi nous nous concentrons vraiment est d’aider nos clients à prendre de meilleures décisions, plus rapidement. Que vous soyez dans les télécommunications, les services publics ou le gouvernement, ou autre – avoir la capacité d’analyser et de visualiser les données en temps réel peut être un facteur de changement de jeu.

Notre mission est de rendre ce type d’analyse puissante accessible à tous, et pas seulement aux grands acteurs avec des ressources massives. Nous voulons nous assurer que nos clients puissent tirer parti des données dont ils disposent pour rester en tête et résoudre les problèmes à mesure qu’ils se posent. À mesure que les données continuent de croître et de devenir plus complexes, nous voyons notre rôle comme celui de faire évoluer nos outils en parallèle, afin que nos clients soient toujours prêts à ce qui vient ensuite.

Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter HEAVY.AI.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.