Connect with us

Zuzanna Stamirowska, Co-Fondatrice et PDG de Pathway – Série d’entretiens

Entretiens

Zuzanna Stamirowska, Co-Fondatrice et PDG de Pathway – Série d’entretiens

mm

Zuzanna Stamirowska, Co-Fondatrice et PDG de Pathway, est une chercheuse devenue bâtisseuse qui a précédemment travaillé sur les phénomènes émergents et l’évolution des réseaux à grande échelle. Ses projets ont été reconnus par l’Académie nationale des sciences des États-Unis, et elle détient un doctorat en systèmes complexes. Zuzanna, aux côtés du CTO Jan Chorowski et du CSO Adrian Kosowski, dirige une équipe qui a déjà construit des outils d’intelligence artificielle ouverts avec plus de 62 000 étoiles sur GitHub.

Pathway réinvente la façon dont les modèles d’intelligence artificielle pensent, visant à créer des systèmes qui fonctionnent de manière continue et adaptative plutôt que par lots. Derrière la scène, son outillage et son architecture permettent aux modèles de traiter, d’apprendre et d’évoluer en temps réel. L’entreprise a attiré le soutien de personnalités telles que Lukasz Kaiser (co-inventeur des Transformers) et des sociétés de capital-risque éminentes.

Qu’est-ce qui vous a motivée à lancer Pathway, et comment votre formation en systèmes complexes, théorie des jeux et phénomènes émergents a-t-elle façonné la vision et la direction technique de l’entreprise ?

Nous voulions créer une intelligence artificielle qui pense et s’adapte comme les humains. Nous avons réalisé que cela signifiait des systèmes d’intelligence artificielle (modèles d’apprentissage automatique ou de traitement de l’information) capables d’apprendre en continu sur la base des données de l’environnement, de s’améliorer avec l’expérience et parfois de « corriger » leurs points de vue précédents sur le monde. Nous avons effectivement obtenu une certaine couverture sur le sujet de la « désapprentissage des machines ». En plus des modèles, de tels systèmes nécessitaient une couche entière d’ingénierie pour capturer les données à la source et les intégrer immédiatement dans des systèmes dynamiques.

Ayant travaillé sur l’émergence dans les réseaux complexes, j’ai développé un certain nombre d’hypothèses que nous avons fini par appliquer directement ou presque directement dans BDH. Funnily enough, j’ai fait quelques paris avec mes collègues (Adrian, CSO, et Jan, CTO) et j’ai gagné quelques bouteilles de cognac très bon. Premièrement, nous croyions que l’intelligence naturelle résulte d’une structure émergente et d’une action de neurones dans le cerveau (c’est évident, pas de pari ici). Deuxièmement, à partir de mes recherches précédentes, je savais que, en général, la fonction façonne le réseau (j’ai gagné ce pari). Dans mes travaux précédents, j’ai découvert cela pour le commerce, et les neuroscientifiques l’avaient étudié pour les nerfs et les sens chez les souris, etc. Troisièmement, il s’agissait du fait que cette formation de la structure du réseau doit suivre des règles très locales directement liées au « voisinage » de chaque emplacement du réseau (dans ce cas, un nœud est un neurone) (j’ai gagné ce pari). Les autres éléments provenaient de mes connaissances en systèmes d’interaction de particules – pensez par exemple au magnétisme – où les particules ajustent leurs spins à un champ externe et créent une sorte d’« ordre spontané ». C’était le type de mathématiques que j’ai utilisé lors de mon travail sur la théorie des jeux sur les graphes. En mettant tout cela ensemble, dès le premier jour de l’existence de l’entreprise, nous avions une forte conviction que la parcimonie (structures similaires à des graphes) serait une pierre angulaire de l’avancement de l’intelligence artificielle.

La prise en compte d’une notion de temps était cruciale et également très caractéristique de mon background, car l’émergence se produit généralement au fil du temps.

Quand vous avez lancé l’entreprise en 2020, quels étaient vos premières hypothèses sur ce que les futurs systèmes d’intelligence artificielle devraient faire différemment, et comment ces points de vue ont-ils évolué ?

Nous avions une forte conviction dès le départ que l’intelligence artificielle devait être vivante, adaptative et intégrée dans des processus à grande échelle. Elle devait apprendre directement à partir de la source, avec les données les plus brutes possibles.

Tout d’abord, nous l’avons fait pour des approches d’apprentissage automatique plus classiques, et chemin faisant, nous avons construit des couches d’ingénierie qui permettent à de tels systèmes d’être déployés facilement dans le monde réel. Maintenant, nous avons apporté cette approche à l’apprentissage profond.

Nous savions que les éléments de temps et de structure (réseaux) seraient clés pour l’avancement vers l’intelligence artificielle générale. Nous avons cela écrit dans certains de nos documents fondateurs de 2020.

Pouvez-vous nous présenter l’architecture « post-Transformer » que vous introduisez et comment elle diffère des systèmes basés sur les Transformers actuels ?

Notre nouvelle architecture, appelée Baby Dragon Hatchling (BDH), relie formellement la façon dont les Transformers traitent l’information et la façon dont la raison émerge dans le cerveau.

BDH se comporte comme un système physique : un modèle de calcul cérébral dans lequel les neurones font un effort collaboratif pour découvrir le prochain fait le plus pertinent. La raison contextuelle n’est pas limitée par des limitations d’ingénierie, telles que la longueur de contexte fixe du Transformer, mais plutôt évolue avec le nombre de neurones du modèle.

En termes plus techniques, contrairement au Transformer, dans BDH, nous avons une attention linéaire, des vecteurs clés-abondance épars et aucune limite sur la taille de la fenêtre de contexte.

Cette approche ouvre la porte à des systèmes qui apprennent pendant l’exécution, maintiennent de longues chaînes de raisonnement et s’adaptent en continu dans le contexte.

Une fonctionnalité clé du système est la localité : les données importantes sont situées juste à côté des sites où elles sont traitées. Cela minimise la communication et élimine le goulet d’étranglement le plus douloureux pour les modèles de raisonnement pendant l’inférence : la bande passante mémoire-noyau.

Comment votre approche s’inspire-t-elle du raisonnement humain, en particulier pour permettre l’adaptabilité et l’apprentissage continu sans réentraînement ?

BDH rapproche l’intelligence naturelle et l’intelligence artificielle.

Cette architecture s’inspire de la façon dont les neurones et les synapses fonctionnent dans le cerveau. Elle relie les mécanismes d’attention biologiques à la notion computationnelle d’attention en apprentissage automatique, créant un pont évolutif entre les Transformers et le cerveau.

BDH rapproche l’attention des paramètres du modèle, les présentant comme deux reflets de la même dynamique de système cérébral, avec l’attention changeant à un rythme rapide à mesure que de nouveaux faits deviennent connus pendant le raisonnement, et les paramètres du modèle changeant plus lentement à mesure que le système change ses habitudes à long terme. C’est plus proche de la façon dont nous croyons que le raisonnement fonctionne dans le cerveau.

Nous considérons BDH comme un jalon vers la conception de systèmes d’intelligence artificielle qui raisonnent en cours de tâche, s’améliorent avec l’expérience et s’adaptent sans réentraînement – des propriétés que nous associons au raisonnement humain.

L’un des défis de l’intelligence artificielle est de trouver un équilibre entre la stabilité et l’adaptabilité — comment vous assurez-vous que les systèmes peuvent apprendre en temps réel sans perdre les connaissances passées ?

BDH repose sur sa structure sans échelle et sur les états de neurones localisés pour maintenir le raisonnement sur de longues périodes, équilibrant la stabilité et la capacité d’intégrer de nouvelles connaissances et observations. Cet équilibre naturel de santé est facile à extraire et à suivre sur la durée de vie d’un modèle.

Avec BDH, nous plaçons le raisonnement comme la pierre angulaire de l’intelligence. Avec les travaux actuels, nous faisons des progrès sur une hypothèse sur le rôle de la connaissance dans les grands modèles de langage : il ne s’agit pas tant de ce qui est « vrai », mais de ce qui est « utile » dans un contexte donné pour progresser dans une chaîne de raisonnement donnée. Par exemple, si la connaissance est contextualisée, il n’y a soudainement plus de contradiction entre notre monde qui suit les lois de la nature et le fait que nous connaissons un conte populaire qui admet l’existence de fées et de magie. De la même manière, il n’y a pas de contradiction pour un modèle qui considère plusieurs hypothèses de prévision différentes, avec des hypothèses plus et moins optimistes, dans une chaîne de pensée unique.

Les modèles basés sur BDH acquièrent de nouveaux faits pendant leur vie en manière contextualisée. Ils peuvent s’auto-corriger à cause de cela. En exposant des statistiques faciles à suivre de l’activité des neurones et un contrôle granulaire sur le transfert des connaissances du contexte dans les paramètres du modèle, l’architecture aide à limiter le risque de « contextes obsolètes » qui réapparaissent à un moment inopportun.

Quels sont les compromis d’ingénierie pour construire un moteur de traitement de données en temps réel capable de soutenir ces capacités à grande échelle ?

L’offre d’entreprise de Pathway repose sur le moteur de traitement de données le plus rapide sur le marché. Ce moteur sous-tend notre capacité à gérer les entrées en temps réel et à réagir à de nouvelles informations avec une faible latence. Avec la percée actuelle de BDH, nous nous assurons que cette adaptabilité en temps réel s’étend aussi loin que les modèles d’intelligence artificielle fondamentaux utilisés dans les déploiements. Notre objectif global pour les déploiements à grande échelle est de passer d’une optimisation statique à la construction d’une infrastructure capable de gérer le raisonnement à long terme.

Quels sont les cas d’utilisation les plus convaincants qui exigent vraiment cette prochaine étape de l’intelligence artificielle, et où les systèmes basés sur les Transformers actuels font-ils défaut ?

De nombreuses innovations ont étendu la fonctionnalité de l’intelligence artificielle générative pour s’adapter rapidement à de nouvelles informations et pour s’appuyer profondément sur le « temps sur tâche », mais rien encore n’a pu remplacer l’embauche d’une personne très talentueuse.

La réponse très rapide et simple est que nous parlons de toute tâche qui nécessite actuellement plus de 2 heures et 17 minutes de travail cohérent d’un expert humain. C’est la limite actuelle de GPT5 selon METER.

Nous avons eu d’excellentes discussions avec des partenaires de conception dans l’entreprise qui nécessitent une personnalisation profonde, des modèles qui apprennent sur le tas à partir de données rares, et la sécurité du déploiement.

BDH rend-il relativement simple pour une entreprise de traiter des processus complexes tels que :

  • La clôture d’un trimestre pour une entreprise publique
  • La génération dynamique du prochain meilleur plan d’action dans des environnements à haute prise est très pertinente à la fois dans les ventes et la défense.
  • La gestion des investissements

L’OTAN utilise déjà la technologie de Pathway pour traiter des données militaires et sociales en temps réel, permettant ainsi des systèmes de planification qui s’adaptent à mesure que les situations évoluent. La Poste utilise la technologie d’intelligence artificielle en temps réel de Pathway pour gérer dynamiquement ses opérations en temps réel. Des industries telles que la finance et les soins de santé, où les données sont rares ou sensibles, peuvent bénéficier de modèles qui nécessitent moins de données mais offrent des insights plus profonds et des jugements plus fiables.

Pouvez-vous partager des exemples de la façon dont des organisations comme l’OTAN, La Poste ou Formula 1 ont appliqué votre technologie et de l’impact qu’elle a eu ?

L’OTAN, La Poste et les équipes de Formula 1 sont déjà des premiers utilisateurs de la technologie de Pathway.

Pathway offre à l’OTAN une technologie de traitement de données robuste et innovante pour débloquer de nouvelles capacités pour une utilisation critique à grande échelle. Avec notre démonstrateur fonctionnel, l’outil de simulation de renforcement (REST), nous avons développé la pierre angulaire pour le développement ultérieur de solutions d’intelligence artificielle soutenues par l’OTAN. En utilisant Pathway pour connecter les données open source, nous avons accéléré la conscience de la situation et l’avons portée au niveau nécessaire pour que l’OTAN opère avec succès dans les années 2020.

La Poste utilise Pathway pour améliorer les processus liés à ses unités de transport. Avec le cadre Pathway, La Poste anticipe automatiquement ses opérations en temps réel et génère une analyse qualitative en temps réel de ses opérations de transport. Avec Pathway, l’entreprise a pu optimiser ses processus logistiques de manière dynamique, réduisant les délais, les temps de traitement / les temps de conduite et augmentant la fiabilité. De plus, ils ont réalisé des réductions significatives des coûts opérationnels (50 % de réduction du TCO dans certains cas).

L’équipe de course de Formula 1 utilise Pathway pour s’adapter à des conditions de haute pression et en temps réel. L’entreprise voulait une plate-forme pour que les utilisateurs finaux puissent créer des fonctions définies par l’utilisateur (UDF) de manière indépendante et alimenter divers besoins commerciaux, allant des esports / sim-racing aux voitures et à la course de Formule 1. Le cadre de données en temps réel de Pathway permet des transformations de données avancées chez l’équipe de course de Formule 1 à la latence la plus faible (90 fois plus rapide que le traitement précédent).

Quels sont les plus grands obstacles au déploiement de systèmes adaptatifs dans des industries telles que les soins de santé ou la défense, et comment les surmontez-vous ?

Par conception, les LLM actuels génèrent du contenu qui est « nouveau » sans jugement réel – appelez-le le « gen » de l’IA générative. De nombreuses industries réglementées ont besoin de gouvernance par définition et hésitent à déployer des processus métier basés sur l’IA sans reproductibilité, confiance et observabilité. Ironiquement, pour déployer l’IA, ces entreprises « simplifient » souvent la fonctionnalité et introduisent une complexité supplémentaire pour faciliter la conformité avec les réglementations.

Par conception, BDH permet à une entreprise d’observer et de s’adapter à ce qui se passe à l’intérieur du modèle. Cette observabilité sur de longues périodes de « raisonnement » donne à l’entreprise la confiance pour aborder des processus métier plus longs et plus complexes. BDH est, par conception, à la fois observable et conscient des processus métier sur l’axe du temps. Pas besoin de jeux de données parfaits et énormes pour l’apprentissage, pas besoin de fenêtres de contexte très longues, ni de logique de collage pour l’observabilité.

Quelles considérations éthiques ou sauvegardes sont essentielles lorsque les systèmes d’intelligence artificielle commencent à apprendre et à s’adapter en temps réel ?

Les systèmes qui apprennent avec l’expérience ont en fait de meilleures chances d’être sûrs que les systèmes basés sur les Transformers actuels. Un élément de ceci est le fait qu’avec l’apprentissage continu, ils ont une chance de s’auto-corriger et de mettre à jour leurs préconceptions si elles étaient fausses.

Pour assurer la sécurité de tels systèmes, ils doivent recevoir une rétroaction au fil du temps. Cela signifie que nous devons continuer à les alimenter avec des données fraîches et potentiellement assurer des boucles de rétroaction pour qu’ils comprennent les effets de leur propre fonctionnement. Cela se rapproche de l’apprentissage par renforcement.

Deuxièmement, un modèle basé sur BDH offre une interprétabilité qui facilite la compréhension de son fonctionnement, donnant ainsi aux humains un meilleur contrôle sur eux.

Qu’est-ce qu’il faudrait pour qu’un paradigme « post-Transformer » devienne mainstream dans la communauté de l’intelligence artificielle ?

Un modèle sur le marché qui est extrêmement utile et qui a des coûts d’inférence significativement plus bas tout en étant plus rapide. Nous croyons qu’il y a une victoire de marché à réaliser, en particulier dans l’entreprise.

Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Pathway.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.