Entretiens
Etan Ginsberg, Co-Fondateur de Martian – Série d’entretiens

Etan Ginsberg est le co-fondateur de Martian, une plateforme qui achemine dynamiquement chaque invite de commande vers le meilleur LLM. Grâce à l’acheminement, Martian atteint de meilleures performances et un coût inférieur à celui de tout fournisseur individuel, y compris GPT-4. Le système est construit sur la technologie unique de mappage de modèles de l’entreprise qui déballe les LLM des boîtes noires complexes en une architecture plus interprétable, ce qui en fait la première application commerciale de l’interprétabilité mécaniste.
Etan a commencé à coder, à concevoir des sites Web et à créer des entreprises électroniques pour des clients depuis qu’il était au collège. Un polymathe, Etan est un concurrent aux Championnats du monde de mémoire et s’est classé 2e aux Championnats du monde de lecture rapide à Shenzhen, en Chine.
Il est un concurrent de hackathon vidéo. Les prix précédents incluent le 3e prix à Tech Crunch SZ, le 7e finaliste au hackathon de Princeton et 3 prix de l’industrie au hackathon de Yale.
Vous êtes un ancien fondateur de deux startups, quelles étaient ces entreprises et qu’avez-vous appris de cette expérience ?
Ma première entreprise était la première plateforme pour la promotion et le développement du sport de l’American Ninja Warrior. En 2012, j’ai considéré l’American Ninja Warrior comme un sport underground (semblable au MMA dans les années 90) et j’ai créé la première plateforme où les gens pouvaient acheter des plans, commander des obstacles et trouver des gymnases pour s’entraîner. J’ai consulté pour des entreprises qui souhaitaient ouvrir leurs propres gymnases, y compris aider les forces spéciales américaines à créer un parcours d’entraînement et à développer une installation d’une esquisse de nappe à 300 000 $ de chiffre d’affaires dans les trois premiers mois. Bien que j’étais au lycée, j’ai eu ma première expérience de gestion d’équipes de plus de 20 travailleurs et j’ai appris à gérer efficacement et à établir des relations interpersonnelles.
Ma deuxième entreprise était une société de gestion d’actifs alternatifs que j’ai co-fondée en 2017, avant la vague des ICO dans le crypto. C’était ma première exposition à la NLP, où nous avons utilisé l’analyse des sentiments des données des médias sociaux comme stratégie d’investissement.
J’ai appris beaucoup de compétences difficiles et douces qui entrent dans la gestion d’une startup – de la manière de gérer une équipe aux aspects techniques de la NLP. En même temps, j’ai également appris beaucoup sur moi-même et sur ce que je voulais travailler. Je crois que les entreprises les plus réussies sont créées par des fondateurs qui ont une vision ou un objectif plus large qui les pousse. J’ai quitté le crypto en 2017 pour me concentrer sur la NLP, car l’amélioration et la compréhension de l’intelligence humaine est quelque chose qui me pousse vraiment. J’étais heureux de le découvrir.
Alors que vous fréquentiez l’Université de Pennsylvanie, vous avez effectué certaines recherches en IA, qu’avez-vous étudié spécifiquement ?
Nos recherches se sont initialement concentrées sur la construction d’applications de LLM. En particulier, nous avons travaillé sur les applications éducatives des LLM et nous avons construit le premier tuteur cognitif alimenté par LLM. Les résultats étaient assez bons – nous avons constaté une amélioration de 0,3 d’écart type dans les résultats des étudiants lors des expérimentations initiales – et notre système a été utilisé de l’Université de Pennsylvanie à l’Université du Bhoutan.
Pouvez-vous discuter de la manière dont ces recherches vous ont ensuite amené à co-fonder Martian ?
Parce que nous étions parmi les premières personnes à construire des applications sur les LLM, nous étions également parmi les premières personnes à rencontrer les problèmes que les gens rencontrent lorsqu’ils construisent des applications sur les LLM. Cela a guidé nos recherches vers la couche d’infrastructure. Par exemple, très tôt, nous avons affiné des modèles plus petits sur les sorties de modèles plus grands comme GPT-3, et nous avons affiné des modèles sur des sources de données spécialisées pour des tâches telles que la programmation et la résolution de problèmes mathématiques. Cela nous a finalement amenés à des problèmes de compréhension du comportement des modèles et de routage des modèles.
L’origine du nom Martian et sa relation avec l’intelligence est également intéressante, pouvez-vous partager l’histoire de la façon dont ce nom a été choisi ?
Notre entreprise a été nommée d’après un groupe de scientifiques hongro-américains connus sous le nom de « The Martians ». Ce groupe, qui a vécu au 20e siècle, était composé de certaines des personnes les plus intelligentes qui aient jamais vécu :
- Le plus célèbre d’entre eux était John Von Neumann ; il a inventé la théorie des jeux, l’architecture informatique moderne, la théorie des automates et a apporté des contributions fondamentales dans des dizaines d’autres domaines.
- Paul Erdos était le mathématicien le plus prolifique de tous les temps, ayant publié plus de 1500 articles.
- Theodore Von Karman a établi les théories fondamentales de l’aérodynamique et a aidé à lancer le programme spatial américain. La limite définie par l’homme entre la Terre et l’espace est nommée la « ligne de Karman » en reconnaissance de son travail.
- Leo Szilard a inventé la bombe atomique, la radiothérapie et les accélérateurs de particules.
Ces scientifiques et 14 autres comme eux (y compris l’inventeur de la bombe à hydrogène, l’homme qui a introduit la théorie des groupes dans la physique moderne, et des contributeurs fondamentaux dans des domaines tels que la combinatoire, la théorie des nombres, l’analyse numérique et la théorie des probabilités) partageaient une similitude remarquable – ils étaient tous nés dans la même partie de Budapest. Cela a amené les gens à se demander : quelle est la source d’une telle intelligence ?
En réponse, Szilard a plaisanté : « Les Martiens sont déjà là, et ils s’appellent les Hongrois ! » En réalité… personne ne le sait.
L’humanité se trouve dans une situation similaire aujourd’hui avec une nouvelle série de superintelligences potentielles : l’intelligence artificielle. Les gens savent que les modèles peuvent être incroyablement intelligents, mais ils n’ont aucune idée de la façon dont ils fonctionnent.
Notre mission est de répondre à cette question – de comprendre et de maîtriser la superintelligence moderne.
Vous avez une histoire de prouesses mémorielles incroyables, comment vous êtes-vous immergé dans ces défis de mémoire et comment ces connaissances ont-elles aidé le concept de Martian ?
Dans la plupart des sports, un athlète professionnel peut performer environ 2-3 fois mieux que la personne moyenne (comparez la distance à laquelle une personne moyenne peut botter un but de champ ou la vitesse à laquelle elle peut lancer une balle rapide par rapport à un professionnel). Les sports de mémoire sont fascinants parce que les meilleurs athlètes peuvent mémoriser 100 fois ou même 1000 fois plus que la personne moyenne avec moins d’entraînement que la plupart des sports. De plus, ce sont souvent des personnes avec une mémoire naturelle moyenne qui attribuent leur performance à des techniques spécifiques que n’importe qui peut apprendre. Je veux maximiser les connaissances de l’humanité, et j’ai vu les championnats du monde de mémoire comme une perspective sous-estimée sur la façon dont nous pouvons obtenir des rendements extraordinaires en augmentant l’intelligence humaine.
Je voulais déployer des techniques de mémoire dans tout le système éducatif, donc j’ai commencé à explorer comment la NLP et les LLM pouvaient aider à réduire le coût de configuration qui empêche la plupart des méthodes éducatives les plus efficaces d’être utilisées dans le système éducatif traditionnel. Yash et moi avons créé le premier tuteur cognitif alimenté par LLM, et cela nous a amenés à découvrir les problèmes de déploiement de LLM que nous résolvons aujourd’hui.
Martian est essentiellement en train d’abstraire la décision de quel Grand Modèle de Langage (LLM) utiliser, pourquoi est-ce actuellement un point de douleur pour les développeurs ?
Il devient de plus en plus facile de créer des modèles de langage – le coût de calcul diminue, les algorithmes deviennent plus efficaces et plus d’outils open source sont disponibles pour créer ces modèles. En conséquence, plus de sociétés et de développeurs créent des modèles personnalisés formés sur des données personnalisées. Comme ces modèles ont des coûts et des capacités différents, vous pouvez obtenir de meilleures performances en utilisant plusieurs modèles, mais il est difficile de les tester tous et de trouver les bons à utiliser. Nous nous occupons de cela pour les développeurs.
Pouvez-vous discuter de la manière dont le système comprend quel LLM est le mieux utilisé pour chaque tâche spécifique ?
Le routage efficace est fondamentalement un problème de compréhension des modèles. Pour router efficacement entre les modèles, vous voulez être capable de comprendre ce qui les fait échouer ou réussir. La possibilité de comprendre ces caractéristiques avec le mappage de modèles nous permet de déterminer à quel point un modèle donné sera performant sur une demande sans avoir à exécuter ce modèle. Par conséquent, nous pouvons envoyer cette demande au modèle qui produira le meilleur résultat.
Pouvez-vous discuter du type d’économies de coûts qui peuvent être constatées en optimisant quel LLM est utilisé ?
Nous laissons les utilisateurs spécifier comment ils échangent entre coût et performance. Si vous vous souciez uniquement de la performance, nous pouvons surpasser GPT-4 sur openai/evals. Si vous cherchez un coût spécifique pour faire fonctionner vos économies unitaires, nous vous laissons spécifier le coût maximum pour votre demande, puis trouvons le meilleur modèle pour exécuter cette demande. Et si vous voulez quelque chose de plus dynamique, nous vous laissons spécifier combien vous êtes prêt à payer pour une meilleure réponse – de cette façon, si deux modèles ont des performances similaires mais une grande différence de coût, nous pouvons vous laisser utiliser les modèles moins coûteux. Certains de nos clients ont vu jusqu’à une diminution de 12 fois du coût.
Quelle est votre vision pour l’avenir de Martian ?
Chaque fois que nous améliorons notre compréhension fondamentale des modèles, cela entraîne un changement de paradigme pour l’IA. Le fine-tuning était le paradigme guidé par la compréhension des sorties. La saisie est le paradigme guidé par la compréhension des entrées. Cette seule différence dans notre compréhension des modèles est une grande partie de ce qui différencie l’apprentissage automatique traditionnel (« créons un régresseur ») et l’IA générative moderne (« créons un bébé AGI »).
Notre objectif est de livrer régulièrement des avancées en interprétabilité jusqu’à ce que l’IA soit pleinement comprise et que nous ayons une théorie de l’intelligence aussi robuste que nos théories de la logique ou du calcul.
Cela signifie construire. Cela signifie créer des outils d’IA incroyables et les mettre entre les mains des gens. Cela signifie sortir des choses qui brisent le moule, qui personne n’a faites auparavant, et qui – plus que tout autre chose – sont intéressantes et utiles.
Dans les mots de Sir Francis Bacon, « La connaissance est le pouvoir ». Par conséquent, la meilleure façon de nous assurer que nous comprenons l’IA est de sortir des outils puissants. À notre avis, un routeur de modèle est un outil de ce type. Nous sommes excités de le construire, de le développer et de le mettre entre les mains des gens.
Ceci est le premier de nombreux outils que nous allons sortir dans les prochains mois. Pour découvrir une belle théorie d’intelligence artificielle, pour permettre tout à fait de nouveaux types d’infrastructures d’IA, pour aider à construire un avenir plus lumineux pour l’homme et la machine – nous sommes impatients de partager ces outils avec vous.
Je vous remercie pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Martian.












