Interviews
Etan Ginsberg, co-fondateur de Martian – Série d'interviews

Etan Ginsberg est le co-fondateur de Martien, une plateforme qui achemine dynamiquement chaque invite vers le meilleur LLM. Grâce au routage, Martian atteint des performances supérieures et un coût inférieur à celui de n'importe quel fournisseur individuel, y compris GPT-4. Le système repose sur la technologie unique de cartographie de modèles de la société, qui décompresse les LLM de boîtes noires complexes en une architecture plus interprétable, ce qui en fait la première application commerciale d'interprétabilité mécaniste.
Etan code, conçoit des sites Web et crée des entreprises électroniques pour ses clients depuis qu'il est au collège. Etan, un mathématicien, est un concurrent des Championnats du monde de mémoire et s'est classé 2e aux Championnats du monde de lecture rapide à Shenzhen, en Chine.
Il est un concurrent du hackathon vidéo. Les récompenses passées incluent le 3e prix au Tech Crunch SZ, le top 7 des finalistes au Princeton Hackathon et 3 prix de l'industrie au Yale Hackathon.
Vous avez déjà été deux fois fondateur de startup, quelles étaient ces entreprises et qu'avez-vous appris de cette expérience ?
Ma première entreprise a été la première plateforme pour la promotion et l'avancement du sport de l'American Ninja Warrior. En 2012, je considérais l'American Ninja Warrior comme un sport underground (semblable au MMA dans les années 90) et j'ai créé la première plateforme où les gens pouvaient acheter des plans, commander des obstacles et trouver des gymnases pour s'entraîner. J'ai consulté des entreprises cherchant à créer leurs propres salles de sport, notamment en aidant les forces spéciales américaines avec un cours de formation et en faisant évoluer une installation du croquis sur serviette à 300 3 $ de revenus au cours des 20 premiers mois. Même si j'étais au lycée, j'ai eu ma première expérience de gestion d'équipes de plus de XNUMX travailleurs et j'ai appris la gestion efficace et les relations interpersonnelles.
Ma deuxième entreprise était une société de gestion d’actifs alternative que j’ai cofondée en 2017 avant la vague ICO dans le domaine de la cryptographie. C'était ma première exposition à la PNL, où nous utilisions l'analyse des sentiments des données des médias sociaux comme stratégie d'investissement.
J'ai acquis de nombreuses compétences techniques et humaines nécessaires à la gestion d'une startup, de la gestion d'équipe aux aspects techniques du traitement du langage naturel (PNL). Parallèlement, j'ai aussi beaucoup appris sur moi-même et sur le domaine dans lequel je souhaitais travailler. Je suis convaincu que les entreprises les plus prospères sont celles dont les fondateurs ont une vision ou un objectif plus large. J'ai quitté la cryptographie en 2017 pour me concentrer sur le PNL, car l'augmentation et la compréhension de l'intelligence humaine sont des éléments qui me motivent vraiment. J'ai été ravi de le découvrir.
Pendant vos études à l'Université de Pennsylvanie, vous avez fait des recherches sur l'IA, sur quoi recherchiez-vous spécifiquement ?
Nos recherches se sont initialement concentrées sur la création d’applications de LLM. En particulier, nous avons travaillé sur les applications pédagogiques des LLM et construisions le premier tuteur cognitif basé sur le LLM. Les résultats ont été plutôt bons – nous avons constaté une amélioration de 0.3 écart-type des résultats des étudiants lors de l’expérimentation initiale – et notre système a été utilisé de l’Université de Pennsylvanie à l’Université du Bhoutan.
Pouvez-vous expliquer comment ces recherches vous ont ensuite conduit Ă co-fonder Martian ?
Parce que nous avons été parmi les premiers à créer des applications sur des LLM, nous avons également été parmi les premiers à rencontrer les problèmes auxquels les gens sont confrontés lorsqu'ils créent des applications sur des LLM. Cela a guidé nos recherches vers la couche infrastructure. Par exemple, très tôt, nous avons peaufiné des modèles plus petits sur les résultats de modèles plus grands comme GPT-3, et affiné des modèles sur des sources de données spécialisées pour des tâches telles que la programmation et la résolution de problèmes mathématiques. Cela nous a finalement conduit à des problèmes de compréhension du comportement du modèle et de routage du modèle.
Les origines du nom martien et sa relation avec l'intelligence sont également intéressantes, pourriez-vous partager l'histoire de la façon dont ce nom a été choisi ?
Notre société doit son nom à un groupe de scientifiques hongro-américains connu sous le nom de «Les Martiens». Ce groupe, qui a vécu au 20e siècle, était composé de certaines des personnes les plus intelligentes qui aient jamais vécu :
- Le plus célèbre d'entre eux était Jean Von Neumann; il a inventé la théorie des jeux, l'architecture informatique moderne, la théorie des automates et a apporté des contributions fondamentales dans des dizaines d'autres domaines.
- Paul Erdos était le mathématicien le plus prolifique de tous les temps, ayant publié plus de 1500 XNUMX articles.
- Théodore Von Karman a établi les théories fondamentales de l’aérodynamique et a contribué à la fondation du programme spatial américain. La frontière définie par l'homme entre la Terre et l'espace est appelée « ligne Kármán » en reconnaissance de son travail.
- Leo Szilard a inventé la bombe atomique, la radiothérapie et les accélérateurs de particules.
Ces scientifiques et 14 autres comme eux (dont l'inventeur de la bombe à hydrogène, l'homme qui a introduit la théorie des groupes dans la physique moderne et des contributeurs fondamentaux à des domaines comme la combinatoire, la théorie des nombres, l'analyse numérique et la théorie des probabilités) partageaient une similitude remarquable : ils sont nés dans le même quartier de Budapest. Cela a amené les gens à se demander : quelle était la source de tant de renseignements ?
En réponse, Szilard a plaisanté en disant : « Les Martiens sont déjà là et ils se font appeler Hongrois ! » En réalité… personne ne le sait.
L’humanité se trouve aujourd’hui dans une position similaire face à un nouvel ensemble d’esprits potentiellement superintelligents : l’intelligence artificielle. Les gens savent que les modèles peuvent être incroyablement intelligents, mais n’ont aucune idée de leur fonctionnement.
Notre mission est de répondre à cette question : comprendre et exploiter la superintelligence moderne.
Vous avez une histoire d'exploits de mémoire incroyables, comment vous êtes-vous plongé dans ces défis de mémoire et comment ces connaissances vous ont-elles aidé avec le concept de Martien ?
Dans la plupart des sports, un athlète professionnel peut réaliser environ 2 à 3 fois plus que la personne moyenne (comparez la distance qu'une personne moyenne peut lancer dans un panier ou la vitesse à laquelle elle lance une balle rapide par rapport à un professionnel). Les sports de mémoire sont fascinants car les athlètes de haut niveau peuvent mémoriser 100 fois, voire 1000 XNUMX fois plus que la personne moyenne, avec moins d'entraînement que la plupart des sports. De plus, il s’agit souvent de personnes ayant une mémoire naturelle moyenne qui attribuent leurs performances à des techniques spécifiques que chacun peut apprendre. Je veux maximiser les connaissances de l'humanité et j'ai vu les championnats du monde de la mémoire comme un aperçu sous-estimé de la façon dont nous pouvons générer des rendements extraordinaires en augmentant l'intelligence humaine.
Je voulais déployer des techniques de mémoire dans tout le système éducatif, j'ai donc commencé à explorer comment la PNL et les LLM pourraient aider à réduire les coûts de configuration qui empêchent l'utilisation des méthodes éducatives les plus efficaces dans le système éducatif traditionnel. Yash et moi avons créé le premier tuteur cognitif basé sur le LLM, ce qui nous a amené à découvrir les problèmes liés au déploiement du LLM que nous aidons désormais à résoudre aujourd'hui.
Martian fait essentiellement abstraction de la décision quant au modèle LLM (Large Language Model) à utiliser. Pourquoi est-ce actuellement un tel problème pour les développeurs ?
Il est de plus en plus facile de créer des modèles de langage : le coût de calcul diminue, les algorithmes deviennent plus efficaces et davantage d'outils open source sont disponibles pour créer ces modèles. En conséquence, de plus en plus d'entreprises et de développeurs créent des modèles personnalisés formés sur des données personnalisées. Comme ces modèles ont des coûts et des capacités différents, vous pouvez obtenir de meilleures performances en utilisant plusieurs modèles, mais il est difficile de tous les tester et de trouver ceux qui conviennent. Nous nous en occupons pour les développeurs.
Pouvez-vous expliquer comment le système comprend quel LLM est le mieux utilisé pour chaque tâche spécifique ?
Un bon routage est fondamentalement un problème de compréhension des modèles. Pour passer efficacement d’un modèle à l’autre, vous devez être en mesure de comprendre les causes de leur échec ou de leur réussite. Être capable de comprendre ces caractéristiques grâce au mappage de modèle nous permet de déterminer dans quelle mesure un modèle donné fonctionnera sur une requête sans avoir à exécuter ce modèle. En conséquence, nous pouvons envoyer cette requête au modèle qui produira le meilleur résultat.
Pouvez-vous discuter du type d’économies de coûts qui peuvent être réalisées en optimisant le LLM utilisé ?
Nous laissons les utilisateurs spécifier comment ils font un compromis entre coût et performances. Si vous ne vous souciez que des performances, nous pouvons surpasser GPT-4 sur openai/evals. Si vous recherchez un coût spécifique afin de faire fonctionner l'économie de votre unité, nous vous laissons préciser le coût maximum de votre demande, puis trouver le meilleur modèle pour compléter cette demande. Et si vous souhaitez quelque chose de plus dynamique, nous vous laissons préciser combien vous êtes prêt à payer pour une meilleure réponse. Ainsi, si deux modèles ont des performances similaires mais une grande différence de coût, nous pouvons vous laisser utiliser les modèles les moins chers. . Certains de nos clients ont constaté une diminution des coûts jusqu'à 12 fois.
Quelle est votre vision du futur de Martien ?
Chaque fois que nous améliorons notre compréhension fondamentale des modèles, cela entraîne un changement de paradigme pour l’IA. La mise au point était le paradigme motivé par la compréhension des résultats. L'incitation est le paradigme piloté par la compréhension des entrées. Cette seule différence dans notre compréhension des modèles est en grande partie ce qui différencie le ML traditionnel (« formons un régresseur ») et l'IA générative moderne (« incitons un bébé AGI »).
Notre objectif est de réaliser systématiquement des avancées en matière d’interprétabilité jusqu’à ce que l’IA soit pleinement comprise et que nous disposions d’une théorie de l’intelligence aussi robuste que nos théories de la logique ou du calcul.
Pour nous, cela signifie construire. Cela signifie créer de superbes outils d’IA et les mettre entre les mains des gens. Cela signifie sortir des choses qui sortent du moule, que personne n’a fait auparavant et qui – plus que toute autre chose – sont intéressantes et utiles.
Selon les mots de Sir Francis Bacon, « La connaissance, c'est le pouvoir ». Par conséquent, la meilleure façon d’être sûr que nous comprenons l’IA est de proposer des outils puissants. À notre avis, un modèle de routeur est un outil de ce type. Nous sommes ravis de le construire, de le développer et de le remettre entre les mains des gens.
Il s'agit du premier des nombreux outils que nous allons publier dans les mois à venir. Pour découvrir une belle théorie de l'intelligence artificielle, pour permettre des types entièrement nouveaux d'infrastructure d'IA, pour aider à construire un avenir meilleur pour l'homme et la machine – nous avons hâte de partager ces outils avec vous.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Martien.












