Interviste
Etan Ginsberg, Co-Fondatore di Martian – Serie di Interviste

Etan Ginsberg è il Co-Fondatore di Martian, una piattaforma che instrada dinamicamente ogni prompt al miglior LLM. Attraverso l’instradamento, Martian raggiunge prestazioni più elevate e costi più bassi rispetto a qualsiasi fornitore individuale, compreso GPT-4. Il sistema è costruito sulla tecnologia di mappatura dei modelli unica dell’azienda, che scompatta gli LLM dalle scatole nere complesse in un’architettura più interpretabile, rendendolo la prima applicazione commerciale di interpretabilità meccanica.
Etan ha iniziato a codificare, progettare siti web e costruire e-business per clienti fin da quando era alle scuole medie. Un polimata, Etan è un concorrente ai Campionati Mondiali di Memoria e si è classificato al 2° posto ai Campionati Mondiali di Lettura Veloce a Shenzhen, in Cina.
È un concorrente di hackathon. I premi passati includono il 3° premio a Tech Crunch SZ, il 7° finalista all’Hackathon di Princeton e 3 premi dell’industria all’Hackathon di Yale.
Siete un ex fondatore di due startup, quali erano queste aziende e cosa avete imparato da quest’esperienza?
La mia prima azienda era la prima piattaforma per la promozione e lo sviluppo dello sport di American Ninja Warrior. Nel 2012, ho visto American Ninja Warrior come uno sport underground (simile alla MMA negli anni ’90) e ho creato la prima piattaforma in cui le persone potevano acquistare progetti, ordinare ostacoli e trovare palestre per allenarsi. Ho consultato aziende che desideravano aprire le proprie palestre, incluso l’assistenza alle Forze Speciali degli Stati Uniti per un corso di addestramento e l’ampliamento di una struttura da uno schizzo su un tovagliolo a 300.000 dollari di entrate nei primi 3 mesi. Sebbene fossi alle scuole superiori, ho avuto la mia prima esperienza nella gestione di squadre di 20+ lavoratori e ho imparato la gestione efficace e le relazioni interpersonali.
La mia seconda azienda era una società di gestione di attività alternative che ho co-fondata nel 2017, prima dell’ondata ICO nella criptovaluta. Questa è stata la mia prima esposizione all’NLP, dove abbiamo utilizzato l’analisi del sentimento dei dati dei social media come strategia di investimento.
Ho imparato molte delle competenze tecniche e non tecniche che entrano nella gestione di una startup – dalla gestione di una squadra agli aspetti tecnici dell’NLP. Allo stesso tempo, ho anche imparato molto su di me e su cosa desideravo lavorare. Credo che le aziende più di successo siano fondate da fondatori che hanno una visione o un obiettivo più ampio che li guida. Ho lasciato la criptovaluta nel 2017 per concentrarmi sull’NLP perché aumentare e comprendere l’intelligenza dell’umanità è qualcosa che mi spinge veramente. Sono stato felice di scoprire che.
Mentre frequentavate l’Università della Pennsylvania, avete svolto alcune ricerche sull’IA, cosa stavate ricercando specificamente?
Le nostre ricerche si sono concentrate inizialmente sulla costruzione di applicazioni di LLM. In particolare, abbiamo lavorato su applicazioni educative di LLM e stavamo costruendo il primo tutor cognitivo alimentato da LLM. I risultati sono stati abbastanza buoni – abbiamo visto un miglioramento di 0,3 deviazioni standard negli esiti degli studenti negli esperimenti iniziali – e il nostro sistema è stato utilizzato dall’Università della Pennsylvania all’Università del Bhutan.
Potete discutere come questa ricerca abbia poi portato alla co-fondazione di Martian?
Perché eravamo tra le prime persone a costruire applicazioni su LLM, siamo stati anche tra le prime persone a incontrare i problemi che le persone affrontano quando costruiscono applicazioni su LLM. Ciò ha guidato la nostra ricerca verso lo strato di infrastruttura. Ad esempio, abbastanza presto, stavamo ottimizzando modelli più piccoli sui risultati di modelli più grandi come GPT-3 e ottimizzando modelli su fonti di dati specializzate per attività come la risoluzione di problemi di programmazione e matematica. Ciò ci ha portato a problemi di comprensione del comportamento del modello e di instradamento del modello.
Le origini del nome Martian e la sua relazione con l’intelligenza sono anche interessanti, potete condividere la storia di come questo nome è stato scelto?
La nostra azienda è stata nominata dopo un gruppo di scienziati ungheresi-americani noti come “I Marziani“. Questo gruppo, che visse nel XX secolo, era composto da alcune delle persone più intelligenti che siano mai vissute:
- Il più famoso tra loro era John Von Neumann; ha inventato la teoria dei giochi, l’architettura del computer moderno, la teoria degli automi e ha fatto contributi fondamentali in decine di altri campi.
- Paul Erdos è stato il matematico più prolifico di tutti i tempi, avendo pubblicato oltre 1500 articoli.
- Theodore Von Karman ha stabilito le teorie fondamentali dell’aerodinamica e ha aiutato a fondare il programma spaziale americano. Il confine tra la Terra e lo spazio esterno è stato chiamato “linea di Karman” in riconoscimento del suo lavoro.
- Leo Szilard ha inventato la bomba atomica, la radioterapia e gli acceleratori di particelle.
Questi scienziati e altri 14 come loro (incluso l’inventore della bomba all’idrogeno, l’uomo che ha introdotto la teoria dei gruppi nella fisica moderna e contributori fondamentali in campi come la combinatoria, la teoria dei numeri, l’analisi numerica e la teoria della probabilità) condividono una somiglianza notevole – sono tutti nati nella stessa parte di Budapest. Ciò ha portato le persone a chiedersi: qual è la fonte di tanta intelligenza?
In risposta, Szilard ha scherzato che “I marziani sono già qui e si fanno chiamare ungheresi!” In realtà… nessuno lo sa.
L’umanità si trova in una posizione simile oggi con rispetto a una nuova serie di menti potenzialmente superintelligenti: l’Intelligenza Artificiale. Le persone sanno che i modelli possono essere incredibilmente intelligenti, ma non hanno idea di come funzionino.
La nostra missione è rispondere a quella domanda – comprendere e sfruttare la superintelligenza moderna.
Avete una storia di incredibili imprese di memoria, come siete stati coinvolti in queste sfide di memoria e come questa conoscenza ha aiutato con il concetto di Martian?
Nella maggior parte degli sport, un atleta professionista può eseguire circa 2-3 volte meglio della persona media (confronta quanto lontano una persona media può calciare un field goal o quanto velocemente può lanciare una palla da baseball rispetto a un professionista). Gli sport della memoria sono affascinanti perché i migliori atleti possono memorizzare 100 volte o addirittura 1000 volte più della persona media con meno addestramento rispetto alla maggior parte degli sport. Inoltre, queste sono spesso persone con una memoria naturale media che attribuiscono le loro prestazioni a tecniche specifiche che chiunque può imparare. Voglio massimizzare la conoscenza dell’umanità e ho visto i campionati mondiali di memoria come un’intuizione underapprezzata su come possiamo ottenere rendimenti straordinari aumentando l’intelligenza umana.
Volevo distribuire le tecniche di memoria in tutto il sistema educativo, quindi ho iniziato a esplorare come l’NLP e gli LLM potessero aiutare a ridurre il costo di configurazione che impedisce ai metodi educativi più efficaci di essere utilizzati nel sistema educativo mainstream. Yash e io abbiamo creato il primo tutor cognitivo alimentato da LLM e ciò ci ha portato a scoprire i problemi con l’implementazione di LLM che risolviamo oggi.
Martian è essenzialmente l’astrazione della decisione su quale Large Language Model (LLM) utilizzare, perché questo è attualmente un punto dolente per gli sviluppatori?
Sta diventando sempre più facile creare modelli linguistici – il costo del calcolo sta diminuendo, gli algoritmi stanno diventando più efficienti e ci sono più strumenti open source disponibili per creare questi modelli. Di conseguenza, più aziende e sviluppatori stanno creando modelli personalizzati addestrati su dati personalizzati. Poiché questi modelli hanno costi e capacità diversi, è possibile ottenere prestazioni migliori utilizzando più modelli, ma è difficile testarli tutti e trovare quelli giusti da utilizzare. Noi ci occupiamo di questo per gli sviluppatori.
Potete discutere come il sistema capisce quale LLM è meglio utilizzare per ogni attività specifica?
L’instradamento efficace è fondamentalmente un problema di comprensione dei modelli. Per instradare efficacemente tra i modelli, si desidera essere in grado di comprendere cosa causa il loro fallimento o successo. Essere in grado di comprendere queste caratteristiche con la mappatura del modello ci consente di determinare quanto bene un modello dato eseguirà una richiesta senza dover eseguire quel modello. Di conseguenza, possiamo inviare quella richiesta al modello che produrrà il miglior risultato.
Potete discutere il tipo di risparmio di costo che può essere visto ottimizzando quale LLM utilizzare?
Consentiamo agli utenti di specificare come bilanciare costo e prestazioni. Se si desidera solo la prestazione, possiamo superare GPT-4 su openai/evals. Se si sta cercando un costo specifico per far funzionare la propria economia, possiamo far specificare il costo massimo per la richiesta, quindi trovare il miglior modello per completare quella richiesta. E se si desidera qualcosa di più dinamico, possiamo far specificare quanto si è disposti a pagare per una risposta migliore – in modo che, se due modelli hanno prestazioni simili ma una grande differenza di costo, possiamo utilizzare i modelli meno costosi. Alcuni dei nostri clienti hanno visto una riduzione del costo fino al 12 volte.
Qual è la vostra visione per il futuro di Martian?
Ogni volta che miglioriamo la nostra comprensione fondamentale dei modelli, si verifica un cambiamento di paradigma per l’IA. La regolazione fine è il paradigma guidato dalla comprensione dei risultati. La promptazione è il paradigma guidato dalla comprensione degli input. Quella singola differenza nella nostra comprensione dei modelli è gran parte di ciò che differenzia il ML tradizionale (“costruiamo un regressore”) e il moderno AI generativo (“costruiamo un baby AGI”).
Il nostro obiettivo è quello di consegnare costantemente innovazioni nell’interpretazione fino a quando l’IA non sarà completamente compresa e avremo una teoria dell’intelligenza altrettanto solida quanto le nostre teorie della logica o del calcolo.
Per noi, significa costruire. Significa creare strumenti AI fantastici e metterli nelle mani delle persone. Significa rilasciare cose che rompono lo stampo, che nessuno ha fatto prima, e che – più di ogni altra cosa – sono interessanti e utili.
Nelle parole di Sir Francis Bacon, “La conoscenza è potere”. Di conseguenza, il modo migliore per essere sicuri di comprendere l’IA è rilasciare strumenti potenti. A nostro parere, un router di modelli è uno strumento di quel tipo. Siamo entusiasti di costruirlo, farlo crescere e metterlo nelle mani delle persone.
Questo è il primo di molti strumenti che rilasceremo nei prossimi mesi. Per scoprire una bella teoria di intelligenza artificiale, per abilitare interamente nuovi tipi di infrastrutture di IA, per aiutare a costruire un futuro più luminoso per l’uomo e la macchina – non vediamo l’ora di condividere quegli strumenti con voi.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Martian.












