Interviste
Nikolaos Vasiloglou, VP di Ricerca ML presso RelationalAI – Serie di Interviste

Nikolaos Vasiloglou è il VP di Ricerca ML presso RelationalAI. Ha trascorso la sua carriera costruendo software di apprendimento automatico e guidando progetti di data science nel settore del retail, della pubblicità online e della sicurezza. È un membro della comunità ICLR/ICML/NeurIPS/UAI/MLconf/KGC/IEEE S&P, avendo servito come autore, revisore e organizzatore di workshop e della conferenza principale. Nikolaos guida la ricerca e le iniziative strategiche all’intersezione dei modelli linguistici di grandi dimensioni e dei grafi di conoscenza per RelationalAI.
RelationalAI è un’azienda di intelligenza artificiale che costruisce una piattaforma di intelligenza decisionale progettata per aiutare le organizzazioni a superare l’analisi dei dati e a prendere decisioni automatizzate di alta qualità. La sua tecnologia si integra direttamente con ambienti di dati come Snowflake, combinando database relazionali, grafi di conoscenza e sistemi di ragionamento avanzato per creare un “modello semantico” di un’azienda – essenzialmente codificando come funziona l’azienda, le sue relazioni e la sua logica. Ciò consente ai sistemi di intelligenza artificiale (inclusi agenti decisionali come “Rel”) di ragionare su dati complessi e interconnessi e generare insight predittivi e prescrittivi, abilitando le imprese a prendere decisioni più rapide e più informate senza spostare i dati al di fuori di ambienti cloud sicuri.
Ha avuto una carriera rara che copre l’apprendimento automatico accademico, il deploy su larga scala nell’industria e ruoli di leadership in aziende come Symantec, Aisera e ora RelationalAI. Come hanno plasmato queste esperienze la sua prospettiva su dove la ricerca sull’apprendimento automatico incontra i sistemi del mondo reale oggi?
Sono stato abbastanza fortunato da impegnarmi con diversi domini aziendali, dal retail alla sicurezza, passando per la pubblicità online. Ciò mi ha aiutato a capire come l’apprendimento automatico e l’intelligenza artificiale siano un denominatore comune. Sapevamo già dai primi anni 2000 che il software stava mangiando il mondo, i dati stavano mangiando l’intelligenza decisionale, eppure poche aziende, inclusa Google, credevano che gli algoritmi di apprendimento automatico avanzati alla fine avrebbero mangiato tutto. Nel 2008, i partecipanti a NeurIPS erano considerati nerd e sognatori che non capivano il mondo reale, solo persone che amavano giocare con i giocattoli. Era vero fino a un certo punto, ma io credevo che questo fosse su una traiettoria per cambiare. A differenza di altri, non ho mai smesso di partecipare attivamente al passaggio della ricerca accademica all’industria.
La sua analisi di NeurIPS 2025 ha utilizzato assistenti di codifica come Claude Code, OpenAI Codex e NotebookLM per elaborare l’intera conferenza. Cosa l’ha sorpreso di più sull’utilizzo di sistemi di intelligenza artificiale per analizzare la ricerca sull’intelligenza artificiale stessa?
È stato sorprendentemente facile costruire software per raccogliere i dati, leggerli con la macchina e categorizzarli in sezioni e addirittura riassumerli e spiegarli in modo particolarmente intuitivo. I sistemi di intelligenza artificiale generativa sono incredibili nel raccontare una storia, ma non nel raccontare la storia. NotebookLM è la regina dell’analisi di qualsiasi dominio e fornisce risultati incredibili. Tuttavia, non hai il controllo sulla storia, sui grafici o sull’enfasi. Ho imparato che gli strumenti non sono grandi nel creare slide di PowerPoint, quindi ho dovuto ricorrere a costruire HTML e poi convertirli in PDF. La sfida più grande è stata creare figure – la generazione di diffusione era troppo lenta, instabile e costosa, senza controllo. Sorprendentemente, i modelli sono abbastanza bravi a creare SVG programmatically con matplotlib, plotly e altre librerie Python. Quella tecnica si è scalata, ma ha richiesto diversi passaggi per correggere gli errori di visualizzazione. I modelli saranno ancora migliori l’anno prossimo.
Uno dei temi più forti nella sua analisi è il passaggio dal scaling dei parametri all’elaborazione del test. Perché l’elaborazione del test sta emergendo come un potente strumento per migliorare le prestazioni del modello?
Le leggi di scala sono la nostra bussola. Aumentare le dimensioni del modello e i dati di pre-addestramento ha raggiunto la sua capacità. La prima generazione di leggi di scala ci ha portato fino a GPT-4. Sono stati loro a aiutare OpenAI a iniziare la rivoluzione dell’intelligenza artificiale generativa. Presto abbiamo capito che c’era un’altra dimensione che consentiva al modello di generare molti token prima di arrivare a una risposta. Questo è un altro modo per migliorare l’efficienza dei modelli linguistici di grandi dimensioni. Le dimensioni del modello e la lunghezza del ragionamento sono spesso espresse come modi di pensiero del Sistema 1 e del Sistema 2 (Daniel Kahneman). Le tracce del ragionamento sono un altro modo per aumentare la capacità del modello. Se ci si pensa, i progressi degli esseri umani sono iniziati dagli istinti (alto QI), ma il successo è sempre stato dovuto a un lungo e doloroso ragionamento. Vediamo questo modello: modelli più piccoli con finestre di pensiero lunghe superano modelli che sono 100 volte più grandi. Quindi, il pensiero conta più dell’intelligenza nei modelli linguistici di grandi dimensioni.
Ha evidenziato il passaggio da modelli monolitici a sistemi agente in grado di pianificare, agire e verificare i loro output. Quanto siamo vicini al fatto che l’intelligenza artificiale agente diventi un paradigma di produzione affidabile piuttosto che un prototipo di ricerca?
Stiamo facendo grandi passi in quella direzione. I problemi più grandi sono l’affidabilità e la sicurezza, in modo che possiamo fidarci di loro per essere autonomi. Se si guarda da vicino al contenuto di NeurIPS, si vedono sistemi autonomi che fanno ricerca, risolvono problemi matematici e risolvono problemi di codifica, ma non si vede un’auto senza guidatore agente, ad esempio. L’ultima esperienza con Moltbook (un social network per agenti di intelligenza artificiale) ha messo in luce i problemi dell’intelligenza artificiale agente autonoma. Tuttavia, la scoperta di nuovi farmaci e materiali con l’intelligenza artificiale agente è enorme, quindi celebriamo e ci concentriamo su questo per il momento.
L’efficienza sembra essere un grande driver di innovazione, con modelli più piccoli che raggiungono prestazioni competitive attraverso miglioramenti architettonici e strategie di inferenza più intelligenti. Stiamo entrando in un’era in cui le innovazioni nell’efficienza contano più della dimensione grezza del modello?
Man mano che l’intelligenza artificiale si espande nella produzione, l’ingegneria diventa più importante. Fare affidamento ai modelli di frontiera non è semplicemente sostenibile. È fantastico per le demo, ma le aziende affrontano la dura realtà quando vedono il costo elevato dei grandi modelli. Per la prima volta, i modelli più piccoli sono diventati una soluzione molto più fattibile. C’è una forza silenziosa che sta cambiando lo status quo dell’industria. Finora, NVIDIA ha avuto il monopolio della GPU e ha mantenuto i prezzi alti. AMD sta facendo la sua strada nel mercato con chip di alta qualità e questo costringerà i prezzi a scendere. L’energia continua a essere un problema, ma stiamo vedendo alcuni movimenti nel mercato. Mentre i laboratori di frontiera sono diventati più costosi, la soluzione dei modelli più piccoli su GPU noleggiati è diventata più fattibile.
La sua presentazione suggerisce che il campo è passato da un scaling monodimensionale (parametri) a un scaling multidimensionale che coinvolge parametri, dati, architettura e inferenza. Come dovrebbero pensare i ricercatori e gli operatori a questo nuovo paradigma di scaling?
Per la maggior parte dei professionisti, l’architettura e i parametri sono al di fuori del loro controllo. I produttori dei modelli che hanno il capitale necessario guideranno l’innovazione. La lunghezza dell’inferenza dei token sarà dedicata dalla spesa di capitali della loro organizzazione. Ciò che rimane sotto il loro controllo è il dato. Vedremo un maggiore focus sulla creazione, cura e debug dei dati (tracce del ragionamento la maggior parte delle volte). Questo sarà il focus delle operazioni quotidiane. Naturalmente, dovranno seguire NeurIPS e le altre grandi conferenze per rimanere aggiornati con le tendenze delle nuove architetture.
Nella sua sintesi di NeurIPS, lei sottolinea che una quota crescente di ricerca si concentra sulla scoperta scientifica guidata dall’intelligenza artificiale, che va dalla biologia alla modellazione del clima. Ritiene che l’intelligenza artificiale per la scienza sia la prossima grande frontiera per la ricerca sull’apprendimento automatico?
Penso che vada oltre la ricerca accademica. Stiamo guardando la prossima corsa all’oro. Nel 1849, la corsa all’oro in California ha raggiunto il suo picco. Tutti dovevano fare era filtrare continuamente l’acqua del fiume per trovare l’oro. Sappiamo ora che molte persone non hanno trovato l’oro, ma ciò che vediamo oggi è molto reale. Posso vedere un’onda grande di startup composte da due o tre persone che utilizzano modelli linguistici per trovare nuovi materiali, farmaci e componenti di prodotti. Bruciare token nel modo più intelligente può portare grandi rendimenti. Gli assistenti di codifica come Claude Code, OpenAI Codex e Google Antigravity possono rimuovere il fossato per le aziende SaaS, lasciando una intera generazione di scienziati informatici molto capaci nella ricerca scientifica. Se lavori per un’organizzazione no-profit come First Principles o Bio[hub], ci sono opportunità per trovare nuove leggi fisiche e teorie, o altri contributi in biologia. Se si desidera generare entrate, si lavorerà sull’invenzione di nuovi prodotti basati sulla scienza, come farmaci, materiali, batterie, ecc.
Il suo lavoro evidenzia anche un crescente divario di verifica, in cui i modelli raggiungono punteggi di benchmark forti ma falliscono in variazioni semplici del mondo reale. Cosa rivela questo divario sui limiti attuali dei modelli linguistici di grandi dimensioni?
Sembra che abbiano una memoria incredibile e possano generalizzare bene. I benchmark sono buoni all’inizio della ricerca. Una volta che si supera una soglia, si impara il benchmark e non il problema. Siamo stati molto bravi nel corso degli anni a resettare i benchmark e renderli ancora più difficili per spingere i limiti. Il problema con i benchmark è che, a un certo punto, iniziamo a sovraindiciare e, alla fine, a barare. L’intera tendenza qui è quella di rendere i concorrenti più onesti. Personalmente, non presto molta attenzione ai benchmark dopo alcuni salti. Puoi avere un buon prodotto che non è nemmeno nella top ten della classifica. Ho anche visto molti prodotti scadenti che sono bravi nei benchmark.
La presentazione suggerisce che i modelli linguistici di piccole dimensioni combinati con la scalabilità dell’inferenza e le architetture agente potrebbero consentire sistemi di intelligenza artificiale potenti che funzionano al di fuori dei data center hyperscale. Potrebbe questa decentralizzazione ridisegnare il modo in cui l’intelligenza artificiale viene distribuita attraverso le industrie?
Abbiamo visto un grande enfasi sull’implementazione edge. Stiamo per vedere dispositivi più intelligenti intorno a noi, sicuramente. Microsoft ha lavorato per anni sul 1bit LLM, che raggiunge una compressione di circa 30x, consentendogli di eseguire anche modelli di frontiera su un singolo chip nel futuro. Abbiamo seguito questo lavoro per anni e il progresso è sorprendente. Soprattutto nel dominio wearable.
Qualcosa che è stato coperto l’anno scorso a NeurIPS era l’idea di combinare modelli deboli edge con modelli di frontiera. Ciò consente di regolare la potenza di inferenza in base alla larghezza di banda in uno spettro continuo. Il primo workshop Telco a NeurIPS ha rivelato una tendenza verso la collocazione di GPU sulle torri delle celle, il che è interessante perché la torre della cella non è né un data center né un dispositivo edge. Ciò introduce un nuovo livello nella gerarchia del calcolo.
Un’altra cosa che è sfuggita ai modelli linguistici di grandi dimensioni è l’addestramento del modello distribuito (e non intendo Google che addestra Gemini in centri di dati remoti). C’è una tendenza molto interessante che sta prendendo piede su entità indipendenti che addestrano i propri modelli e gli utenti li combinano come Lego per costruire modelli più grandi e potenti. Questa è una promettente architettura modulare. È così che vengono addestrati i grandi modelli. Diversi team costruiscono modelli specializzati e, alla fine, li collegano come blocchi Lego.
Dopo aver analizzato migliaia di documenti di NeurIPS, dove ritiene che la comunità di ricerca sull’intelligenza artificiale stia prevedendo con precisione i progressi e dove potrebbe stare perdendo i principali cambiamenti futuri?
La comunità di ricerca non fa previsioni. I ricercatori hanno i propri driver, la curiosità, il finanziamento, la serendipità e, naturalmente, l’istinto. Possono sempre perdere direzioni interessanti, ma quasi certamente qualcuno le troverà e le prenderà in considerazione in qualche momento nel futuro. È previsto e salutare. Gli esecutivi, gli investitori e gli ingegneri sono tenuti a identificare le tendenze emergenti in modo da poter prendere le decisioni giuste e fare le scommesse più educate. Nella mia finestra di analisi di 5 anni, ci sono state tendenze che sono state individuate precocemente e altri segnali che sono stati persi. Per alcuni di loro c’è ancora tempo per cavalcare l’onda alpha.
I mercati dei dati sono qualcosa che ho seguito per anni e hanno appena fatto il salto quest’anno. Il componente mancante era l’attribuzione. Possiamo ora identificare i dati di addestramento che hanno contribuito a una competizione LLM in tempo reale. Ciò significa che puoi pagare dividendi. Questo è stato un’opportunità persa dagli editori che sono in azioni legali con i modelli di frontiera. Alcuni di loro hanno dovuto semplicemente capitolare ad accordi di licenza piatti, mentre io credo che abbiano l’opportunità di generare entrate più sostenibili da un modello di attribuzione.
C’è una rivoluzione in arrivo nella robotica. I modelli di mondo di NVIDIA e altri hanno annunciato simulazioni di fisica molto accurate e scalabili. Quindi, aspettatevi che l’intelligenza artificiale sia più fisica in futuro.
L’architettura del trasformatore alla fine si è fusa con i modelli dello spazio degli stati come RNN, mamba, ecc. e ha prodotto modelli linguistici di grandi dimensioni incredibili. Ora sappiamo esattamente i limiti del trasformatore che svolgono un ruolo importante nelle prestazioni, ma stiamo ancora cercando il prossimo passo. Quello arriverà quando il trasformatore sarà stato provato come duro e abbastanza resistente. Cosa non sappiamo è se sarà un essere umano o un trasformatore a progettare la nuova architettura di un modello linguistico di grandi dimensioni! Il trasformatore ha unito tutte le architetture frammentate nel NLP (sì, non dimenticare che l’intelligenza artificiale generativa è iniziata da compiti di NLP rudimentali, come la classificazione delle entità). Ha funzionato per la matematica, quest’anno ha funzionato per le tabelle, ma non ha funzionato per la fisica. Ho contato più di 15 architetture diverse. Quindi, la nuova architettura che unifica la fisica potrebbe anche essere quella che sostituirà il trasformatore nel viaggio verso l’intelligenza artificiale generale.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare RelationalAI.












