interviste
Nikolaos Vasiloglou, Vicepresidente della Ricerca sull'Apprendimento Automatico presso RelationalAI – Serie di interviste

Nikolaos Vasiloglou è il vicepresidente della ricerca ML presso RelationalAI. Ha dedicato la sua carriera allo sviluppo di software ML e alla guida di progetti di data science nei settori della vendita al dettaglio, della pubblicità online e della sicurezza. È membro di ICLR/ICML/NeurIPS/UAI/MLconf/
AI relazionale è un'azienda di intelligenza artificiale per le imprese che sviluppa una piattaforma di decision intelligence progettata per aiutare le organizzazioni a passare dalla semplice analisi dei dati a un processo decisionale automatizzato e di alta qualità. La sua tecnologia si integra direttamente con ambienti dati come Snowflake, combinando database relazionali, grafi della conoscenza e sistemi di ragionamento avanzati per creare un "modello semantico" di un'azienda, codificando essenzialmente il suo funzionamento, le sue relazioni e la sua logica. Ciò consente ai sistemi di intelligenza artificiale (inclusi agenti decisionali come "Rel") di ragionare su dati complessi e interconnessi e di generare insight predittivi e prescrittivi, permettendo alle aziende di prendere decisioni più rapide e informate senza dover spostare i propri dati al di fuori di ambienti cloud sicuri.
Il tuo percorso professionale è stato piuttosto singolare, spaziando dall'apprendimento automatico in ambito accademico, a implementazioni industriali su larga scala, fino a ruoli di leadership in aziende come Symantec, Aisera e ora RelationalAI. In che modo queste esperienze hanno plasmato la tua prospettiva su come la ricerca sull'apprendimento automatico incontra oggi i sistemi del mondo reale?
Ho avuto la fortuna di interagire con diversi settori aziendali, dal commercio al dettaglio e alla sicurezza, fino alla pubblicità online. Questo mi ha aiutato a capire come l'apprendimento automatico e l'intelligenza artificiale si inseriscano come denominatore comune. Sapevamo fin dai primi anni 2000 che il software stava conquistando il mondo e che i dati stavano rivoluzionando il processo decisionale, eppure poche aziende, Google inclusa, credevano che gli algoritmi avanzati di apprendimento automatico avrebbero finito per dominare ogni settore. Nel 2008, i partecipanti al NeurIPS erano considerati dei nerd e dei sognatori che non capivano il mondo reale, semplici appassionati di tecnologia. In parte era vero, ma ero convinto che le cose sarebbero cambiate. A differenza di altri, non ho rinunciato a partecipare attivamente alla transizione della ricerca accademica verso l'industria.
La tua analisi di NeurIP 2025 Ho utilizzato assistenti di programmazione come Claude Code, OpenAI Codex e NotebookLM per elaborare l'intera conferenza. Cosa ti ha sorpreso di più nell'utilizzare sistemi di intelligenza artificiale per analizzare la ricerca sull'IA stessa?
È stato incredibilmente facile creare un software per estrarre i dati, leggerli automaticamente, categorizzarli in sezioni e persino riassumerli e spiegarli in modo particolarmente intuitivo. I sistemi GenAI sono straordinari nel raccontare una storia, ma non nel raccontarla. NotebookLM è il re dell'analisi di qualsiasi dominio e fornisce risultati incredibili. Tuttavia, non si ha alcun controllo sulla storia, sulla grafica o sull'enfasi. Ho scoperto che gli strumenti non sono ottimi per creare diapositive PowerPoint, quindi ho dovuto ricorrere alla creazione di file HTML e alla successiva conversione in PDF. La sfida più grande è stata la creazione di figure: la generazione di diagrammi di diffusione era semplicemente troppo lenta, inaffidabile e costosa, senza alcuna possibilità di controllo. Sorprendentemente, i modelli sono piuttosto bravi a creare SVG programmaticamente con matplotlib, plotly e altre librerie Python. Questa tecnica si è dimostrata scalabile, ma ha richiesto diversi passaggi per correggere gli errori di visualizzazione. I modelli saranno ancora migliori il prossimo anno.
Uno dei temi più importanti della tua analisi è il passaggio dalla scalabilità in fase di addestramento al calcolo in fase di inferenza. Perché il calcolo in fase di test si sta affermando come una leva così potente per migliorare le prestazioni del modello?
Le leggi di scala sono la nostra bussola. L'aumento delle dimensioni del modello e dei dati di pre-addestramento ha raggiunto il suo limite. La prima generazione di leggi di scala ci ha portato fino a GPT-4. Sono state quelle che hanno aiutato OpenAI a dare inizio alla rivoluzione GenAI. Ci siamo presto resi conto che esisteva un'altra dimensione che permetteva al modello di generare molti token prima di arrivare a una risposta. Questo è un altro modo per migliorare l'efficienza dei modelli lineari lineari (LLM). Le dimensioni del modello e la lunghezza del ragionamento sono spesso espresse come modalità di pensiero Sistema 1 e Sistema 2 (Daniel Kahneman). Le tracce di ragionamento sono un altro modo per aumentare la capacità del modello. Se ci pensiamo, le scoperte umane sono iniziate dall'istinto (QI elevato), ma il successo è sempre stato dovuto a un ragionamento lungo e faticoso. Osserviamo una sorta di schema: modelli più piccoli con finestre di pensiero lunghe superano modelli 100 volte più grandi. Quindi, il pensiero conta più del QI nei modelli lineari lineari.
Lei mette in evidenza la transizione da modelli monolitici a sistemi agentici capaci di pianificare, agire e verificare i propri risultati. Quanto siamo vicini a un'IA agentiva che diventi un paradigma di produzione affidabile, anziché rimanere un prototipo di ricerca?
Stiamo facendo grandi passi avanti in quella direzione. I problemi più importanti sono l'affidabilità e la sicurezza, in modo da poterci fidare della loro autonomia. Se guardate attentamente il contenuto di NeurIPS, vedrete sistemi autonomi che fanno ricerca, risolvono problemi matematici e problemi di programmazione, ma non vedrete, ad esempio, un'auto senza conducente con capacità di agire in modo autonomo. L'esperienza più recente con Libro di Molt (un social network per agenti di IA) ha messo in evidenza le problematiche dell'IA agentiva autonoma. Tuttavia, la scoperta di nuovi farmaci e materiali con l'IA agentiva è un risultato enorme, quindi per il momento concentriamoci su questo aspetto.
L'efficienza sembra essere un fattore determinante per l'innovazione, con modelli più piccoli che raggiungono prestazioni competitive grazie a miglioramenti architetturali e strategie di inferenza più intelligenti. Stiamo forse entrando in un'era in cui i progressi in termini di efficienza contano più delle dimensioni del modello?
Con l'espansione dell'IA in ambito produttivo, l'ingegneria assume un'importanza sempre maggiore. Affidarsi esclusivamente ai modelli di frontiera non è più sostenibile. È un'ottima soluzione per le dimostrazioni, ma le aziende si scontrano con la dura realtà degli elevati costi dei modelli di grandi dimensioni. Per la prima volta, i modelli più piccoli sono diventati una soluzione molto più praticabile. Una forza silenziosa sta cambiando lo status quo del settore. Finora, NVIDIA ha detenuto il monopolio delle GPU, mantenendo i prezzi elevati. AMD si sta facendo strada nel mercato con chip di alta qualità, il che porterà a una riduzione dei prezzi. L'energia continua a rappresentare un problema, ma si stanno registrando alcuni segnali di ripresa sul mercato. Con l'aumento dei costi dei laboratori di frontiera, la soluzione dei modelli più piccoli con GPU a noleggio è diventata più fattibile.
La vostra presentazione suggerisce che il settore si è spostato dalla scalatura monodimensionale (parametri) alla scalatura multidimensionale che coinvolge parametri, dati, architettura e inferenza. Come dovrebbero considerare ricercatori e professionisti questo nuovo paradigma di scalatura?
Per la maggior parte dei professionisti, l'architettura e i parametri sono al di fuori del loro controllo. I produttori dei modelli che dispongono del capitale necessario guideranno l'innovazione. La lunghezza dell'inferenza dei token sarà determinata dalla spesa in conto capitale della loro organizzazione. Ciò che rimane sotto il loro controllo sono i dati. Vedremo una maggiore attenzione alla creazione, alla cura e al debug dei dati (nella maggior parte dei casi, tracce di ragionamento). Questo sarà il fulcro delle operazioni quotidiane. Naturalmente, dovranno seguire NeurIPS e le altre grandi conferenze per rimanere aggiornati sulle tendenze delle nuove architetture.
Nella tua sintesi per NeurIPS, sottolinei come una quota crescente di ricerca si concentri sulla scoperta scientifica guidata dall'intelligenza artificiale, spaziando dalla biologia alla modellazione climatica. Ritieni che l'intelligenza artificiale applicata alla scienza rappresenti la prossima grande frontiera per la ricerca sull'apprendimento automatico?
Credo che vada oltre la ricerca accademica. Stiamo assistendo alla prossima corsa all'oro. Nel 1849 la corsa all'oro in California raggiunse il suo apice. Bastava filtrare incessantemente l'acqua dei fiumi per trovare l'oro. Sappiamo ora che molti non lo trovarono, ma ciò che vediamo oggi è molto reale. Prevedo una grande ondata di startup composte da due o tre persone che utilizzeranno modelli linguistici per scoprire nuovi materiali, farmaci e componenti per prodotti. Bruciare token nel modo più intelligente può portare a grandi profitti. Assistenti di programmazione come Claude Code, OpenAI Codex e Google Antigravity possono eliminare l'ostacolo insormontabile per le aziende SaaS, aprendo la strada a un'intera generazione di informatici altamente qualificati nella ricerca scientifica. Se lavori per un'organizzazione no-profit come First Principles o Bio[hub], ci sono opportunità per scoprire nuove leggi e teorie fisiche o altri contributi in biologia. Se invece vuoi generare entrate, lavorerai all'invenzione di nuovi prodotti basati sulla scienza, come farmaci, materiali, batterie, ecc.
Il tuo lavoro mette inoltre in luce un divario crescente nella verifica, in cui i modelli raggiungono punteggi elevati nei benchmark ma falliscono in presenza di semplici variazioni nel mondo reale. Cosa rivela questo divario sui limiti attuali dei modelli linguistici di grandi dimensioni?
Sembrano avere una memoria straordinaria e sanno generalizzare bene. I benchmark sono utili all'inizio della ricerca. Una volta superata una soglia, si impara a conoscere il benchmark e non il problema. Nel corso degli anni siamo stati molto bravi a reimpostare i benchmark e a renderli ancora più difficili da superare. Il problema con i benchmark è che a un certo punto si inizia a sovrastimare i risultati e, alla fine, a barare. L'obiettivo principale è rendere i concorrenti più onesti. Personalmente, non presto più molta attenzione ai benchmark dopo che si sono verificati alcuni progressi significativi. Si può avere un buon prodotto che non rientra nemmeno tra i primi dieci della classifica. Ho anche visto molti prodotti mediocri che ottengono buoni risultati nei benchmark.
La presentazione suggerisce che modelli linguistici di piccole dimensioni, combinati con la scalabilità dell'inferenza e le architetture agentiche, potrebbero consentire la creazione di potenti sistemi di intelligenza artificiale in grado di operare al di fuori dei data center su larga scala. Questa decentralizzazione potrebbe ridefinire le modalità di implementazione dell'IA nei diversi settori?
Abbiamo assistito a una grande enfasi sull'implementazione edge. Vedremo sicuramente dispositivi più intelligenti intorno a noi. Microsoft lavora da anni su 1bit LLM, che raggiunge una compressione circa 30 volte superiore, consentendo in futuro di eseguire modelli ancora più avanzati su un singolo chip. Seguiamo questo lavoro da anni e i progressi sono sbalorditivi, soprattutto nel settore dei dispositivi indossabili.
Un tema trattato al NeurIPS dello scorso anno è stata l'idea di combinare modelli edge deboli con modelli di frontiera. Questo permette di regolare la potenza di inferenza in base alla larghezza di banda disponibile in uno spettro continuo. Il primo Telco Workshop al NeurIPS ha rivelato una tendenza a posizionare le GPU sulle torri cellulari, il che è interessante perché la torre cellulare non è né un data center né un dispositivo edge. Ciò introduce un nuovo livello nella gerarchia di calcolo.
Un altro aspetto sfuggito ai modelli LLM è l'addestramento distribuito dei modelli (e non mi riferisco a Google che addestra Gemini in data center remoti). Si sta diffondendo una tendenza molto interessante: entità indipendenti addestrano i propri modelli e gli utenti li combinano come mattoncini Lego per crearne di più grandi e potenti. Si tratta di un'architettura modulare molto promettente. È così che vengono addestrati i modelli di grandi dimensioni. Diversi team sviluppano modelli specializzati e, alla fine, li assemblano come blocchi Lego.
Dopo aver analizzato migliaia di articoli di NeurIPS, in quali ambiti ritieni che la comunità di ricerca sull'IA stia prevedendo con precisione i progressi e in quali potrebbe invece non cogliere i cambiamenti più importanti in arrivo?
La comunità scientifica non fa previsioni. I ricercatori hanno le proprie motivazioni: curiosità, finanziamenti, fortuna e, naturalmente, istinto. Possono sempre perdere di vista direzioni interessanti, ma quasi certamente qualcuno le individuerà e le sfrutterà in futuro. È normale e salutare. Dirigenti, investitori e ingegneri devono individuare le tendenze emergenti per poter prendere le decisioni giuste e fare le scelte più ponderate. Nel mio periodo di analisi di 5 anni, ci sono state tendenze individuate precocemente e altri segnali persi. Per alcuni di questi c'è ancora tempo per cavalcare l'onda alfa.
Seguo da anni l'evoluzione del mercato dei dati, che quest'anno ha finalmente compiuto un salto di qualità. L'elemento mancante era l'attribuzione. Ora possiamo identificare in tempo reale i dati di training che hanno contribuito al successo di un concorso LLM. Questo significa che è possibile distribuire dividendi. Questa è stata un'occasione persa per gli editori che si sono trovati coinvolti in azioni legali collettive contro i modelli di frontiera. Alcuni di loro hanno dovuto semplicemente cedere ad accordi di licenza a canone fisso, mentre credo che avrebbero avuto l'opportunità di generare entrate più consistenti grazie a un modello di attribuzione.
Nel campo della robotica è in atto una rivoluzione. I modelli del mondo annunciati da NVIDIA e altre aziende eseguono simulazioni fisiche estremamente accurate e scalabili. Pertanto, è lecito aspettarsi che l'intelligenza artificiale diventi sempre più basata sulla fisica in futuro.
L'architettura Transformer si è infine fusa con i modelli di spazio degli stati come RNN, Mamba, ecc., producendo LLM di piccole dimensioni davvero sorprendenti. Ora conosciamo i limiti esatti del Transformer, che giocano un ruolo fondamentale nelle prestazioni, ma ci manca ancora il passo successivo. Questo avverrà quando il Transformer si sarà dimostrato estremamente robusto e resiliente. Ciò che non sappiamo è se sarà un essere umano o un Transformer a progettare la nuova architettura di un LLM! Il Transformer ha unificato tutte le architetture frammentate nell'elaborazione del linguaggio naturale (non dimentichiamo che GenAI è partita da compiti di elaborazione del linguaggio naturale rudimentali, come la classificazione delle entità). Ha funzionato per la matematica, quest'anno ha funzionato per le tabelle, ma non ha funzionato per la fisica. Ho contato più di 15 architetture diverse. Quindi la nuova architettura che unifica la fisica potrebbe essere anche quella che sostituirà il Transformer nel percorso dell'intelligenza artificiale generale (AGI).
Grazie per l'ottima intervista, i lettori che desiderano saperne di più dovrebbero visitare AI relazionale.












