Angolo di Anderson

L’IA riuscirà alla fine a prosperare al di fuori del fossato?

Published April 1, 2026

Updated May 16, 2026

Martin Anderson

A cartoon image of a SIMs-style game where a Scottish Laird in his castle is regarding the thriving villagers beyond his moat with puzzlement. GPT-1.5.

I costi e le restrizioni dell’IA di grandi dimensioni, nonché la sua influenza sui costi dell’hardware, stanno costringendo gli utenti a costruire i propri sistemi – proprio come la normativa in aumento minaccia di chiudere quell'”economia ombra dell’IA”.

Opinione Tra le molte “trappole” che si verificano nelle ricerche scientifiche, una delle più frequenti è che il problema affrontato nel documento è stato già risolto altrove, e che il contributo della nuova ricerca è meramente incidentale o incrementale.

Questo può accadere per una serie di motivi: i ricercatori speravano in un balzo quantico, ma hanno ottenuto un quasi-salto invece; che le soluzioni precedenti del problema erano più intensive in termini di risorse rispetto alla nuova offerta; o semplicemente che gli obiettivi del progetto sono falliti del tutto, ma la cultura “pubblica o perisci” della ricerca accademica ha costretto il team a rilasciarlo comunque (spesso sepolto tra l’avalanche di un portale di pubblicazione più trafficato).

Nella letteratura sull’apprendimento automatico, tuttavia, una ragione relativamente nuova e senza scuse sta diventando più frequente: che la funzionalità o la caratteristica offerta è attualmente disponibile solo attraverso portali chiusi e legati all’API.

Stavo considerando un tale documento stamattina – una collaborazione tra università cinesi e Amazon, che affronta il problema ricorrente di fallimento della rimozione dell’oggetto nei sistemi di editing delle immagini basati sulla diffusione, che spesso semplicemente “riempiono” lo spazio bersaglio con un oggetto simile invece:

<img class="size-full wp-image-407380" src="https://www.unite.ai/wp-content/uploads/2026/04/you-only-erase-once.jpg" alt="A sinistra c'è l'immagine originale; a destra di essa, la maschera di segmentazione rossa che indica all'IA quale parte dell'immagine rimuovere; successivamente, 'Ours', mostra un approccio di rimozione dell'oggetto di successo – e le due immagini rimanenti mostrano sistemi simili che, invece di rimuovere l'autobus, inseriscono un diverso autobus al suo posto. Fonte – https://arxiv.org/pdf/2603.27599v1″ width=”1200″ height=”272″ /> A sinistra c’è l’immagine originale; a destra di essa, la maschera di segmentazione rossa che indica all’IA quale parte dell’immagine rimuovere; successivamente, ‘Ours’, mostra un approccio di rimozione dell’oggetto di successo – e le due immagini rimanenti mostrano sistemi simili che, invece di rimuovere l’autobus, inseriscono un diverso autobus al suo posto. Fonte

Nell’esempio sopra, l’immagine centrale mostra il nuovo approccio che rimuove con successo l’autobus e inserisce uno sfondo plausibile, rispetto ai due metodi precedenti (le due immagini più a sinistra), che rimuovono l’autobus, ma poi inseriscono un diverso autobus nell’immagine!

Trappola!

Mettendo da parte le ragioni e i perché di questa sfida per un altro momento (ed è un argomento interessante interessante ), poi ho incontrato una classica “trappola”, leggendo il nuovo documento: la concessione degli autori che i sistemi costosi e proprietari possono già eseguire questa attività in modo abbastanza affidabile – qualcosa che so, grazie a alcuni anni di utilizzo di Adobe Firefly in Photoshop, tra altri sistemi chiusi:

‘I metodi basati sulla diffusione spesso hallucinano inserendo oggetti non intesi dopo aver rimosso quelli bersaglio, portando a risultati incoerenti con il contesto.

‘D’altra parte, i recenti modelli multimodali chiusi come ChatGPT e Nano Banana, sebbene siano più potenti nella rimozione degli oggetti, comportano grandi quantità di parametri e un alto sovraccarico computazionale, ostacolando la loro distribuzione pratica su dispositivi edge.

‘Pertanto, è assolutamente necessario sviluppare un modello di cancellazione dell’oggetto dedicato che non solo consenta prestazioni di cancellazione superiori, ma goda anche di una latenza di inferenza bassa e di molti meno parametri.’

Questa spiegazione, concentrata sugli ostacoli tecnici, elide il fatto ovvio che le architetture chiuse come ChatGPT e Nano Banana non sono disponibili affatto</i} per l’installazione locale. Sebbene la capacità di questi sistemi di produrre materiale controverso abbia giustificato ulteriormente la loro gestione dei gatekeeper nel corso dell’ultimo anno, i portali di questo tipo sono proprietari principalmente a causa di imperativi commerciali.

In sostanza, il nuovo documento implica che sebbene il problema bersaglio sia risolto nei sistemi commerciali, ciò potrebbe essere irrilevante per il resto di noi, che hanno bisogno di imparare a risolverlo nel “mondo reale” – cioè, nei sistemi open source, che possono essere realisticamente installati localmente o meno.

Sviluppo parallelo

Tuttavia, perché risolvere un problema che dipende ancora da un sistema a pagamento, non a causa di vincoli proprietari, ma perché il calcolo GPU richiesto supera ciò che qualsiasi setup locale può sostenere realisticamente? La maggior parte di questi nuovi “aperti” documenti e repository di codice presentano setup di formazione/inferenza con esigenze di risorse eccessive, come cluster di A100.

Bene, dipende da cosa si pensa che tutti questi centri di dati AI in sospeso stiano per soddisfare quando saranno finalmente online. Le paure dei comuni e le speranze degli élite immaginano sistemi proprietari a livello di ChatGPT che sostituiscono i lavori, aumentando costantemente i costi di abbonamento e riducendo i livelli di servizio, per soddisfare il capitale di rischio iniziale che ha dovuto aspettare 3-5 anni per operativizzare.

Ma una tendenza crescente nella letteratura sembra sostenere un futuro alternativo, e lo spirito “va da solo”, marginale di molte comunità online come il subreddit r/stablediffusion, che attualmente conta 920.000 utenti e che ha a lungo vietato i post relativi ai sistemi di generazione di immagini/video chiusi.

In questo futuro alternativo, la nuova fornitura globale di centri di dati AI faciliterà il calcolo grezzo per sistemi configurati dall’utente, definiti dall’utente, piuttosto che soddisfare le esigenze di monumentali “scatole nere” come ChatGPT e Adobe Firefly.

Atrito di superficie

Guardando attraverso i complessi, Patreon-minati walkthrough di GPU remote in r/stablediffusion, sembra impossibile al momento: i modelli sono costantemente in cambiamento con ogni aggiornamento; sono difficili da distribuire localmente, anche nei framework più facili e più user-friendly; e, in generale, la quantità di attrito coinvolta suggerisce una ricerca strettamente per gli appassionati di geek, e per quella stirpe più avventurosa di aziende non direttamente coinvolte nell’IA, ma che desiderano sviluppare e mantenere i propri sistemi locali, invece di noleggiare tali capacità.

Tuttavia, negli ultimi trent’anni, ogni tecnologia in cui c’era una grande domanda di semplificazione e commodity aperta e democratica ha tendenza ad ottenerla, con le soluzioni più diffuse che di solito emergono dalle tensioni tra sistemi commerciali e alternative e iniziative open-source.

Ricerche che erano un tempo nicchie specializzate “nerd”, come le connessioni internet, i framework di gestione dei contenuti e i framework di blogging, nonché la sicurezza internet, la fotografia e la gestione dei media, sono tutti evoluti dalla complessità confondente verso la semplicità e l’utilità.

Pertanto, il paesaggio dell’IA potrebbe essere più variegato e pieno di piccoli e veri concorrenti rispetto ai leader del mercato dell’IA attuali.

Autorealizzazione, per necessità

Ironia della sorte, “Big AI” sta contribuendo molto a uno spirito di indipendenza emergente tra gli utenti finali, succhiando tutti i componenti del computer – soprattutto DRAM – che altrimenti sarebbero andati ai “consumatori comuni”.

Di conseguenza, molti stanno immaginando un futuro in cui le risorse “globali AI” chiuse vengono accessibili tramite client leggeri sottopotenziati e stanno sviluppando un interesse crescente nel mantenere le loro attrezzature esistenti.

L’assalto dell’IA alle catene di approvvigionamento tecnologiche ha anche causato ai fornitori di servizi tecnologici di aumentare i prezzi negli ultimi 3-6 mesi, o perché le piccole aziende sono state realmente strette dalla carenza di hardware, o solo perché l’IA.

Questo ha portato a un crescita di interesse per l’auto-ospedalizzazione e on-prem – inclusa l’auto-ospedalizzazione delle reti di apprendimento automatico.

Io stesso sono stato coinvolto in questo ultimamente, spostandomi verso l’archiviazione LAN locale per foto e video, nonché per i backup dei file. Per il primo, ho utilizzato il server di media multi-piattaforma gratuito e open-source Immich, aiutandomi a spostarmi lontano dalle aumenti di prezzo (e altri problemi) dei provider di archiviazione cloud come iCloud:

La piattaforma Immich gratuita può tenere i tuoi media sul tuo dispositivo e privati per i tuoi canali. In questo caso, utilizzo anche Immich su Docker per servire la mia NVIDIA 3090 GPU sulla LAN dove vengono salvate le foto e i video, in modo che la GPU più potente possa gestire qualsiasi elaborazione di immagini/video pesante.

Se la mia esperienza personale è un indicatore rappresentativo, vibe-coding – attualmente maledetto in molte comunità online “pure” – sta alimentando questa ondata di indipendenza (anche se potrebbe minacciare i repository open-source di cui si avvale).

Ad esempio, la rete ha sempre fatto la mia parte debole nel calcolo, quindi l’assistenza dell’IA era essenziale per me per eseguire un VPS sicuro, per supportare un insieme di nuovi servizi auto-ospedalizzati.

In questo modo, “Big AI” sta probabilmente potenziando “Small AI”; pertanto forse possiamo considerare l’attuale ascesa delle società di iperscalari, iper-valutate AI come uno stato necessario ma solo transitorio prima che emerga una società AI più democratica e potenziata dall’utente, eliminando le corporazioni che cercano di costruire fossati, come razzi a propulsione esaurita – proprio come il fallimento delle dot-com del 2000 ha lasciato un’infrastruttura sfruttabile che avrebbe profondamente accelerato il web molto tempo dopo che le società che l’avevano pagata erano collassate.

L’era della conformità

Bene, probabilmente non si ripeterà questa volta.

Anche se siamo inclini a formare una sorta di società ex-moat marginale, la normativa sull’IA, combinata con la tendenza globale attuale verso la verifica dell’età, sembra probabile che anticipi e blocchi queste vie di sviluppo.

L’ancora per prevenire un'”economia ombra dell’IA” è la normativa. Già, repository centrali come GitHub e Hugging Face spesso richiedono l’accesso online prima di consentire agli utenti di clonare i repository localmente, a seconda delle impostazioni del repository.

Pertanto, i meccanismi già esistono per imporre il monitoraggio dei framework AI più ampiamente di quanto non sia l’attuale prassi; e la volontà di aumentare tale supervisione si sta ora consolidando da singole iniziative governative in un impulso globale.

Quindi, se le forze di mercato e l’ingegno del movimento FOSS dovessero rimuovere l’attrito dalla distribuzione dell’IA casuale, gli ostacoli sembrano pronti a tornare sotto forma di requisiti di conformità: richieste di conformità che, se onerose, sono meritevoli per le aziende, ma forse non per gli individui – simili all’attrito che è stato aggiunto ai sistemi di pagamento online per i consumatori dal “golden age di PayPal” negli anni 2000.

Se Meta ha speso 2 miliardi di dollari per fare lobbying per il controllo dell’età a livello di sistema operativo a causa del suo significativo investimento in IA, o dei suoi interessi nella raccolta di dati, il risultato del sostegno di Big Tech per il controllo dell’età è che l’IA “locale” potrebbe diventare così regolamentata come una sostanza di classe A; e, proprio come il DMCA è stato progettato per criminalizzare l’intento piuttosto che qualsiasi meccanismo specifico di evasione del copyright, le normative internazionali sull’IA potrebbero, in tale scenario, rendere ogni utilizzo non conforme di apprendimento automatico un atto fuorilegge, a poco costo (in termini di supervisione attiva).

Questo potrebbe sembrare un punto di vista eccessivamente distopico un anno fa – ma quello era prima che California e systemd si sono espressi a favore dell’idea di verifica dell’età a livello di hardware, attualmente vista da molti come un proxy per un divieto dell’anonimato online.

Conclusione

Quindi, mentre lo sfondo legale e legislativo si prepara forse a cooptare l’IA in uno spazio altamente regolamentato, in modo che gli utenti casuali non possano “creare il proprio” più di quanto non possano coltivare o fermentare sostanze regolamentate senza permesso, il settore della ricerca mantiene la sua posizione più ottimistica – che l’IA diventerà una forza democratizzata e benefica nella società più ampia rispetto ai soli adepti del provider chiuso più popolare del giorno.

Molto dipende dalla disposizione delle macerie dopo che la bolla dell’IA scoppierà – almeno nella misura in cui i fornitori o si consolidano o il mercato si stabilisce in una lunga balkanizzazione – che richiederebbe probabilmente un tocco regolamentare più gentile.

Pubblicato per la prima volta mercoledì 1 aprile 2026