Connect with us

Kąt Andersona

Czy AI ostatecznie prosperować poza fosą?

mm
A cartoon image of a SIMs-style game where a Scottish Laird in his castle is regarding the thriving villagers beyond his moat with puzzlement. GPT-1.5.

Koszty i ograniczenia dużych AI, a także ich wpływ na koszty sprzętu, zmuszają użytkowników do budowania własnych systemów – podobnie jak rosnące regulacje zagrażają zamknięciem tej “cieniowej gospodarki AI”.

 

Opinia Wśród wielu “gotcha”, które pojawiają się w naukowych pracach badawczych, jednym z najczęstszych jest to, że problem, który jest adresowany w pracy, już został rozwiązany gdzie indziej, a nowe badanie ma tylko incydentalny lub stopniowy wkład.

To może się zdarzyć z wielu powodów: badacze liczyli na skok kwantowy, ale dostali quasi-skok; wcześniejsze rozwiązania problemu były bardziej zasobożerne niż nowa oferta; lub po prostu cele projektu nie powiodły się, ale kultura “publikuj lub zgiń” w badaniach akademickich zmusiła zespół do opublikowania go tak czy inaczej (często pogrzebanego wśród lawiny na najbardziej zajętych dniach publikacji).

W literaturze związanej z uczeniem maszynowym nowy, nieprzepraszający powód staje się coraz częstszy: że funkcja lub funkcjonalność jest tylko obecnie dostępna za pomocą zamkniętych, związanych z API portali.

Rozważałem jeden z takich artykułów rano – współpracę między chińskimi uniwersytetami a Amazon, adresującą powtarzający się problem awarii usuwania obiektów w systemach edycji obrazu opartych na dyfuzji, które często po prostu “ponownie wypełniają” celowy obszar podobnym obiektem:

Na dalekim lewym jest oryginalny obraz; po prawej stronie, czerwona maska segmentacji, która mówi AI, jaki część obrazu ma usunąć; następnie, 'Nasze', pokazuje udany sposób usuwania obiektu – i pozostałe dwa obrazy pokazują podobne systemy, które zamiast usuwać autobus, wstawiają inny autobus zamiast niego. Źródło - https://arxiv.org/pdf/2603.27599v1

Na dalekim lewym jest oryginalny obraz; po prawej stronie, czerwona maska segmentacji, która mówi AI, jaki część obrazu ma usunąć; następnie, ‘Nasze’, pokazuje udany sposób usuwania obiektu – i pozostałe dwa obrazy pokazują podobne systemy, które zamiast usuwać autobus, wstawiają inny autobus zamiast niego. Źródło

W powyższym przykładzie, środkowy obraz pokazuje nowy sposób udanego usuwania autobusu i wstawiania wiarygodnego tła, w przeciwieństwie do dwóch poprzednich metod (dwóch lewych obrazów), które każdy usuwa autobus, ale potem wstawia inny autobus z powrotem do obrazu!

Gotcha!

Odkładając na bok dlaczego i jak tego wyzwania (i jest to interesujący temat ), potem przeczytałem klasyczne “gotcha” w nowym artykule: autorzy przyznają, że kosztowne, własnościowe systemy mogą już wykonywać tę zadanie dość niezawodnie – co wiem, z kilku lat użytkowania Adobe Firefly w Photoshopie, wśród innych zamkniętych systemów:

‘[Metody oparte na dyfuzji] często halucynują, wstawiając niezamierzone obiekty po usunięciu celowych, prowadząc do kontekstowo niespójnych [wyników].

‘Z drugiej strony, niedawne zamknięte, wielomodalne modele, takie jak ChatGPT i Nano Banana, chociaż są bardziej potężne w usuwaniu obiektów, ale wymagają dużych liczb parametrów i wysokiej obciążenia obliczeniowego, utrudniając ich praktyczne wdrożenie na urządzeniach krawędziowych.

‘Stąd jest zupełnie konieczne opracowanie dedykowanego modelu usuwania obiektów, który nie tylko umożliwia lepszą wydajność usuwania, ale także cieszy się niską latencją inferencji i znacznie mniej parametrów.’

To wyjaśnienie, koncentrujące się na technicznych przeszkodach, pomija oczywisty fakt, że zamknięte architektury, takie jak ChatGPT i Nano Banana, nie są dostępne w ogóle do lokalnej instalacji. Chociaż takie systemy zdolność do produkcji kontrowersyjnych materiałów dała ich bramkarzom dodatkowe publiczne uzasadnienie w ciągu ostatniego roku, portale tego rodzaju są własnościowe głównie z powodów komercyjnych.

Podstawowo, nowy artykuł sugeruje, że chociaż celowy problem jest rozwiązany w komercyjnych systemach, to może być nieistotne dla reszty z nas, którzy muszą nauczyć się rozwiązywać to w “prawdziwym świecie” – tj. w systemach open source, niezależnie od tego, czy mogą być realistycznie zainstalowane lokalnie, czy nie.

Rozwój równoległy

Jednak dlaczego rozwiązywać problem, który nadal zależy od płatnego systemu, nie z powodów własnościowych, ale dlatego, że wymagany komputeryzowany obliczeniowy przekracza to, co jakakolwiek lokalna konfiguracja może realistycznie utrzymać? Większość takich nowych “otwartych” artykułów i repozytoriów kodu zawiera ustawienia szkolenia / inferencji z rażącymi wymaganiami zasobowymi, takimi jak klastry A100.

To zależy od tego, co myślimy, że wszystkie te poczekające, gospodarko-burzowe centra danych AI będą spełniać, gdy w końcu wejdą online. Strachy zwykłych ludzi i nadzieje elit wyobrażają sobie umocnione, własnościowe systemy AI, które wypierają pracę, podczas gdy stale zwiększają koszty subskrypcji i obniżają poziom usług, aby zadowolić wczesny kapitał VC, który musiał czekać 3-5 lat, aby zoperacjonalizować.

Jednak rosnący trend w literaturze wydaje się wspierać alternatywną przyszłość, a “idź-sam” duch wielu online społeczności, takich jak subreddit r / stablediffusion, który obecnie ma 920 000 użytkowników i który od dawna zakazał postów dotyczących zamkniętych systemów generowania obrazu / wideo.

W tej alternatywnej przyszłości nowy globalny zapas centrów danych AI ułatwi surowe obliczenia dla systemów konfigurowanych przez użytkowników, zdefiniowanych przez użytkowników, zamiast spełniania wymagań monumentalnych “czarnych skrzynek” ram, takich jak ChatGPT i Adobe Firefly.

Tarcie powierzchni

Przeglądając złożone, zdalne przewodniki po GPU w r / stablediffusion, wszystko wydaje się niemożliwe na razie: modele zmieniają cel z każdą aktualizacją; są trudne do wdrożenia lokalnie, nawet w najłatwiejszych i najbardziej przyjaznych frameworkach; i ogólnie, ilość tarcia zaangażowanego sugeruje pościg ściśle dla geekowych hobbystów i dla tej bardziej awanturniczej odmiany firm niebezpośrednio zaangażowanych w AI, ale które chcą rozwijać i utrzymywać własne lokalne systemy, zamiast wynajmować takie możliwości.

Jednak w ciągu ostatnich trzydziestu lat każda technologia, w której było ogromne zapotrzebowanie na otwarte i demokratyczne uproszczenie i komodyfikację tendencja do jej uzyskania, z najbardziej rozpowszechnionymi rozwiązaniami, które zazwyczaj pochodzą z napięć między komercyjnymi systemami a alternatywami i inicjatywami open-source.

Pogoni, które kiedyś były specjalistycznymi “nerd” enklawami, takimi jak połączenia internetowe, systemy zarządzania treścią i ramy blogowania, a także internetowa bezpieczeństwo, fotografia i zarządzanie mediami, wszystkie ewoluowały z ogromnej złożoności w kierunku prostoty i użyteczności.

Dlatego późniejszy krajobraz AI może być bardziej urozmaicony i pełen mniejszych, prawdziwie konkurujących graczy niż obecni liderzy rynku AI mogliby preferować.

Samourzeczywistnienie, z konieczności

Ironicznie, “Duży AI” przyczynia się dużo do powstania ducha niezależności wśród użytkowników końcowych, pochłaniając dla swoich centrów danych wszystkie komponenty komputera – szczególnie DRAM – które w przeciwnym razie poszłyby do “zwykłych” konsumentów.

W związku z tym wiele osób wyobraża sobie przyszłość, w której zamknięte “globalne zasoby AI” są dostępne za pośrednictwem słabych klientów i rozwijają rosnące zainteresowanie utrzymaniem ich istniejącego sprzętu.

Atak AI na łańcuchy dostaw technologicznych również spowodował, że dostawcy usług technologicznych podnieśli swoje ceny w ciągu ostatnich 3-6 miesięcy, albo dlatego, że mniejsze firmy są prawdziwie ściskane przez suszę sprzętu, albo po prostu dlatego, że AI.

To doprowadziło do wzrostu zainteresowania samohostingiem i on-prem – w tym samohostingiem sieci szkoleniowych.

Zostałem w to wciągnięty ostatnio, przenosząc się do lokalnego magazynu LAN dla zdjęć i filmów, a także kopii zapasowych plików. Dla pierwszego używałem bezpłatnego i otwarto-źródłowego serwera multimedialnego Immich, pomagając mi przenieść się z powodu wzrostu cen (i innych niepokojących problemów) iCloud i innych dostawców usług chmury:

Bezpłatna platforma Immich może przechowywać Twoje media na Twoim sprzęcie i utrzymywać je prywatnie na Twoich kanałach. W tym przypadku używam również Immich na Docker, aby obsłużyć mój NVIDIA 3090 GPU przez LAN, gdzie są zapisywane zdjęcia i filmy, aby większy GPU mógł obsłużyć wszelkie ciężkie przetwarzanie obrazu / wideo.

Bezpłatna platforma Immich może przechowywać Twoje media na Twoim sprzęcie i utrzymywać je prywatnie na Twoich kanałach. W tym przypadku używam również Immich na Docker, aby obsłużyć mój NVIDIA 3090 GPU przez LAN, gdzie są zapisywane zdjęcia i filmy, aby większy GPU mógł obsłużyć wszelkie ciężkie przetwarzanie obrazu / wideo.

Jeśli moje własne doświadczenie jest jakimś reprezentatywnym wskaźnikiem, vibe-coding – obecnie przeklęty w wielu kiedyś “czystych” społecznościach online – napędza tę falę niezależności (nawet jeśli może zagrozić repozytoriom open source, na które się opiera).

Na przykład, sieciowanie zawsze było moim słabym punktem w komputerze, więc pomoc AI była niezbędna, aby uzyskać bezpieczne VPS, aby wesprzeć serię nowych usług samohostingowych.

W ten sposób “Duży AI” jest w zasadzie upoważniający “mały AI”; dlatego możemy rozważyć obecny wzrost hiper skalowalnych, hiper-wartościowych firm AI jako konieczny, ale tylko przejściowy stan przed bardziej demokratycznym i upoważnionym społeczeństwem AI, które porzuci poszukujące fosy, poszukujące czynszu korporacje jak zużyte rakiety booster – podobnie jak krach dot-com z 2000 roku pozostawił wykorzystywane infrastruktury, które znacznie przyspieszyły sieć długo po tym, jak firmy, które za nie zapłaciły, upadły.

Wiek zgodności

Cóż, to prawdopodobnie nie powtórzy się tym razem.

Nawet jeśli jesteśmy skłonni utworzyć jakiś rodzaj ex-moat społeczności na obrzeżach, regulacja wokół AI, w połączeniu z bieżącym globalnym trendem w kierunku weryfikacji wieku, wydaje się prawdopodobne, że przewidzi i zablokuje te ścieżki rozwoju.

Kotwica do zapobiegania “cieniowej gospodarce AI” jest regulacją. Już teraz centralne repozytoria, takie jak GitHub i Hugging Face, często wymagają logowania online przed zezwoleniem użytkownikom na klonowanie repozytoriów lokalnie, w zależności od ustawień repozytorium.

Dlatego mechanizmy już istnieją, aby egzekwować monitorowanie ram AI bardziej powszechnie niż jest to obecnie praktykowane; i wola do zwiększenia takiego nadzoru konsoliduje się z indywidualnych inicjatyw rządowych w globalny impuls.

Więc, jeśli siły rynkowe i pomysłowość ruchu FOSS usuną tarcie z casualnym wdrożeniem AI, przeszkody wydają się powrócić w postaci wymagań dotyczących zarządzania: wymagań zgodności, które są uciążliwe, ale są warte dla firm, ale być może nie dla osób fizycznych – podobnie jak tarcie, które zostało dodane do systemów płatności online od złotego wieku PayPal w latach 2000.

Podsumowanie

Więc, podczas gdy tło prawne i legislacyjne przygotowuje się, być może, do włączenia AI do wysoko regulowanego obszaru, tak aby użytkownicy nie mogli “warzyć własnego” bardziej niż mogą uprawiać lub fermentować regulowane substancje bez pozwolenia, sektor badawczy utrzymuje bardziej optymistyczne stanowisko – że AI stanie się demokratyczną i korzystną siłą w szerszym społeczeństwie niż tylko zwolennicy najpopularniejszego dostawcy zamkniętego kodu dnia.

Wiele zależy od dyspozycji rumowiska po tym, jak bańka AI pęknęła – przynajmniej w takim stopniu, w jakim dostawcy albo konsolidują, albo rynek ustabilizuje się w długoterminową balkanizację – co prawdopodobnie wymagałoby lżejszego dotyku regulacyjnego.

 

Pierwotnie opublikowane w środę, 1 kwietnia 2026

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai