Liderzy myśli
Nowe spojrzenie na oprogramowanie typu open source w erze generatywnej sztucznej inteligencji

Model open source – etos tworzenia oprogramowania, w którym kod źródłowy jest udostępniany bezpłatnie do publicznej redystrybucji lub modyfikacji – od dawna jest katalizatorem innowacji. Ideał narodził się w 1983 roku, gdy Richard Stallman, programista, był sfrustrowany niedziałającą czarną skrzynką swojej drukarki o zamkniętym kodzie źródłowym.
Jego wizja dała początek ruchowi wolnego oprogramowania, torując drogę dla ekosystemu open source, który napędza znaczną część dzisiejszych innowacji internetowych i programistycznych.
Ale to było ponad 40 lat temu.
Współczesna generatywna sztuczna inteligencja, ze swoimi wyjątkowymi wyzwaniami technicznymi i etycznymi, zmienia znaczenie pojęcia „otwartości”, domagając się od nas ponownego rozważenia i przemyślenia paradygmatu open source – nie po to, by go porzucić, lecz by go dostosować.
Sztuczna inteligencja i wolność oprogramowania typu open source
Cztery podstawowe wolności oprogramowania typu open source – możliwość uruchamiać, badać, modyfikować i redystrybuować jakikolwiek kod oprogramowania – są sprzeczne z naturą sztucznej inteligencji generatywnej na kilka sposobów:
- Biegać: Modele sztucznej inteligencji często wymagają bardzo dużej infrastruktury i kosztów obliczeniowych, co ograniczenie dostęp ze względu na ograniczenia zasobów.
- Przeanalizuj i zmodyfikuj: Modele sztucznej inteligencji są niezwykle złożone, więc zrozumienie i zmiana ich brak dostępu zarówno do kodu, jak i do danych, które go tworzą, stanowi poważne wyzwanie.
- Redystrybucja:Wiele modeli AI ograniczyć redystrybucję z założenia, zwłaszcza tych z wytrenowanymi wagami i zastrzeżonymi zestawami danych będącymi własnością dostawcy platformy.
Erozja tych fundamentalnych założeń nie wynika ze złych intencji, lecz z samej złożoności i kosztów nowoczesnych systemów AI. W rzeczywistości, w ostatnich latach drastycznie wzrosły koszty szkolenia najnowocześniejszych modeli AI – podobno koszty szkolenia GPT-4 firmy OpenAI wyniosły… do $ 78 milionów, z wyłączeniem wynagrodzeń pracowników, z całkowitymi wydatkami nadzwyczajny $ 100 mln,
Złożoność sztucznej inteligencji „open source”
Prawdziwie otwarty model sztucznej inteligencji wymagałby całkowitej przejrzystości kodu źródłowego wnioskowania, kodu źródłowego trenującego, wag modelu i danych treningowych. Jednak wiele modeli oznaczonych jako „otwarte” udostępnia jedynie kod wnioskowania lub częściowe wagi, podczas gdy inne oferują ograniczone licencje lub całkowicie uniemożliwiają użytkowanie komercyjne.
Ta bezstronna otwartość stwarza iluzję zasad open source, podczas gdy w praktyce okazuje się ona nieskuteczna.
Weźmy pod uwagę, że analiza przeprowadzona przez Open Source Initiative (OSI) wykazała, że kilka popularnych dużych modeli językowych podający się za open source – w tym Llama2 i Llama 3.x (opracowane przez Meta), Grok (X), Phi-2 (Microsoft) i Mixtral (Mistral AI) – są strukturalnie niezgodne z zasadami open source.
Wyzwania w zakresie zrównoważonego rozwoju i motywacji
Większość oprogramowania open source powstała dzięki pracy wolontariuszy lub finansowaniu z grantów, a nie dzięki wymagającym dużej mocy obliczeniowej i kosztownym infrastrukturom. Z drugiej strony, modele sztucznej inteligencji są kosztowne w szkoleniu i utrzymaniu, a koszty będą prawdopodobnie rosły. Dyrektor generalny Anthropic, Dario Amodei, przewiduje, że docelowo może to kosztować nawet… $ 100 mld aby wytrenować najnowocześniejszy model.
Bez zrównoważonego modelu finansowania lub struktury zachęt deweloperzy stają przed wyborem: ograniczyć dostęp za pomocą licencji o zamkniętym kodzie źródłowym lub licencji niekomercyjnych albo zaryzykować załamanie finansowe.
Nieporozumienia dotyczące „otwartych ciężarów” i licencjonowania
Dostępność modeli AI staje się coraz bardziej zagmatwana, a wiele platform reklamuje się jako „otwarte”, jednocześnie narzucając ograniczenia, które są fundamentalnie sprzeczne z prawdziwymi zasadami open source. Ta „sztuczka” przejawia się na wiele sposobów:
- Modele określane jako „otwarte wagi” mogą być całkowicie zabronione do użytku komercyjnego, co sprawia, że pozostają raczej ciekawostką akademicką niż praktycznym narzędziem biznesowym, które opinia publiczna może eksplorować i rozwijać.
- Niektórzy dostawcy oferują dostęp do wstępnie wytrenowanych modeli, ale zaciekle strzegą swoich zestawów danych szkoleniowych i metodologii, uniemożliwiając sensowne odtworzenie lub zweryfikowanie ich ustaleń.
- Wiele platform nakłada ograniczenia redystrybucji, które uniemożliwiają deweloperom rozwijanie lub ulepszanie modeli dla swoich społeczności, nawet jeśli mają pełny „dostęp” do kodu.
W takich przypadkach „otwarte na badania” to po prostu puste określenie „zamknięte dla biznesu”. W rezultacie powstaje nieszczera forma uzależnienia od dostawcy, gdzie organizacje inwestują czas i zasoby w platformy pozornie ogólnodostępne, by następnie odkryć krytyczne ograniczenia podczas próby skalowania lub komercjalizacji aplikacji.
Wynikające z tego zamieszanie nie tylko frustruje programistów. Aktywnie podważa zaufanie do ekosystemu sztucznej inteligencji. Buduje nierealistyczne oczekiwania wśród interesariuszy, którzy rozsądnie zakładają, że „otwarta” sztuczna inteligencja jest porównywalna ze społecznościami oprogramowania open source, gdzie przestrzegane są zasady przejrzystości, prawa do modyfikacji i wolności komercyjnej.
Opóźnienie prawne
Szybki postęp GenAI wyprzedza już rozwój odpowiednich ram prawnych, tworząc złożoną sieć wyzwań w zakresie własności intelektualnej, które potęgują już istniejące obawy.
Pierwsze poważne pole sporu prawnego koncentruje się na wykorzystaniu danych szkoleniowych. Modele głębokiego uczenia (deep learning) pozyskują duże zbiory danych z internetu, takie jak publicznie dostępne obrazy i teksty stron internetowych. To ogromne gromadzenie danych wywołało zażarte debaty na temat praw własności intelektualnej. Firmy technologiczne argumentują, że ich systemy sztucznej inteligencji analizują i uczą się z materiałów chronionych prawem autorskim, aby tworzyć nowe, transformujące treści. Właściciele praw autorskich twierdzą jednak, że te firmy zajmujące się sztuczną inteligencją bezprawnie kopiują ich dzieła, generując konkurencyjne treści, które zagrażają ich źródłom utrzymania.
Własność utworów zależnych generowanych przez sztuczną inteligencję stanowi kolejną niejasność prawną. Nikt nie jest pewien, jak klasyfikować treści generowane przez sztuczną inteligencję, z wyjątkiem Urzędu ds. Praw Autorskich Stanów Zjednoczonych (US Copyright Office), który stwierdza, że „jeśli treści są w całości generowane przez sztuczną inteligencję, nie mogą być chronione prawem autorskim”.
Niepewność prawna otaczająca GenAI – zwłaszcza w zakresie naruszeń praw autorskich, własności dzieł generowanych przez AI oraz nielicencjonowanych treści w danych szkoleniowych – staje się jeszcze bardziej napięta, gdy podstawowe modele AI wyłaniają się jako narzędzia o znaczeniu geopolitycznym: państwa ścigające się w rozwijaniu lepszych możliwości AI mogą być mniej skłonne do ograniczania dostępu do danych, co stawia kraje o bardziej rygorystycznej ochronie własności intelektualnej w niekorzystnej sytuacji konkurencyjnej.
Czym musi stać się oprogramowanie typu open source w erze sztucznej inteligencji
Pociąg GenAI już odjechał i nic nie wskazuje na to, że będzie zwalniał. Mamy nadzieję zbudować przyszłość, w której sztuczna inteligencja będzie wspierać, a nie hamować innowacje. W takim przypadku liderzy technologiczni potrzebują ram, które zapewnią bezpieczne i transparentne użytkowanie komercyjne, będą promować odpowiedzialne innowacje, będą uwzględniać kwestie własności i licencjonowania danych oraz rozróżniać między rozwiązaniami „otwartymi” a „wolnymi”.
Nowo powstająca koncepcja, Licencja Open Commercial Source, może stanowić rozwiązanie umożliwiające swobodny dostęp do użytku niekomercyjnego, licencjonowany dostęp do użytku komercyjnego oraz uznanie i poszanowanie pochodzenia i własności danych.
Aby dostosować się do tej nowej rzeczywistości, społeczność open source musi opracować otwarte modele licencjonowania przeznaczone specjalnie dla sztucznej inteligencji, utworzyć partnerstwa publiczno-prywatne w celu finansowania tych modeli oraz ustalić zaufane standardy przejrzystości, bezpieczeństwa i etyki.
Oprogramowanie open source zmieniło świat już raz. Sztuczna inteligencja generatywna zmienia go ponownie. Aby zachować ducha otwartości, musimy ewoluować zgodnie z literą jej prawa, uznając wyjątkowe wymagania sztucznej inteligencji, a jednocześnie stawiając czoła wyzwaniom, aby stworzyć inkluzywny i zrównoważony ekosystem.