Gondolatvezetők
A nyílt forráskód újragondolása a generatív mesterséges intelligencia korában

A nyílt forráskódú modell – egy olyan szoftverfejlesztési ethosz, amelyben a forráskód szabadon elérhetővé válik nyilvános terjesztés vagy módosítás céljából – régóta az innováció katalizátora. Az ideál 1983-ban született, amikor Richard Stallman szoftverfejlesztő kezdett elkeseredni zárt forráskódú nyomtatójának fekete doboz jellegében.
Az ő elképzelése indította el a szabad szoftverek mozgalmát, megnyitva az utat a nyílt forráskódú ökoszisztéma előtt, amely a mai internetes és szoftverinnováció nagy részét működteti.
De ez több mint 40 évvel ezelőtt volt.
Napjainkban a generatív mesterséges intelligencia, egyedi technikai és etikai kihívásaival, átalakítja a „nyitottság” jelentését, követelve, hogy újragondoljuk és újragondoljuk a nyílt forráskódú paradigmát – nem azért, hogy elhagyjuk, hanem hogy adaptáljuk.
MI és a nyílt forráskódú szabadságok
A nyílt forráskódú szoftverek négy alapvető szabadsága – a képesség, hogy futtatni, tanulmányozni, módosítani és újra elosztani bármilyen szoftverkód – több szempontból is ellentmondanak a generatív mesterséges intelligencia természetének:
- Fuss: A mesterséges intelligencia modelljei gyakran nagyon magas infrastrukturális és számítási költségeket igényelnek, ami korlátozására hozzáférés erőforrás-korlátok miatt.
- Tanulmányozd és módosítsd: A mesterséges intelligencia modelljei hihetetlenül összetettek, így megérteni és megváltoztatni őket Jelentős kihívást jelent a kódhoz és az azt alátámasztó adatokhoz való hozzáférés nélkül.
- Az újraelosztásSok mesterséges intelligencia modell korlátozza az újraelosztást tervezési alapon, különösen azoknál, amelyek betanított súlyokkal és a platformszolgáltató tulajdonában lévő, saját adatkészletekkel rendelkeznek.
Ezen alapelvek erodálódása nem rosszindulatú szándéknak, hanem a modern MI-rendszerek puszta összetettségének és költségeinek tudható be. Valójában a legmodernebb MI-modellek betanításának pénzügyi költségei drámaian megnőttek az elmúlt években – az OpenAI GPT-4-je állítólag a képzési költségeket is meghaladta. legfeljebb $ 78 millió, a személyzeti béreket kivéve, a teljes kiadásokkal meghaladó 100 millió $.
A „nyílt forráskódú” mesterséges intelligencia összetettsége
Egy valóban nyílt MI-modellhez a következtetési forráskód, a betanítási forráskód, a modell súlyainak és a betanítási adatok teljes átláthatósága szükséges. Sok „nyíltként” megjelölt modell azonban csak következtetési kódot vagy részleges súlyokat tesz közzé, míg mások korlátozott licencet kínálnak, vagy teljesen korlátozzák a kereskedelmi felhasználást.
Ez a pártatlan nyitottság a nyílt forráskódú elvek illúzióját kelti, miközben a gyakorlatban kudarcot vall.
Vegyük figyelembe, hogy a Nyílt Forráskódú Kezdeményezés (OSI) elemzése szerint számos népszerű nagy nyelvi modell nyílt forráskódúnak vallja magát – beleértve a Llama2-t és a Llama 3.x-et (a Meta fejlesztette), a Grokot (X), a Phi-2-t (Microsoft) és a Mixtral-t (Mistral AI) – szerkezetileg összeegyeztethetetlenek a nyílt forráskódú elvekkel.
Fenntarthatósági és ösztönzési kihívások
A legtöbb nyílt forráskódú szoftvert önkéntesek által vezetett vagy pályázatokon alapuló erőfeszítések alapján fejlesztették, nem pedig számításigényes, magas költségű infrastruktúrákra. A mesterséges intelligencia modellek ezzel szemben költségesek a képzésük és karbantartásuk szempontjából, és a költségek várhatóan csak emelkedni fognak. Az Anthropic vezérigazgatója, Dario Amodei azt jósolja, hogy végül akár annyiba is kerülhet, mint 100 milliárd $ egy élvonalbeli modell betanításához.
Fenntartható finanszírozási modell vagy ösztönző struktúra nélkül a fejlesztők választhatnak a hozzáférés zárt forráskódú vagy nem kereskedelmi licencekkel történő korlátozása és a pénzügyi összeomlás kockázata között.
Tévhitek a „nyílt súlyokkal” és az engedélyezéssel kapcsolatban
A mesterséges intelligencia modellek hozzáférhetősége egyre zavarosabb, sok platform „nyíltként” reklámozza magát, miközben olyan korlátozásokat vezet be, amelyek alapvetően ellentmondanak a valódi nyílt forráskódú elveknek. Ez a „kézügyesség” többféleképpen is megnyilvánul:
- A „nyílt súlyként” címkézett modellek kereskedelmi felhasználása teljes mértékben megtiltható, inkább tudományos kuriózumként, mintsem a nyilvánosság számára felfedezésre és fejlesztésre szánt gyakorlati üzleti eszközként tartva fenn őket.
- Néhány szolgáltató hozzáférést kínál előre betanított modellekhez, de buzgón őrzik a betanítási adatkészleteiket és módszertanaikat, ami lehetetlenné teszi az eredmények érdemi reprodukálását vagy ellenőrzését.
- Sok platform olyan újraelosztási korlátozásokat vezet be, amelyek megakadályozzák a fejlesztőket abban, hogy a közösségeik modelljeire építsenek vagy azokat fejlesszék, még akkor is, ha teljes mértékben „hozzáférhetnek” a kódhoz.
Ezekben az esetekben a „kutatásra nyitott” kifejezés csupán kettős kifejezés az „üzleti célra zárt” kifejezésre. Az eredmény egy álságos, szállítófüggő formája, ahol a szervezetek időt és erőforrásokat fektetnek olyan platformokba, amelyek látszólag nyíltan hozzáférhetőek, majd kritikus korlátokat fedeznek fel az alkalmazások méretezésekor vagy kereskedelmi forgalomba hozatalakor.
Az ebből eredő zűrzavar nemcsak a fejlesztőket frusztrálja. Aktívan aláássa a bizalmat az MI-ökoszisztémában. Irreális elvárásokat teremt az érdekelt felek körében, akik ésszerűen feltételezik, hogy a „nyílt” MI összehasonlítható a nyílt forráskódú szoftverközösségekkel, ahol az átláthatóság, a módosítási jogok és a kereskedelmi szabadság érvényesül.
Jogi késedelem
A GenAI gyors fejlődése már most is meghaladja a megfelelő jogi keretek kidolgozását, ami a szellemi tulajdonnal kapcsolatos kihívások összetett hálóját hozza létre, amelyek tovább súlyosbítják a már meglévő aggályokat.
Az első jelentős jogi csatatér a tanulóadatok felhasználása körül forog. A mélytanulási modellek hatalmas adathalmazokat szereznek be az internetről, például nyilvánosan elérhető képeket és weboldalak szövegét. Ez a hatalmas adatgyűjtés heves vitákat váltott ki a szellemi tulajdonjogokról. A technológiai vállalatok azzal érvelnek, hogy mesterséges intelligenciarendszereik szerzői jogvédelem alatt álló anyagokból tanulnak és tanulnak, hogy új, transzformatív tartalmakat hozzanak létre. A szerzői jogok tulajdonosai azonban azt állítják, hogy ezek a mesterséges intelligencia-vállalatok jogellenesen másolják műveiket, és olyan versengő tartalmakat generálnak, amelyek veszélyeztetik megélhetésüket.
A mesterséges intelligencia által generált származékos művek tulajdonjoga egy újabb jogi kétértelműséget jelent. Senki sem tudja pontosan, hogyan kell besorolni a mesterséges intelligencia által generált tartalmat, kivéve az Egyesült Államok Szerzői Jogi Hivatalát, amely kijelenti, hogy „ha a mesterséges intelligencia teljes egészében tartalmat generál, az nem védhető szerzői joggal”.
A GenAI-t övező jogi bizonytalanság – különösen a szerzői jogok megsértése, a mesterséges intelligencia által generált művek tulajdonjoga és a betanítási adatokban található engedély nélküli tartalom tekintetében – még feszültebbé válik, mivel az alapvető MI-modellek geopolitikai jelentőségű eszközökké válnak: A kiváló MI-képességek fejlesztéséért versengő nemzetek kevésbé hajlamosak lehetnek az adatokhoz való hozzáférés korlátozására, ami versenyhátrányba hozza azokat az országokat, amelyek szigorúbb szellemi tulajdonjog-védelemmel rendelkeznek.
Mivé kell válnia a nyílt forráskódú szoftvereknek a mesterséges intelligencia korában
A GenAI vonata már elhagyta az állomást, és semmi jelét nem mutatja a lassulásnak. Reméljük, hogy olyan jövőt építünk, ahol a mesterséges intelligencia az innovációt ösztönzi, nem pedig elfojtja. Ebben az esetben a technológiai vezetőknek olyan keretrendszerre van szükségük, amely biztosítja a biztonságos és átlátható kereskedelmi felhasználást, elősegíti a felelős innovációt, foglalkozik az adatok tulajdonjogával és licencelésével, valamint különbséget tesz a „nyílt” és az „ingyenes” között.
Egy újonnan megjelenő koncepció, a Nyílt Kereskedelmi Forráskód Licenc, előremutató utat kínálhat azáltal, hogy nem kereskedelmi célú ingyenes hozzáférést, kereskedelmi célú licencelt hozzáférést, valamint az adatok eredetének és tulajdonjogának elismerését és tiszteletben tartását javasolja.
Ahhoz, hogy alkalmazkodjanak ehhez az új valósághoz, a nyílt forráskódú közösségnek mesterséges intelligencia-specifikus nyílt licencelési modelleket kell kidolgoznia, köz- és magánszféra közötti partnerségeket kell létrehoznia ezen modellek finanszírozása érdekében, és megbízható szabványokat kell létrehoznia az átláthatóság, a biztonság és az etika terén.
A nyílt forráskód egyszer már megváltoztatta a világot. A generatív mesterséges intelligencia most újra megváltoztatja. A nyitottság szellemének megőrzése érdekében fejlesztenünk kell a törvény betűjét, elismerve a mesterséges intelligencia egyedi igényeit, miközben szembenézünk a kihívásokkal egy befogadó és fenntartható ökoszisztéma létrehozása érdekében.