Myšlenkové vůdce
Čínská fatamorgana umělé inteligence: Jak „otevřený zdrojový kód“ skrývá to, na čem záleží nejvíc

Vzhledem k tomu, že velcí technologickí hráči, jako jsou Google, Microsoft a Meta, soupeří o ovládnutí trhu s umělou inteligencí, se čínské společnosti High Flyer, Baidu, Moonshot a Alibaba dostaly na titulní stránky novin vydáním svých... DeepSeek, ERNIE 4.5, Kimi K2, a Qwen3 velké jazykové modely jako open source. Tento posun od vydávání chráněných, proprietárních modelů GenAI byl vnímán jako znamení, že čínský průmysl umělé inteligence využívá sílu open source k demokratizaci vývoje umělé inteligence a podpoře inovací.
Stejně jako mnoho jiných hráčů, kteří své produkty prezentují jako open source a dokonce je uvádějí i v názvech svých společností, se však ani High Flyer, Baidu a Moonshot ve skutečnosti nepodělili o kritické prvky, jako jsou datové sady, které jsou jádrem jejich modelů. Vzhledem k tomu, že se tyto velké modely snaží stát komoditami, na které se vývojáři spoléhají, je transparentnost skutečně open source, který lze testovat, zkoumat a iterovat, klíčová pro vytvoření nezaujaté, etické a prospěšné technologie, které můžeme všichni důvěřovat. Všechny tyto „open source“ modely jsou ve skutečnosti „otevřené“, což znamená, že je lze stáhnout a používat, ale bez dat je nelze žádným smysluplným způsobem kontrolovat.
Jak se líbí americkým hráčům Otevřete AI si meta I když se zdá, že Baidu ustupuje od open source, otevřená výzva k využití jeho volně dostupné sady modelů ERNIE 4.5 může skutečně podnítit inovace a spolupráci s vývojáři, kteří chtějí vytvářet menší a výkonné aplikace. Zároveň si společnost, která je podobná čínskému Googlu, získala konkurenční výhodu tím, že podpořila přijetí a zakořenila své modely v rozvíjejícím se ekosystému umělé inteligence.
Totéž lze říci o DeepSeek, levném Kimi K2 a aktualizovaném Qwen3, který se může pochlubit benchmarky, jež zpochybňují uzavřené modely jako Claude Opus 4 a GPT-4o-0327.
Tito hráči s umělou inteligencí se v závodě o to, aby se stali preferovaným komoditním modelem, dobře umístili a nejnovější inovativní aktualizace Qwen3 byla dokonce inspirována zpětnou vazbou od komunity open source.
Stejně jako mnoho jiných, kteří svůj rozsáhlý model umělé inteligence vychvalují jako open source, ani čínská komunita umělé inteligence ve skutečnosti nesdílí data ani další klíčové části svých systémů umělé inteligence. Místo toho žádá globální vývojáře, aby slepě věřili modelům, kterým nemohou skutečně porozumět ani je prozkoumat.
Zaměřujeme se na budoucnost s modely umělé inteligence s otevřeným zdrojovým kódem pro komoditní technologie
Když se v roce 2007 na trhu objevil iPhone, někteří předpokládali, že Mac s iOS ovládne hru chytrých telefonů, ale... Zapojení do open-source technologií je pro startupy nedílnou součástí, a zároveň podnítil podnikatelský a ekonomický růst po celém světě – a Android, startup, který Google v roce 2005 získal, se touto cestou vydal k vítězství.
Vydáním softwaru s otevřeným zdrojovým kódem, který bylo možné prohlížet, upravovat, používat a sdílet, Android pozval akademiky, vývojáře a dokonce i konkurenty ke spolupráci na softwaru. To urychlilo inovační proces, demokratizovalo hrací pole a v konečném důsledku snížilo ceny. Android se na trh dostal rok po prvním iPhonu a začátkem letošního roku… se chlubil 71.88 procenty globálního trhu, zatímco iOS 27.65 procenty.
V technologické revoluci, která se zdála být přes noc, se chytré telefony staly všudypřítomnými. I když software, hardware a uživatelské rozhraní stále vylepšují, toto odvětví se zdaleka nerozrostlo a pokusilo se revolucionizovat způsob, jakým chytré telefony fungují. Vzhledem k tomu, že mobilní telefony jsou dnes komoditou, inovace, které jsou dnes k dispozici, spočívá v aplikacích, které na nich běží, a aby se poskytovatelé chytrých telefonů mohli ucházet o tuto pozici, musí udržovat ekosystém, který láká vývojáře.
Ani ne tři roky po spuštění ChatGPT se odvětví umělé inteligence ocitá na podobné propasti. Každý hráč v globálním průmyslu umělé inteligence usiluje o to, aby se jeho modely staly dalším Androidem nebo dokonce iOS, a přechodem na open source s modely DeepSeek, ERNIE 4.5 a Kimi K2 se čínští inovátoři snaží upevnit své postavení v rozvíjejícím se ekosystému.
I když by to mohlo hrát v jejich prospěch, nepodporuje to skutečnou transparentnost open source, která je nezbytná nejen pro rozvoj inovací, ale i pro rozvoj inovací, kterým můžeme důvěřovat.
Data jsou chybějícím prvkem ve většině open source umělé inteligence
Vzhledem k tomu, že modely umělé inteligence se vytvářejí a sdílejí mnohem složitěji než tradiční software, není poptávka po plně otevřeném zdrojovém kódu umělé inteligence snadná. Systémy umělé inteligence se skládají z jednoduchého zdrojového kódu… sedm složek—včetně zdrojového kódu, parametrů modelu, datové sady, hyperparametrů, zdrojového kódu pro trénování, generování náhodných čísel a softwarových frameworků.
Aby model přinesl požadované výsledky, musí jednotlivé části fungovat v souladu, což znamená, že vývojáři potřebují plný přehled o tom, jak sdílet, upravovat a zavádět systém a jak porozumět tomu, co se děje. Vzhledem k reprodukovatelnosti jakožto základu vědecké metody má však odvětví umělé inteligence… zvyk používání termínu open source k označení bezplatných nebo levných verzí, které jsou k dispozici s přístupem k několika částem skládačky.
Například Baidu zpřístupnil deset modelů ERNIE 4.5 zdarma. Spolu se sdílením modelu a parametrů společnost také zpřístupnila ERNIEKit a sady nástrojů pro nasazení FastDeploy. Ty vývojářům umožňují vytvářet výkonné aplikace umělé inteligence tím, že poskytují funkce průmyslové úrovně, efektivní pracovní postupy pro školení a inferenci a kompatibilitu s více hardwaremi.
Jinými slovy, Baidu poskytlo vývojářům vzrušující nástroje, které jim umožňují rychleji uvádět inovace, což, jak doufají, je následně přiláká k výběru ERNIE 4.5 namísto konkurence.
Vývojáři, kteří využívají ERNIE 4.5, jsou však žádáni, aby tomuto modelu slepě důvěřovali, protože Baidu mnoho věcí skrýval, včetně datových sad, které informují a učí jeho modely.
Síla transparentních modelů umělé inteligence s otevřeným zdrojovým kódem
I když je každý dílek skládačky umělé inteligence klíčový pro fungování modelu, 80 procent projektů umělé inteligence selhává a jádrem problému jsou dataNepřesné, neúplné a zkreslené datové soubory vedou k modelům, které se nechovají předvídatelně nebo dle přání.
Jedno nedávno zveřejněné video smrtelné nehody vozu Tesla Full-Self-Driving (FSD) z roku 2023Například odhalil nejhorší možný scénář, co se může stát, když datová sada a model selžou. Když se Tesla Model Y řítila do jasného zapadajícího slunce, částečně automatizovaný systém nedokázal pochopit ani vhodně reagovat na to, co jeho kamery viděly – nebo neviděly. Zatímco auta řízená lidmi zpomalila a zastavila, zmatek FSD vedl ke smrti ženy.
Toto zničující selhání odráželo neúplná vizuální data a také absenci bezpečnostního mechanismu, který by tyto slepé zóny zohledňoval. Když vývojáři nemají přehled o svých datech, nevidí, jak interagují s modelem, což znamená, že nemohou takové chyby odhalit a iterovat pro dosažení robustního výkonu.
Ještě znepokojivější je, že bez dat, která model pohání, jsou nuceni mu slepě důvěřovat.
Když jsou však datové sady open source, komunita umělé inteligence prokázala, že dokáže vykořenit problematické problémy, jak to udělala odhalením více než 1,000 5 adres URL obsahujících ověřený materiál zobrazující sexuální zneužívání dětí v oblasti LAION XNUMXBVzhledem k tomu, že datová sada používaná pro modely generování textu do obrázků s využitím umělé inteligence je základem pro vytváření aplikací, jako jsou Stable Diffusion a Midjourney, bylo by pro odvětví umělé inteligence zničující, kdyby uživatelé začali vytvářet nelegální fotorealistické obrázky. Otevřená povaha této datové sady místo toho umožnila komunitě odhalit nebezpečný obsah a motivovat k opravě, uvedl styčný pracovník B.
Kromě toho velká část této první datové sady čerpala ze scrapingu webu prováděného obrovským nástrojem Common Crawl, který byl také využit pro modely ChatGPT a LLAMA. I když Prohledávače s umělou inteligencí nadále vzbuzují obavy ohledně copywritingu, soukromí a zaujatého a rasistického označování.vývojáři v komunitě umělé inteligence však pracujeme na způsobech, jak vyčistit části rostoucí datové sady open source platformy Common Crawl pro bezpečnější použití.
Protože se vývojáři snaží nejen vytvářet výkonnou umělou inteligenci, ale také umělou inteligenci, které můžeme důvěřovat, jsou uživatelé i průmysl chráněni transparentností a spoluprací skutečně open source.
Přijetí cesty open source
Vzhledem k tomu, že se mnozí stále obávají této rozvíjející se technologie, závod o to, kdo se stane iOS nebo Androidem pro velké komoditní modely umělé inteligence, je v plném proudu – a vzhledem k tomu, že globální komunita umělé inteligence doslova buduje to, co se stane standardem budoucnosti, a systémy umělé inteligence již řídí auta a nabízejí lékařská vyšetření, budování důvěry vytvářením nestranné, spolehlivé a bezpečné umělé inteligence nebylo nikdy důležitější.
Vzhledem k tomu, že se čínská komunita umělé inteligence snaží pozici šampiona otevřených inovací, cesta k bezpečné umělé inteligenci vede pouze v transparentnosti skutečně open source, která byla prokázána desetiletími softwarových inovací. Použití tohoto termínu na systémy, které nesdílejí kritické části, jako jsou data, neumožňuje vývojářům zkoumat, replikovat a iterovat. I když je lákadlo snadno dostupných modelů, jako jsou DeepSeek, ERNIE 4.5, Kimi K2 a Qwen3, nepopiratelné, vývojáři, kteří je využívají, obchodují s transparentností, která podporuje spolupráci a inovace, za pohodlí.
Komunita umělé inteligence si musí vybrat: přijmout radikální transparentnost prostřednictvím skutečně open source, nebo riskovat budování kritických systémů zítřka na dnešních černých skříňkách.