Tankeledere
Kinas AI-mirage: Hvordan “open source” skjuler, hvad der betyder mest

Med Big Tech-spillere som Google, Microsoft og Meta, der kæmper for at dominere AI-markedet, har Kinas højtflyvende, Baidu, Moonshot og Alibaba lavet overskrifter med deres DeepSeek, ERNIE 4.5, Kimi K2 og Qwen3 store sprogmodeller som open source. Denne skift fra at udgive beskyttede, proprietære GenAI-modeller er blevet modtaget som et tegn på, at Kinas AI-industri omfavner kraften af open source for at demokratisere AI-udvikling og fremme innovation.
Ligesom mange spillere, der præsenterer deres tilbud som open source og endda sætter det i deres virksomhedsnavne, har High Flyer, Baidu og Moonshot dog ikke faktisk delt kritiske dele som datasæt i hjertet af deres modeller. Da disse store modeller søger at blive varer, som udviklere er afhængige af, er gennemsigtigheden af sand open source, der kan testes, undersøges og itereres over, afgørende for at skabe upartiske, etiske og nyttige teknologier, som vi alle kan stole på. Alle disse “open source”-modeller er faktisk “open weight”, hvilket betyder, at de kan downloades og bruges, men de kan ikke inspiceres på nogen meningsfuld måde uden data.
Da U.S.-spillere som Open AI og Meta synes at trække sig tilbage fra open source, kan Baidus åbne invitation til at udnytte dets frit tilgængelige suite af ERNIE 4.5-modeller faktisk fremme innovation og samarbejde med udviklere, der søger at skabe mindre, kraftfulde applikationer. Samtidig har virksomheden, der er lignende med Kinas Google, givet sig selv en konkurrencemæssig fordel ved at opmuntre til adoption og indføre sine modeller i det voksende AI-økosystem.
Det samme kan siges om DeepSeek, den billige Kimi K2 og den opdaterede Qwen3 – som har benchmarks, der udfordrer lukkede modeller som Claude Opus 4 og GPT-4o-0327.
Disse AI-spillere har positioneret sig selv godt i kapløbet om at blive den valgte model og Qwen3s seneste innovative opdatering var endda inspireret af open source-samfundets feedback.
Ligesom mange, der præsenterer deres store AI-model som open source, deler den kinesiske AI-samfund dog ikke faktisk data eller andre kritiske dele af deres AI-systemer. I stedet beder de globale udviklere om at stille deres blinde tillid til modeller, som de ikke kan sandt forstå eller undersøge.
At gøre krav på fremtiden med open source-commodity AI-modeller
Da iPhone burst på markedet i 2007, antog nogen, at Mac ville herske over smartphone-spillet med iOS, men open-source-deltagelse er integreret for start-ups, samtidig med at det fremmer iværksætter- og økonomisk vækst verden over – og Android, en start-up, der blev erhvervet af Google i 2005, fulgte denne vej til sejr.
Ved at udgive open source-software, der kunne ses, modificeres, adopteres og deles, inviterede Android akademikere, udviklere og endda konkurrenter til at samarbejde om softwaren. Dette accelererede innovationsprocessen, demokratiserede spillefeltet og drev til sidst priserne ned. Android kom på markedet et år efter den første iPhone, og ved årets begyndelse havde det 71,88 procent af det globale marked til iOS’ 27,65 procent.
I en teknologisk revolution, der syntes at ske over natten, blev smartphones almindelige, og selvom software-, hardware- og brugergrænseflade-forbedringer fortsætter, er industrien vokset langt beyond at forsøge at revolutionere, hvordan smartphones fungerer. Med mobiltelefoner som en vare nu, er innovationen i gang i app’erne, der kører på dem, og for at være medspillere må smartphone-udbydere opretholde et økosystem, der inviterer udviklere ind.
Ikke tre år efter lanceringen af ChatGPT, finder AI-industrien sig på en lignende skillevej. Hver spiller i den globale AI-industri er med til at gøre deres modeller til den næste Android eller endda iOS, og ved at gå open source med DeepSeek-, ERNIE 4.5- og Kimi K2-modellerne søger kinesiske innovatører at gøre krav på et nydannet økosystem.
Selvom dette kunne fungere til deres fordel, fremmer det dog ikke den sande gennemsigtighed af open source, der har været afgørende for ikke kun at avle innovation, men også innovation, som vi kan stole på.
Data er den manglende del i de fleste open source-AI
Med AI-modeller, der er langt mere komplicerede at skabe og dele end traditionel software, er opfordringen til fuldt open source-AI ikke en lille ordre. I stedet for kun en simpel kildekode består AI-systemer af syv komponenter – herunder kildekoden, modellens parametre, datasættet, hyperparametrene, træningskilden, tilfældigt nummergenerering og software-rammer.
Hver del må fungere i koncert for, at en model kan levere de ønskede resultater, hvilket betyder, at udviklere har brug for fuld synlighed for at dele, modificere og adoptere et system og forstå, hvad der sker. Med reproducerbarhed som grundlag for den videnskabelige metode har AI-industrien en vane med at bruge begrebet open source til at henvise til gratis eller billige udgivelser, der er tilgængelige med adgang til få dele af puslespillet.
Baidu, for eksempel, gjorde ti ERNIE 4.5-modeller frit tilgængelige. Sammen med at dele modellen og parametrene delte virksomheden også ERNIEKit og FastDeploy-deployment-værktøjerne som open source. Disse giver udviklere mulighed for at bygge kraftfulde AI-applikationer ved at tilbyde industriel-klassens funktioner, ressource-effektive trænings- og inferens-arbejdsgange samt multi-hardware-kompatibilitet.
Med andre ord har Baidu givet udviklere spændende værktøjer, der giver dem mulighed for at frigøre innovation hurtigere, hvilket de håber vil tiltrække dem til at vælge ERNIE 4.5 fremfor konkurrenterne.
Udviklere, der udnytter ERNIE 4.5, bedes dog om at blinde tillid til modellen, fordi Baidu har holdt meget skjult, herunder datasættene, der underretter og underviser deres modeller.
Kraften af gennemsigtige open source-AI-modeller
Selvom hver del af AI-puslespillet er kritisk for at gøre en model arbejde, 80 procent af AI-projekterne fejler, og data er i hjertet af problemet. Upræcise, ufuldstændige og fordomsfulde datasæt fører til modeller, der ikke opfører sig forudsigeligt eller som ønsket.
Den nyligt udgivne dødelige 2023 Tesla Full-Self-Driving (FSD)-kraschvideo, for eksempel, afslørede det værste scenarie for, hvad der kan ske, når et datasæt og en model falder kort. Da Tesla Model Y accelererede ind i en lys, solnedgang, kunne det delvist automatiserede system ikke forstå eller reagere passende på, hvad dets kameraer så – eller ikke så. Mens biler kørt af mennesker slowed og trak over, resulterede FSDs forvirring i en kvindes død.
Denne ødelæggende fejl afspejlede ufuldstændige visuelle data samt mangel på en sikkerhedsmechanisme, der tog højde for sådanne blinde pletter. Når udviklere ikke har noget indblik i deres data, kan de ikke se, hvordan det interagerer med modellen, hvilket betyder, at de ikke kan afsløre sådanne fejl og iterere for robust præstation.
Endnu mere bekymrende er, at uden datasættene, der driver modellen, er de tvunget til at stole blindt på den.
Når datasæt er open source, kan AI-samfundet dog bevise, at det vil rodde urolige problemer, som det gjorde ved at afsløre over 1.000 URLs med verificeret barnemishandling i LAION 5B. Med datasættet, der blev brugt til AI-tekst-til-billede-modeller, som er grundlæggende i at skabe apps som Stable Diffusion og Midjourney, ville det have været ødelæggende for AI-industrien, hvis brugere begyndte at producere ulovlige fotorealistiske billeder. I stedet tillod det åbne datasæt samfundet at afsløre det farlige indhold og motivere en løsning, Liaison B.
Desuden var en stor del af det første datasæt baseret på web-scraping udført af den enorme Common Crawl, der også blev udnyttet til ChatGPT- og LLAMA-modellerne. Selvom AI-crawlere fortsætter med at rejse bekymringer om ophavsret, privatliv og fordomsfuld og racistisk mærkning, arbejder udviklere i AI-samfundet dog på måder at rense dele af Common Crawls voksende open source-datasæt for sikrere brug.
Da udviklere sigter mod ikke kun at bygge kraftfuld AI, men også AI, som vi kan stole på, beskyttes både brugere og industrien af gennemsigtigheden og samarbejdet i sand open source.
At omfavne den open source-vej
Med mange, der stadig er bekymrede over denne nydannede teknologi, er kapløbet om at blive den næste iOS eller Android af store AI-commodity-modeller i gang – og da den globale AI-samfund bygger, hvad der vil blive standarden for fremtiden, og AI-systemer allerede kører biler og tilbyder medicinske vurderinger, er det aldrig været mere kritisk at etablere tillid ved at skabe upartiske, pålidelige og sikre AI.
Med Kinas AI-samfund, der forsøger at positionere sig selv som championer for open innovation, er vejen til sikker AI kun fundet i gennemsigtigheden af sand open source, der er bevist gennem årtiers software-innovation. At kaste begrebet på systemer, der ikke deler kritiske dele som data, tillader ikke udviklere at undersøge, reproducerer og iterere. Selvom tiltrækningen af klar tilgængelige modeller som DeepSeek, ERNIE 4.5, Kimi K2 og Qwen3 er uimodståelig, handler udviklere, der udnytter dem, gennemsigtigheden, der fremmer samarbejde og innovation, for komfort.
AI-samfundet må vælge: omfavne radikal gennemsigtighed gennem ægte open source eller risikere at bygge morgendagens kritiske systemer på i dagens sorte kasser.












