Følg os

Tanke ledere

Kinas AI-fatmosfære: Hvordan "open source" skjuler det, der betyder mest

mm

Med store tech-aktører som Google, Microsoft og Meta, der kæmper om at dominere AI-markedet, har Kinas High Flyer, Baidu, Moonshot og Alibaba skabt overskrifter for at have udgivet deres DeepSeekERNIE 4.5Kimi K2og Qwen3 store sprogmodeller, henholdsvis som open source. Dette skift fra at udgive beskyttede, proprietære GenAI-modeller er blevet modtaget som et tegn pĂĄ, at Kinas AI-industri omfavner kraften i open source til at demokratisere AI-udvikling og anspore innovation.

Ligesom mange aktører, der markedsfører deres tilbud som open source og endda inkluderer det i deres firmanavne, har High Flyer, Baidu og Moonshot dog ikke delt kritiske dele som datasæt i hjertet af deres modeller. Da disse store modeller søger at blive de råvarer, som udviklere stoler på, er gennemsigtigheden af ægte open source, der kan testes, undersøges og itereres, afgørende for at skabe upartisk, etisk og gavnlig teknologi, som vi alle kan stole på. Alle disse "open source"-modeller er faktisk "open weight", hvilket betyder, at de kan downloades og bruges, men de kan ikke inspiceres på nogen meningsfuld måde uden dataene.

Som amerikanske spillere kan lide Ă…bn AI og Meta Selvom Baidus ĂĄbne invitation til at udnytte sin frit tilgængelige pakke af ERNIE 4.5-modeller synes at være tilskyndende til innovation og samarbejde med udviklere, der ønsker at skabe mindre, kraftfulde applikationer. Samtidig har virksomheden, der minder om Kinas Google, givet sig selv en konkurrencefordel ved at fremme implementering og forankre sine modeller i det spirende AI-økosystem.

Det samme kan siges om DeepSeek, den billige Kimi K2 og den opdaterede Qwen3 – som kan prale af benchmarks, der udfordrer lukkede modeller som Claude Opus 4 og GPT-4o-0327.

Disse AI-aktører har positioneret sig godt i kapløbet om at blive den foretrukne handelsmodel, og Qwen3s seneste innovative opdatering blev endda inspireret af feedback fra open source-fællesskabet.

Ligesom mange andre, der fremhæver deres store AI-model som open source, deler det kinesiske AI-samfund dog ikke data eller andre kritiske dele af deres AI-systemer. I stedet beder de globale udviklere om at sætte blind lid til modeller, de ikke rigtigt kan forstå eller undersøge.

Tag ansvar for fremtiden med open source-rĂĄvare-AI-modeller

Da iPhone kom pĂĄ markedet i 2007, antog nogle, at Mac ville dominere smartphone-verdenen med iOS, men Deltagelse i open source er en integreret del af startups, samtidig med at det ansporede til iværksætter- og økonomisk vækst pĂĄ verdensplan – og Android, en startup opkøbt af Google i 2005, fulgte denne vej til sejr.

Ved at udgive open source-software, der kunne ses, ændres, implementeres og deles, inviterede Android akademikere, udviklere og endda konkurrenter til at samarbejde om softwaren. Dette accelererede innovationsprocessen, demokratiserede spillereglerne og drev i sidste ende priserne ned. Android kom pĂĄ markedet et ĂĄr efter den første iPhone, og i starten af dette ĂĄr... pralede af 71.88 procent af det globale marked mod iOS' 27.65 procent.

I en teknologisk revolution, der syntes at ske natten over, blev smartphones allestedsnærværende, og selvom software, hardware og brugergrænseflader fortsætter med at forbedres, er branchen langt ud over at forsøge at revolutionere den måde, smartphones fungerer på. Med mobiltelefoner nu en handelsvare, ligger den innovation, der er på spil i dag, i de apps, der kører på dem, og for at være konkurrenter skal smartphone-udbydere opretholde et økosystem, der inviterer udviklere til at deltage.

Mindre end tre år efter lanceringen af ChatGPT befinder AI-industrien sig på en lignende afgrund. Alle aktører i den globale AI-industri forsøger at få deres modeller til at blive den næste Android eller endda iOS, og ved at gå over til open source med DeepSeek, ERNIE 4.5 og Kimi K2-modellerne, forsøger kinesiske innovatorer at gøre krav på et spirende økosystem.

Selvom dette kunne virke til deres fordel, fremmer det dog ikke den sande gennemsigtighed i open source, som har været afgørende for ikke blot at avle innovation, men også for at avle innovation, vi kan stole på.

Data er den manglende brik i det meste open source AI

Da AI-modeller er langt mere komplicerede at oprette og dele end traditionel software, er behovet for fuldt open source AI ikke nogen lille opgave. I stedet for blot en simpel kildekode er AI-systemer sammensat af syv komponenter—herunder kildekode, modelparametre, datasæt, hyperparametre, træningskildekode, generering af tilfældige tal og softwareframeworks.

Hver del skal arbejde sammen for at en model kan levere de ønskede resultater, hvilket betyder, at udviklere har brug for fuld synlighed for at dele, ændre og implementere et system og forstĂĄ, hvad der sker. Med reproducerbarhed som grundlaget for den videnskabelige metode har AI-industrien dog en vane at bruge udtrykket open source til at henvise til gratis eller billige udgivelser, der stilles til rĂĄdighed med adgang til nogle fĂĄ brikker i puslespillet.

Baidu har for eksempel gjort ti ERNIE 4.5-modeller gratis tilgængelige. Udover at dele modellen og parametrene har virksomheden også open source-værktøjerne til ERNIEKit og FastDeploy-implementeringsværktøjerne. Disse gør det muligt for udviklere at bygge kraftfulde AI-applikationer ved at tilbyde industrielle funktioner, ressourceeffektive trænings- og inferensarbejdsgange samt kompatibilitet med flere hardwaretyper.

Med andre ord har Baidu givet udviklere spændende værktøjer, der giver dem mulighed for at frigøre innovation hurtigere, hvilket de håber til gengæld vil lokke dem til at vælge ERNIE 4.5 frem for konkurrenterne.

Udviklere, der bruger ERNIE 4.5, bliver dog bedt om at stole blindt på modellen, fordi Baidu har holdt meget skjult, herunder de datasæt, der informerer og underviser i deres modeller.

Styrken ved transparente open source AI-modeller

Selvom hver brik i AI-puslespillet er afgørende for at fĂĄ en model til at fungere, 80 procent af AI-projekter mislykkes, og data er kernen i problemetUnøjagtige, ufuldstændige og forudindtagede datasæt fører til modeller, der ikke opfører sig forudsigeligt eller som ønsket.

 For nylig udgivet video af fatalt selvkørende Tesla-ulykke i 2023afslørede for eksempel det værst tænkelige scenarie for, hvad der kan ske, nĂĄr et datasæt og en model ikke lever op til forventningerne. Da Tesla Model Y susede ind i en lys, nedgĂĄende sol, kunne det delvist automatiserede system ikke forstĂĄ eller reagere passende pĂĄ, hvad dets kameraer sĂĄ – eller ikke sĂĄ. Mens biler kørt af mennesker sænkede farten og holdt ind til siden, resulterede FSD'ens forvirring i en kvindes død.

Denne ødelæggende fejl afspejlede ufuldstændige visuelle data, samt manglen på en sikkerhedsmekanisme, der tog højde for sådanne blinde vinkler. Når udviklere ikke har indblik i deres data, kan de ikke se, hvordan de interagerer med modellen, hvilket betyder, at de ikke kan afdække sådanne fejl og iterere for robust ydeevne.

Endnu mere bekymrende er det, at uden de data, der driver modellen, er de tvunget til at stole blindt pĂĄ den.

NĂĄr datasæt er open source, har AI-fællesskabet dog bevist, at det kan udrede problematiske problemer, som det gjorde ved at afdække over 1,000 URL'er med verificeret materiale med seksuelt misbrug af børn i LAION 5BDa datasættet, der bruges til AI-tekst-til-billede-genereringsmodeller, er fundamentalt for at skabe apps som Stable Diffusion og Midjourney, ville det have været ødelæggende for AI-industrien, hvis brugerne var begyndt at producere ulovlige fotorealistiske billeder. I stedet tillod datasættets ĂĄbne natur fællesskabet at afdække det farlige indhold og motivere en løsning, sagde Liaison B.

Derudover trak en stor del af det første datasæt pĂĄ webscraping udført af den enorme Common Crawl, som ogsĂĄ blev udnyttet til ChatGPT- og LLAMA-modeller. Selv da AI-crawlere fortsætter med at rejse bekymringer om tekstforfatning, privatliv og forudindtaget og racistisk mærkning.Udviklere i AI-miljøet er dog arbejder pĂĄ mĂĄder at rense dele af Common Crawls voksende open source-datasæt for mere sikker brug.

Da udviklere ikke kun sigter mod at bygge kraftfuld AI, men også AI, vi kan stole på, er både brugere og branchen beskyttet af gennemsigtigheden og samarbejdet ved ægte open source.

Omfavner open source-stien

Mange er stadig skeptiske over for denne spirende teknologi, og kapløbet om at blive iOS eller Android blandt store AI-varemodeller er i gang – og i takt med at det globale AI-fællesskab bogstaveligt talt bygger det, der vil blive standarden for fremtiden, og AI-systemer allerede kører biler og tilbyder medicinske vurderinger, har det aldrig været vigtigere at opbygge tillid ved at skabe upartisk, pålidelig og sikker AI.

I et forsøg på at positionere Kinas AI-samfund som forkæmpere for åben innovation, findes vejen til sikker AI kun i den gennemsigtighed, der er ægte open source, og som er blevet bevist gennem årtiers softwareinnovation. At bruge udtrykket på systemer, der ikke deler kritiske dele som data, tillader ikke udviklere at undersøge, replikere og iterere. Selvom tiltrækningen af let tilgængelige modeller som DeepSeek, ERNIE 4.5, Kimi K2 og Qwen3 er ubestridelig, bytter udviklere, der udnytter dem, den gennemsigtighed, der fremmer samarbejde og innovation, for bekvemmelighed.

AI-fællesskabet må vælge: omfavne radikal gennemsigtighed gennem ægte open source, eller risikere at bygge morgendagens kritiske systemer på nutidens sorte bokse.

Dr. Jason Corso er medstifter og Chief Science Officer hos Voxel51og professor i robotteknologi, elektroteknik og datalogi ved University of Michigan. Dr. Corso er veteran inden for computervision og har dedikeret over 20 ĂĄr til akademisk forskning inden for videoforstĂĄelse, robotteknologi og datalogi.