Kontakt med oss

Tankeledere

Kinas AI-mirage: Hvordan «åpen kildekode» skjuler det som betyr mest

mm

Med store teknologiselskaper som Google, Microsoft og Meta som kjemper om å dominere AI-markedet, har Kinas High Flyer, Baidu, Moonshot og Alibaba skapt overskrifter for å ha lansert sine ... DeepSeekERNIE 4.5Kimi K2og Qwen3 store språkmodeller, henholdsvis, som åpen kildekode. Dette skiftet fra å gi ut beskyttede, proprietære GenAI-modeller har blitt mottatt som et tegn på at Kinas AI-industri omfavner kraften i åpen kildekode til å demokratisere AI-utvikling og stimulere innovasjon.

I likhet med mange aktører som markedsfører tilbudene sine som åpen kildekode og til og med bruker det i firmanavnene sine, har High Flyer, Baidu og Moonshot faktisk ikke delt kritiske deler som datasett i kjernen av modellene sine. Ettersom disse store modellene søker å bli varer som utviklere stoler på, er åpenheten til ekte åpen kildekode som kan testes, undersøkes og itereres på, avgjørende for å skape objektiv, etisk og gunstig teknologi vi alle kan stole på. Alle disse «åpne kildekode»-modellene er faktisk «åpne vekter», som betyr at de kan lastes ned og brukes, men de kan ikke inspiseres på noen meningsfull måte uten dataene.

Som amerikanske spillere liker Åpne AI og Meta Selv om Baidus åpne invitasjon til å utnytte sin fritt tilgjengelige serie med ERNIE 4.5-modeller ser ut til å trekke seg tilbake fra åpen kildekode, kan det faktisk stimulere til innovasjon og samarbeid med utviklere som ønsker å lage mindre, kraftige applikasjoner. Samtidig har selskapet, som er i likhet med Kinas Google, gitt seg selv et konkurransefortrinn ved å oppmuntre til adopsjon og forankre modellene sine i det voksende AI-økosystemet.

Det samme kan sies om DeepSeek, den rimelige Kimi K2 og den oppdaterte Qwen3 – som kan skryte av benchmarks som utfordrer lukkede modeller som Claude Opus 4 og GPT-4o-0327.

Disse AI-aktørene har posisjonert seg godt i kappløpet om å bli den foretrukne varemodellen, og Qwen3s nyeste innovative oppdatering ble til og med inspirert av tilbakemeldinger fra åpen kildekode-fellesskapet.

I likhet med mange som markedsfører sin store AI-modell som åpen kildekode, deler imidlertid ikke det kinesiske AI-samfunnet dataene eller andre kritiske deler av AI-systemene sine. I stedet ber de globale utviklere om å sette blind tillit til modeller de ikke virkelig kan forstå eller undersøke.

Ta ansvar for fremtiden med åpen kildekode-modeller for AI-produkter

Da iPhone kom på markedet i 2007, antok noen at Mac ville styre smarttelefonverdenen med iOS, men Deltakelse i åpen kildekode er viktig for oppstartsbedrifter, samtidig som det ansporet til entreprenøriell og økonomisk vekst over hele verden – og Android, en oppstartsbedrift kjøpt opp av Google i 2005, fulgte denne veien til seier.

Ved å lansere programvare med åpen kildekode som kunne sees, modifiseres, tas i bruk og deles, inviterte Android akademikere, utviklere og til og med konkurrenter til å samarbeide om programvaren. Dette akselererte innovasjonsprosessen, demokratiserte spillereglene og presset til slutt ned prisene. Android kom på markedet et år etter den første iPhonen, og innen utgangen av året, skrøt av 71.88 prosent av det globale markedet, mot iOS' 27.65 prosent.

I en teknologisk revolusjon som så ut til å skje over natten, ble smarttelefoner allestedsnærværende, og selv om forbedringene av programvare, maskinvare og brukergrensesnitt fortsetter, har bransjen kommet langt forbi forsøkene på å revolusjonere måten smarttelefoner fungerer på. Med mobiltelefoner nå som en handelsvare, ligger innovasjonen i dag i appene som kjører på dem, og for å være konkurrenter må smarttelefonleverandører opprettholde et økosystem som inviterer utviklere.

Ikke tre år etter lanseringen av ChatGPT befinner AI-bransjen seg i en lignende situasjon. Alle aktører i den globale AI-bransjen håper at modellene deres skal bli den neste Android- eller til og med iOS-versjonen, og ved å gå over til åpen kildekode med DeepSeek-, ERNIE 4.5- og Kimi K2-modellene, ønsker kinesiske innovatører å sette sitt preg på et spirende økosystem.

Selv om dette kan virke i deres favør, fremmer det imidlertid ikke den sanne åpenheten til åpen kildekode som har vært avgjørende for ikke bare å avle innovasjon, men å avle innovasjon vi kan stole på.

Data er den manglende brikken i mesteparten av åpen kildekode-AI

Med AI-modeller som er langt mer kompliserte å lage og dele enn tradisjonell programvare, er behovet for fullstendig åpen kildekode for AI ingen liten oppgave. I stedet for bare en enkel kildekode, består AI-systemer av syv komponenter– inkludert kildekoden, modellparametere, datasett, hyperparametere, opplæringskildekode, generering av tilfeldige tall og programvarerammeverk.

Hver del må fungere sammen for at en modell skal levere de ønskede resultatene, noe som betyr at utviklere trenger full innsyn for å dele, modifisere og ta i bruk et system og forstå hva som skjer. Med reproduserbarhet som grunnlaget for den vitenskapelige metoden har imidlertid AI-bransjen en vane å bruke begrepet åpen kildekode for å referere til gratis eller rimelige utgivelser som gjøres tilgjengelige med tilgang til noen få brikker i puslespillet.

Baidu, for eksempel, gjorde ti ERNIE 4.5-modeller fritt tilgjengelige. I tillegg til å dele modellen og parameterne, har selskapet også åpen kildekode for ERNIEKit og FastDeploy-distribusjonsverktøysettene. Disse lar utviklere bygge kraftige AI-applikasjoner ved å tilby industrielle funksjoner, ressurseffektive opplærings- og inferensarbeidsflyter og kompatibilitet med flere maskinvarer.

Med andre ord har Baidu gitt utviklere spennende verktøy som gir dem mulighet til å slippe løs innovasjon raskere, noe de håper igjen vil lokke dem til å velge ERNIE 4.5 fremfor konkurrentene.

Utviklere som bruker ERNIE 4.5 blir imidlertid bedt om å stole blindt på modellen, fordi Baidu har holdt mye skjult, inkludert datasettene som informerer og lærer bort modellene deres.

Kraften til transparente AI-modeller med åpen kildekode

Selv om hver brikke i AI-puslespillet er avgjørende for å få en modell til å fungere, 80 prosent av AI-prosjekter mislykkes, og data er kjernen i problemet.Unøyaktige, ufullstendige og partiske datasett fører til modeller som ikke oppfører seg forutsigbart eller som ønsket.

Ocuco nylig utgitt video av en dødelig Tesla-krasj i 2023 med full selvkjørende (FSD)avslørte for eksempel verst tenkelige scenarioer for hva som kan skje når et datasett og en modell ikke lykkes. Da Tesla Model Y kjørte inn i en sterk, nedgående sol, kunne ikke det delvis automatiserte systemet forstå eller reagere passende på hva kameraene så – eller ikke så. Mens biler kjørt av mennesker sakket farten og stoppet, resulterte FSD-ens forvirring i en kvinnes død.

Denne ødeleggende feilen reflekterte ufullstendige visuelle data, samt mangelen på en sikkerhetsmekanisme som tok hensyn til slike blindsoner. Når utviklere ikke har innsikt i dataene sine, kan de ikke se hvordan de samhandler med modellen, noe som betyr at de ikke kan avdekke slike feil og iterere for robust ytelse.

Enda mer bekymringsfullt er det at uten dataene som driver modellen, er de tvunget til å stole blindt på den.

Når datasett er åpen kildekode, har imidlertid AI-samfunnet bevist at det kan utrydde problematiske problemer, slik det gjorde ved å avdekke over 1,000 nettadresser som inneholder verifisert materiale med seksuelle overgrep mot barn i LAION 5BSiden datasettet som brukes til generering av tekst-til-bilde med kunstig intelligens er grunnleggende for apper som Stable Diffusion og Midjourney, ville det ha vært ødeleggende for kunstig intelligens-bransjen om brukerne hadde begynt å produsere ulovlige fotorealistiske bilder. I stedet tillot den åpne naturen til dette datasettet fellesskapet å avdekke det farlige innholdet og motivere til en løsning, sier Liaison B.

I tillegg trakk mye av det første datasettet seg på nettskrabing utført av den enorme Common Crawl, som også ble utnyttet for ChatGPT- og LLAMA-modeller. Selv om AI-crawlere fortsetter å reise bekymringer om tekstforfatning, personvern og partisk og rasistisk merking.Utviklere i AI-miljøet er imidlertid jobber med måter å rense deler av Common Crawls voksende datasett med åpen kildekode for tryggere bruk.

Ettersom utviklere ikke bare har som mål å bygge kraftig AI, men også AI vi kan stole på, er både brukere og bransjen beskyttet av åpenheten og samarbeidet som ekte åpen kildekode gir.

Omfavner åpen kildekode-stien

Mange er fortsatt skeptiske til denne spirende teknologien, og kappløpet om å bli iOS eller Android for store AI-varemodeller er i gang – og ettersom det globale AI-samfunnet bokstavelig talt bygger det som vil bli standarden for fremtiden, og AI-systemer allerede kjører biler og tilbyr medisinske vurderinger, har det aldri vært viktigere å etablere tillit ved å skape objektiv, pålitelig og trygg AI.

Med Kinas AI-samfunn som prøver å posisjonere seg som forkjempere for åpen innovasjon, finnes veien til trygg AI bare i transparensen til ekte åpen kildekode, noe som har blitt bevist gjennom flere tiår med programvareinnovasjon. Å bruke begrepet på systemer som ikke deler kritiske deler som data, tillater ikke utviklere å undersøke, replikere og iterere. Selv om tiltrekningen til lett tilgjengelige modeller som DeepSeek, ERNIE 4.5, Kimi K2 og Qwen3 er ubestridelig, bytter utviklere som bruker dem transparensen som fremmer samarbeid og innovasjon mot bekvemmelighet.

AI-samfunnet må velge: omfavne radikal åpenhet gjennom ekte åpen kildekode, eller risikere å bygge morgendagens kritiske systemer på dagens svarte bokser.

Dr. Jason Corso er medgründer og vitenskapelig direktør ved voxel51, og professor i robotikk, elektroteknikk og informatikk ved University of Michigan. Dr. Corso er en veteran innen datasyn og har viet over 20 år til akademisk forskning innen videoforståelse, robotikk og datavitenskap.