Kunstig intelligens
Vi alignerer ikke lenger AI. Vi alignerer sivilisasjoner

For mange år var den viktigste spørsmålet i kunstig intelligens (AI) hvordan man kunne alignere AI-modeller med menneskelige verdier. Forskere prøvde å definere sikkerhetsregler, etiske prinsipper og kontrollmekanismer som guidet AI-beslutninger. Dette arbeidet oppnådde betydelig fremgang. Men nå, da disse AI-systemene blir mer kapable og utbredte, begynner fokuset på alignering å skifte. Det som startet som en utfordring med å alignere en enkelt modell til en enkelt sett med instruksjoner, har nå blitt en mye større utfordring med å alignere hele sivilisasjoner som bruker disse systemene på en global skala. AI er ikke lenger bare et verktøy. Det utvikler seg til en omgivelse hvor samfunn arbeider, kommuniserer, forhandler og konkurrerer. Som en følge av dette, forblir alignering ikke lenger et teknisk problem. Det har blitt et sivilisasjonsproblem. I denne artikkelen forklarer jeg hvorfor alignering ikke lenger bare handler om modeller og hvorfor vi må begynne å tenke i termer av sivilisasjoner i stedet for maskiner. Jeg diskuterer også hvordan denne skiftet påvirker våre ansvar og hva det betyr for globalt samarbeid.
Hvem er det AI virkelig representerer?
Hvis du spør en AI om et sensitivt historisk hendelse, avhenger svaret av dataene det har studert. Hvis disse dataene kommer hovedsakelig fra det vestlige internett, vil svaret ha en vestlig bias. Det vil prioritere individualisme, åpen tale og demokratiske idealer. Disse er gode verdier for mange mennesker. Men de er ikke de eneste verdiene i verden.
En bruker i Singapore, en bruker i Riyadh og en bruker i San Francisco har forskjellige definisjoner av hva som er “nyttig” og hva som er “skadelig”. I noen kulturer er sosial harmoni viktigere enn absolutt ytringsfrihet. I andre er respekt for hierarki viktigere enn disruptivt.
Når et selskap i Silicon Valley bruker “Reinforcement Learning from Human Feedback” (RLHF), leier de inn mennesker for å vurdere AI-svarene. Men hvem er disse menneskene? Hva er deres overbevisninger? Hvis de aligner modellen med amerikanske standarder, bygger de ufrivillig en amerikansk kultureksport. De bygger en digital diplomat som pålegger en spesifikk sivilisasjons regler på resten av verden.
Oppblomstringen av tilbakemeldingsløkker
Utfordringen er ikke bare at AI reflekterer overbevisninger fra en kultur. Det er hvordan disse overbevisningene kan endre oss. Moderne AI-systemer har potensialet til å forme atferden til individer, organisasjoner og selv nasjoner. De kan påvirke hvordan vi tenker, arbeider, stoler og konkurrerer. Dette skaper tilbakemeldingsløkker mellom AI-systemer og menneskelige samfunn; vi trener AI og AI former hvordan vi tenker og handler. Disse løkkene blir sterkere ettersom AI blir mer utbredt. For å se hvordan denne tilbakemeldingsløkken fungerer, her er to eksempler:
- Storskala AI-utplassering endrer sosial atferd, og sosial atferd endrer dataene som trener nye systemer. For eksempel kan en anbefalingsalgoritme forme hva folk ser, leser og tror. Produktivitetsverktøy former hvordan team samarbeider og hvordan studenter lærer. Disse endringene i atferd endrer datapunktene i form av forskjellige seingsvaner, arbeidsplasskommunikasjonsmønster eller skrivestiler. Når disse dataene flyter inn i fremtidige treningsdatasett, justerer modellene sine antakelser og utdata deretter. Menneskelig atferd former modellene, og modellene, i sin tur, former menneskelig atferd.
- Automatiserte beslutningsverktøy påvirker offentlig politikk, og offentlig politikk påvirker fremtidig modelltrening. For eksempel bruker mange regjeringer nå AI til å foreslå hvor de skal allokerer ressurser som å identifisere hvilke nabolag som trenger mer helsestøtte eller hvilke områder som kan se høyere kriminell risiko. Når politikere handler på disse anbefalingene, blir resultatene av disse beslutningene senere en del av nye datasett. Over tid, blir politiske beslutninger formet av AI, og disse beslutningene former den neste generasjonen av AI-modeller.
Når du erkjenner denne tilbakemeldingsløkken, blir det klart at AI gradvis former og alignerer sivilisasjoner. Som en følge av dette, begynner nasjoner å spørre: Hvordan kan de sikre sine verdier mens de integrerer AI i sine samfunn og institusjoner?
Oppblomstringen av suveren AI
Denne aligneringsutfordringen har utløst en betydelig reaksjon fra regjeringer over hele verden. Nasjoner har innsett at å avhenge av importert AI er en risiko for deres suverenitet. De kan ikke tillate at deres borgere blir utdannet, informert og rådet av en black box som tenker som en fremmed.
Dette innsettet har ført til oppblomstringen av “Sovereign AI.” Frankrike investerer tungt for å bygge modeller som snakker fransk og forstår fransk lov og kultur. India bygger innfødt AI-modeller for å sikre deres kulturelle verdier. De forente arabiske emirater og Kina bygger AI-modeller som er alignert med deres egne nasjonale visjoner.
Dette er den nye våpenkappløpet. Det er et kappløp for narrativ kontroll. En sivilisasjon som ikke har sin egen AI, vil til slutt miste sin egen hukommelse. Hvis dine barn spør en maskin spørsmål, og maskinen svarer med logikken til en annen kultur, begynner din kultur å erosere. Dette innsettet kan føre til dannelse av distinkte digitale blokker. Vi kan ende opp med en vestlig AI, en kinesisk AI, en indisk AI og så videre. Disse systemene vil operere med forskjellige fakta og forskjellige moralske kompasser. Disse utviklingene gjør det klart at hvis vi ønsker å skape en enkelt, virkelig alignert AI-modell, må vi først finne en måte å alignere sivilisasjoner.
Behov for en diplomatisk AI
Tradisjonell alignering antar at en modell kan aligneres ved hjelp av omhyggelig trening, prompting og guardrails. Dette tenkende kommer fra den tekniske holdningen til tidlig AI-sikkerhetsforskning. Men selv perfekt modell-nivå alignering kan ikke løse utfordringene med å alignere sivilisasjoner. Alignering kan ikke forbli stabil når samfunn trekker i motsatte retninger. Hvis land, selskaper og samfunn har motstridende mål, vil de trykke AI-systemer til å reflektere disse konfliktene. Disse grensene viser at alignering ikke bare er et teknisk problem. Det er et styrings-, kulturelt og koordineringsproblem. Og disse problemene krever ikke bare eksperter eller utviklere. De involverer hele sivilisasjoner.
Så, hvordan går vi videre? Hvis vi aksepterer at universell alignering er umulig, må vi endre vår strategi. Vi må slutte å lete etter en teknisk løsning på et filosofisk problem. Vi må begynne å tenke som diplomater. Vi må bygge protokoller for “Sivilisasjonsalignering”. Vi må finne ut hvordan AI kan respektere en samfunnets overbevisninger og verdier uten å påtvinge det overbevisningene til andre kulturer. Med andre ord, vi trenger en digital FN for våre algoritmer.
Dette krever transparens. For tiden vet vi ikke hva verdier som er skjult i de dype lagene av et neuralt nettverk. Vi ser bare utdataene. For å alignere sivilisasjoner, må vi være klare om “grunnloven” til hver modell. En modell må kunne erklære sin bias. Den må kunne si: “Jeg er trent på denne dataen, med disse sikkerhetsreglene, prioriterende disse verdiene.” Bare når biasen er synlig, kan vi stole på systemet. En bruker må kunne bytte mellom perspektiver. Du må kunne stille et spørsmål og se hvordan en “vestlig” modell svarer i forhold til hvordan en “østlig” modell svarer. Dette ville gjøre AI til et verktøy for forståelse, i stedet for et verktøy for indoktrinering.
Bunnen linje
Vi har brukt for mye tid på å bekymre oss for Terminator. Den virkelige risikoen er ikke at en robot ødelegger oss. Den virkelige risikoen er at en robot gjør oss glemme hvem vi er. Alignering er ikke en kode vi kan skrive en gang og glemme. Det er en konstant forhandling med AI-modeller for å holde dem alignert med våre overbevisninger og verdier. Det er en politisk handling. Mens vi går inn i denne neste fasen av intelligensalderen, må vi se beyond skjermen. Vi må vurdere hvordan AI tolker vår historie, våre grenser og våre overbevisninger. Vi bygger de hjernene som vil hjelpe oss å styre verden. Vi må sikre at disse hjernene respekterer forskjellene mellom sivilisasjoner.












