Følg os

Tanke ledere

NĂĄr din AI opfinder fakta: Den virksomhedsrisiko, som ingen leder kan ignorere

mm

Det lyder rigtigt. Det ser rigtigt ud. Det er forkert. Det er din AI på hallucinationer. Problemet er ikke kun, at nutidens generative AI-modeller hallucinereDet er, at vi føler, at hvis vi bygger nok autoværn, finjusterer det, RAG-er det og tæmmer det på en eller anden måde, så vil vi være i stand til at implementere det på virksomhedsniveau.

Studere Domæne Hallucinationsfrekvens Nøglebedømmelser
Stanford HAI & RegLab (Jan 2024) Politikker 69% -88% LLM'er udviste høje hallucinationsrater, når de besvarede juridiske spørgsmål, idet de ofte manglede selvbevidsthed om deres fejl og forstærkede forkerte juridiske antagelser.
JMIR-undersøgelse (2024) Akademiske referencer GPT-3.5: 90.6%, GPT-4: 86.6%, Bard: 100% LLM-genererede referencer var ofte irrelevante, ukorrekte eller ikke understøttede af tilgængelig litteratur.
Britisk undersøgelse af AI-genereret indhold (Feb 2025) Finance Ikke specificeret AI-genereret desinformation øgede risikoen for bankrus, hvor en betydelig andel af bankkunder overvejede at flytte deres penge efter at have set AI-genereret falsk indhold.
Rapport fra Verdensøkonomisk Forum om globale risici (2025) Global risikovurdering Ikke specificeret Misinformation og desinformation, forstærket af kunstig intelligens, rangeret som den største globale risiko over en toårig prognose.
Vectara Hallucination Rangliste (2025) AI model evaluering GPT-4.5-Forhåndsvisning: 1.2%, Google Gemini-2.0-Pro-Exp: 0.8%, Vectara Mockingbird-2-Echo: 0.9% Evaluerede hallucinationsrater på tværs af forskellige LLM'er, hvilket afslørede betydelige forskelle i ydeevne og nøjagtighed.
Arxiv-undersøgelse af faktuelle hallucinationer (2024) AI-forskning Ikke specificeret Introducerede HaluEval 2.0 til systematisk at studere og detektere hallucinationer hos LLM'er, med fokus på faktuelle unøjagtigheder.

Hallucinationsrater varierer fra 0.8% til 88%

Ja, det afhænger af modellen, domænet, use casen og konteksten, men den spredning burde ryste enhver beslutningstager i virksomheden. Disse er ikke fejl i edge cases. De er systemiske. Hvordan træffer du den rigtige beslutning, nĂĄr det kommer til AI-adoption i din virksomhed? Hvor, hvordan, hvor dybt, hvor bredt? 

Og eksempler pĂĄ virkelige konsekvenser af dette dukker op pĂĄ tværs af dit nyhedsfeed hver dag.  G20's Finansielle StabilitetsrĂĄd har markeret generativ kunstig intelligens som en vektor for desinformation. der kan forĂĄrsage markedskriser, politisk ustabilitet og værre ting – flash crash, falske nyheder og svindel. I en anden nyligt rapporteret historie udsendte advokatfirmaet Morgan & Morgan et nødnotat til alle advokater: Indsend ikke AI-genererede ansøgninger uden at kontrollere. Falsk retspraksis er en "anmeldelig" lovovertrædelse.

Det er måske ikke det bedste tidspunkt at satse på, at hallucinationsrater nærmer sig nul lige foreløbig. Især i regulerede brancher, såsom jura, biovidenskab, kapitalmarkeder eller andre, hvor omkostningerne ved en fejl kan være høje, herunder udgivelse af videregående uddannelser.

Hallucination er ikke en afrundingsfejl

Det handler ikke om et lejlighedsvis forkert svar. Det handler om risikoOmdømmemæssig, juridisk, operationel.

Generativ AI er ikke en ræsonnementsmotor. Det er en statistisk afslutter, en stokastisk papegøje. Den fuldfører din prompt på den mest sandsynlige måde baseret på træningsdata. Selv sandt lydende dele er gæt. Vi kalder de mest absurde stykker "hallucinationer", men hele resultatet er en hallucination. En velformuleret en af ​​slagsen. Alligevel fungerer det, magisk godt – indtil det ikke længere gør.

AI som infrastruktur

Og alligevel er det vigtigt at sige, at AI vil være klar til virksomhedsomspændende implementering, når vi begynder at behandle det som infrastruktur, og ikke som magi. Og hvor det er nødvendigt, skal det være gennemsigtigt, forklarligt og sporbart. Og hvis det ikke er det, så er det ganske enkelt ikke klar til virksomhedsomspændende implementering til disse anvendelsesscenarier. Hvis AI træffer beslutninger, bør det være på din bestyrelses radar.

EU's AI-lovgivning fører an her. Højrisikoområder som retsvæsen, sundhedsvæsen og infrastruktur vil blive reguleret som missionskritiske systemer. Dokumentation, testning og forklarbarhed vil være obligatorisk.

Hvad Enterprise Safe AI-modeller gør

Virksomheder, der specialiserer sig i at bygge virksomhedssikre AI-modeller, træffer en bevidst beslutning om at bygge AI anderledes. I deres alternative AI-arkitekturer er sprogmodellerne ikke trænet på data, så de er ikke "kontamineret" med noget uønsket i dataene, såsom bias, IP-krænkelse eller tilbøjelighed til at gætte eller hallucinere.

Sådanne modeller "fuldender ikke din tanke" - de ræsonnerer ud fra deres brugers indhold... Deres vidensbase. Deres dokumenter. Deres data. Hvis svaret ikke er der, siger disse modeller det. Det er det, der gør sådanne AI-modeller forklarlige, sporbare, deterministiske og en god mulighed på steder, hvor hallucinationer er uacceptable.

En 5-trins hĂĄndbog til AI-ansvarlighed

  1. Kortlæg AI-landskabet – Hvor bruges AI i din virksomhed? Hvilke beslutninger påvirker den? Hvilken værdi lægger du ved at kunne spore disse beslutninger tilbage til transparente analyser af pålidelige kildematerialer?
  2. Tilpas din organisation – Afhængigt af omfanget af din AI-implementering skal du oprette roller, udvalg, processer og revisionspraksis, der er lige så strenge som dem, der gælder for finansielle risici eller cybersikkerhedsrisici.
  3. Bring AI ind i risiko på bestyrelsesniveau – Hvis din AI kommunikerer med kunder eller tilsynsmyndigheder, hører den hjemme i dine risikorapporter. Governance er ikke et sideshow.
  4. Behandl leverandører som medforpligtelser – Hvis din leverandørs AI opfinder ting, bærer du stadig konsekvenserne. Udvid dine principper for AI-ansvarlighed til dem. Kræv dokumentation, revisionsrettigheder og SLA'er for forklarlighed og hallucinationsrater.
  5. Togskepsis – Dit team bør behandle AI som en junioranalytiker – nyttig, men ikke ufejlbarlig. Fejr, når nogen identificerer en hallucination. Tillid skal gøres fortjent.

Fremtiden for AI i virksomheden er ikke større modeller. Det, der er behov for, er mere præcision, mere gennemsigtighed, mere tillid og mere ansvarlighed.

Joy Dasgupta er administrerende direktør for Gyan og en erfaren leder inden for AI-drevne løsninger med over to årtiers global ledererfaring på tværs af virksomheder som Hewlett-Packard, American Express og Genpact.

Gyan er en fundamentalt ny AI-arkitektur bygget til virksomheder med lav eller nultolerance over for hallucinationer, IP-risici eller energikrævende modeller. Hvor tillid, præcision og ansvarlighed er vigtige, sikrer Gyan, at enhver indsigt er forklarlig, sporbar til pålidelige kilder, med fuld databeskyttelse i centrum.