Connect with us

Thought leaders

AI-Eerst Betekent Veiligheid-Eerst

mm

Koop een kind een gloednieuwe fiets, en de fiets krijgt alle aandacht – niet de glanzende helm die erbij zit. Maar ouders waarderen de helm.

Ik ben bang dat veel van ons vandaag meer zoals kinderen zijn als het gaat om AI. We zijn gefocust op hoe cool het is en hoe snel we er mee kunnen gaan. Niet zozeer op wat we kunnen doen om veilig te blijven als we het gebruiken. Het is jammer, want je kunt niet profiteren van het een zonder het ander.

Voor de hand liggend, het toepassen van AI zonder zorgvuldig te plannen voor veiligheid eerst, is niet alleen riskant. Het is een rechtstreekse weg van een klif.

Wat Betekent AI-Veiligheid Eigenlijk?

AI-veiligheid omvat een heleboel stappen. Maar misschien het belangrijkste element is wanneer je ze neemt. Om effectief te zijn, moet AI-veiligheid by design zijn.

Dat betekent dat we nadenken over hoe we schade kunnen voorkomen voordat we het voor een testrit nemen. We bedenken hoe we ervoor kunnen zorgen dat de AI opereert en resultaten genereert in overeenstemming met onze waarden en sociale verwachtingen, eerst – niet nadat we enkele verschrikkelijke resultaten hebben gekregen.

Het ontwerpen voor AI-veiligheid omvat ook het nadenken over hoe je het robuust kunt maken, of het in staat is om voorspelbaar te presteren, zelfs in nadelige situaties. Het betekent dat AI transparant moet zijn, zodat de beslissingen die AI neemt, begrijpelijk, controleerbaar en onbevooroordeeld zijn.

Maar het omvat ook het bekijken van de wereld waarin de AI zal functioneren. Welke institutionele en juridische waarborgen hebben we nodig, vooral om te voldoen aan de toepasselijke overheidsreguleringen? En ik kan niet genoeg benadrukken het mensencomponent: Wat zal de impact zijn van het gebruik van AI op de mensen die er mee interacteren?

Veiligheid door ontwerp betekent dat AI-veiligheid wordt ingebed in al onze processen, workflows en operaties voordat we onze eerste prompt typen.

De Risico’s Overwegen

Niet iedereen is het eens. Wanneer ze “veiligheid eerst” horen, horen sommigen “stap zo voorzichtig en langzaam dat je achterblijft”. Natuurlijk, dat is niet wat veiligheid eerst betekent. Het hoeft innovatie niet te onderdrukken of de tijd-tot-markt te vertragen. En het betekent geen eindeloze stroom van pilots die nooit schaalbaar zijn. Integendeel.

Het betekent wel het begrijpen van de risico’s van niet het ontwerpen van veiligheid in AI. Overweeg slechts een paar.

  • Deloitte’s Center for Financial Services voorspelt dat GenAI verantwoordelijk kan zijn voor fraudeverliezen die in de VS alleen kunnen oplopen tot 40 miljard dollar in 2027, van 12,3 miljard dollar in 2023, een stijging van 32% per jaar.
  • Bevooroordeelde beslissingen. Casussen documenteren bevooroordeelde medische zorg als gevolg van AI die was getraind op bevooroordeelde gegevens.
  • Slechte beslissingen die meer slechte beslissingen inspireren. Erger dan een initiële slechte beslissing die wordt gestimuleerd door defecte AI, studies geven aan dat die defecte beslissingen deel kunnen worden van hoe we denken en toekomstige beslissingen nemen.
  • Echte gevolgen. AI die slechte medische adviezen geeft, is verantwoordelijk geweest voor dodelijke patiëntresultaten. Juridische problemen zijn het gevolg van het citeren van een AI-hallucinatie als juridisch precedent. En softwarefouten als gevolg van een AI-assistent die misinformatie geeft, hebben producten van bedrijven en hun reputatie aangetast en hebben geleid tot algemene gebruikersongenoegen.

En dingen gaan nog interessanter worden.

De komst en snelle adoptie van agente AI, AI die autonoom kan functioneren om te handelen op basis van beslissingen die het heeft genomen, zal de belangrijkheid van het ontwerpen van AI-veiligheid vergroten.

Een AI-agent die namens jou kan handelen, kan enorm nuttig zijn. In plaats van je te vertellen over de beste vluchten voor een reis, kan het ze vinden en boeken voor je. Als je een product wilt retourneren, kan de AI-agent van een bedrijf je niet alleen vertellen over het retourbeleid en hoe je een retour kan aanvragen, maar ook de hele transactie voor je afhandelen.

Geweldig – zolang de agent niet hallucineert over een vlucht of je financiële gegevens verkeerd afhandelt. Of het retourbeleid van het bedrijf verkeerd begrijpt en geldige retours weigert.

Het is niet moeilijk om te zien hoe de huidige AI-veiligheidsrisico’s gemakkelijk kunnen escaleren met een heleboel AI-agents die rondlopen en beslissingen nemen en handelen, vooral omdat ze waarschijnlijk niet alleen zullen handelen. Veel van de echte waarde in agente AI zal komen van teams van agents, waar individuele agents delen van taken afhandelen en samenwerken – agent tot agent – om werk te doen.

Dus hoe kun je AI-veiligheid door ontwerp omarmen zonder innovatie te onderdrukken en de potentie te doden?

Veiligheid door Ontwerp in Actie

Ad-hoc veiligheidscontroles zijn niet het antwoord. Maar het integreren van veiligheidspraktijken in elke fase van een AI-implementatie is.

Begin met gegevens. Zorg ervoor dat gegevens gelabeld, geannoteerd waar nodig, vrij van vooroordeel en van hoge kwaliteit zijn. Dit is vooral waar voor trainingsgegevens.

Train je modellen met menselijke feedback, aangezien menselijke oordeel essentieel is om modelgedrag te vormen. Versterking van leren met menselijke feedback (RLHF) en soortgelijke technieken stellen annotators in staat om antwoorden te beoordelen en te leiden, waardoor LLM’s outputs genereren die veilig zijn en in overeenstemming met menselijke waarden.

Vervolgens, voordat je een model vrijgeeft, test je het onder druk. Rode teams die proberen onveilige gedragingen te provoceren door gebruik te maken van tegenstrijdige prompts, randgevallen en pogingen tot ontsnapping, kunnen kwetsbaarheden blootleggen. Het oplossen ervan voordat ze bij het publiek komen, zorgt ervoor dat alles veilig is voordat er een probleem is.

Terwijl deze testen ervoor zorgen dat je AI-modellen robuust zijn, blijf ze controleren met een oog op opkomende bedreigingen en aanpassingen die mogelijk nodig zijn voor de modellen.

Op soortgelijke wijze, monitor je regelmatig inhoudsbronnen en digitale interacties op tekenen van fraude. Kritisch, gebruik een hybride AI-menselijke aanpak, waarbij AI-automatisering zorgt voor de enorme hoeveelheid gegevens die moeten worden gemonitord, en ervaren mensen beoordelingen doen voor handhaving en om nauwkeurigheid te garanderen.

Het toepassen van agente AI vereist nog meer zorg. Een basisvereiste: train de agent om zijn beperkingen te kennen. Wanneer het onzekerheid, ethische dilemma’s, nieuwe situaties of bijzonder risicovolle beslissingen tegenkomt, zorg er dan voor dat het weet hoe het om hulp kan vragen.

Ook, ontwerp traceerbaarheid in je agents. Dit is vooral belangrijk zodat hun interacties alleen plaatsvinden met geverifieerde gebruikers, om fraudeurs te voorkomen die de acties van een agent beïnvloeden.

Als ze lijken te werken, kan het verleidelijk zijn om de agents los te laten en ze hun ding te laten doen. Onze ervaring zegt dat we ze moeten blijven controleren en de taken die ze uitvoeren in de gaten houden om fouten of onverwacht gedrag te zien. Gebruik zowel geautomatiseerde controles als menselijke beoordeling.

In feite is een essentieel element van AI-veiligheid regelmatige menselijke betrokkenheid. Mensen moeten bewust worden betrokken waar kritische oordeel, empathie of nuances en ambiguïteit zijn betrokken bij een beslissing of actie.

Nogmaals, om duidelijk te zijn, dit zijn allemaal praktijken die je bouwt in de AI-implementatie van tevoren, by design. Ze zijn niet het resultaat van iets dat verkeerd gaat en dan haasten om te figureren uit hoe je de schade kan minimaliseren.

Werkt Het?

We hebben een AI-Veiligheid Eerst-filosofie en “by design”-kader toegepast bij onze klanten gedurende de opkomst van GenAI en nu op de snelle weg naar agente AI. We vinden dat, in tegenstelling tot zorgen dat het dingen vertraagt, het eigenlijk helpt om dingen te versnellen.

Agente AI heeft het potentieel om de kosten van klantondersteuning met 25-50% te verlagen, bijvoorbeeld, terwijl het de klanttevredenheid verhoogt. Maar dat hangt allemaal af van vertrouwen.

Mensen die AI gebruiken, moeten het vertrouwen, en de klanten die interacteren met AI-geactiveerde menselijke agents of met echte AI-agents, kunnen geen enkele interactie ervaren die hun vertrouwen zou ondermijnen. Eén slechte ervaring kan het vertrouwen in een merk vernietigen.

We vertrouwen niet op wat niet veilig is. Dus, wanneer we veiligheid inbouwen in elke laag van de AI die we op het punt staan uit te rollen, kunnen we dat met vertrouwen doen. En wanneer we klaar zijn om het op te schalen, kunnen we dat snel doen – met vertrouwen.

Terwijl het in praktijk brengen van AI-Veiligheid Eerst overweldigend kan lijken, bent u niet alleen. Er zijn veel experts die kunnen helpen en partners die kunnen delen wat ze hebben geleerd en leren, zodat u de waarde van AI veilig kunt benutten zonder uw innovatie te vertragen.

Joe Anderson is de Senior Director van Consulting en Digitale Transformatie bij TaskUs, waar hij de go-to-market-strategie en innovatie leidt. Hij richt zich op het snijvlak van AI, klantervaring en digitale operaties, en leidt de nieuwe agentic AI-consultancypraktijk van TaskUs.