Kunstmatige intelligentie

AI kan specifiek ongewenst gedrag vermijden met nieuwe algoritmes

Published November 23, 2019

Updated April 5, 2026

Daniel Nelson

Naarmate kunstmatige intelligentie-algoritmen en -systemen geavanceerder worden en grotere verantwoordelijkheden krijgen, wordt het steeds belangrijker om ervoor te zorgen dat AI-systemen gevaarlijk, ongewenst gedrag vermijden. Onlangs publiceerde een team van onderzoekers van de University of Massachusetts Amherst en Stanford een paper die aantoont hoe specifiek AI-gedrag kan worden vermeden door middel van een techniek die nauwkeurige wiskundige instructies oplevert die kunnen worden gebruikt om het gedrag van een AI te verfijnen.

Volgens TechXplore was het onderzoek gebaseerd op de veronderstelling dat oneerlijk/onveilig gedrag kan worden gedefinieerd met wiskundige functies en variabelen. Als dit waar is, dan zou het mogelijk moeten zijn voor onderzoekers om systemen te trainen om dit specifieke gedrag te vermijden. Het onderzoeksteam streefde ernaar om een toolkit te ontwikkelen die door gebruikers van de AI kan worden gebruikt om op te geven welk gedrag ze willen dat de AI vermijdt, en om AI-ingenieurs in staat te stellen om betrouwbaar een systeem te trainen dat ongewenste acties zal vermijden wanneer het in real-world scenario’s wordt gebruikt.

Phillip Thomas, de eerste auteur van de paper en assistent-professor in de informatica aan de U van Michigan Amherst, legde uit dat het onderzoeksteam ernaar streeft om aan te tonen dat ontwerpers van machine learning-algoritmen het voor AI-gebruikers gemakkelijker kunnen maken om ongewenst gedrag te beschrijven en dat het zeer waarschijnlijk is dat het AI-systeem dit gedrag zal vermijden.

Het onderzoeksteam testte hun techniek door deze toe te passen op een veelvoorkomend probleem in de datascience, namelijk geslachtsbias. Het onderzoeksteam streefde ernaar om de algoritmen die worden gebruikt om de GPA van studenten te voorspellen, eerlijker te maken door de geslachtsbias te verminderen. Het onderzoeksteam gebruikte een experimentele dataset en instrueerde hun AI-systeem om de creatie van modellen te vermijden die systematisch de GPA’s van een bepaald geslacht onderschatten of overschatten. Als gevolg van de instructies van de onderzoekers, creëerde de algoritme een model dat de GPA’s van studenten beter voorspelde en aanzienlijk minder systemische geslachtsbias had dan eerder bestaande modellen. Eerder GPA-voorspellingsmodellen leden aan bias omdat bias-reductiemodellen vaak te beperkt waren om nuttig te zijn, of er werd helemaal geen bias-reductie gebruikt.

Een ander algoritme werd ook ontwikkeld door het onderzoeksteam. Dit algoritme werd geïmplementeerd in een geautomatiseerde insulinepomp, en het algoritme was bedoeld om zowel prestaties als veiligheid in evenwicht te brengen. Geautomatiseerde insulinepompen moeten beslissen hoe groot de insulinedosis moet zijn die een patiënt moet krijgen. Na het eten zal de pomp idealiter een insulinedosis afleveren die precies groot genoeg is om de bloedsuikerspiegel onder controle te houden. De insulinedoses die worden afgeleverd, mogen niet te groot of te klein zijn.

Machine learning-algoritmen zijn al in staat om patronen in de reactie van een individu op insulinedoses te identificeren, maar bestaande analysemethoden kunnen artsen niet laten specificeren welke resultaten moeten worden vermeden, zoals een crash van de bloedsuikerspiegel. In tegenstelling tot het onderzoeksteam, kon een methode worden ontwikkeld die getraind kon worden om insulinedoses af te leveren die binnen de twee uitersten blijven, waardoor zowel onderdosering als overdosering wordt voorkomen. Hoewel het systeem nog niet klaar is voor testen bij echte patiënten, kan een geavanceerder AI-systeem op basis van deze aanpak de kwaliteit van leven voor mensen met diabetes verbeteren.

In het onderzoeksrapport verwijzen de onderzoekers naar het algoritme als een “Seledonian” algoritme. Dit is een verwijzing naar de drie wetten van de robotica zoals beschreven door de sciencefictionauteur Isaac Asimov. De implicatie is dat het AI-systeem “geen menselijk wezen mag verwonden of, door nalatigheid, toelaten dat een menselijk wezen schade lijdt.” Het onderzoeksteam hoopt dat hun kader het mogelijk maakt voor AI-onderzoekers en -ingenieurs om een verscheidenheid aan algoritmen en systemen te creëren die gevaarlijk gedrag vermijden. Emma Brunskill, senior auteur van de paper en Stanford-assistent-professor in de informatica, legde uit aan TechXplore:

“We willen AI ontwikkelen die de waarden van zijn menselijke gebruikers respecteert en de vertrouwen rechtvaardigt dat we in autonome systemen stellen.”

Unite.AI

AI kan specifiek ongewenst gedrag vermijden met nieuwe algoritmes

You may like