Sztuczna inteligencja

Sztuczna inteligencja może unikać konkretnych niepożądanych zachowań dzięki nowym algorytmom

Published November 23, 2019

Updated April 5, 2026

Daniel Nelson

W miarę jak algorytmy i systemy sztucznej inteligencji stają się coraz bardziej zaawansowane i biorą na siebie większe odpowiedzialności, staje się coraz ważniejsze, aby zapewnić, że systemy sztucznej inteligencji unikają niebezpiecznych, niepożądanych zachowań. Niedawno zespół badaczy z Uniwersytetu Massachusetts Amherst i Stanford opublikował artykuł, który pokazuje, jak można unikać konkretnych zachowań sztucznej inteligencji, za pomocą techniki, która wywołuje precyzyjne instrukcje matematyczne, które można wykorzystać do dostosowania zachowania sztucznej inteligencji.

Według TechXplore, badania opierały się na założeniu, że niesprawiedliwe/niebezpieczne zachowania mogą być zdefiniowane za pomocą funkcji i zmiennych matematycznych. Jeśli to prawda, to powinno być możliwe, aby badacze trenowali systemy, aby unikać tych konkretnych zachowań. Zespół badawczy dążył do stworzenia zestawu narzędzi, który mógłby być wykorzystany przez użytkowników sztucznej inteligencji, aby określić, jakie zachowania chcą uniknąć, i umożliwić inżynierom sztucznej inteligencji niezawodne trenowanie systemu, który uniknie niepożądanych działań w sytuacjach rzeczywistych.

Phillip Thomas, pierwszy autor artykułu i asystent profesora informatyki na U of Michigan Amherst, wyjaśnił, że zespół badawczy dąży do udowodnienia, że projektanci algorytmów uczenia maszynowego mogą ułatwić użytkownikom sztucznej inteligencji opisanie niepożądanych zachowań i sprawić, aby było bardzo prawdopodobne, że system sztucznej inteligencji uniknie tego zachowania.

Zespół badawczy przetestował swoją technikę, stosując ją do powszechnego problemu w naukach o danych, czyli uprzedzeń płciowych. Zespół badawczy dążył do uczynienia algorytmów wykorzystywanych do przewidywania średniej ocen studentów uczelni bardziej sprawiedliwymi, redukując uprzedzenia płciowe. Zespół badawczy wykorzystał eksperymentalny zestaw danych i nakazał swojemu systemowi sztucznej inteligencji unikać tworzenia modeli, które systematycznie zaniżały lub zawyżały średnie oceny dla jednej płci. W wyniku instrukcji badaczy, algorytm stworzył model, który lepiej przewidywał średnie oceny studentów i miał znacznie mniej systemowych uprzedzeń płciowych niż wcześniej istniejące modele. Poprzednie modele przewidywania średnich ocen cierpiały na uprzedzenia, ponieważ modele redukujące uprzedzenia były często zbyt ograniczone, aby być użyteczne, lub nie używano w ogóle żadnych modeli redukujących uprzedzenia.

Inny algorytm został również opracowany przez zespół badawczy. Ten algorytm został zaimplementowany w automatycznym insulinie, a algorytm miał na celu równoważyć zarówno wydajność, jak i bezpieczeństwo. Automatyczne insulinowe pompy muszą decydować, jaki rozmiar dawki insuliny powinien otrzymać pacjent. Po jedzeniu pompa powinna dostarczyć dawkę insuliny wystarczająco dużą, aby utrzymać poziom cukru we krwi pod kontrolą. Dawki insuliny, które są dostarczane, muszą być ani zbyt duże, ani zbyt małe.

Algorytmy uczenia maszynowego są już biegłe w identyfikowaniu wzorców w reakcji osób na dawki insuliny, ale istniejące metody analizy nie pozwalają lekarzom określić wyników, których powinny unikać, takich jak gwałtowne spadki poziomu cukru we krwi. W przeciwieństwie do tego, zespół badawczy opracował metodę, która mogła być trenowana do dostarczania dawek insuliny, które pozostają w granicach obu ekstremów, zapobiegając zarówno niedodawaniu, jak i przedawkowaniu. Chociaż system nie jest jeszcze gotowy do testowania u prawdziwych pacjentów, bardziej zaawansowany system sztucznej inteligencji oparty na tym podejściu mógłby poprawić jakość życia osób cierpiących na cukrzycę.

W artykule badacze nazywają algorytm “Seledonian”. Jest to odniesienie do trzech praw robotyki opisanych przez autora science fiction Isaaca Asimova. Implikacja jest taka, że system sztucznej inteligencji “nie może skrzywdzić ludzkiej istoty ani, przez bezczynność, pozwolić, aby ludzka istota została skrzywdzona”. Zespół badawczy ma nadzieję, że ich ramy pozwolą badaczom i inżynierom sztucznej inteligencji na stworzenie różnych algorytmów i systemów, które unikają niebezpiecznych zachowań. Emma Brunskill, współautor artykułu i asystent profesora informatyki na Stanford, wyjaśnił TechXplore:

“Chcemy promować sztuczną inteligencję, która szanuje wartości swoich użytkowników ludzkich i uzasadnia zaufanie, które pokładamy w autonomicznych systemach.”

Unite.AI

Sztuczna inteligencja może unikać konkretnych niepożądanych zachowań dzięki nowym algorytmom

You may like