Artificial Intelligence
Badanie pokazuje, że modele sztucznej inteligencji nie odpowiadają przetwarzaniu wizualnemu człowieka

Nowe badanie przeprowadzone na Uniwersytecie York pokazuje, że głębokie splotowe sieci neuronowe (DCNN) nie dopasowują się do przetwarzania wzrokowego człowieka poprzez wykorzystanie konfiguracyjnej percepcji kształtu. Według profesora Jamesa Eldera, współautora badania, może to mieć poważne i niebezpieczne implikacje w świecie rzeczywistym dla zastosowań sztucznej inteligencji.
Nowe badanie pt. „Modele głębokiego uczenia się nie oddają konfigurowalnej natury postrzegania kształtu człowieka” ukazał się w czasopiśmie Cell Press iNauka.
Było to wspólne badanie Eldera, który piastuje w Yorku katedrę badań nad wizją człowieka i komputera, a także stanowisko współdyrektora York’s Center for AI & Society, oraz profesora Nicholasa Bakera, adiunkta psychologii i byłego VISTA stażysta podoktorski w Yorku.
Nowatorskie bodźce wzrokowe „Frankensteinowie”
Zespół oparł się na nowatorskich bodźcach wizualnych zwanych „Frankensteinami”, które pomogły im zbadać, w jaki sposób zarówno ludzki mózg, jak i sieci DCNN przetwarzają holistyczne, konfigurowalne właściwości obiektu.
„Frankensteiny to po prostu przedmioty, które zostały rozebrane i złożone w odwrotną stronę” – mówi Elder. „W rezultacie mają wszystkie właściwe cechy lokalne, ale w niewłaściwych miejscach”.
Badanie wykazało, że Frankensteiny nie mylą sieci DCNN w przeciwieństwie do ludzkiego układu wzrokowego. Ujawnia to niewrażliwość na właściwości obiektu konfiguracyjnego.
„Nasze wyniki wyjaśniają, dlaczego głębokie modele sztucznej inteligencji zawodzą w pewnych warunkach i wskazują na potrzebę rozważenia zadań wykraczających poza rozpoznawanie obiektów, aby zrozumieć przetwarzanie wizualne w mózgu” – kontynuuje Elder. „Te głębokie modele zwykle korzystają ze „skrótów” przy rozwiązywaniu złożonych zadań rozpoznawania. Chociaż te skróty mogą działać w wielu przypadkach, mogą być niebezpieczne w niektórych rzeczywistych zastosowaniach sztucznej inteligencji, nad którymi obecnie pracujemy z naszymi partnerami branżowymi i rządowymi”.

Zdjęcie: Uniwersytet w Yorku
Implikacje w świecie rzeczywistym
Elder twierdzi, że jednym z takich zastosowań są systemy bezpieczeństwa wideo ruchu drogowego.
„Obiekty w ruchliwym ruchu ulicznym — pojazdy, rowery i piesi — blokują się nawzajem i pojawiają się w oku kierowcy jako zbiór niepołączonych ze sobą fragmentów” – mówi. „Mózg musi poprawnie pogrupować te fragmenty, aby zidentyfikować właściwe kategorie i lokalizacje obiektów. System sztucznej inteligencji do monitorowania bezpieczeństwa ruchu drogowego, który jest w stanie dostrzec jedynie pojedyncze fragmenty, nie sprosta temu zadaniu, potencjalnie niezrozumiejąc zagrożeń dla niechronionych użytkowników dróg”.
Naukowcy twierdzą również, że modyfikacje uczenia i architektury mające na celu uczynienie sieci bardziej podobnymi do mózgu, nie umożliwiły przetwarzania konfiguracyjnego. Żadna z sieci nie była w stanie dokładnie przewidzieć ocen obiektu na poziomie człowieka metodą prób po próbie.
„Spekulujemy, że aby dopasować się do ludzkiej wrażliwości konfiguracyjnej, sieci muszą zostać przeszkolone do rozwiązywania szerszego zakresu zadań obiektowych wykraczających poza rozpoznawanie kategorii” – podsumowuje Elder