csonk A túlértelmezés nagyobb és kezelhetetlenebb veszélyt jelenthet, mint a túlillesztés – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A túlértelmezés nagyobb és kezelhetetlenebb veszélyt jelenthet, mint a túlillesztés

mm
korszerűsített on

Ha jó barátod, Alice szeret sárga pulóvereket hordani, akkor sokkal több sárga pulóvert fogsz látni, mint az átlagember. Egy idő után lehetséges, hogy amikor meglátja a különböző sárga pulóvert viselő nő, az alapvető koncepció Alice eszébe fog jutni.

Ha sárga pulóvert viselő nőt látsz, aki hasonlít Alice egy kicsit, akár egy pillanatra összetévesztheti a barátjával.

De ez nem Alice. Végül rá fogsz jönni erre sárga pulóver nem hasznos kulcs Alice azonosításához, mivel nyáron soha nem hordja, és télen sem mindig. Valamilyen módon a barátság felé haladva elkezdesz leminősíteni sárga pulóver mint lehetséges Alice azonosító, mert az Ön tapasztalata nem volt kielégítő, és az ennek fenntartásához felhasznált kognitív energia parancsikon nem gyakran jutalmazzák.

Ha Ön számítógépes látásalapú felismerő rendszer, akkor nagyon valószínű, hogy Alice-t mindenhol látja, ahol egy sárga pulóvert lát.

Nem a te hibád; Önt bízták meg azzal, hogy minden áron, a rendelkezésre álló minimális információ alapján azonosítsa Alice-t, és nincs hiány kognitív erőforrásokból ennek a redukáló képességnek a fenntartásához. Alice gyerekágy.

Elképesztő belátás

Az MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) és az Amazon Web Services legújabb tanulmánya szerint ezt a szindrómát túlértelmezés, elterjedt a számítógépes látás (CV) kutatási területén; nem csökkenthető a túlillesztés kezelésével (mivel ez nem a túlillesztés közvetlen járuléka); gyakran mutatkozik meg azokban a kutatásokban, amelyek a két legbefolyásosabb adatkészletet használják a képfelismerés és -átalakítás során, CIFAR-10 és a ImageNet; és nincs könnyű gyógymódja – biztosan nem olcsó jogorvoslatok.

A kutatók azt találták, hogy amikor a bemeneti képzési képeket a koherens tartalom mindössze 5%-ára csökkentették, a népszerű keretrendszerek széles köre továbbra is helyesen osztályozta a képeket, amelyek a legtöbb esetben vizuális „halandzsának” tűnnek bármely emberi megfigyelő számára:

Eredeti edzésképek a CIFAR-10-től, az eredeti pixeltartalom mindössze 5%-ára csökkentve, mégis helyesen osztályozva egy sor rendkívül népszerű számítógépes látási keretrendszerrel, 90-99%-os pontossággal. Forrás: https://arxiv.org/pdf/2003.08907.pdf

Eredeti edzésképek a CIFAR-10-től, az eredeti pixeltartalom mindössze 5%-ára csökkentve, mégis helyesen osztályozva egy sor rendkívül népszerű számítógépes látási keretrendszerrel, 90-99%-os pontossággal. Forrás: https://arxiv.org/pdf/2003.08907.pdf

Egyes esetekben az osztályozási keretrendszerek valóban megtalálják ezeket a lecsökkentett képeket könnyebb az eredeti edzési adatok teljes képkockáinál helyesen osztályozni, a szerzők megfigyelésével "A [CNN-k] sokkal magabiztosabbak ezeken a képpontok részhalmazain, mint a teljes képeken".

Ez a „csalás” potenciálisan aláásó típusát jelzi, amely általános gyakorlat az olyan CV-rendszereknél, amelyek benchmark adatkészleteket használnak, mint például a CIFAR-10 és az ImageNet, valamint a benchmark keretrendszereket, mint pl. VGG16, ResNet20és ResNet18.

A túlértelmezésnek jelentős következményei vannak a CV-alapú autonóm járműrendszerekben, amelyek az utóbbi időben a középpontba kerültek. A Tesla döntése a képértelmezés előnyben részesítése a LiDAR-ral és más sugáralapú érzékelőrendszerekkel szemben az önvezető algoritmusokhoz.

Bár a „shortcut learning” a ismert kihívás, és a számítógépes látás aktív kutatási területe, a cikk szerzői megjegyzik, hogy a  Német/kanadai kutatás amely 2019-ben a problémát különösen megfogalmazta, nem ismeri fel, hogy a túlértelmezést jellemző „hamis” pixel-részhalmazok „statisztikailag érvényes adatok”, amelyeket esetleg az architektúra és a magasabb szintű megközelítések tekintetében kell kezelni, nem pedig az adatok gondosabb kezelésével. adathalmazok.

A papír címet viseli A túlértelmezés a képosztályozási modell patológiáit tárja fel, és Brandon Cartertől, Siddhartha Jaintől és David Giffordtól származik a CSAIL-től, Jonas Muellerrel együttműködve az Amazon Web Services-től. A papír kódja a következő címen érhető el https://github.com/gifford-lab/overinterpretation.

Az adatok lebontása

A kutatók által használt, adattól megfosztott képeket ők nevezték el Elegendő bemeneti részhalmazok (SIS) – gyakorlatilag egy SIS-kép tartalmazza a lehető legkisebb „külső vázat”, amely elég jól körvonalazhatja a képet ahhoz, hogy a számítógépes látórendszer azonosítsa a kép eredeti tárgyát (pl. kutya, hajó, Stb.)

A fenti sorban teljes ImageNet érvényesítési képeket látunk; Az alábbiakban a SIS részhalmazokat egy Inception V3 modell szerint helyesen, 90%-os biztonsággal osztályozzák, látszólag a kép – háttér kontextusból megmaradt összessége alapján. Természetesen az utolsó oszlopnak jelentős hatásai vannak az önvezető járművek algoritmusainak jelzésfelismerésére.

A fenti sorban teljes ImageNet érvényesítési képeket látunk; Az alábbiakban a SIS részhalmazokat egy Inception V3 modell szerint helyesen, 90%-os biztonsággal osztályozzák, látszólag a kép – háttér kontextusból megmaradt összessége alapján. Természetesen az utolsó oszlopnak jelentős hatásai vannak az önvezető járművek algoritmusainak jelzésfelismerésére.

A fenti képen kapott eredményeket kommentálva a kutatók megfigyelik:

„Úgy találjuk, hogy a SIS pixelek az osztálycímkét meghatározó tényleges objektumon kívül koncentrálódnak. Például a „pizza” képen a SIS a tányér és a háttérasztal formájára koncentrál, nem pedig magára a pizzára, ami arra utal, hogy a modell rosszul általánosítható olyan képeken, amelyek különböző kör alakú elemeket tartalmaznak egy asztalon. Az „óriáspanda” képen a SIS bambuszt tartalmaz, amely valószínűleg megjelent az ehhez az osztályhoz tartozó ImageNet-fotók gyűjteményében.

„A „közlekedési lámpák” és az „utcatábla” képeken a SIS az égen lévő pixelekből áll, ami arra utal, hogy az esetlegesen ezektől a modellektől függő autonóm járműrendszereket alaposan meg kell vizsgálni a túlértelmezési patológiák szempontjából.

A SIS-képek nem véletlenszerűen vannak levágva, hanem a projekthez Batched Gradient Backselect folyamattal jöttek létre, Kezdés V3 és a ResNet50 a PyTorch segítségével. A képeket egy ablációs rutin segítségével származtatják, amely figyelembe veszi a kapcsolatot a modell azon képessége között, hogy pontosan besoroljon egy képet, és azon területek között, ahol az eredeti adatokat iteratív módon eltávolítják.

A SIS érvényességének megerősítése érdekében a szerzők egy folyamatot teszteltek véletlen pixel eltávolítását, és a tesztek eredményeit „jelentősen kevésbé informatívnak” találták, ami azt jelzi, hogy a SIS-képek valóban azt a minimális adatot képviselik, amelyre a népszerű modelleknek és adatkészleteknek szükségük van az elfogadható előrejelzésekhez.

Ha egy pillantást vetünk bármelyik kicsinyített képre, az azt sugallja, hogy ezeknek a modelleknek az emberi vizuális belátás szintjének megfelelően meg kell hibázniuk, ami 20%-nál kisebb medián pontosságot eredményezne.

A SIS-képek eredeti pixeleinek mindössze 5%-ára csökkentve az emberek alig érnek el „véletlennél nagyobb” besorolási sikerességi arányt, szemben a tanulmányban vizsgált népszerű adatkészletek és keretrendszerek 90-99%-os sikerességi arányával.

A SIS-képek eredeti pixeleinek mindössze 5%-ára csökkentve az emberek alig érnek el „véletlennél nagyobb” besorolási sikerességi arányt, szemben a tanulmányban vizsgált népszerű adatkészletek és keretrendszerek 90-99%-os sikerességi arányával.

Beyond The Overfit

Túlillesztésről akkor beszélünk, ha egy gépi tanulási modell olyan kiterjedt mértékben edz egy adatkészleten, hogy készségessé válik a azt a konkrét adatot, de sokkal kevésbé hatékony (vagy akár teljesen hatástalan) az edzés után bevezetett friss adatokon (kikerült a forgalmazásból adat).

A kutatók megjegyzik, hogy a túlillesztés elleni küzdelem iránti jelenlegi akadémiai és ipari érdeklődés nem fogja egyszerre megoldani a túlértelmezést, mivel a lecsupaszított képpont-részhalmazok, amelyek a számítógépek számára azonosítható képeket és az emberek számára értelmetlen szennyeződéseket jelentenek, valójában valóban alkalmazható adatok, ahelyett, hogy „megszállottan” koncentrálnánk a rosszul válogatott vagy vérszegény adatokra:

„A túlértelmezés a túlillesztéshez kapcsolódik, de a túlillesztés a teszt pontosságának csökkenésével diagnosztizálható. A túlértelmezés származhat az alapul szolgáló adatkészlet-eloszlás valódi statisztikai jeleiből, amelyek történetesen az adatforrás bizonyos tulajdonságaiból (pl. bőrgyógyászok uralkodóiból) származnak.

"Így a túlértelmezést nehezebb diagnosztizálni, mivel a statisztikailag érvényes kritériumok alapján hozott döntéseket elfogadja, és az ilyen kritériumokat alkalmazó modellek kiválóak lehetnek a benchmarkok terén."

Lehetséges megoldások

A szerzők azt javasolják modellegyüttes, ahol több architektúra járul hozzá az értékelési és képzési folyamathoz, némileg csökkentheti a túlértelmezést. Azt is megállapították, hogy jelentkeznek bemeneti kiesés, amelyet eredetileg a túlillesztés megakadályozására terveztek, a CIFAR-10 teszt pontosságának „kis csökkenéséhez” vezetett (ami valószínűleg kívánatos), de a modellek pontosságának „jelentős” (körülbelül 6%-os) növekedéséhez vezetett nem látott adatokon. Az alacsony számok azonban azt sugallják, hogy a túlillesztést okozó későbbi gyógymódok valószínűleg nem oldják meg a túlértelmezést.

A szerzők elismerik a felhasználás lehetőségét kiugrósági térképek annak jelzésére, hogy a kép mely területei relevánsak a jellemzők kinyeréséhez, de ne feledje, hogy ez meghiúsítja az automatikus képelemzés célját, és emberi annotációt igényel, ami nagy léptékben kivitelezhetetlen. Megfigyelik továbbá, hogy a feltűnési térképeket olyannak találták csak nyers becslések a modellműveletekbe való betekintés szempontjából.

A lap a következőket zárja:

„Tekintettel a nem kiemelkedő pixel-részhalmazok létezésére, amelyek önmagukban is elegendőek a helyes osztályozáshoz, egy modell kizárólag ilyen mintákra támaszkodhat. Ebben az esetben a modellt hűen leíró értelmezhetőségi módszernek ki kell adnia ezeket az értelmetlen indokokat, míg az értelmezhetőségi módszerek, amelyek az indokokat az emberi prioritások irányába torzítják, olyan eredményeket hozhatnak, amelyek félrevezethetik a felhasználókat, hogy azt gondolják, modelljeik a szándék szerint viselkednek.

 

 

Első megjelenés: 13. január 2022.