taló La sobreinterpretació pot ser una amenaça més gran i més intractable que la sobreadaptació - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

La sobreinterpretació pot ser una amenaça més gran i més intractable que la sobreadaptació

mm
actualitzat on

Si a la teva bona amiga Alice li agrada portar jerseis grocs, veuràs molts més jerseis grocs que la persona mitjana. Al cap d'un temps, és possible que quan vegis a diferent dona que porta un jersei groc, el concepte bàsic Alícia vindrà al cap.

Si veus una dona amb un jersei groc que s'assembla a Alícia una mica, fins i tot pot ser que momentàniament la confonguis amb la teva amiga.

Però es no Alícia. Al final, te n'adonaràs jersei groc no és una clau útil per identificar l'Alícia, ja que mai els porta a l'estiu, i tampoc sempre els porta a l'hivern. D'alguna manera en l'amistat, començareu a baixar de nivell jersei groc com sigui possible Alícia identificador, perquè la vostra experiència amb ell ha estat insatisfactòria i l'energia cognitiva utilitzada per mantenir-la drecera no es premia sovint.

Si sou un sistema de reconeixement basat en la visió per ordinador, però, és molt possible que vegeu l'Alice a tot arreu i vegeu un jersei groc.

No és culpa teva; t'han encarregat d'identificar l'Alice a qualsevol preu, a partir de la informació mínima disponible, i no hi ha escassetat de recursos cognitius per mantenir aquest reductor. Alícia bressol.

Un discerniment estrany

Segons un article recent del MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) i Amazon Web Services, aquesta síndrome, anomenada sobreinterpretació, és abundant en l'àmbit de la recerca en visió per computador (CV); no es pot mitigar abordant el sobreajustament (ja que no és un complement directe del sobreajust); s'evidencia habitualment en investigacions que utilitzen els dos conjunts de dades més influents en el reconeixement i la transformació d'imatges, CIFAR-10 i IMAGEnet; i no té remeis fàcils, certament no barat remeis.

Els investigadors van trobar que quan es reduïen les imatges d'entrenament d'entrada a només un 5% del seu contingut coherent, una àmplia gamma de marcs populars continuaven classificant correctament les imatges, que apareixen, en la majoria dels casos, com a "barateria" visual per a qualsevol observador humà:

Imatges d'entrenament originals de CIFAR-10, reduïdes a només un 5% del contingut de píxels original, però classificades correctament per una sèrie de marcs de visió per ordinador molt populars amb una precisió entre el 90 i el 99%. Font: https://arxiv.org/pdf/2003.08907.pdf

Imatges d'entrenament originals de CIFAR-10, reduïdes a només un 5% del contingut de píxels original, però classificades correctament per una sèrie de marcs de visió per ordinador molt populars amb una precisió entre el 90 i el 99%. Font: https://arxiv.org/pdf/2003.08907.pdf

En alguns casos, els marcs de classificació realment troben aquestes imatges reduïdes fàcil per classificar correctament que els fotogrames complets a les dades d'entrenament originals, amb els autors observant "[Les CNN] tenen més confiança en aquests subconjunts de píxels que en les imatges completes".

Això indica un tipus d'"engany" potencialment perjudicial que es produeix com a pràctica habitual per als sistemes de CV que utilitzen conjunts de dades de referència com CIFAR-10 i ImageNet, i marcs de referència com ara VGG16, ResNet20i ResNet18.

La sobreinterpretació té ramificacions notables per als sistemes de vehicles autònoms basats en CV, que s'han centrat últimament La decisió de Tesla per afavorir la interpretació d'imatges sobre LiDAR i altres sistemes de detecció basats en raigs per a algorismes d'autoconducció.

Tot i que "aprenentatge de drecera" és a repte conegut, i un camp de recerca activa en visió per computador, els autors de l'article comenten que el  Recerca alemanya/canadenc que va emmarcar notablement el problema el 2019 no reconeix que els subconjunts de píxels "espuris" que caracteritzen la sobreinterpretació són "dades estadísticament vàlides", que pot ser que s'hagin d'abordar en termes d'arquitectura i enfocaments de nivell superior, en lloc d'una curació més acurada de conjunts de dades.

El paper es titula La sobreinterpretació revela patologies del model de classificació d'imatges, i prové de Brandon Carter, Siddhartha Jain i David Gifford a CSAIL, en col·laboració amb Jonas Mueller d'Amazon Web Services. El codi del paper està disponible a https://github.com/gifford-lab/overinterpretation.

Paratge de les dades

Les imatges sense dades que han utilitzat els investigadors són denominades per ells Subconjunts d'entrada suficients (SIS): en efecte, una imatge SIS conté el mínim "xassís exterior" possible que pot delinear una imatge prou bé com per permetre que un sistema de visió per ordinador identifiqui el subjecte original de la imatge (és a dir, gos, enviar, Etc).

A la fila anterior, veiem imatges completes de validació d'ImageNet; a continuació, els subconjunts SIS, classificats correctament per un model Inception V3 amb un 90% de confiança, basat, aparentment, en tot el que queda de la imatge: context de fons. Naturalment, la columna final té implicacions notables per al reconeixement de senyalització en algorismes de vehicles amb conducció autònoma.

A la fila anterior, veiem imatges completes de validació d'ImageNet; a continuació, els subconjunts SIS, classificats correctament per un model Inception V3 amb un 90% de confiança, basat, aparentment, en tot el que queda de la imatge: context de fons. Naturalment, la columna final té implicacions notables per al reconeixement de senyalització en algorismes de vehicles amb conducció autònoma.

Comentant els resultats obtinguts a la imatge anterior, els investigadors observen:

"Hem trobat que els píxels SIS es concentren fora de l'objecte real que determina l'etiqueta de la classe. Per exemple, a la imatge de "pizza", el SIS es concentra en la forma del plat i la taula de fons, en lloc de la pizza en si, el que suggereix que el model podria generalitzar-se malament en imatges que contenen diferents elements circulars sobre una taula. A la imatge del "panda gegant", el SIS conté bambú, que probablement va aparèixer a la col·lecció de fotos d'ImageNet d'aquesta classe.

"A les imatges del "semàfor" i dels "senyals de carrer", el SIS consta de píxels al cel, cosa que suggereix que els sistemes de vehicles autònoms que poden dependre d'aquests models s'han d'avaluar acuradament per detectar patologies de sobreinterpretació".

Les imatges del SIS no es redueixen a l'atzar, sinó que es van crear per al projecte mitjançant un procés de selecció posterior de degradat per lots, a Inici V3 i ResNet50 mitjançant PyTorch. Les imatges es deriven d'una rutina d'ablació que té en compte la relació entre la capacitat d'un model per classificar amb precisió una imatge i les àrees en què les dades originals s'eliminen iterativament.

Per confirmar la validesa del SIS, els autors van provar un procés de atzar eliminació de píxels i va trobar els resultats "significativament menys informatius" a les proves, cosa que indica que les imatges SIS representen realment les dades mínimes que necessiten els models i conjunts de dades populars per fer prediccions acceptables.

Un cop d'ull a qualsevol de les imatges reduïdes suggereix que aquests models haurien de fallar d'acord amb els nivells humans de discerniment visual, la qual cosa comportaria una precisió mitjana inferior al 20%.

Amb les imatges SIS reduïdes a només un 5% dels seus píxels originals, els humans amb prou feines aconsegueixen una taxa d'èxit de classificació "superior a l'atzar", enfront de la taxa d'èxit del 90-99% dels conjunts de dades i marcs populars estudiats en el document.

Amb les imatges SIS reduïdes a només un 5% dels seus píxels originals, els humans amb prou feines aconsegueixen una taxa d'èxit de classificació "superior a l'atzar", enfront de la taxa d'èxit del 90-99% dels conjunts de dades i marcs populars estudiats en el document.

Més enllà del sobreajust

El sobreajust es produeix quan un model d'aprenentatge automàtic s'entrena tan àmpliament en un conjunt de dades que esdevé competent per fer prediccions per aquestes dades concretes, però és molt menys efectiu (o fins i tot totalment ineficaç) amb les dades noves que s'hi introdueixen després de l'entrenament (fora de distribució dades).

Els investigadors assenyalen que l'interès acadèmic i de la indústria actual per combatre el sobreajust no solucionarà simultàniament la sobreinterpretació, perquè els subconjunts de píxels reduïts que representen imatges identificables per a ordinadors i tapes sense sentit per als humans són en realitat. dades realment aplicables, en lloc d'una concentració "obsessionada" en dades mal curades o anèmiques:

"La sobreinterpretació està relacionada amb el sobreajust, però el sobreajust es pot diagnosticar mitjançant una precisió reduïda de la prova. La sobreinterpretació pot derivar de senyals estadístics reals en la distribució del conjunt de dades subjacent que sorgeixen de propietats particulars de la font de dades (per exemple, els governants dels dermatòlegs).

"Així, la sobreinterpretació pot ser més difícil de diagnosticar, ja que admet decisions que es prenen amb criteris estadísticament vàlids, i els models que utilitzen aquests criteris poden destacar en els punts de referència".

Solucions possibles

Els autors suggereixen que assemblatge del model, on múltiples arquitectures contribueixen al procés d'avaluació i formació, podria contribuir d'alguna manera a mitigar la sobreinterpretació. També van trobar que aplicant abandonament d'entrada, dissenyat originalment per impedir el sobreajust, va provocar una "petita disminució" de la precisió de la prova CIFAR-10 (que probablement és desitjable), però un augment "significatiu" (~ 6%) de la precisió dels models en dades no vistes. No obstant això, les baixes xifres suggereixen que és poc probable que qualsevol cura posterior per a l'excés d'adaptació abordi completament la sobreinterpretació.

Els autors concedeixen la possibilitat d'utilitzar mapes de rellevància per indicar quines àrees d'una imatge són rellevants per a l'extracció de característiques, però tingueu en compte que això anul·la l'objectiu de l'anàlisi automàtic d'imatges i requereix una anotació humana que no és factible a escala. A més, observen que s'han trobat mapes de rellevància només estimadors bruts en termes de coneixement de les operacions del model.

El document conclou:

"Atesa l'existència de subconjunts de píxels no destacats que només són suficients per a una classificació correcta, un model només pot basar-se en aquests patrons. En aquest cas, un mètode d'interpretabilitat que descrigui fidelment el model hauria de produir aquestes justificacions sense sentit, mentre que els mètodes d'interpretabilitat que esbiaixin els raonaments cap als anteriors humans poden produir resultats que indueixin els usuaris a pensar que els seus models es comporten com es pretén.

 

 

Publicat per primera vegada l'13 de gener de 2022.