Connect with us

Kunstmatige intelligentie

Overinterpretatie kan een grotere en lastigere bedreiging zijn dan overaanpassing

mm

Als uw goede vriendin Alice graag gele truien draagt, zult u meer gele truien zien dan de gemiddelde persoon. Na een tijdje is het mogelijk dat wanneer u een andere vrouw ziet met een gele trui, het kernconcept Alice bij u opkomt.

Als u een vrouw ziet met een gele trui die op Alice lijkt, kunt u haar zelfs even voor uw vriendin aanzien.
Maar het is niet Alice. Uiteindelijk zult u beseffen dat gele trui geen nuttige sleutel is om Alice te identificeren, omdat ze die nooit in de zomer draagt en ze niet altijd in de winter draagt. Op een gegeven moment in de vriendschap zult u gele trui als een mogelijke Alice-identifier gaan degraderen, omdat uw ervaring ermee niet bevredigend is geweest en de cognitieve energie die wordt gebruikt om deze snelkoppeling in stand te houden niet vaak wordt beloond.

Als u een computer vision-gebaseerd herkenningssysteem bent, is het echter heel goed mogelijk dat u Alice overal ziet waar u een gele trui ziet.
Het is niet uw schuld; u bent opgedragen om Alice te identificeren tegen elke prijs, vanuit de minimale beschikbare informatie, en er is geen gebrek aan cognitieve middelen om deze reductieve Alice-hulp in stand te houden.

Onheilspellende onderscheiding

Volgens een recent artikel van het MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) en Amazon Web Services is dit syndroom, overinterpretatie genoemd, wijdverbreid in het computer vision (CV)-onderzoeksveld; kan niet worden gemitigeerd door overaanpassing aan te pakken (aangezien het geen direct aanhangsel van overaanpassing is); wordt vaak aangetroffen in onderzoek dat de twee meest invloedrijke datasets in beeldherkenning en -transformatie gebruikt, CIFAR-10 en ImageNet; en heeft geen gemakkelijke oplossingen – zeker geen goedkope oplossingen.

De onderzoekers vonden dat wanneer de invoertrainingsafbeeldingen werden teruggebracht tot slechts 5% van hun samenhangende inhoud, een breed scala aan populaire frameworks de afbeeldingen nog steeds correct kon classificeren, die in de meeste gevallen als visueel ‘onzin’ voor een menselijke waarnemer verschijnen:

Oorspronkelijke trainingsafbeeldingen van CIFAR-10, teruggebracht tot slechts 5% van de oorspronkelijke pixelinhoud, maar correct geclassificeerd door een reeks zeer populaire computer vision-frameworks met een nauwkeurigheid van 90-99%.

Oorspronkelijke trainingsafbeeldingen van CIFAR-10, teruggebracht tot slechts 5% van de oorspronkelijke pixelinhoud, maar correct geclassificeerd door een reeks zeer populaire computer vision-frameworks met een nauwkeurigheid van 90-99%. Bron: https://arxiv.org/pdf/2003.08907.pdf

In sommige gevallen vonden de classificatieframeworks deze afgeslankte afbeeldingen gemakkelijker te classificeren dan de volledige frames in de oorspronkelijke trainingsgegevens, waarbij de auteurs opmerkten ‘[CNN’s] zijn zelfverzekerder over deze pixelsubsets dan over volledige afbeeldingen’.

Dit duidt op een potentieel ondermijnende vorm van ‘vals spelen’ die optreedt als gebruikelijke praktijk voor CV-systemen die benchmarkdatasets zoals CIFAR-10 en ImageNet gebruiken, en benchmarkframeworks zoals VGG16, ResNet20 en ResNet18.

Overinterpretatie heeft opvallende gevolgen voor CV-gebaseerde autonome voertuigsystemen, die onlangs in de schijnwerpers zijn komen te staan met Tesla’s beslissing om beeldinterpretatie te bevororden boven LiDAR en andere stralingsgebaseerde sensoren voor zelfrijdende algoritmen.

Hoewel ‘shortcut learning’ een bekende uitdaging is en een actief onderzoeksgebied in computer vision, merken de auteurs van het artikel op dat de Duits-Canadese onderzoek die het probleem in 2019 heeft gekaderd, niet erkent dat de ‘spurieuze’ pixelsubsets die overinterpretatie kenmerken ‘statistisch geldige gegevens’ zijn, die mogelijk moeten worden aangepakt in termen van architectuur en hogere benaderingen, in plaats van door een zorgvuldigere selectie van datasets.

Het artikel heeft als titel Overinterpretatie onthult pathologieën in beeldclassificatiemodellen en komt van Brandon Carter, Siddhartha Jain en David Gifford bij CSAIL, in samenwerking met Jonas Mueller van Amazon Web Services. De code voor het artikel is beschikbaar op https://github.com/gifford-lab/overinterpretation.

Afslanken van de gegevens

De gegevensgestripte afbeeldingen die de onderzoekers hebben gebruikt, worden door hen Voldoende invoersubsets (SIS) genoemd – in feite bevat een SIS-afbeelding het minimum mogelijke ‘buitenchassis’ dat een afbeelding voldoende kan omschrijven om een computer vision-systeem in staat te stellen de oorspronkelijke onderwerp van de afbeelding te identificeren (d.w.z. hond, schip, enz.).

In de bovenste rij zien we complete ImageNet-validatieafbeeldingen; hieronder, de SIS-subsets, correct geclassificeerd door een Inception V3-model met 90% vertrouwen, gebaseerd, schijnbaar, op alles wat resteert van de afbeelding – achtergrondcontext. Natuurlijk heeft de laatste kolom opvallende implicaties voor het herkennen van borden in zelfrijdende voertuigalgoritmen.

In de bovenste rij zien we complete ImageNet-validatieafbeeldingen; hieronder, de SIS-subsets, correct geclassificeerd door een Inception V3-model met 90% vertrouwen, gebaseerd, schijnbaar, op alles wat resteert van de afbeelding – achtergrondcontext. Natuurlijk heeft de laatste kolom opvallende implicaties voor het herkennen van borden in zelfrijdende voertuigalgoritmen.

In reactie op de resultaten in de bovenstaande afbeelding, merken de onderzoekers op:

‘We vinden dat SIS-pixels zijn geconcentreerd buiten het daadwerkelijke object dat de klassenlabel bepaalt. Bijvoorbeeld, in de “pizza”-afbeelding, is de SIS geconcentreerd op de vorm van het bord en de achtergrondtafel, in plaats van de pizza zelf, wat suggereert dat het model mogelijk slecht generaliseert op afbeeldingen met verschillende ronde voorwerpen op een tafel. In de “reuzenpanda”-afbeelding, bevat de SIS bamboe, die waarschijnlijk in de verzameling ImageNet-foto’s voor deze klasse is verschenen.

‘In de “verkeerslicht”- en “verkeersbord”-afbeeldingen, bestaat de SIS uit pixels in de lucht, wat suggereert dat autonome voertuigsystemen die mogelijk afhankelijk zijn van deze modellen, zorgvuldig moeten worden geëvalueerd op overinterpretatiepathologieën.’

SIS-afbeeldingen zijn niet willekeurig afgesneden, maar zijn voor het project gemaakt door een Batched Gradient Backselect-proces, op Inception V3 en ResNet50 via PyTorch. De afbeeldingen zijn afgeleid van een ablatieroutine die rekening houdt met de relatie tussen een models vermogen om een afbeelding correct te classificeren en de gebieden waarin de oorspronkelijke gegevens iteratief worden verwijderd.

Om de geldigheid van SIS te bevestigen, hebben de auteurs een proces van willekeurige pixelverwijdering getest en ontdekt dat de resultaten ‘aanzienlijk minder informatief’ waren in tests, wat aangeeft dat SIS-afbeeldingen echt de minimale gegevens vertegenwoordigen die populaire modellen en datasets nodig hebben om aanvaardbare voorspellingen te doen.

Een blik op een van de gereduceerde afbeeldingen suggereert dat deze modellen zouden moeten falen in overeenstemming met het menselijke niveau van visuele onderscheiding, wat zou leiden tot een mediane nauwkeurigheid van minder dan 20%.

Met SIS-afbeeldingen teruggebracht tot slechts 5% van hun oorspronkelijke pixels, bereiken mensen nauwelijks een 'groter dan toeval' classificatiesucces, vs. de 90-99% succesrate van de populaire datasets en frameworks die in het artikel zijn onderzocht.

Met SIS-afbeeldingen teruggebracht tot slechts 5% van hun oorspronkelijke pixels, bereiken mensen nauwelijks een ‘groter dan toeval’ classificatiesucces, vs. de 90-99% succesrate van de populaire datasets en frameworks die in het artikel zijn onderzocht.

Verder dan overaanpassing

Overaanpassing treedt op wanneer een machine learning-model zo uitgebreid traint op een dataset dat het ervaren wordt in het maken van voorspellingen voor die specifieke gegevens, maar veel minder effectief (of zelfs totaal ineffectief) is op verse gegevens die na de training aan het model worden gepresenteerd (buiten de distributie gegevens).

De onderzoekers merken op dat de huidige academische en industriële interesse in het bestrijden van overaanpassing niet gelijktijdig overinterpretatie zal oplossen, omdat de afgeslankte pixelsubsets die identificeerbare afbeeldingen voor computers en nonsensuele klodders voor mensen vertegenwoordigen, eigenlijk geldig toepasbare gegevens zijn, in plaats van een ‘geobsedeerde’ concentratie op slecht gecureerde of anemische gegevens:

‘Overinterpretatie is gerelateerd aan overaanpassing, maar overaanpassing kan worden gediagnosticeerd via verlaagde testnauwkeurigheid. Overinterpretatie kan voortkomen uit echte statistische signalen in de onderliggende datasetdistributie die toevallig ontstaan uit bepaalde eigenschappen van de gegevensbron (bijv. dermatologenrulers).

‘Dus overinterpretatie kan moeilijker te diagnosticeren zijn, omdat het beslissingen toelaat die worden genomen op basis van statistisch geldige criteria, en modellen die dergelijke criteria gebruiken, kunnen uitstekend presteren op benchmarks.’

Mogelijke oplossingen

De auteurs suggereren dat modelensembling, waarbij meerdere architectuur bijdragen aan de evaluatie- en trainingsproces, enige mate van overinterpretatie kan mitigeren. Ze vonden ook dat het toepassen van input dropout, oorspronkelijk ontworpen om overaanpassing te beperken, leidde tot ‘een kleine daling’ in CIFAR-10-testnauwkeurigheid (wat waarschijnlijk wenselijk is), maar een ‘aanzienlijke’ (∼ 6%) toename in de nauwkeurigheid van de modellen op ongeziene gegevens. Echter, de lage cijfers suggereren dat eventuele latere genezingen voor overaanpassing onwaarschijnlijk zijn om overinterpretatie volledig aan te pakken.

De auteurs geven toe dat het mogelijk is om saliency-kaarten te gebruiken om aan te geven welke gebieden van een afbeelding relevant zijn voor functie-extractie, maar merken op dat dit het doel van geautomatiseerde beeldanalyse tenietdoet en menselijke annotatie vereist die onhaalbaar is in grote hoeveelheden. Ze merken verder op dat saliency-kaarten zijn aangetoond als slechts grove schatters in termen van inzicht in modeloperaties.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.