AI 101

Wat is computervisie?

Bijgewerkt on 21 juli 2023

Wat is computervisie?

Computer vision-algoritmen zijn momenteel een van de meest transformerende en krachtige AI-systemen ter wereld. Computer vision-systemen zie gebruik in autonome voertuigen, robotnavigatie, gezichtsherkenningssystemen en meer. Maar wat zijn computervisie-algoritmen precies? Hoe werken ze? Om deze vragen te beantwoorden, duiken we diep in de theorie achter computervisie, computervisie-algoritmen en toepassingen voor computervisiesystemen.

Hoe werken computervisiesystemen?

Om volledig te begrijpen hoe computervisiesystemen werken, laten we eerst even de tijd nemen om te bespreken hoe mensen objecten herkennen. De beste verklaring die de neuropsychologie heeft voor hoe we objecten herkennen, is een model dat de beginfase van een object beschrijft Object herkenning als een waarin de basiscomponenten van objecten, zoals vorm, kleur en diepte, eerst door de hersenen worden geïnterpreteerd. De signalen van het oog die de hersenen binnenkomen, worden geanalyseerd om eerst de randen van een object eruit te trekken, en deze randen worden samengevoegd tot een complexere representatie die de vorm van het object compleet maakt.

Computervisiesystemen werken op dezelfde manier als het menselijke visuele systeem, door eerst de randen van een object te onderscheiden en deze randen vervolgens samen te voegen tot de vorm van het object. Het grote verschil is dat omdat computers afbeeldingen interpreteren als getallen, een computervisiesysteem een manier nodig heeft om de individuele pixels waaruit de afbeelding bestaat te interpreteren. Het computervisiesysteem wijst waarden toe aan de pixels in de afbeelding en door het verschil in waarden tussen het ene gebied met pixels en een ander gebied met pixels te onderzoeken, kan de computer randen onderscheiden. Als de betreffende afbeelding bijvoorbeeld in grijstinten is, zullen de waarden variëren van zwart (weergegeven door 0) tot wit (weergegeven door 255). Een plotselinge verandering in het waardebereik van pixels die dicht bij elkaar liggen, duidt op een rand.

Dit basisprincipe van het vergelijken van pixelwaarden kan ook worden gedaan met gekleurde afbeeldingen, waarbij de computer de verschillen tussen de verschillende RGB-kleurkanalen vergelijkt. Dus weten dat we weten hoe een computervisiesysteem pixelwaarden onderzoekt om een afbeelding te interpreteren, laten we eens kijken naar de architectuur van een computervisiesysteem.

Convolutionele neurale netwerken (CNN's)

Het primaire type AI dat wordt gebruikt bij computervisietaken is er één gebaseerd op convolutionele neurale netwerken. Wat is een convolutie precies?

Convoluties zijn wiskundige processen die het netwerk gebruikt om het verschil in waarden tussen pixels te bepalen. Als je je een raster van pixelwaarden voorstelt, stel je dan een kleiner raster voor dat over dit hoofdraster wordt verplaatst. De waarden onder het tweede raster worden door het netwerk geanalyseerd, dus het netwerk onderzoekt slechts een handvol pixels tegelijk. Dit wordt vaak de "sliding windows"-techniek genoemd. De waarden die door het schuifvenster worden geanalyseerd, worden samengevat door het netwerk, waardoor de complexiteit van de afbeelding wordt verminderd en het voor het netwerk gemakkelijker wordt om patronen te extraheren.

Convolutionele neurale netwerken zijn dat wel verdeeld in twee verschillende secties, het convolutionele gedeelte en het volledig verbonden gedeelte. De convolutionele lagen van het netwerk zijn de functie-extractors, wiens taak het is om de pixels in het beeld te analyseren en er representaties van te vormen waaruit de nauw verbonden lagen van het neurale netwerk patronen kunnen leren. De convolutionele lagen beginnen met het onderzoeken van de pixels en het extraheren van de lage kenmerken van de afbeelding, zoals randen. Latere convolutionele lagen voegen de randen samen tot complexere vormen. Tegen het einde zal het netwerk hopelijk een weergave hebben van de randen en details van het beeld die het kan doorgeven aan de volledig verbonden lagen.

Annotatie afbeelding

Hoewel een convolutioneel neuraal netwerk zelf patronen uit afbeeldingen kan extraheren, kan de nauwkeurigheid van het computervisiesysteem aanzienlijk worden verbeterd door de afbeeldingen te annoteren. Annotatie afbeelding is het proces van het toevoegen van metadata aan de afbeelding die de classificator helpt bij het detecteren van belangrijke objecten in de afbeelding. Het gebruik van beeldannotatie is belangrijk wanneer computervisiesystemen zeer nauwkeurig moeten zijn, zoals bij het besturen van een autonoom voertuig of robot.

Er zijn verschillende manieren waarop afbeeldingen kunnen worden geannoteerd om de prestaties van een computervisie-classificatie te verbeteren. Beeldannotatie wordt vaak gedaan met begrenzingskaders, een kader dat de randen van het doelobject omringt en de computer vertelt zijn aandacht binnen het kader te richten. Semantische segmentatie is een ander type beeldannotatie, dat werkt door een beeldklasse toe te wijzen aan elke pixel in een beeld. Met andere woorden, elke pixel die als "gras" of "bomen" kan worden beschouwd, wordt gelabeld als behorend tot die klassen. De techniek biedt precisie op pixelniveau, maar het maken van semantische segmentatie-annotaties is complexer en tijdrovender dan het maken van eenvoudige begrenzingskaders. Er bestaan ook andere annotatiemethoden, zoals lijnen en punten.

Wat is een verwarringsmatrix?

Mis het niet

Wat zijn neurale netwerken?

Daniël Nelson

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.