- Terminologie (A tot D)
- Controle van AI-mogelijkheden
- AIOps
- Albumentaties
- Auto-encoder
- terugpropagatie
- Stelling van Bayes
- Big data
- Chatbot: een beginnershandleiding
- Computationeel denken
- Computer visie
- Verwarring Matrix
- Convolutional Neural Networks
- Cybersecurity
- Gegevens weefsel
- Verhalen van gegevens
- data Science
- Beslissingsboom
- Deepfakes
- Diepe leren
- Diep versterkend leren
- devops
- DevSecOps
- Verspreidingsmodellen
- Digitale Twin
- Dimensionaliteitsvermindering
- Terminologie (E tot K)
- Rand AI
- Emotie AI
- Ensemble leren
- Ethisch hacken
- ETL
- Uitleg over AI
- Federatief leren
- FinOps
- generatieve AI
- Generative Adversarial Network
- Generatief versus discriminerend
- Verloopversterking
- Gradient Afdaling
- Weinig-shot leren
- Afbeeldingsclassificatie
- IT-activiteiten (ITOps)
- Automatisering van incidenten
- Beïnvloed techniek
- K-Middelen Clustering
- K-dichtstbijzijnde buren
- Terminologie (L tot Q)
- Terminologie (R tot Z)
- Versterking leren
- Verantwoordelijke AI
- RLHF
- Automatisering van robotprocessen
- Gestructureerd versus ongestructureerd
- Sentiment analyse
- Onder toezicht versus zonder toezicht
- Ondersteuning van vectormachines
- Synthetische gegevens
- Synthetische media
- Tekstclassificatie
- TinyML
- Transfer leren
- Transformator neurale netwerken
- Turing-test
- Zoeken naar vectorovereenkomst
AI 101
Wat is computervisie?

Inhoudsopgave
Wat is computervisie?
Computer visie algoritmen zijn op dit moment een van de meest transformerende en krachtige AI-systemen ter wereld. Computer vision-systemen zie gebruik in autonome voertuigen, robotnavigatie, gezichtsherkenningssystemen en meer. Maar wat zijn computervisie-algoritmen precies? Hoe werken ze? Om deze vragen te beantwoorden, duiken we diep in de theorie achter computervisie, computervisie-algoritmen en toepassingen voor computervisiesystemen.
Hoe werken computervisiesystemen?
Om volledig te begrijpen hoe computervisiesystemen werken, laten we eerst even de tijd nemen om te bespreken hoe mensen objecten herkennen. De beste verklaring die de neuropsychologie heeft voor hoe we objecten herkennen, is een model dat de beginfase van een object beschrijft Object herkenning als een waar de basiscomponenten van objecten, zoals vorm, kleur en diepte, eerst door de hersenen worden geïnterpreteerd. De signalen van het oog die de hersenen binnenkomen, worden geanalyseerd om eruit te trekken eerst de randen van een object, en deze randen worden samengevoegd tot een complexere weergave die de vorm van het object voltooit.
Computervisiesystemen werken op dezelfde manier als het menselijke visuele systeem, door eerst de randen van een object te onderscheiden en deze randen vervolgens samen te voegen tot de vorm van het object. Het grote verschil is dat omdat computers afbeeldingen interpreteren als getallen, een computervisiesysteem een manier nodig heeft om de individuele pixels waaruit de afbeelding bestaat te interpreteren. Het computervisiesysteem wijst waarden toe aan de pixels in de afbeelding en door het verschil in waarden tussen het ene gebied met pixels en een ander gebied met pixels te onderzoeken, kan de computer randen onderscheiden. Als de betreffende afbeelding bijvoorbeeld in grijstinten is, zullen de waarden variëren van zwart (weergegeven door 0) tot wit (weergegeven door 255). Een plotselinge verandering in het waardebereik van pixels die dicht bij elkaar liggen, duidt op een rand.
Dit basisprincipe van het vergelijken van pixelwaarden kan ook worden gedaan met gekleurde afbeeldingen, waarbij de computer de verschillen tussen de verschillende RGB-kleurkanalen vergelijkt. Dus weten dat we weten hoe een computervisiesysteem pixelwaarden onderzoekt om een afbeelding te interpreteren, laten we eens kijken naar de architectuur van een computervisiesysteem.
Convolutionele neurale netwerken (CNN's)
Het primaire type AI dat wordt gebruikt bij computervisietaken is er één gebaseerd op convolutionele neurale netwerken. Wat is een convolutie precies?
Convoluties zijn wiskundige processen die het netwerk gebruikt om het verschil in waarden tussen pixels te bepalen. Als je je een raster van pixelwaarden voorstelt, stel je dan een kleiner raster voor dat over dit hoofdraster wordt verplaatst. De waarden onder het tweede raster worden door het netwerk geanalyseerd, dus het netwerk onderzoekt slechts een handvol pixels tegelijk. Dit wordt vaak de "sliding windows"-techniek genoemd. De waarden die door het schuifvenster worden geanalyseerd, worden samengevat door het netwerk, waardoor de complexiteit van de afbeelding wordt verminderd en het voor het netwerk gemakkelijker wordt om patronen te extraheren.
Convolutionele neurale netwerken zijn dat wel verdeeld in twee verschillende secties, het convolutionele gedeelte en het volledig verbonden gedeelte. De convolutionele lagen van het netwerk zijn de functie-extractors, wiens taak het is om de pixels in het beeld te analyseren en er representaties van te vormen waaruit de nauw verbonden lagen van het neurale netwerk patronen kunnen leren. De convolutionele lagen beginnen met het onderzoeken van de pixels en het extraheren van de lage kenmerken van de afbeelding, zoals randen. Latere convolutionele lagen voegen de randen samen tot complexere vormen. Tegen het einde zal het netwerk hopelijk een weergave hebben van de randen en details van het beeld die het kan doorgeven aan de volledig verbonden lagen.
Annotatie afbeelding
Terwijl een convolutioneel neuraal netwerk zelf patronen uit afbeeldingen kan extraheren, kan de nauwkeurigheid van het computervisiesysteem aanzienlijk worden verbeterd door de afbeeldingen te annoteren. Annotatie afbeelding is het proces van het toevoegen van metadata aan de afbeelding die de classificator helpt bij het detecteren van belangrijke objecten in de afbeelding. Het gebruik van beeldannotatie is belangrijk wanneer computervisiesystemen zeer nauwkeurig moeten zijn, zoals bij het besturen van een autonoom voertuig of robot.
Er zijn verschillende manieren waarop afbeeldingen kunnen worden geannoteerd om de prestaties van een computervisie-classificatie te verbeteren. Beeldannotatie wordt vaak gedaan met begrenzingskaders, een kader dat de randen van het doelobject omringt en de computer vertelt zijn aandacht binnen het kader te richten. Semantische segmentatie is een ander type beeldannotatie, dat werkt door een beeldklasse toe te wijzen aan elke pixel in een beeld. Met andere woorden, elke pixel die als "gras" of "bomen" kan worden beschouwd, wordt gelabeld als behorend tot die klassen. De techniek biedt precisie op pixelniveau, maar het maken van semantische segmentatie-annotaties is complexer en tijdrovender dan het maken van eenvoudige begrenzingskaders. Er bestaan ook andere annotatiemethoden, zoals lijnen en punten.
Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.
Misschien vind je het leuk
OpenAI GPT's: bouw uw eigen chatGPT-aangedreven conversatie-AI
Wat is ruis bij beeldverwerking? – Een primer
Analoge en stap-terug-prompts: een duik in recente ontwikkelingen door Google DeepMind
Een nadere blik op DALL-E 3 van OpenAI
Uni3D: onderzoek naar uniforme 3D-representatie op schaal
.AI-domeinnamen schieten omhoog in waarde met recente recordverkopen