talón ¿Qué es la visión artificial? - Unite.AI
Contáctanos
Clase magistral de IA:

AI 101

¿Qué es la Visión por Computadora?

mm
Actualizado on

¿Qué es la Visión por Computadora?

Los algoritmos de visión por computadora son uno de los sistemas de inteligencia artificial más transformadores y poderosos del mundo en este momento. Sistemas de visión por computadora vea su uso en vehículos autónomos, navegación robótica, sistemas de reconocimiento facial y más. Sin embargo, ¿qué son exactamente los algoritmos de visión artificial? ¿Cómo trabajan? Para responder a estas preguntas, profundizaremos en la teoría detrás de la visión por computadora, los algoritmos de visión por computadora y las aplicaciones para los sistemas de visión por computadora.

¿Cómo funcionan los sistemas de visión artificial?

Para apreciar completamente cómo funcionan los sistemas de visión por computadora, primero tomemos un momento para discutir cómo los humanos reconocen objetos. La mejor explicación que tiene la neuropsicología sobre cómo reconocemos los objetos es un modelo que describe la fase inicial de reconocimiento de objetos como aquel en el que el cerebro interpreta primero los componentes básicos de los objetos, como la forma, el color y la profundidad. Las señales del ojo que ingresan al cerebro se analizan para extraer primero los bordes de un objeto, y estos bordes se unen en una representación más compleja que completa la forma del objeto.

Los sistemas de visión por computadora funcionan de manera muy similar al sistema visual humano, primero discerniendo los bordes de un objeto y luego uniendo estos bordes en la forma del objeto. La gran diferencia es que debido a que las computadoras interpretan las imágenes como números, un sistema de visión por computadora necesita alguna forma de interpretar los píxeles individuales que componen la imagen. El sistema de visión por computadora asignará valores a los píxeles de la imagen y, al examinar la diferencia de valores entre una región de píxeles y otra región de píxeles, la computadora puede discernir los bordes. Por ejemplo, si la imagen en cuestión está en escala de grises, los valores oscilarán entre el negro (representado por 0) y el blanco (representado por 255). Un cambio repentino en el rango de valores de píxeles cerca uno del otro indicará un borde.

Este principio básico de comparar valores de píxeles también se puede hacer con imágenes en color, con la computadora comparando las diferencias entre los diferentes canales de color RGB. Entonces, sepa que sabemos cómo un sistema de visión por computadora examina los valores de píxeles para interpretar una imagen, echemos un vistazo a la arquitectura de un sistema de visión por computadora.

Redes neuronales convolucionales (CNN)

El tipo principal de IA que se utiliza en las tareas de visión artificial es uno basado en redes neuronales convolucionales. ¿Qué es una convolución exactamente?

Las circunvoluciones son procesos matemáticos que utiliza la red para determinar la diferencia de valores entre píxeles. Si visualiza una cuadrícula de valores de píxeles, imagine que se mueve una cuadrícula más pequeña sobre esta cuadrícula principal. La red analiza los valores debajo de la segunda cuadrícula, por lo que la red solo examina un puñado de píxeles a la vez. Esto a menudo se llama la técnica de "ventanas deslizantes". La red resume los valores que analiza la ventana deslizante, lo que ayuda a reducir la complejidad de la imagen y facilita que la red extraiga patrones.

Las redes neuronales convolucionales son dividido en dos secciones diferentes, la sección convolucional y la sección totalmente conexa. Las capas convolucionales de la red son los extractores de características, cuyo trabajo es analizar los píxeles dentro de la imagen y formar representaciones de ellos de las que las capas densamente conectadas de la red neuronal puedan aprender patrones. Las capas convolucionales comienzan simplemente examinando los píxeles y extrayendo las características de bajo nivel de la imagen, como los bordes. Las capas convolucionales posteriores unen los bordes en formas más complejas. Al final, se espera que la red tenga una representación de los bordes y detalles de la imagen que pueda pasar a las capas completamente conectadas.

Anotación de imagen

Si bien una red neuronal convolucional puede extraer patrones de imágenes por sí misma, la precisión del sistema de visión por computadora se puede mejorar enormemente al anotar las imágenes. Anotación de imagen es el proceso de agregar metadatos a la imagen que ayuda al clasificador a detectar objetos importantes en la imagen. El uso de la anotación de imágenes es importante cuando los sistemas de visión por computadora necesitan ser muy precisos, como cuando se controla un vehículo autónomo o un robot.

Hay varias formas en que se pueden anotar las imágenes para mejorar el rendimiento de un clasificador de visión por computadora. La anotación de imágenes a menudo se realiza con cuadros delimitadores, un cuadro que rodea los bordes del objeto de destino y le dice a la computadora que centre su atención dentro del cuadro. La segmentación semántica es otro tipo de anotación de imagen, que funciona asignando una clase de imagen a cada píxel de una imagen. En otras palabras, cada píxel que pueda considerarse “césped” o “árboles” será etiquetado como perteneciente a esas clases. La técnica proporciona precisión a nivel de píxel, pero la creación de anotaciones de segmentación semántica es más compleja y requiere más tiempo que la creación de simples cuadros delimitadores. También existen otros métodos de anotación, como líneas y puntos.