toco O que é Visão Computacional? - Unite.AI
Entre em contato
Masterclass de IA:

AI 101

O que é Visão Computacional?

mm
Atualização do on

O que é Visão Computacional?

Os algoritmos de visão computacional são um dos sistemas de IA mais transformadores e poderosos do mundo no momento. Sistemas de visão computacional veja o uso em veículos autônomos, navegação de robôs, sistemas de reconhecimento facial e muito mais. No entanto, o que são exatamente os algoritmos de visão computacional? Como eles funcionam? Para responder a essas perguntas, vamos nos aprofundar na teoria por trás da visão computacional, algoritmos de visão computacional e aplicativos para sistemas de visão computacional.

Como funcionam os sistemas de visão computacional?

A fim de apreciar completamente como os sistemas de visão computacional funcionam, vamos primeiro discutir como os humanos reconhecem os objetos. A melhor explicação que a neuropsicologia tem para como reconhecemos os objetos é um modelo que descreve a fase inicial de Reconhecimento de objeto como aquele em que os componentes básicos dos objetos, como forma, cor e profundidade, são interpretados primeiro pelo cérebro. Os sinais do olho que entram no cérebro são analisados ​​para extrair primeiro as bordas de um objeto, e essas bordas são unidas em uma representação mais complexa que completa a forma do objeto.

Os sistemas de visão computacional operam de maneira muito semelhante ao sistema visual humano, primeiro discernindo as bordas de um objeto e depois unindo essas bordas na forma do objeto. A grande diferença é que, como os computadores interpretam as imagens como números, um sistema de visão computacional precisa de alguma forma para interpretar os pixels individuais que compõem a imagem. O sistema de visão computacional atribuirá valores aos pixels na imagem e, examinando a diferença de valores entre uma região de pixels e outra região de pixels, o computador pode discernir bordas. Por exemplo, se a imagem em questão for em tons de cinza, então os valores irão variar de preto (representado por 0) a branco (representado por 255). Uma mudança repentina no intervalo de valores de pixels próximos uns dos outros indicará uma borda.

Este princípio básico de comparação de valores de pixel também pode ser feito com imagens coloridas, com o computador comparando as diferenças entre os diferentes canais de cores RGB. Então saiba que sabemos como um sistema de visão computacional examina os valores de pixel para interpretar uma imagem, vamos dar uma olhada na arquitetura de um sistema de visão computacional.

Redes Neurais Convolucionais (CNNs)

O principal tipo de IA usado em tarefas de visão computacional é aquele baseado em redes neurais convolucionais. O que é exatamente uma convolução?

As convoluções são processos matemáticos que a rede usa para determinar a diferença de valores entre os pixels. Se você imaginar uma grade de valores de pixel, imagine uma grade menor sendo movida sobre essa grade principal. Os valores abaixo da segunda grade estão sendo analisados ​​pela rede, então a rede está examinando apenas um punhado de pixels por vez. Isso geralmente é chamado de técnica de “janelas deslizantes”. Os valores analisados ​​pela janela deslizante são resumidos pela rede, o que ajuda a reduzir a complexidade da imagem e facilita a extração de padrões pela rede.

As redes neurais convolucionais são dividido em duas seções diferentes, a seção convolucional e a seção totalmente conectada. As camadas convolucionais da rede são os extratores de recursos, cujo trabalho é analisar os pixels dentro da imagem e formar representações deles que as camadas densamente conectadas da rede neural possam aprender padrões. As camadas convolucionais começam apenas examinando os pixels e extraindo os recursos de baixo nível da imagem, como bordas. Camadas convolucionais posteriores juntam as arestas em formas mais complexas. No final, espera-se que a rede tenha uma representação das arestas e detalhes da imagem que pode passar para as camadas totalmente conectadas.

Anotação de imagem

Embora uma rede neural convolucional possa extrair padrões de imagens por si só, a precisão do sistema de visão computacional pode ser bastante melhorada com a anotação das imagens. Anotação de imagem é o processo de adição de metadados à imagem que auxilia o classificador na detecção de objetos importantes na imagem. O uso de anotações de imagem é importante sempre que os sistemas de visão computacional precisam ser altamente precisos, como ao controlar um veículo autônomo ou robô.

Existem várias maneiras pelas quais as imagens podem ser anotadas para melhorar o desempenho de um classificador de visão computacional. A anotação de imagem geralmente é feita com caixas delimitadoras, uma caixa que envolve as bordas do objeto de destino e informa ao computador para focar sua atenção dentro da caixa. A segmentação semântica é outro tipo de anotação de imagem, que opera atribuindo uma classe de imagem a cada pixel em uma imagem. Em outras palavras, todo pixel que possa ser considerado “grama” ou “árvore” será rotulado como pertencente a essas classes. A técnica fornece precisão em nível de pixel, mas criar anotações de segmentação semântica é mais complexo e demorado do que criar caixas delimitadoras simples. Outros métodos de anotação, como linhas e pontos, também existem.

Blogueiro e programador com especialidades em Machine Learning e Aprendizagem profunda tópicos. Daniel espera ajudar outras pessoas a usar o poder da IA ​​para o bem social.