talón YOLOv7: ¿El algoritmo de detección de objetos más avanzado? - Unite.AI
Contáctanos

Inteligencia artificial

YOLOv7: ¿El algoritmo de detección de objetos más avanzado?

mm

Publicado

 on

El 6 de julio de 2022 quedará marcado como un hito en la historia de la IA porque fue ese día cuando se lanzó YOLOv7. Desde su lanzamiento, YOLOv7 ha sido el tema más candente en la comunidad de desarrolladores de Computer Vision, y por las razones correctas. YOLOv7 ya se considera un hito en la industria de la detección de objetos. 

Poco después de la Se publicó el artículo de YOLOv7, resultó ser el modelo de detección de objeciones en tiempo real más rápido y preciso. Pero, ¿cómo supera YOLOv7 a sus predecesores? ¿Qué hace que YOLOv7 sea tan eficiente en la realización de tareas de visión artificial? 

En este artículo, intentaremos analizar el modelo YOLOv7 e intentaremos encontrar la respuesta a por qué YOLOv7 se está convirtiendo en el estándar de la industria. Pero antes de que podamos responder eso, tendremos que echar un vistazo a la breve historia de la detección de objetos. 

¿Qué es la detección de objetos?

La detección de objetos es una rama de la visión artificial. que identifica y localiza objetos en una imagen o un archivo de video. La detección de objetos es la base de numerosas aplicaciones, incluidos los vehículos autónomos, la vigilancia supervisada e incluso la robótica. 

Un modelo de detección de objetos se puede clasificar en dos categorías diferentes, detectores de un solo disparo, y detectores multidisparo. 

Detección de objetos en tiempo real

Para entender realmente cómo funciona YOLOv7, es esencial que entendamos el objetivo principal de YOLOv7, “Detección de objetos en tiempo real”. La detección de objetos en tiempo real es un componente clave de la visión artificial moderna. Los modelos de detección de objetos en tiempo real intentan identificar y localizar objetos de interés en tiempo real. Los modelos de detección de objetos en tiempo real hicieron que fuera realmente eficiente para los desarrolladores rastrear objetos de interés en un marco en movimiento como un video o una entrada de vigilancia en vivo. 

Los modelos de detección de objetos en tiempo real están esencialmente un paso por delante de los modelos de detección de imágenes convencionales. Mientras que el primero se usa para rastrear objetos en archivos de video, el segundo localiza e identifica objetos dentro de un cuadro estacionario como una imagen. 

Como resultado, los modelos de detección de objetos en tiempo real son realmente eficientes para análisis de video, vehículos autónomos, conteo de objetos, seguimiento de múltiples objetos y mucho más. 

¿Qué es YOLO?

YOLO o “Solo miras una vez” es una familia de modelos de detección de objetos en tiempo real. El concepto YOLO fue presentado por primera vez en 2016 por Joseph Redmon, y fue el tema de conversación de la ciudad casi al instante porque era mucho más rápido y mucho más preciso que los algoritmos de detección de objetos existentes. No pasó mucho tiempo antes de que el algoritmo YOLO se convirtiera en un estándar en la industria de la visión artificial. 

El concepto fundamental que propone el algoritmo YOLO es utilizar una red neuronal de extremo a extremo utilizando cuadros delimitadores y probabilidades de clase para hacer predicciones en tiempo real. YOLO era diferente del modelo de detección de objetos anterior en el sentido de que proponía un enfoque diferente para realizar la detección de objetos mediante la reutilización de clasificadores. 

El cambio de enfoque funcionó, ya que YOLO pronto se convirtió en el estándar de la industria, ya que la brecha de rendimiento entre sí mismo y otros algoritmos de detección de objetos en tiempo real era significativa. Pero, ¿cuál fue la razón por la que YOLO fue tan eficiente? 

En comparación con YOLO, los algoritmos de detección de objetos en aquel entonces usaban Region Proposal Networks para detectar posibles regiones de interés. El proceso de reconocimiento se realizó luego en cada región por separado. Como resultado, estos modelos a menudo realizaban múltiples iteraciones en la misma imagen y, por lo tanto, la falta de precisión y el mayor tiempo de ejecución. Por otro lado, el algoritmo YOLO utiliza una sola capa completamente conectada para realizar la predicción de una sola vez. 

¿Cómo funciona YOLO?

Hay tres pasos que explican cómo funciona un algoritmo YOLO. 

Reformulación de la detección de objetos como un problema de regresión simple

El El algoritmo YOLO intenta reformular la detección de objetos como un problema de regresión único, incluidos los píxeles de la imagen, las probabilidades de clase y las coordenadas del cuadro delimitador. Por lo tanto, el algoritmo tiene que mirar la imagen solo una vez para predecir y ubicar los objetos de destino en las imágenes. 

Razona la imagen globalmente

Además, cuando el algoritmo YOLO hace predicciones, razona la imagen globalmente. Es diferente de las técnicas deslizantes y basadas en propuestas regionales, ya que el algoritmo YOLO ve la imagen completa durante el entrenamiento y las pruebas en el conjunto de datos, y puede codificar información contextual sobre las clases y cómo aparecen. 

Antes de YOLO, Fast R-CNN era uno de los algoritmos de detección de objetos más populares que no podía ver el contexto más grande en la imagen porque solía confundir los parches de fondo en una imagen con un objeto. En comparación con el algoritmo Fast R-CNN, YOLO es un 50 % más preciso cuando se trata de errores de fondo. 

Generaliza la Representación de Objetos

Finalmente, el algoritmo YOLO también tiene como objetivo generalizar las representaciones de los objetos en una imagen. Como resultado, cuando se ejecutó un algoritmo de YOLO en un conjunto de datos con imágenes naturales y se probaron los resultados, YOLO superó a los modelos R-CNN existentes por un amplio margen. Debido a que YOLO es altamente generalizable, las posibilidades de fallar cuando se implementa en entradas inesperadas o nuevos dominios eran escasas. 

YOLOv7: ¿Qué hay de nuevo?

Ahora que tenemos una comprensión básica de qué son los modelos de detección de objetos en tiempo real y qué es el algoritmo YOLO, es hora de analizar el algoritmo YOLOv7. 

Optimización del proceso de formación

El algoritmo YOLOv7 no solo intenta optimizar la arquitectura del modelo, sino que también tiene como objetivo optimizar el proceso de entrenamiento. Su objetivo es utilizar módulos y métodos de optimización para mejorar la precisión de la detección de objetos, fortaleciendo el costo de la capacitación y manteniendo el costo de la interferencia. Estos módulos de optimización pueden denominarse bolsa entrenable de regalos. 

Asignación guiada de etiquetas de plomo grueso a fino

El algoritmo YOLOv7 planea usar una nueva asignación de etiqueta guiada de plomo grueso a fino en lugar del convencional Asignación dinámica de etiquetas. Es así porque con la asignación de etiquetas dinámicas, entrenar un modelo con varias capas de salida provoca algunos problemas, el más común es cómo asignar objetivos dinámicos para diferentes ramas y sus salidas. 

Re-parametrización del modelo

La reparametrización del modelo es un concepto importante en la detección de objetos, y su uso generalmente se sigue con algunos problemas durante el entrenamiento. El algoritmo YOLOv7 planea usar el concepto de trayectoria de propagación del gradiente para analizar las políticas de reparametrización del modelo aplicable a las diferentes capas de la red. 

Escala extendida y compuesta

El algoritmo YOLOv7 también introduce la métodos de escalamiento compuestos y extendidos para utilizar y usar de manera efectiva los parámetros y cálculos para la detección de objetos en tiempo real. 

YOLOv7: trabajo relacionado

Detección de objetos en tiempo real

YOLO es actualmente el estándar de la industria, y la mayoría de los detectores de objetos en tiempo real implementan algoritmos YOLO y FCOS (Detección de objetos de una etapa completamente convolucional). Un detector de objetos en tiempo real de última generación generalmente tiene las siguientes características

  • Arquitectura de red más fuerte y rápida. 
  • Un método efectivo de integración de características. 
  • Un método preciso de detección de objetos. 
  • Una función de pérdida robusta. 
  • Un método eficiente de asignación de etiquetas. 
  • Un método de entrenamiento eficiente. 

El algoritmo YOLOv7 no utiliza métodos de destilación y aprendizaje autosupervisados ​​que a menudo requieren grandes cantidades de datos. Por el contrario, el algoritmo YOLOv7 utiliza un método de bolsa de regalos entrenable. 

Re-parametrización del modelo

Las técnicas de reparametrización de modelos se consideran una técnica de conjunto que fusiona múltiples módulos computacionales en una etapa de interferencia. La técnica se puede dividir en dos categorías, conjunto a nivel de modelo, y conjunto a nivel de módulo. 

Ahora, para obtener el modelo de interferencia final, la técnica de reparametrización a nivel de modelo utiliza dos prácticas. La primera práctica utiliza diferentes datos de entrenamiento para entrenar numerosos modelos idénticos y luego promedia los pesos de los modelos entrenados. Alternativamente, la otra práctica promedia los pesos de los modelos durante diferentes iteraciones. 

La reparametrización a nivel de módulo está ganando una inmensa popularidad recientemente porque divide un módulo en diferentes ramas de módulos, o diferentes ramas idénticas durante la fase de entrenamiento, y luego procede a integrar estas diferentes ramas en un módulo equivalente mientras interfiere. 

Sin embargo, las técnicas de reparametrización no se pueden aplicar a todo tipo de arquitectura. Es la razón por la cual el El algoritmo YOLOv7 utiliza nuevas técnicas de reparametrización de modelos para diseñar estrategias relacionadas adecuado para diferentes arquitecturas. 

Escalado del modelo

El escalado de modelos es el proceso de escalar hacia arriba o hacia abajo un modelo existente para que se ajuste a diferentes dispositivos informáticos. La escala del modelo generalmente usa una variedad de factores como el número de capas (profundidad), tamaño de las imágenes de entrada (resolución), número de pirámides de características (escenario) y el número de canales (anchura). Estos factores juegan un papel crucial para garantizar un compromiso equilibrado de los parámetros de red, la velocidad de interferencia, el cálculo y la precisión del modelo. 

Uno de los métodos de escalado más utilizados es Búsqueda de arquitectura de red o NAS que busca automáticamente factores de escala adecuados de los motores de búsqueda sin reglas complicadas. La principal desventaja de usar el NAS es que es un enfoque costoso para buscar factores de escala adecuados. 

Casi todos los modelos de reparametrización de modelos analizan factores de escala individuales y únicos de forma independiente y, además, incluso optimizan estos factores de forma independiente. Es porque la arquitectura NAS funciona con factores de escala no correlacionados. 

Vale la pena señalar que los modelos basados ​​en concatenación como VoVNet or red densa cambie el ancho de entrada de algunas capas cuando se escala la profundidad de los modelos. YOLOv7 funciona en una arquitectura basada en concatenación propuesta y, por lo tanto, utiliza un método de escalado compuesto.

La figura mencionada anteriormente compara la redes extendidas de agregación de capas eficientes (E-ELAN) de diferentes modelos. El método E-ELAN propuesto mantiene la ruta de transmisión de gradiente de la arquitectura original, pero tiene como objetivo aumentar la cardinalidad de las características añadidas mediante la convolución de grupo. El proceso puede mejorar las características aprendidas por diferentes mapas y puede hacer que el uso de cálculos y parámetros sea más eficiente. 

Arquitectura YOLOv7

El modelo YOLOv7 utiliza los modelos YOLOv4, YOLO-R y Scaled YOLOv4 como base. El YOLOv7 es el resultado de los experimentos realizados en estos modelos para mejorar los resultados y hacer que el modelo sea más preciso. 

Red de agregación de capas eficiente extendida o E-ELAN

E-ELAN es el bloque de construcción fundamental del modelo YOLOv7, y se deriva de modelos ya existentes sobre eficiencia de red, principalmente el VIVACIDAD. 

Las principales consideraciones al diseñar una arquitectura eficiente son el número de parámetros, la densidad computacional y la cantidad de cómputo. Otros modelos también consideran factores como la influencia de la relación de canales de entrada/salida, las ramas en la red de arquitectura, la velocidad de interferencia de la red, la cantidad de elementos en los tensores de la red convolucional y más. 

El CSPVoNet El modelo no solo considera los parámetros mencionados anteriormente, sino que también analiza la ruta de gradiente para aprender características más diversas al habilitar los pesos de diferentes capas. El enfoque permite que las interferencias sean mucho más rápidas y precisas. El VIVACIDAD La arquitectura tiene como objetivo diseñar una red eficiente para controlar la ruta de gradiente más corta y larga para que la red pueda ser más efectiva en el aprendizaje y la convergencia. 

ELAN ya ha alcanzado una etapa estable, independientemente del número de bloques computacionales apilados y la longitud de la ruta de gradiente. El estado estable podría destruirse si los bloques computacionales se apilan ilimitadamente y la tasa de utilización de parámetros disminuirá. El La arquitectura E-ELAN propuesta puede resolver el problema ya que utiliza cardinalidad de expansión, barajado y fusión para mejorar continuamente la capacidad de aprendizaje de la red mientras se conserva la ruta de gradiente original. 

Además, al comparar la arquitectura de E-ELAN con ELAN, la única diferencia está en el bloque computacional, mientras que la arquitectura de la capa de transición no cambia. 

E-ELAN propone expandir la cardinalidad de los bloques computacionales y expandir el canal usando convolución de grupo. A continuación, se calculará el mapa de características y se barajará en grupos según el parámetro de grupo, y luego se concatenarán juntos. El número de canales en cada grupo seguirá siendo el mismo que en la arquitectura original. Por último, se agregarán los grupos de mapas de características para realizar la cardinalidad. 

Escalado de modelos para modelos basados ​​en concatenación

La escala del modelo ayuda en ajustando los atributos de los modelos que ayuda en la generación de modelos según los requisitos y de diferentes escalas para cumplir con las diferentes velocidades de interferencia. 

La figura habla sobre la escala del modelo para diferentes modelos basados ​​en concatenación. Como puede ver en las figuras (a) y (b), el ancho de salida del bloque computacional aumenta con un aumento en la escala de profundidad de los modelos. Como resultado, se incrementa el ancho de entrada de las capas de transmisión. Si estos métodos se implementan en una arquitectura basada en concatenación, el proceso de escalado se realiza en profundidad y se muestra en la figura (c). 

Por lo tanto, se puede concluir que no es posible analizar los factores de escala de forma independiente para los modelos basados ​​en concatenación, sino que deben considerarse o analizarse en conjunto. Por lo tanto, para un modelo basado en concatenación, es adecuado utilizar el método de escalado del modelo compuesto correspondiente. Además, cuando se escala el factor de profundidad, también se debe escalar el canal de salida del bloque. 

Bolsa entrenable de regalos 

Una bolsa de obsequios es un término que usan los desarrolladores para describir un conjunto de métodos o técnicas que pueden alterar la estrategia de entrenamiento o el costo en un intento de aumentar la precisión del modelo. Entonces, ¿qué son estas bolsas de regalos entrenables en YOLOv7? Echemos un vistazo. 

Convolución Reparametrizada Planificada

El algoritmo YOLOv7 utiliza rutas de propagación de flujo de gradiente para determinar cómo combinar idealmente una red con la convolución reparametrizada. Este enfoque de YOLov7 es un intento de contrarrestar Algoritmo RepConv que aunque ha funcionado serenamente en el modelo VGG, funciona mal cuando se aplica directamente a los modelos DenseNet y ResNet. 

Para identificar las conexiones en una capa convolucional, el El algoritmo RepConv combina convolución 3×3 y convolución 1×1. Si analizamos el algoritmo, su rendimiento y la arquitectura observaremos que RepConv destruye el concatenación en DenseNet, y el residual en ResNet

La imagen de arriba muestra un modelo reparametrizado planificado. Se puede ver que el algoritmo YOLov7 encontró que una capa en la red con concatenación o conexiones residuales no debería tener una conexión de identidad en el algoritmo RepConv. Como resultado, es aceptable cambiar con RepConvN sin conexiones de identidad. 

Grueso para Auxiliar y Fino para Pérdida de Plomo

Supervisión Profunda es una rama de la informática que a menudo encuentra su uso en el proceso de entrenamiento de redes profundas. El principio fundamental de la supervisión profunda es que añade un cabezal auxiliar adicional en las capas intermedias de la red junto con los pesos de red poco profundos con pérdida de asistente como guía. El algoritmo YOLOv7 se refiere al cabezal responsable del resultado final como el cabezal principal, y el cabezal auxiliar es el cabezal que ayuda en el entrenamiento. 

Avanzando, YOLOv7 usa un método diferente para la asignación de etiquetas. Convencionalmente, la asignación de etiquetas se ha utilizado para generar etiquetas haciendo referencia directamente a la realidad básica y sobre la base de un conjunto de reglas determinado. Sin embargo, en los últimos años, la distribución y la calidad de la entrada de predicción juegan un papel importante para generar una etiqueta confiable. YOLOv7 genera una etiqueta suave del objeto mediante el uso de las predicciones del cuadro delimitador y la verdad fundamental. 

Además, el nuevo método de asignación de etiquetas del algoritmo YOLOv7 utiliza las predicciones del cabezal principal para guiar tanto al cabezal principal como al auxiliar. El método de asignación de etiquetas tiene dos estrategias propuestas. 

Asignador de etiquetas guiado por cabeza principal

La estrategia realiza cálculos sobre la base de los resultados de predicción del líder principal y la verdad del terreno, y luego utiliza la optimización para generar etiquetas flexibles. Estas etiquetas blandas se utilizan luego como modelo de entrenamiento tanto para el cabezal principal como para el cabezal auxiliar. 

La estrategia funciona bajo el supuesto de que debido a que el líder principal tiene una mayor capacidad de aprendizaje, las etiquetas que genera deben ser más representativas y correlacionadas entre la fuente y el objetivo. 

Asignador de etiquetas guiado con cabezal de plomo grueso a fino

Esta estrategia también realiza cálculos sobre la base de los resultados de predicción del líder principal y la realidad del terreno, y luego utiliza la optimización para generar etiquetas flexibles. Sin embargo, hay una diferencia clave. En esta estrategia, hay dos conjuntos de etiquetas blandas, nivel grueso, y etiqueta fina. 

La etiqueta gruesa se genera relajando las restricciones de la muestra positiva

proceso de asignación que trata más cuadrículas como objetivos positivos. Se hace para evitar el riesgo de perder información debido a la menor fuerza de aprendizaje del jefe auxiliar. 

La figura anterior explica el uso de una bolsa entrenable de regalos en el algoritmo YOLOv7. Muestra grueso para el cabezal auxiliar y fino para el cabezal principal. Cuando comparamos un Modelo con Cabeza Auxiliar (b) con el Modelo Normal (a), observaremos que el esquema en (b) tiene una cabeza auxiliar, mientras que en (a) no lo está. 

La Figura (c) representa el asignador de etiquetas independiente común, mientras que la figura (d) y la figura (e) representan respectivamente el Asignador guiado de plomo y el Asignador guiado de plomo grueso a fino que utiliza YOLOv7.  

Otra bolsa entrenable de regalos

Además de los mencionados anteriormente, el algoritmo YOLOv7 utiliza bolsas adicionales de obsequios, aunque no fueron propuestos por ellos originalmente. Ellos son

  • Normalización de lotes en tecnología de activación de Conv-Bn: Esta estrategia se utiliza para conectar una capa convolucional directamente a la capa de normalización por lotes. 
  • Conocimiento Implícito en YOLOR: El YOLOv7 combina la estrategia con el mapa de funciones Convolucional. 
  • Modelo EMA: El modelo EMA se utiliza como modelo de referencia final en YOLOv7, aunque su uso principal es para el método del profesor medio. 

YOLOv7 : Experimentos

Configuración experimental

El algoritmo YOLOv7 utiliza el Conjunto de datos COCO de Microsoft para entrenamiento y validación su modelo de detección de objetos, y no todos estos experimentos usan un modelo pre-entrenado. Los desarrolladores utilizaron el conjunto de datos del tren de 2017 para el entrenamiento y el conjunto de datos de validación de 2017 para seleccionar los hiperparámetros. Finalmente, el rendimiento de los resultados de detección de objetos de YOLOv7 se compara con los algoritmos de última generación para la detección de objetos. 

Los desarrolladores diseñaron un modelo básico para GPU perimetral (YOLOv7-tiny), GPU normal (YOLOv7) y GPU en la nube (YOLOv7-W6). Además, el algoritmo YOLOv7 también utiliza un modelo básico para escalar el modelo según los diferentes requisitos del servicio y obtiene diferentes modelos. Para el algoritmo YOLOv7, la escala de la pila se realiza en el cuello y los compuestos propuestos se utilizan para aumentar la profundidad y el ancho del modelo. 

Líneas de base

El algoritmo YOLOv7 utiliza modelos YOLO anteriores y el algoritmo de detección de objetos YOLOR como base.

La figura anterior compara la línea de base del modelo YOLOv7 con otros modelos de detección de objetos y los resultados son bastante evidentes. Cuando se compara con el Algoritmo YOLOv4, YOLOv7 no solo usa un 75 % menos de parámetros, sino que también usa un 15 % menos de cálculo y tiene una precisión un 0.4 % mayor. 

Comparación con modelos de detectores de objetos de última generación

La figura anterior muestra los resultados cuando se compara YOLOv7 con modelos de detección de objetos de última generación para GPU móviles y generales. Se puede observar que el método propuesto por el algoritmo YOLOv7 tiene la mejor puntuación de compensación entre velocidad y precisión. 

Estudio de ablación: método de escala compuesto propuesto

La figura que se muestra arriba compara los resultados del uso de diferentes estrategias para ampliar el modelo. La estrategia de escalado en el modelo YOLOv7 escala la profundidad del bloque computacional 1.5 veces y escala el ancho 1.25 veces. 

Cuando se compara con un modelo que solo aumenta la profundidad, el modelo YOLOv7 funciona mejor en un 0.5 % mientras usa menos parámetros y potencia de cálculo. Por otro lado, en comparación con los modelos que solo aumentan la profundidad, la precisión de YOLOv7 mejora en un 0.2 %, pero la cantidad de parámetros debe escalarse en un 2.9 % y el cálculo en un 1.2 %. 

Modelo Reparametrizado Planificado Propuesto

Para verificar la generalidad de su modelo reparametrizado propuesto, el El algoritmo YOLOv7 lo usa en modelos basados ​​en residuos y en concatenación para la verificación. Para el proceso de verificación, el algoritmo YOLOv7 utiliza ELAN de 3 pilas para el modelo basado en concatenación y CSPDarknet para el modelo basado en residuos. 

Para el modelo basado en concatenación, el algoritmo reemplaza las capas convolucionales de 3×3 en la ELAN de 3 apilamientos con RepConv. La siguiente figura muestra la configuración detallada de Planned RepConv y ELAN de 3 pilas. 

Además, cuando se trata del modelo basado en residuos, el algoritmo YOLOv7 usa un bloque oscuro invertido porque el bloque oscuro original no tiene un bloque de convolución de 3×3. La siguiente figura muestra la arquitectura de la CSPDarknet invertida que invierte las posiciones de la capa convolucional 3×3 y 1×1. 

Pérdida de asistente propuesta para jefe auxiliar

Para la pérdida de asistente para cabezal auxiliar, el modelo YOLOv7 compara la asignación de etiquetas independientes para los métodos de cabezal auxiliar y cabezal principal. 

La figura anterior contiene los resultados del estudio sobre el cabezal auxiliar propuesto. Se puede ver que el rendimiento general del modelo aumenta con un aumento en la pérdida del asistente. Además, la asignación de etiquetas guiada por plomo propuesta por el modelo YOLOv7 funciona mejor que las estrategias de asignación de plomo independientes. 

Resultados de YOLOv7

Basado en los experimentos anteriores, este es el resultado del rendimiento de YOLov7 en comparación con otros algoritmos de detección de objetos. 

La figura anterior compara el modelo YOLOv7 con otros algoritmos de detección de objetos, y se puede observar claramente que YOLOv7 supera a otros modelos de detección de objeciones en términos de Precisión media (AP) v/s interferencia por lotes

Además, la siguiente figura compara el rendimiento de YOLOv7 con otros algoritmos de detección de objeciones en tiempo real. Una vez más, YOLOv7 supera a otros modelos en términos de rendimiento general, precisión y eficiencia. 

Aquí hay algunas observaciones adicionales de los resultados y actuaciones de YOLOv7. 

  1. El YOLOv7-Tiny es el modelo más pequeño de la familia YOLO, con más de 6 millones de parámetros. El YOLOv7-Tiny tiene una precisión promedio del 35.2 % y supera a los modelos YOLOv4-Tiny con parámetros comparables. 
  2. El modelo YOLOv7 tiene más de 37 millones de parámetros y supera a los modelos con parámetros más altos como YOLov4. 
  3. El modelo YOLOv7 tiene la tasa de mAP y FPS más alta en el rango de 5 a 160 FPS. 

Conclusión

YOLO o You Only Look Once es el modelo de detección de objetos de última generación en la visión artificial moderna. El algoritmo YOLO es conocido por su alta precisión y eficiencia y, como resultado, encuentra una amplia aplicación en la industria de detección de objetos en tiempo real. Desde que se introdujo el primer algoritmo YOLO en 2016, los experimentos han permitido a los desarrolladores mejorar el modelo continuamente. 

El modelo YOLOv7 es la última incorporación a la familia YOLO y es el algoritmo YOLo más potente hasta la fecha. En este artículo, hemos hablado sobre los fundamentos de YOLOv7 y tratamos de explicar qué hace que YOLOv7 sea tan eficiente. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.