Inteligencia artificial

YOLOv7: El algoritmo de detección de objetos más avanzado

Publicado el 24 de julio de 2023

Actualizado el 23 de mayo de 2026

Por

Kunal Kejriwal

El 6 de julio de 2022 se marcó como un hito en la historia de la IA, ya que fue el día en que se lanzó YOLOv7. Desde su lanzamiento, YOLOv7 ha sido el tema más candente en la comunidad de desarrolladores de Visión por Computadora, y por buenas razones. YOLOv7 ya se considera un hito en la industria de la detección de objetos.

Poco después de que se publicó el artículo de YOLOv7, se convirtió en el modelo de detección de objetos en tiempo real más rápido y preciso. Pero, ¿cómo supera YOLOv7 a sus predecesores? ¿Qué hace que YOLOv7 sea tan eficiente en realizar tareas de visión por computadora?

En este artículo, intentaremos analizar el modelo YOLOv7 y tratar de encontrar la respuesta a por qué YOLOv7 se está convirtiendo en el estándar de la industria. Pero antes de que podamos responder a eso, debemos tener una breve visión general de la historia de la detección de objetos.

¿Qué es la detección de objetos?

La detección de objetos es una rama de la visión por computadora que identifica y localiza objetos en una imagen o un archivo de video. La detección de objetos es el bloque de construcción de numerosas aplicaciones, incluyendo coches autónomos, vigilancia monitoreada y incluso robótica.

Un modelo de detección de objetos se puede clasificar en dos categorías diferentes, detectores de un solo disparo y detectores de múltiples disparos.

Detección de objetos en tiempo real

Para entender realmente cómo funciona YOLOv7, es esencial que comprendamos el objetivo principal de YOLOv7, “Detección de objetos en tiempo real” . La detección de objetos en tiempo real es un componente clave de la visión por computadora moderna. Los modelos de detección de objetos en tiempo real intentan identificar y localizar objetos de interés en tiempo real. Los modelos de detección de objetos en tiempo real hicieron que fuera muy eficiente para los desarrolladores rastrear objetos de interés en un marco en movimiento, como un video o una entrada de vigilancia en vivo.

Los modelos de detección de objetos en tiempo real son esencialmente un paso por delante de los modelos de detección de imágenes convencionales. Mientras que el primero se utiliza para rastrear objetos en archivos de video, el segundo localiza e identifica objetos dentro de un marco estacionario, como una imagen.

Como resultado, los modelos de detección de objetos en tiempo real son muy eficientes para el análisis de video, vehículos autónomos, conteo de objetos, seguimiento de múltiples objetos y mucho más.

¿Qué es YOLO?

YOLO o ” Solo miras una vez” es una familia de modelos de detección de objetos en tiempo real. El concepto de YOLO se introdujo por primera vez en 2016 por Joseph Redmon y se convirtió en el tema de conversación casi de inmediato porque era mucho más rápido y más preciso que los algoritmos de detección de objetos existentes. No pasó mucho tiempo antes de que el algoritmo YOLO se convirtiera en un estándar en la industria de la visión por computadora.

El concepto fundamental que propone el algoritmo YOLO es utilizar una red neuronal de extremo a extremo que utiliza cuadros delimitadores y probabilidades de clase para hacer predicciones en tiempo real. YOLO fue diferente de los modelos de detección de objetos anteriores en el sentido de que propuso un enfoque diferente para realizar la detección de objetos repurposing clasificadores.

El cambio de enfoque funcionó, ya que YOLO pronto se convirtió en el estándar de la industria, ya que la brecha de rendimiento entre él y otros algoritmos de detección de objetos en tiempo real era significativa. Pero, ¿cuál fue la razón por la que YOLO fue tan eficiente?

Al compararlo con YOLO, los algoritmos de detección de objetos de entonces utilizaban Redes de Propuesta de Región para detectar regiones de interés posibles. El proceso de reconocimiento se realizaba en cada región por separado. Como resultado, estos modelos a menudo realizaban múltiples iteraciones en la misma imagen y, por lo tanto, la falta de precisión y un tiempo de ejecución más alto. Por otro lado, el algoritmo YOLO utiliza una capa completamente conectada para realizar la predicción de una vez.

¿Cómo funciona YOLO?

Hay tres pasos que explican cómo funciona un algoritmo YOLO.

Reformulación de la detección de objetos como un solo problema de regresión

El algoritmo YOLO intenta reformular la detección de objetos como un solo problema de regresión, incluyendo píxeles de imagen, probabilidades de clase y coordenadas de cuadros delimitadores. Por lo tanto, el algoritmo solo necesita mirar la imagen una vez para predecir y localizar los objetos de destino en las imágenes.

Razones para analizar la imagen globalmente

Además, cuando el algoritmo YOLO hace predicciones, analiza la imagen globalmente. Es diferente de las técnicas basadas en propuesta de región y deslizamiento, ya que el algoritmo YOLO ve la imagen completa durante el entrenamiento y la prueba en el conjunto de datos y es capaz de codificar información contextual sobre las clases y cómo aparecen.

Antes de YOLO, Fast R-CNN era uno de los algoritmos de detección de objetos más populares que no podía ver el contexto más amplio en la imagen porque utilizaba parches de fondo en una imagen para un objeto. Cuando se compara con el algoritmo Fast R-CNN, YOLO es un 50% más preciso cuando se trata de errores de fondo.

Generalización de la representación de objetos

Finalmente, el algoritmo YOLO también apunta a generalizar las representaciones de objetos en una imagen. Como resultado, cuando se ejecutó un algoritmo YOLO en un conjunto de datos con imágenes naturales y se probó para los resultados, YOLO superó a los modelos R-CNN existentes con una gran ventaja. Es porque YOLO es muy generalizable, las posibilidades de que se rompa cuando se implemente en entradas inesperadas o nuevos dominios eran escasas.

YOLOv7: ¿Qué hay de nuevo?

Ahora que tenemos una comprensión básica de qué son los modelos de detección de objetos en tiempo real y qué es el algoritmo YOLO, es hora de discutir el algoritmo YOLOv7.

Optimización del proceso de entrenamiento

El algoritmo YOLOv7 no solo intenta optimizar la arquitectura del modelo, sino que también apunta a optimizar el proceso de entrenamiento. Apunta a utilizar módulos y métodos de optimización para mejorar la precisión de la detección de objetos, fortaleciendo el costo de entrenamiento, mientras mantiene el costo de interferencia. Estos módulos de optimización se pueden referir a un conjunto de técnicas gratuitas entrenables.

Asignación de etiquetas de guía de liderazgo de grano a grano

El algoritmo YOLOv7 planea utilizar una nueva asignación de etiquetas de guía de liderazgo de grano a grano en lugar de la asignación de etiquetas dinámicas convencional. Es porque con la asignación de etiquetas dinámicas, entrenar un modelo con múltiples capas de salida causa algunos problemas, el más común de los cuales es cómo asignar objetivos dinámicos para diferentes ramas y sus salidas.

Reparametrización del modelo

La reparametrización del modelo es un concepto importante en la detección de objetos y su uso generalmente se sigue con algunos problemas durante el entrenamiento. El algoritmo YOLOv7 planea utilizar el concepto de análisis de políticas de reparametrización del modelo mediante el camino de propagación del gradiente aplicable a diferentes capas en la red.

Escalado extendido y compuesto

El algoritmo YOLOv7 también introduce los métodos de escalado extendido y compuesto para utilizar y utilizar eficazmente los parámetros y cálculos para la detección de objetos en tiempo real.

YOLOv7: Trabajo relacionado

Detección de objetos en tiempo real

YOLO es actualmente el estándar de la industria y la mayoría de los detectores de objetos en tiempo real implementan algoritmos YOLO y FCOS (Detección de objetos de una etapa completamente convolucional). Un detector de objetos en tiempo real de última generación generalmente tiene las siguientes características

Arquitectura de red más fuerte y rápida.
Un método eficaz de integración de características.
Un método de detección de objetos preciso.
Una función de pérdida robusta.
Un método de asignación de etiquetas eficaz.
Un método de entrenamiento eficaz.

El algoritmo YOLOv7 no utiliza aprendizaje auto-supervisado y métodos de destilación que a menudo requieren grandes cantidades de datos. Por el contrario, el algoritmo YOLOv7 utiliza un método de conjunto de técnicas gratuitas entrenables.

Reparametrización del modelo

Las técnicas de reparametrización del modelo se consideran una técnica de conjunto que combina varios módulos computacionales en una etapa de interferencia. La técnica se puede dividir en dos categorías, ensemble de nivel de modelo y ensemble de nivel de módulo.

Ahora, para obtener el modelo de interferencia final, la técnica de reparametrización de nivel de modelo utiliza dos prácticas. La primera práctica utiliza datos de entrenamiento diferentes para entrenar varios modelos idénticos y luego promedia los pesos de los modelos entrenados. Alternativamente, la otra práctica promedia los pesos de los modelos durante diferentes iteraciones.

La reparametrización de nivel de módulo está ganando popularidad en la actualidad porque divide un módulo en diferentes ramas de módulo o diferentes ramas idénticas durante la fase de entrenamiento y luego procede a integrar estas diferentes ramas en un módulo equivalente durante la interferencia.

Sin embargo, las técnicas de reparametrización no se pueden aplicar a todos los tipos de arquitectura. Es la razón por la que el algoritmo YOLOv7 utiliza nuevas técnicas de reparametrización del modelo para diseñar estrategias relacionadas adecuadas para diferentes arquitecturas.

Escalado del modelo

El escalado del modelo es el proceso de escalar un modelo existente para que se ajuste a diferentes dispositivos de cómputo. El escalado del modelo generalmente utiliza una variedad de factores como el número de capas (profundidad), el tamaño de las imágenes de entrada (resolución), el número de pirámides de características (etapa) y el número de canales (ancho). Estos factores juegan un papel crucial en garantizar un equilibrio entre los parámetros de la red, la velocidad de interferencia, el cálculo y la precisión del modelo.

Uno de los métodos de escalado más comúnmente utilizados es la búsqueda de arquitectura de red (NAS) que busca automáticamente factores de escalado adecuados desde motores de búsqueda sin reglas complicadas. La principal desventaja de utilizar NAS es que es un enfoque costoso para buscar factores de escalado adecuados.

Casi todos los modelos de reparametrización del modelo analizan factores de escalado individuales y únicos de forma independiente y, además, optimizan estos factores de forma independiente. Es porque la arquitectura NAS funciona con factores de escalado no correlacionados.

Es digno de destacar que los modelos basados en concatenación como VoVNet o DenseNet cambian el ancho de entrada de algunas capas cuando se escala la profundidad del modelo. YOLOv7 funciona en una arquitectura basada en concatenación y, por lo tanto, utiliza un método de escalado compuesto.

La figura mencionada anteriormente compara las redes de agregación de capas eficientes extendidas (E-ELAN) de diferentes modelos. El método E-ELAN propuesto mantiene el camino de transmisión del gradiente de la arquitectura original, pero apunta a aumentar la cardinalidad de las características agregadas utilizando convolución de grupo. El proceso puede mejorar las características aprendidas por diferentes mapas y puede hacer que el uso de cálculos y parámetros sea más eficiente.

Arquitectura YOLOv7

El modelo YOLOv7 utiliza los modelos YOLOv4, YOLO-R y los modelos YOLOv4 escalados como su base. El YOLOv7 es el resultado de los experimentos realizados en estos modelos para mejorar los resultados y hacer que el modelo sea más preciso.

Red de agregación de capas eficiente extendida o E-ELAN

E-ELAN es el bloque de construcción fundamental del modelo YOLOv7 y se deriva de modelos existentes sobre la eficiencia de la red, principalmente el ELAN.

Las consideraciones principales al diseñar una arquitectura eficiente son el número de parámetros, la densidad computacional y la cantidad de cálculo. Otros modelos también consideran factores como la influencia de la relación de canales de entrada/salida, ramas en la red de arquitectura, velocidad de interferencia de la red, número de elementos en los tensores de la red convolucional y más.

El modelo CSPVoNet no solo considera los parámetros mencionados anteriormente, sino que también analiza el camino del gradiente para aprender características más diversas al habilitar los pesos de diferentes capas. El enfoque permite que las interferencias sean mucho más rápidas y precisas. La arquitectura ELAN apunta a diseñar una red eficiente para controlar el camino de gradiente más corto y más largo para que la red pueda ser más efectiva en el aprendizaje y la convergencia.

ELAN ya ha alcanzado un estado estable independientemente del número de bloques computacionales apilados y la longitud del camino del gradiente. El estado estable puede ser destruido si los bloques computacionales se apilan ilimitadamente y la tasa de utilización de parámetros disminuirá. La arquitectura E-ELAN propuesta puede resolver el problema ya que utiliza expansión, barajado y fusión de cardinalidad para mejorar continuamente la capacidad de aprendizaje de la red mientras mantiene el camino de gradiente original.

Además, al comparar la arquitectura de E-ELAN con ELAN, la única diferencia está en el bloque computacional, mientras que la arquitectura de la capa de transición es invariable.

E-ELAN propone expandir la cardinalidad de los bloques computacionales y expandir el canal utilizando convolución de grupo. La carta de características se calculará y se barajará en grupos según el parámetro de grupo y luego se concatenará. El número de canales en cada grupo permanecerá igual que en la arquitectura original. Finalmente, los grupos de cartas de características se sumarán para realizar la cardinalidad.

Escalado del modelo para modelos basados en concatenación

El escalado del modelo ayuda a ajustar los atributos del modelo que ayudan a generar modelos según los requisitos y de diferentes escalas para satisfacer diferentes velocidades de interferencia.

La figura habla sobre el escalado del modelo para diferentes modelos basados en concatenación. Como se puede ver en la figura (a) y (b), el ancho de salida del bloque computacional aumenta con un aumento en el escalado de profundidad del modelo. Resultantemente, el ancho de entrada de las capas de transmisión se incrementa. Si estos métodos se implementan en arquitecturas basadas en concatenación, el proceso de escalado se realiza en profundidad y se muestra en la figura (c).

Por lo tanto, se puede concluir que no es posible analizar los factores de escalado de forma independiente para los modelos basados en concatenación y, en cambio, deben considerarse juntos. Por lo tanto, para un modelo basado en concatenación, es adecuado utilizar el método de escalado compuesto correspondiente. Además, cuando se escala el factor de profundidad, el canal de salida del bloque también debe escalarse.

Conjunto de técnicas gratuitas entrenables

Un conjunto de técnicas gratuitas es un término que los desarrolladores utilizan para describir un conjunto de métodos o técnicas que pueden alterar la estrategia de entrenamiento o el costo en un intento de mejorar la precisión del modelo. Entonces, ¿cuáles son estos conjuntos de técnicas gratuitas entrenables en YOLOv7? Veamos.

Convolución reparametrizada planificada

El algoritmo YOLOv7 utiliza caminos de propagación del gradiente para determinar cómo combinar idealmente una red con la convolución reparametrizada. Este enfoque de YOLOv7 es un intento de contrarrestar el algoritmo RepConv que, aunque ha funcionado bien en el modelo VGG, funciona mal cuando se aplica directamente a los modelos DenseNet y ResNet.

Para identificar las conexiones en una capa convolucional, el algoritmo RepConv combina la convolución 3×3 y la convolución 1×1. Si analizamos el algoritmo, su rendimiento y la arquitectura, observaremos que RepConv destruye la concatenación en DenseNet y el residual en ResNet.

La imagen anterior muestra un modelo reparametrizado planificado. Se puede ver que el algoritmo YOLOv7 encontró que una capa en la red con conexiones de concatenación o residuales no debe tener una conexión de identidad en el algoritmo RepConv. Resultantemente, es aceptable cambiar con RepConvN sin conexión de identidad.

Grueso para auxiliar y fino para pérdida de liderazgo

La supervisión profunda es una rama de la informática que a menudo encuentra su uso en el proceso de entrenamiento de redes profundas. El principio fundamental de la supervisión profunda es que agrega una cabeza auxiliar adicional en las capas intermedias de la red junto con los pesos de la red superficial con una pérdida asistente como guía. El algoritmo YOLOv7 se refiere a la cabeza que es responsable de la salida final como la cabeza de liderazgo y la cabeza auxiliar es la cabeza que asiste en el entrenamiento.

Avanzando, YOLOv7 utiliza un método diferente para la asignación de etiquetas. Convencionalmente, la asignación de etiquetas se ha utilizado para generar etiquetas refiriéndose directamente a la verdad de fondo y en función de un conjunto determinado de reglas. Sin embargo, en los últimos años, la distribución y la calidad de la entrada de predicción juegan un papel importante para generar una etiqueta confiable. YOLOv7 genera una etiqueta suave del objeto utilizando las predicciones del cuadro delimitador y la verdad de fondo.

Además, el nuevo método de asignación de etiquetas de YOLOv7 utiliza las predicciones de la cabeza de liderazgo para guiar tanto la cabeza de liderazgo como la cabeza auxiliar. El método de asignación de etiquetas tiene dos estrategias propuestas.

Asignador de etiquetas guiado por la cabeza de liderazgo

La estrategia realiza cálculos en función de los resultados de la predicción de la cabeza de liderazgo y la verdad de fondo y luego utiliza la optimización para generar etiquetas suaves. Estas etiquetas suaves se utilizan como el modelo de entrenamiento para la cabeza de liderazgo y la cabeza auxiliar.

La estrategia funciona en el supuesto de que, dado que la cabeza de liderazgo tiene una mayor capacidad de aprendizaje, las etiquetas que genera deben ser más representativas y correlacionar entre la fuente y el destino.

Asignador de etiquetas de liderazgo de grano a grano

Esta estrategia también realiza cálculos en función de los resultados de la predicción de la cabeza de liderazgo y la verdad de fondo y luego utiliza la optimización para generar etiquetas suaves. Sin embargo, hay una diferencia clave. Etiqueta gruesa y etiqueta fina.

La etiqueta gruesa se genera relajando las restricciones del proceso de asignación de muestra positiva

que trata más cuadrículas como objetivos positivos. Se hace para evitar el riesgo de perder información debido a la debilidad de aprendizaje de la cabeza auxiliar.

La figura anterior explica el uso de un conjunto de técnicas gratuitas entrenables en el algoritmo YOLOv7. Muestra un esquema grueso para la cabeza auxiliar y fino para la cabeza de liderazgo. Cuando comparamos un modelo con cabeza auxiliar (b) con el modelo normal (a), observaremos que el esquema en (b) tiene una cabeza auxiliar, mientras que no está en (a).

La figura (c) muestra el asignador de etiquetas independiente común, mientras que la figura (d) y la figura (e) representan el Asignador de etiquetas guiado por la cabeza de liderazgo y el Asignador de etiquetas de liderazgo de grano a grano utilizados por YOLOv7, respectivamente.

Otros conjuntos de técnicas gratuitas entrenables

Además de los mencionados anteriormente, el algoritmo YOLOv7 utiliza conjuntos de técnicas gratuitas adicionales, aunque no fueron propuestos originalmente por ellos. Estos son

Normalización de lotes en tecnología Conv-Bn-Activation: Esta estrategia se utiliza para conectar una capa convolucional directamente a la capa de normalización de lotes.
Conocimiento implícito en YOLOR: El YOLOv7 combina la estrategia con el mapa de características convolucional.
Modelo EMA: El modelo EMA se utiliza como modelo de referencia final en YOLOv7, aunque su uso principal es en el método del profesor promedio.

YOLOv7: Experimentos

Configuración experimental

El algoritmo YOLOv7 utiliza el conjunto de datos Microsoft COCO para el entrenamiento y la validación de su modelo de detección de objetos y no todos estos experimentos utilizan un modelo preentrenado. Los desarrolladores utilizaron el conjunto de datos de entrenamiento de 2017 para el entrenamiento y utilizaron el conjunto de datos de validación de 2017 para seleccionar los hiperparámetros. Finalmente, el rendimiento del modelo de detección de objetos YOLOv7 se compara con algoritmos de detección de objetos de última generación.

Los desarrolladores diseñaron un modelo básico para GPU de borde (YOLOv7-tiny), GPU normal (YOLOv7) y GPU de nube (YOLOv7-W6). Además, el algoritmo YOLOv7 también utiliza un modelo básico para el escalado del modelo según diferentes requisitos de servicio y obtiene diferentes modelos. Para el algoritmo YOLOv7, el escalado de pila se realiza en el cuello y se utilizan compuestos propuestos para escalar la profundidad y el ancho del modelo.

Líneas de base

El algoritmo YOLOv7 utiliza modelos YOLO anteriores y el algoritmo de detección de objetos YOLOR como sus líneas de base.

La figura anterior compara la línea de base del modelo YOLOv7 con otros modelos de detección de objetos y los resultados son bastante evidentes. Cuando se compara con el algoritmo YOLOv4, YOLOv7 no solo utiliza un 75% menos de parámetros, sino que también utiliza un 15% menos de cálculo y tiene una precisión un 0,4% mayor.

Comparación con modelos de detección de objetos de última generación

La figura anterior muestra los resultados cuando YOLOv7 se compara con modelos de detección de objetos de última generación para GPU móviles y GPU generales. Se puede observar que el método propuesto por el algoritmo YOLOv7 tiene la mejor puntuación de comercio entre velocidad y precisión.

Estudio de ablación: Método de escalado compuesto propuesto

La figura anterior compara los resultados de utilizar diferentes estrategias para escalar el modelo. La estrategia de escalado en el modelo YOLOv7 escala la profundidad del bloque computacional 1,5 veces y escala el ancho 1,25 veces.

Cuando se compara con un modelo que solo escala la profundidad, el modelo YOLOv7 funciona mejor en un 0,5% mientras utiliza menos parámetros y cálculo. Por otro lado, cuando se compara con modelos que solo escalan la profundidad, la precisión de YOLOv7 se mejora en un 0,2%, pero el número de parámetros debe escalarse en un 2,9% y el cálculo en un 1,2%.

Modelo reparametrizado planificado propuesto

Para verificar la generalidad de su modelo reparametrizado propuesto, el algoritmo YOLOv7 lo utiliza en modelos basados en residuos y basados en concatenación para la verificación. Para el proceso de verificación, el algoritmo YOLOv7 utiliza 3 pilas ELAN para el modelo basado en concatenación y CSPDarknet para el modelo basado en residuos.

Para el modelo basado en concatenación, el algoritmo reemplaza las capas convolucionales 3×3 en las 3 pilas ELAN con RepConv. La figura siguiente muestra la configuración detallada de RepConv planificado y 3 pilas ELAN.

Además, cuando se trata de un modelo basado en residuos, el algoritmo YOLOv7 utiliza un bloque oscuro revertido porque el bloque oscuro original no tiene una capa convolucional 3×3. La figura siguiente muestra la arquitectura del CSPDarknet revertido que invierte las posiciones de las capas convolucionales 3×3 y 1×1.

Pérdida asistente propuesta para la cabeza auxiliar

Para la pérdida asistente para la cabeza auxiliar, el modelo YOLOv7 compara la asignación de etiquetas independiente para la cabeza auxiliar y la cabeza de liderazgo.

La figura anterior contiene los resultados del estudio sobre la cabeza auxiliar propuesta. Se puede ver que el rendimiento general del modelo aumenta con un aumento en la pérdida asistente. Además, la asignación de etiquetas guiada por la cabeza de liderazgo propuesta por el modelo YOLOv7 funciona mejor que las estrategias de asignación de etiquetas independientes.

Resultados de YOLOv7

En función de los experimentos anteriores, aquí está el resultado del rendimiento de YOLOv7 en comparación con otros algoritmos de detección de objetos.

La figura anterior compara el modelo YOLOv7 con otros algoritmos de detección de objetos y se puede observar claramente que el modelo YOLOv7 supera a otros modelos de detección de objetos en términos de Precisión promedio (AP) vs interferencia por lote.

Además, la figura siguiente compara el rendimiento de YOLOv7 vs otros algoritmos de detección de objetos en tiempo real. Una vez más, YOLOv7 supera a otros modelos en términos de rendimiento general, precisión y eficiencia.

Aquí hay algunas observaciones adicionales de los resultados y el rendimiento de YOLOv7.

El YOLOv7-Tiny es el modelo más pequeño de la familia YOLO, con más de 6 millones de parámetros. El YOLOv7-Tiny tiene una precisión promedio del 35,2% y supera a los modelos YOLOv4-Tiny con parámetros comparables.
El modelo YOLOv7 tiene más de 37 millones de parámetros y supera a modelos con más parámetros como YOLov4.
El modelo YOLOv7 tiene la tasa de mAP y FPS más alta en el rango de 5 a 160 FPS.

Conclusión

YOLO o “Solo miras una vez” es el algoritmo de detección de objetos de última generación en la visión por computadora moderna. El algoritmo YOLO es conocido por su alta precisión y eficiencia y, como resultado, encuentra una aplicación extensa en la industria de la detección de objetos en tiempo real. Desde que se introdujo el primer algoritmo YOLO en 2016, los experimentos han permitido a los desarrolladores mejorar el modelo continuamente.

El modelo YOLOv7 es la última incorporación a la familia YOLO y es el algoritmo YOLO más poderoso hasta la fecha. En este artículo, hemos hablado sobre los fundamentos de YOLOv7 y hemos intentado explicar qué hace que YOLOv7 sea tan eficiente.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.