blog dedrone

Dedrone presenta su solución de seguridad del espacio aéreo más rápida y precisa hasta la fecha

Por

Dedrone

El mAP de nuestro modelo mejoró un 24,3%

Escrito por: Rafael Turner (Director de Inteligencia Artificial, Dedrone), Alex Kimiavi (Ingeniero de Visión Artificial, Dedrone), Ivan Lebedev (Jefe del Equipo de Simulación, Dedrone)

Principales conclusiones

Hoy, Dedrone ha presentado su solución más rápida y precisa para el conocimiento del espacio aéreo inferior aprovechando PyTorch, Weights & Biases y H100 de Nvidia para crear un nuevo modelo que llamamos Pythagoras 1.
Para crear la solución de seguridad del espacio aéreo más rápida y precisa del mundo es necesario que se combinen tres elementos fundamentales. Se trata del hardware, la arquitectura de red neuronal y los datos. En cada caso, Dedrone ha reunido los componentes más capaces disponibles.
Este motor básico puede aplicarse tanto para proteger contra drones no autorizados como para permitir que los drones productivos naveguen con seguridad por un espacio aéreo cada vez más complejo.
Pythagoras 1 ya ha dado grandes saltos en rendimiento, incluyendo velocidad y precisión de detección para la identificación de aves, helicópteros, drones cuadricópteros, drones de ala fija y aviones.

Introducción

Hoy nos complace anunciar que la próxima generación de modelos de visión por ordenador (CV) de Dedrone está disponible para su uso generalizado por parte de nuestros clientes. Lo llamamos Pitágoras 1, en honor a PyTorch, el marco de trabajo completo para crear modelos de aprendizaje profundo utilizado en Dedrone, y, en parte, en honor al famoso matemático griego. Esta versión presenta mejoras en la precisión de todas las clases de objetos y en la recuperación de la mayoría de las clases de objetos. La versión también incluye una mejora significativa del tiempo de ejecución del modelo. Este modelo de nueva generación es ahora la base de todos los productos de Dedrone, incluidas nuestras últimas soluciones de protección de drones mediante fusión de sensores, así como DedroneBeyond.

El equipo especializado en aprendizaje automático (ML) de Dedrone aprovechó tres activadores básicos para ofrecer una de las soluciones de seguridad del espacio aéreo basadas en fusión de sensores más rápidas y precisas del mundo.

En primer lugar, empezamos con la GPU adecuada, la H100. Esta máquina es bien conocida por ofrecer las mejores prestaciones actuales como máquina de formación de aprendizaje automático. Ahora tenemos varias de estas máquinas funcionando las 24 horas del día para mejorar continuamente nuestra solución.

A continuación, aprovechamos PyTorch como marco para los modelos de visión por ordenador de DedroneTracker.AI, nos propusimos construir los mejores modelos para una menor seguridad del espacio aéreo, manteniendo al mismo tiempo nuestro rendimiento para la misión contra drones. Queríamos responder a los comentarios de los clientes para reducir aún más los índices de falsas alarmas y mejorar nuestra capacidad de detectar objetos voladores mucho más allá de los drones cuadricópteros tradicionales. PyTorch nos permitió utilizar una arquitectura de red neuronal completamente nueva. Pythagoras 1 supone un gran salto adelante y es realmente la tecnología más avanzada para detectores de objetos en espacios aéreos reducidos".

Por último, tomamos la impresionante biblioteca de siete años de conjuntos de datos ya construidos y la aumentamos aún más mediante conjuntos de datos simulados y la integración del aprendizaje activo de los casos más interesantes y, en consecuencia, los volvimos a introducir en nuestro proceso de formación de modelos.

¿Cuáles fueron los resultados de la mejora del rendimiento?

Pythagoras 1 ha proporcionado un aumento medio del 20% en la velocidad de nuestro rastreador de vídeo, además de una mejora significativa en la precisión, reduciendo tanto los falsos positivos como los falsos negativos. A continuación se muestra una ilustración en la que se detallan los escenarios de verdaderos positivos, falsos positivos y falsos negativos:

‍

Estas mejoras pueden medirse mediante la mejora de la Precisión Media (mAP) y la Recuperación Media (mAR). Recall y Precision son las dos métricas clave utilizadas para evaluar el rendimiento de los detectores. En la práctica, existe un equilibrio entre estas métricas. Aumentar el umbral para clasificar un objeto en el espacio aéreo dará lugar a menos falsos positivos, mejorando así la precisión. Sin embargo, esto tiende a permitir más falsos negativos en la práctica, por lo que la recuperación es ahora menor. Esto también funciona en ambos sentidos. Las dos ecuaciones siguientes explican estas métricas:

‍

Además, observamos una mejora de 14 veces en nuestra precisión media para drones extremadamente pequeños. Estas mejoras se observaron en todos los objetos y en varias escalas espaciales. Las métricas de detección se detallan en las tablas siguientes:

‍

‍

¿Cómo se lograron estos resultados?

La necesidad de velocidad: infraestructura de vanguardia implantada

Dedrone se ha comprometido a mejorar nuestra solución integral de IA y, para ello, hemos adquirido un nuevo clúster informático que aprovecha la unidad de procesamiento gráfico (GPU) ML insignia de NVIDIA, la H100. Hemos trabajado con Lambda Labs para construir nuestro nuevo clúster informático. Este nuevo hardware ha reducido el tiempo necesario para entrenar nuestro modelo en millones de fotogramas de vídeo, ya que hemos adaptado nuestro código de entrenamiento para utilizar varias GPU. A su vez, esto permitió a nuestro equipo realizar experimentos a un ritmo mucho mayor. Dichos experimentos incluían modificaciones de la arquitectura de la red neuronal junto con el ajuste guiado de hiperparámetros. Además, nuestra infraestructura de evaluación se basa en Weights & Biases, lo que nos permite visualizar fácilmente los resultados de nuestro modelo y comprender dónde podemos mejorar. Además, Weights & Biases viene con un marco de ajuste de hiperparámetros, Sweeps, que se aplica a cada arquitectura que entrenamos.

Nueva arquitectura de red neuronal

Pythagoras 1 es una actualización completa de nuestro modelo anterior, que aprovecha una nueva arquitectura de red neuronal, un marco de entrenamiento y un marco de despliegue. La arquitectura de la red neuronal permite relacionar características más fácilmente y elimina algunas suposiciones de otros detectores que pueden confundir a la red. El marco de entrenamiento es mucho más robusto que el anterior, lo que nos permite crear prototipos y experimentar con nuevas ideas rápidamente. El nuevo motor de inferencia que utilizamos reduce enormemente el tiempo que tarda nuestro modelo en ejecutarse en un vídeo, lo que, a su vez, nos permite aprovechar más "neuronas" en nuestra red neuronal por un coste similar de fotogramas por segundo en comparación con nuestro modelo anterior. Además, la red puede aprovechar más píxeles de información sin sufrir un gran impacto en el tiempo de ejecución en comparación con nuestro método de despliegue anterior. Este cambio nos ha permitido procesar e inferir rápidamente lo que hay en un vídeo 4K, lo que nos permite estar preparados para nuevos retos de conocimiento del espacio aéreo como el Drone as First Responder (DFR).

Todo es cuestión de datos: Más datos que buenos datos

En el aprendizaje automático, los datos lo son todo. Unos buenos datos pueden mejorar significativamente el rendimiento de un modelo, mientras que unos datos deficientes pueden conducir a resultados subóptimos, independientemente de la complejidad del modelo. Este concepto se resume en el adagio:

"Los buenos datos son mejores que más datos".

Nuestro viaje comenzó con un conjunto de datos de referencia con la distribución de objetos que se ve en la imagen inferior. Los datos se recogieron en diversos sitios, pero contenían sobre todo drones. Estos fotogramas se anotaron con la herramienta interna de Dedrone y constituyeron la base de nuestro conjunto de datos de entrenamiento. Para mejorar el rendimiento de nuestro modelo, necesitábamos diversificar y mejorar la calidad de nuestros datos. Comprender la falta de riqueza de nuestro conjunto de datos, nos llevó a adoptar varios enfoques innovadores para la Curación y Perfeccionamiento de Datos (DCAP), que discutiremos en las siguientes secciones.

Conjunto inicial de datos de Dedrone — ‍

Curación y Perfeccionamiento de Datos (DCAP)

Una de nuestras estrategias clave para mejorar la calidad de los datos ha sido la integración del aprendizaje activo en nuestro proceso de formación de modelos. El aprendizaje activo consiste en seleccionar inteligentemente los puntos de datos más informativos para su anotación, mejorando así el rendimiento del modelo con menos muestras de datos.

‍

Nuestro bucle de aprendizaje activo consiste en identificar los casos fallidos, incluidas las falsas alertas, las clasificaciones incorrectas y las detecciones fallidas, incluso en casos con múltiples objetos en la escena. Los casos fallidos fueron cruciales para comprender en qué aspectos debía mejorar nuestro sistema.

Esta metodología de mejora continúa hoy en día; mediante la búsqueda activa de casos que fallan, podemos curar un conjunto de datos de formación más completo y eficaz. Los casos que fallan se envían a una empresa externa de anotación para que los anote y garantice su calidad. Una vez finalizado este proceso, los nuevos datos se integran en nuestro conjunto de formación, listo para la siguiente iteración de aprendizaje activo. Este proceso iterativo garantiza la mejora continua del rendimiento de nuestro modelo. Recientemente hemos añadido otros 2 millones de imágenes anotadas mediante esta metodología.

Datos artificiales

Los datos artificiales son cruciales en ML y CV, ya que ayudan a llenar lagunas en los conjuntos de datos del mundo real, aumentan la diversidad y equilibran las distribuciones de clases. Al generar imágenes sintéticas, podemos simular varios escenarios, aumentar los datos existentes y crear casos desafiantes que mejoren la solidez y la precisión del modelo. Esto es aún más importante cuando los datos reales son escasos o difíciles de obtener.

Por lo tanto, para mejorar aún más el conjunto de datos de Dedrone, empleamos técnicas de aumento de datos utilizando nuestra herramienta AutoKat. AutoKat aumenta las imágenes existentes pintando objetos artificiales en ellas, con o sin anotaciones. Para este proyecto, adquirimos varios modelos, entre ellos 21 helicópteros, 7 aviones y 11 drones (cuadricópteros, drones de ala fija e incluso tres drones del Grupo 3), que pueden escalarse, orientarse y colocarse en cualquier posición dentro de una imagen.

Este método nos permite crear un conjunto diverso de imágenes, especialmente útil para equilibrar nuestro conjunto de datos generando muchas anotaciones de helicópteros y aviones. También ayuda a abordar la distribución del tamaño de los objetos, que es crucial para avanzar en nuestros modelos para trabajar con imágenes 4K. Aunque es posible que las imágenes generadas por AutoKat no capturen completamente el ruido, la iluminación y la nitidez de las imágenes del mundo real, contribuyen significativamente a mejorar nuestro conjunto de datos. A continuación se muestran algunos ejemplos de imágenes ampliadas para el proyecto Pythagoras 1.

Otro enfoque prometedor es la generación de imágenes totalmente artificiales utilizando entornos y objetos simulados. Nuestro equipo de simulación está trabajando en la creación de imágenes realistas en las que todo se renderiza a la vez, proporcionando información completa sobre el terreno. Los entornos simulados ofrecen la flexibilidad necesaria para experimentar con diversas condiciones de iluminación, escenarios meteorológicos y situaciones únicas difíciles de reproducir en la vida real, como drones kamikaze sobrevolando ciudades. El principal reto consiste en hacer coincidir las configuraciones simuladas de sensores y objetivos con las utilizadas en la vida real. A pesar de esta dificultad, creemos que, en el futuro, este enfoque de datos simulados mejorará aún más el rendimiento de nuestro modelo. He aquí algunas imágenes del mundo simulado que hemos desarrollado. Este enfoque está aún en desarrollo y se utilizará para las siguientes fases de mejora de Pitágoras 1.

Los datos son lo que da vida a cualquier modelo de ML. Con datos redundantes o deficientes, el modelo puede aprender comportamientos no deseados o no generalizar bien a instancias no vistas. A través de nuestro proceso de ablación identificamos aumentos de datos clave que mejoraron nuestro modelo. Los datos que aprovecha nuestro modelo también son difíciles de recopilar, como aviones y helicópteros a una distancia muy lejana de una cámara. Para tener esto en cuenta en nuestro conjunto de datos, el equipo de simulación pudo generar datos sintéticos. El equipo de Curación y Perfeccionamiento de Datos (DCAP) de Dedrone ha recopilado y sigue proporcionando datos deseables y diversos con los que se puede entrenar a Pythagoras. Estas mejoras continuas de nuestros datos siguen alimentando la mejora del rendimiento de Pythagoras.

Resultado

Después mejoramos la arquitectura de nuestra red neuronal, optimizamos los hiperparámetros, eliminamos los datos y rellenamos los huecos con datos simulados. ¡El mAP de nuestro modelo mejoró un 24,3%!

Qué esperar de Dedrone en el futuro

Nuestra visión es detectar, rastrear y clasificar todos los objetos voladores del cielo. Con Pythagoras 1, hemos dado un gran paso hacia este objetivo. Pythagoras 1 ofrece la solución más rápida y precisa del mundo para el conocimiento del espacio aéreo inferior y la lucha contra los UAS, aprovechando la tecnología de procesamiento más rápida, lo último en investigación y desarrollo de modelos ML y el respaldo de un sólido equipo de curación, perfección y simulación de datos. Estamos comprometidos con el continuo crecimiento y desarrollo de Pythagoras 1 y pronto lanzaremos versiones térmicas.

Publicado en

22 de enero de 2025

| Actualizado

24 de enero de 2025

Sobre el autor

El equipo de marketing de Dedrone se encarga de compartir noticias, actualizaciones y soluciones sobre defensa con drones con organizaciones de todo el mundo.