La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Por qué las etiquetas a nivel de píxel son el futuro?

¿Por qué las etiquetas a nivel de píxel son el futuro?

Este artículo es un blog técnico compilado por el AI Research Institute, título original:

Por qué la precisión de los píxeles es el futuro de la anotación de imágenes

Autor | Vahan Petrosyan

Traducción|? ¿Yulián? Editor|Jerrod Durrell, ¿Dempsey? Jeff

Enlace original:

/@ vah AVP/why-pixel-precision-is-the-future-of-image-annotation-12a 891367 f7b

< Debería ¿La industria de la visión por computadora continúa utilizando anotaciones de cuadros delimitadores?

En este artículo, compartiré algunas ideas relacionadas con la anotación de imágenes que acumulé durante mi investigación doctoral. Específicamente, discutiré los métodos de anotación más modernos, sus tendencias y direcciones futuras. Finalmente, presentaré brevemente el software de anotación que estamos creando y describiré brevemente nuestra empresa.

Esquema:

Introducción a la anotación de imágenes

Método de anotación convencional: cuadro delimitador

Precisión de píxeles en la anotación de imágenes

? Introducción a la anotación de imágenes.

La anotación de imágenes es el proceso de seleccionar objetos en una imagen y etiquetarlos por sus nombres. Esta es la columna vertebral de la visión por computadora con inteligencia artificial. Por ejemplo, para que el software de su vehículo autónomo identifique con precisión cualquier objeto en una imagen, como un peatón, necesitaría entre cientos de miles y millones de reseñas sobre el peatón. Otros casos de uso incluyen análisis de imágenes de drones/satélite, seguridad y vigilancia, imágenes médicas, comercio electrónico, análisis de imágenes/videos en línea, AR/VR, etc.

El aumento de los datos de imágenes y las aplicaciones de visión por ordenador requiere grandes cantidades de datos de entrenamiento. ? Las tareas de ingeniería y preparación de datos representan más del 80% del tiempo dedicado a proyectos de inteligencia artificial y aprendizaje automático. ? Por lo tanto, en los últimos años, se han creado muchos servicios y herramientas de anotación de datos para satisfacer las necesidades de este mercado. Por lo tanto, el etiquetado de datos se convertirá en un mercado de 1.500 millones de dólares en 2018 y se espera que crezca hasta los 5.000 millones de dólares en 2023.

? 2. Método de anotación convencional: cuadro delimitador

La técnica de anotación más común es el cuadro delimitador, que es el proceso de ajustar un rectángulo ajustado alrededor del objeto de destino. Este es el método de anotación más utilizado, porque los cuadros delimitadores son relativamente simples y muchos algoritmos de detección de objetos se desarrollan utilizando este método (YOLO, R-CNN más rápido, etc.), por lo que todas las empresas de anotaciones proporcionan soluciones de anotación de cuadros delimitadores (servicio o). software). Sin embargo, las anotaciones de cuadros tienen desventajas importantes:

1. Se requiere una cantidad relativamente grande de cuadros delimitadores (generalmente alrededor de 100.000) para lograr una precisión de detección superior a 95. Por ejemplo, para la industria de la conducción autónoma, la gente suele recopilar millones de cuadros delimitadores para automóviles, peatones, farolas, carriles, conos, etc.

2. No importa cuántos datos utilices, las anotaciones del cuadro rebotado generalmente no logran una precisión de detección sobrehumana. Esto se debe principalmente al ruido adicional alrededor de los objetos contenidos en el área de la caja.

3. Para objetos ocluidos, la detección se vuelve extremadamente compleja. En muchos casos, el objeto de destino cubre menos del 20% del área del cuadro delimitador y el resto es ruido, lo que confunde el algoritmo de detección y la búsqueda del objeto correcto (consulte el ejemplo en Ejemplos, cuadro verde a continuación).

? 3. Precisión de píxeles en la anotación de imágenes

Los problemas anteriores de los cuadros delimitadores se pueden resolver anotando píxeles con precisión. Sin embargo, las herramientas de anotación más utilizadas dependen en gran medida de herramientas lentas de selección de objetos punto por punto, donde el anotador debe atravesar los bordes de los objetos. Esto no sólo requiere mucho tiempo y dinero, sino que también es muy susceptible a errores humanos. En comparación, estas tareas de anotación suelen costar alrededor de 10 veces más que la anotación del cuadro delimitador. ? Además, etiquetar con precisión la misma cantidad de píxeles de datos puede llevar hasta 10 veces más. ? Por lo tanto, los cuadros delimitadores siguen siendo el tipo de anotación más utilizado para una variedad de aplicaciones.

Sin embargo, los algoritmos de aprendizaje profundo han logrado enormes avances en los últimos siete años.

Mientras que en 2012 el algoritmo más avanzado (Alexnet) solo podía clasificar imágenes, los algoritmos actuales ya pueden identificar objetos con precisión a nivel de píxeles (ver imagen a continuación). Para una detección de objetos tan precisa, la anotación perfecta de píxeles es clave.

3.1. Inteligencia artificial/métodos basados ​​en segmentación

Ya existen métodos para la anotación pixelada utilizando soluciones basadas en segmentación (es decir, superpíxel SLIC, segmentación basada en GrabCut). Sin embargo, estos métodos realizan una segmentación basada en el color de los píxeles, que a menudo funciona mal en escenarios reales como la conducción autónoma, y ​​los resultados no son ideales. Por lo tanto, generalmente no se utilizan para esta tarea de anotación.

Durante los últimos tres años, NVIDIA ha llevado a cabo una extensa investigación con la Universidad de Toronto para permitir soluciones de anotación con precisión de píxeles. Su investigación se centra en generar polígonos con precisión de píxeles a partir de un cuadro delimitador determinado, incluidos los siguientes artículos: Polygon RNN, Polygon RNN, Curve GCN. -Publicado en CVPR en 2017, 2018 y 2019 respectivamente. En el mejor de los casos, generar polígonos usando estas herramientas requiere al menos dos clics precisos (es decir, generar un cuadro delimitador) y esperar que se ajuste con precisión al objeto de destino. Sin embargo, los polígonos sugeridos suelen ser inexactos y pueden llevar más tiempo del esperado (consulte el ejemplo a continuación).

Otro problema con este enfoque basado en polígonos es que es difícil seleccionar "anillos" (topologías) de objetos similares, donde se necesitan al menos dos polígonos para describir dichos objetos.

3.2. Un nuevo método de anotación pixelada

La forma más sencilla y rápida de pixelar una anotación es hacer clic para seleccionar un objeto. Estudié esta cuestión durante mi investigación de doctorado en KTH en Suecia. Cuando me gradué con mi doctorado en noviembre de 2018, hicimos un prototipo de una herramienta simple que podía seleccionar objetos con solo un clic. Nuestros experimentos preliminares muestran que la anotación pixelada se puede acelerar entre 10 y 20 veces sin afectar la calidad de la selección. Aquí hay un ejemplo de cómo funciona en la misma imagen que se muestra arriba.

También analizamos detenidamente las ventajas de esta solución frente a otros métodos basados ​​en IA o de segmentación:

La velocidad de nuestro algoritmo permite segmentación y anotación en tiempo real hasta 654,38 00 Megapíxeles imágenes.

A diferencia de los superpíxeles SLIC, nuestra solución de segmentación puede generar con precisión regiones no uniformes y los usuarios pueden seleccionar objetos grandes y pequeños con un solo clic.

Nuestro software nos permite cambiar instantáneamente el número de segmentos para que podamos seleccionar los objetos más pequeños.

Las capacidades de aprendizaje autónomo de nuestro algoritmo mejoran aún más la precisión de la segmentación. Incluso con cientos de anotaciones, se pueden observar cambios significativos en la precisión de la segmentación. Esto acelera aún más el proceso de anotación.

En comparación con las técnicas basadas en caja a polígono analizadas anteriormente, nuestro software puede seleccionar objetos con un estilo de bobina toroidal con un solo clic.

Lo más importante es que nuestro software permite realizar anotaciones automáticas con precisión de píxeles a medida que aumentan los datos de anotación.

Incluso en comparación con la anotación básica de cuadros delimitadores, que requiere al menos 2 clics exactos para anotar un objeto, solo necesitamos 1 clic aproximado en este fragmento, lo que lo hace más eficiente que generar cuadros delimitadores rápidamente.

De esta manera, reducimos simultáneamente el costo de la anotación de píxeles al nivel de costo de los cuadros delimitadores, lo que nos permite lograr un nivel sobrehumano de detección precisa que de otro modo no se lograría a través de los cuadros delimitadores.

Además, dado que la precisión de los píxeles no incluye el ruido, se requieren al menos 10 veces menos datos para lograr una cierta precisión en comparación con la anotación del cuadro delimitador.

Notas completas

A medida que nuestro software se generalice (lanzado en junio de 2019), esperamos que la necesidad de cuadros delimitadores desaparezca con el tiempo. El etiquetado con precisión de píxeles se convertirá en el nuevo estándar.

? 4. Acerca de SuperAnnotate

Somos un equipo respaldado por capital de riesgo y entre los inversores se incluye Berkeley Skydeck, lo que significa plug and play. Entonces qué.

SmartGateVC - Desarrollado por Tim Draper. Nuestro equipo está formado por investigadores de doctorado de las mejores universidades de Estados Unidos, Europa y Asia. Se unen para proporcionar nuevos métodos en el campo de la anotación de imágenes y vídeos, mejorando la eficiencia de las tareas "humanas en el circuito" hasta 65.438.000 veces en un nivel más preciso.

¿Quieres seguir viendo los enlaces y referencias relevantes de este artículo?

Haga clic en ¿Por qué el nivel de píxel es el futuro de la anotación de imágenes? Puede visitar:

Recomendación del presidente de hoy: Spring CS231n Stanford Deep Vision

Li Feifei da una conferencia sobre el curso de la carta de triunfo, un curso en profundidad sobre visión por computadora y la aplicación de redes neuronales. en el campo de la visión por computadora, que abarca clasificación de imágenes, posicionamiento, detección y otras tareas de reconocimiento visual, así como sus aplicaciones de vanguardia en búsqueda, comprensión de imágenes, aplicaciones, cartografía, medicina, aviones no tripulados, vehículos autónomos y otros campos. ¡Este curso es completamente gratis! ¡Únete al grupo y míralo ahora!

Enlace del curso:/page/groupDetail/19