t-net: red totalmente convolucional de parametrización con un único tensor de alto orden
Investigaciones recientes muestran que la parametrización excesiva es muy importante para el entrenamiento exitoso de redes neuronales profundas y también introduce mucha redundancia.
En este artículo, proponemos una red neuronal convolucional totalmente parametrizada que utiliza un único tensor de alto orden y bajo rango.
Este artículo propone parametrizar la red neuronal con un único tensor de alto orden, capturando así la estructura completa de la red neuronal. Este patrón de tensores de alto orden representa cada parámetro de diseño arquitectónico de la red (por ejemplo, número, profundidad, pila de números, características de entrada, etc.). Esta parametrización puede estandarizar toda la red y reducir en gran medida la cantidad de parámetros.
Este artículo estudia una red con una estructura rica, a saber, una red totalmente convolucional (FCN). Se recomienda utilizar un único tensor de orden 8 para la parametrización.
Existe evidencia de que una característica importante detrás del éxito de estos modelos profundos es la parametrización excesiva, que ayuda a encontrar buenos mínimos locales.
Pero al mismo tiempo, una parametrización excesiva genera mucha redundancia, lo que es difícil de generalizar desde un punto de vista estadístico (debido a la gran cantidad de parámetros y también aumenta la dificultad de almacenamiento). y cálculo, lo que dificulta su implementación en dispositivos con recursos informáticos limitados.
Este artículo se compromete a parametrizar conjuntamente toda la red mediante el método tensorial para eliminar la redundancia de los parámetros CNN.
Recientemente, se ha trabajado mucho para reducir la redundancia y mejorar la eficiencia de las CNN, centrándose principalmente en repararmetrizar cada capa.
Este artículo utiliza principalmente un único tensor de alto orden para parametrizar toda la CNN, en lugar de usar diferentes tensores para parametrizar cada capa, lo cual es diferente del trabajo anterior.
Específicamente, se propone un único tensor de alto orden para parametrizar la red, donde cada dimensión representa un parámetro de diseño arquitectónico diferente de la red.
Al utilizar un único tensor para modelar todo el FCN, este enfoque permite aprender la correlación entre diferentes dimensiones del tensor, capturando así completamente la estructura de la red.
Además, esta parametrización sintoniza implícitamente toda la red y reduce significativamente el número de parámetros al imponer una estructura de bajo rango a los tensores.
Las contribuciones de este artículo son:
Más relevantes para el trabajo de este artículo son los métodos de descomposición manual, como MobileNet [15] y Xception [8], que utilizan profundidad efectiva. y producto escalar producto de convolución para descomponer la convolución 3 × 3.
P.D. (¿Por qué de repente siento que el MobileNet anterior no fue en vano, vergonzoso...?)
Este artículo elige la red Tensor Hourglass (HG) principalmente por su riqueza. estructura, lo que lo hace adecuado para modelar con tensores de orden superior. El objetivo de este trabajo no es producir resultados de última generación en la tarea de estimación de la pose humana, sino más bien mostrar los beneficios de modelar arquitecturas de última generación con un único tensor de alto orden.
Aunque los tensores de segundo orden se describen fácilmente
como rectángulos y los tensores de tercer orden como cubos, no es realista representar los tensores de orden superior de esta manera.
En su lugar, utilizamos gráficos tensoriales, que son gráficos no dirigidos en los que los vértices representan tensores.
El grado de cada vértice (es decir, el número de aristas derivadas del círculo) especifica el orden del tensor correspondiente. La contracción tensorial en los dos modos se representa simplemente uniendo las dos aristas correspondientes a los dos modos.
La Figura 2 muestra la descomposición de Tucker de un tensor de orden 8 (es decir, la contracción del tensor central a lo largo de la matriz factorial de cada modo) como un gráfico tensorial.
Los tensores de alto orden de la red tensorial propuesta (T-Net) se obtienen de la siguiente manera:
Se añaden diferentes restricciones de parada baja a los parámetros anteriores para obtener diferentes variantes de la red tensorial propuesta (T-Net). método .
Considere Tucker-rank-, los parámetros son:
Comprima cada capa convolucional por separado, los rangos de las características de entrada y salida son respectivamente, el total * * * de parámetros es:
De manera similar, los parámetros de este método son:
Materiales de referencia:
T-Net: parametrización de una red totalmente convolucional con un único tensor de alto orden p>