Interpretación y prueba de modelos de artículos relacionados en 3D ResNet
Debido al buen rendimiento de 3DCNN en el procesamiento de datos de video, se introduce la convolución 3D en la red ResNet. 3D-ResNet se entrenó en ActivityNet y Kinetics, y se descubrió que había un sobreajuste en ActivityNet, pero su rendimiento en Kinetics para big data fue mejor que el de C3D y otras redes.
Dado que los modelos previamente entrenados en ImageNet se utilizan ampliamente, el autor espera imitar el éxito del modelo previamente entrenado 2DCNN y proporcionar resultados dinámicos de entrenamiento previo basados en 3DResNet.
Las pruebas basadas en ResNet-18 en varios conjuntos de datos han demostrado que solo se han instalado redes de 18 capas en una pequeña cantidad de conjuntos de datos UCF101, HMDB-51 y ActivityNet, y funcionaron bien en Kinects. que tiene los datos más ricos. Si desea obtener una mayor precisión en un conjunto de datos pequeño como UCF101, puede realizar ajustes según el modelo previamente entrenado de Kinects. La siguiente imagen es el resultado del ajuste fino en UCF101 y HMDB-51: