¿Cuáles son los tipos de tablas de colmena?
¿Cuáles son los tipos de tablas en Hive? Podemos simplemente dividirlas en cuatro tipos: tablas controladas, tablas externas, tablas de partición y tablas de cubo. Estrictamente hablando, deben dividirse en dos tipos de tablas controladas. Las tablas, también llamadas tablas internas y tablas externas, tablas de partición y tablas de depósitos, son en realidad diferentes manifestaciones de tablas controladas.
1. Tabla controlada
La llamada tabla controlada, a menudo la llamamos tabla interna, corresponde a la tabla externa, lo que significa el control del ciclo de vida de la tabla. datos Cuando se elimina la definición de la tabla, se eliminan los datos de la tabla. Cree una tabla, que corresponda a los registros de la tabla en Hive y las definiciones de tabla en la tabla de metastore TBLS. Una vez que eliminamos la definición de una tabla de Hive, los datos en la tabla ya no existen, la definición en el metastore ya no existe.
2. Tablas externas
¿Cómo se comparan con las tablas controladas? El ciclo de vida de los datos en sus tablas internas se ve afectado por la definición de la tabla. tablas, el ciclo de vida de los datos o la existencia de datos y la definición de la tabla no están vinculados entre sí. Los datos de la tabla son solo una referencia de la tabla al archivo correspondiente en HDFS. se elimina, los datos de la tabla aún existen.
3. Tabla de particiones
Supongamos que el clúster de servidores genera un archivo de datos de registro todos los días y almacena los archivos de datos de manera uniforme en HDFS. Si queremos consultar los datos de un día determinado, Hive escaneará todos los archivos durante la ejecución para determinar si corresponden a la fecha especificada. Puedes tener la fecha como subdirectorio. Cuando Hive realiza consultas, el subdirectorio se determina en función de la fecha. Luego escanee los archivos de datos en los subdirectorios que cumplan con los criterios.
4. Tabla de depósitos
La tabla de depósitos realiza un hash de los datos y luego los almacena en diferentes archivos. La agrupación es otra técnica para dividir los datos en partes más manejables. Si realiza una operación de unión de tablas, debe escanear completamente los datos de las dos tablas. Consume mucho tiempo. Se puede optimizar para campos de unión. En el caso del agrupamiento, es muy conveniente comparar datos en tablas similares. Simplemente compare los datos en los depósitos correspondientes.