La Red de Conocimientos Pedagógicos - Currículum vitae - ¿Cuál es la diferencia entre hbase y hive y para qué escenarios son adecuados?

¿Cuál es la diferencia entre hbase y hive y para qué escenarios son adecuados?

Hive y Hbase son dos tecnologías diferentes basadas en Hadoop: Hive es un motor similar a SQL que ejecuta tareas de MapReduce y Hbase es una base de datos NoSQL Key/vale en Hadoop. Por supuesto, ambas herramientas se pueden utilizar simultáneamente. Al igual que usar Google para realizar búsquedas y FaceBook para redes sociales, Hive puede realizar consultas estadísticas y HBase puede realizar consultas en tiempo real. También se pueden escribir datos desde Hive a Hbase, y la configuración se puede escribir desde HBase a Hive.

* * *Los mismos puntos:

1. Tanto hbase como hive están construidos en base a hadoop. Hadoop se utiliza como almacenamiento subyacente.

Diferencias:

1. Hive es un sistema de procesamiento por lotes construido en Hadoop para reducir el trabajo de los trabajos de MapReduce. HBase es un proyecto que admite la operación en tiempo real de Hadoop.

2. Supongamos que está operando una base de datos RMDB. Si se trata de un escaneo completo de la tabla, use Hive Hadoop. Si es acceso a índice, use HBase Hadoop.

3. Las consultas de Hive significan que los trabajos de MapReduce pueden durar desde 5 minutos hasta varias horas. HBase es muy eficiente, definitivamente mucho más eficiente que Hive.

4.Hive en sí no almacena ni calcula datos, se basa completamente en HDFS y MapReduce. La lógica pura de las tablas en Hive es solo la definición de la tabla, es decir, los metadatos de la tabla. De esta manera, los archivos de datos estructurados se pueden asignar a tablas de bases de datos, se proporcionan funciones de consulta SQL completas y las declaraciones SQL finalmente se convierten en ejecuciones de tareas MapReduce.

5.hive toma prestado MapReduce de Hadoop para completar la ejecución de algunos comandos en Hive.

6. hbase es una tabla física, no una tabla lógica. Proporciona una tabla hash de memoria muy grande, que los motores de búsqueda utilizan para almacenar índices y facilitar las operaciones de consulta.

7.hbase es un almacén de columnas.

8. hdfs es el almacenamiento subyacente, hdfs es el sistema para almacenar archivos y Hbase es responsable de organizar los archivos.

9.hive requiere archivos de almacenamiento hdfs y el marco informático MapReduce.