La Red de Conocimientos Pedagógicos - Currículum vitae - Las razones del bajo rendimiento en tiempo real de hadoop

Las razones del bajo rendimiento en tiempo real de hadoop

Hadoop puede procesar conjuntos de datos a gran escala, incluidos datos estructurados, datos no estructurados y datos semiestructurados, pero Hadoop está diseñado como un sistema de procesamiento por lotes, lo que limita su velocidad de respuesta.

Hay dos obstáculos principales que impiden que Hadoop logre análisis en tiempo real:

Primero, la mayoría de los nuevos motores de consulta de Hadoop no se ejecutan tan rápido como las principales bases de datos relacionales. En herramientas como Impala y Hawq, los usuarios finales pueden escribir instrucciones de consulta en lenguaje SQL y, al ejecutar el clúster Hadoop, estas instrucciones se traducirán al lenguaje MapReduce. Todo el proceso es muy lento y mucho más lento que ejecutar consultas SQL directamente en una base de datos relacional.

En segundo lugar, en comparación con las bases de datos relacionales, Hadoop sigue siendo un sistema de solo lectura. Una vez que los datos se escriben en el sistema de archivos distribuido de Hadoop (HDFS), a los usuarios les resulta difícil insertar, eliminar o modificar los datos almacenados.