¿Cuál es la relación entre MPP y Hadoop?
NUMA significa Acceso a memoria no uniforme. Es una arquitectura adoptada por los servidores de servicios convencionales para mejorar la escalabilidad de SMP. Los servidores convencionales generalmente constan de múltiples nodos NUMA. Cada nodo NUMA es una estructura SMP, generalmente compuesta por múltiples CPU y tiene memoria local y dispositivos IO. Los nodos NUMA pueden acceder directamente a la memoria local o acceder a la memoria de otros nodos NUMA a través del módulo de interconexión NUMA. Sin embargo, la velocidad de acceso a la memoria local es mucho mayor que la velocidad del acceso remoto. Por lo tanto, el programa de desarrollo debe minimizar la interacción de información entre ellos. diferentes nodos NUMA.
MPP es una arquitectura de análisis masivo de datos en tiempo real. MPP es una arquitectura de intercambio independiente. Cada nodo ejecuta su propio sistema operativo y base de datos, y la interacción de información entre nodos solo se puede lograr a través de conexiones de red. Actualmente, la arquitectura MPP es ampliamente utilizada por bases de datos paralelas y los resultados de las consultas generalmente se devuelven en tiempo real mediante operadores como escanear, ordenar y fusionar. Actualmente, los sistemas de consulta en tiempo real que utilizan la arquitectura MPP incluyen EMC Greenplum, HP Vertica, Google www.jdjdzj.com y Dremel. Estos son sistemas muy distintivos en el campo del procesamiento de datos en tiempo real. En particular, Dremel se puede expandir fácilmente. miles de servidores y análisis completo de terabytes de datos en segundos.
Como grupo de proyectos de código abierto, Hadoop en sí no tiene relación directa con MPP. Aunque el subproyecto MapReduce en Hadoop también se utiliza para el análisis y procesamiento de datos, generalmente solo es adecuado para el análisis de datos fuera de línea. La diferencia con el MPP es más obvia. Debido a que los dos procesos de Mapear y Reducir implican el acceso a archivos de salida y una gran cantidad de transmisión de red, a menudo no cumplen con los requisitos del procesamiento en tiempo real. Los sistemas similares a MapReduce incluyen Microsoft Dryad y Google Pregel.
En resumen, NUMA es una arquitectura, MPP es una arquitectura de análisis de datos masivos en tiempo real y Hadoop es un grupo de proyectos sobre almacenamiento y procesamiento de datos, entre los cuales MapReduce es una arquitectura de análisis de datos masivos fuera de línea.
Al comparar la medición real entre GreenPlum y Hive, el rendimiento de GP es al menos un orden de magnitud mayor que el de Hive. Sin embargo, en la mayoría de los escenarios, el retraso sigue siendo de segundo nivel o incluso de un minuto. Nivel, que está lejos del nivel real de milisegundos en tiempo real.
Además, Hadoop en un sentido amplio incluye Impala, Presto | Distributed SQL Query Engine for Big Data, estos motores SQL de arquitectura MPP. La comunidad Hadoop continúa desarrollándose, Spark continúa sorprendiendo a la gente y aquí es donde reside el encanto del software de código abierto.