Principio del sistema Hadoop
Hadoop en sentido estricto se refiere a Apache, un marco de trabajo de código abierto. Sus componentes principales son:
HDFS (sistema de archivos distribuido): resuelve el almacenamiento masivo de datos
YARN (marco de programación de trabajos y gestión de recursos de clúster): resuelve la programación de tareas de recursos.
MAPREDUCE (Marco de programación de computación distribuida): solución de computación de datos masivos
En términos generales, Hadoop generalmente se refiere a un concepto más amplio: el ecosistema Hadoop.
En la actualidad, HADOOP se ha convertido en un sistema enorme. A medida que el ecosistema crece, hay cada vez más proyectos nuevos, incluidos algunos proyectos que no son de Apache y que son buenos complementos de Hadoop o son abstracciones de nivel superior.
Características de 2.2. Hadoop
Escalable): Hadoop distribuye datos y completa tareas informáticas entre los grupos de computadoras disponibles y puede escalarse fácilmente a miles de nodos.
Económico): Hadoop utiliza máquinas ordinarias y baratas para formar un clúster de servidores para distribuir y procesar datos, por lo que el costo es muy bajo.
Eficiente: a través de datos concurrentes, Hadoop puede mover datos dinámicamente en paralelo entre nodos muy rápidamente.
Rellable: puede mantener automáticamente múltiples copias de datos y redistribuir automáticamente tareas informáticas después de una falla en la tarea. Por lo tanto, la capacidad de Hadoop para almacenar y procesar datos poco a poco merece la confianza de la gente.
3. Historial de versiones 65438 Serie de versiones Hadoop 0.x: la versión de código abierto de segunda generación de Hadoop, que corrige principalmente algunos errores en la versión 0.x y ha sido eliminada.
Serie de versiones 2.x: la arquitectura ha sufrido cambios importantes y se han introducido muchas características nuevas, como la plataforma de hilo, que es la versión principal que se utiliza actualmente.
Serie de versiones 3.x: HDFS, MapReduce y YARN se han actualizado en gran medida y se ha agregado almacenamiento de valores clave de ozono.
4. Introducción 4. Arquitectura y modelos de Hadoop.
Hadoop 2.0 se desarrolló en base a JDK 1.7. JDK 1.7 dejó de actualizarse en abril de 2015, lo que obligó directamente a la comunidad de Hadoop a relanzar una nueva versión de Hadoop basada en JDK 1.8, concretamente hadoop 3.0. Hadoop 3.0 presenta algunas características y optimizaciones importantes, incluida la codificación de borrado HDFS, la compatibilidad con múltiples Namenode, la optimización de tareas nativas de MR, el aislamiento de YARN IO basado en cgroup entre la memoria y el disco, el tamaño del contenedor YARN y más.
La última noticia del equipo del proyecto Apache hadoop es que hadoop3.x ajustará la arquitectura del esquema en el futuro y utilizará Mapreduce basado en el disco de memoria io para procesar datos de forma conjunta. Cambio máximo en hdfs, hdfs, que se calcula según el bloque más reciente. De acuerdo con los principios informáticos recientes, se agregan bloques locales a la memoria, primero se realizan los cálculos, IO comparte el área de cálculo de la memoria y, finalmente, los resultados del cálculo se forman rápidamente, lo que es 10 veces más rápido que Spark.