¿Qué es exactamente Hadoop?
¿Qué es exactamente Hadoop?
Respuesta: Hadoop es un marco de análisis y almacenamiento distribuido basado en equipos económicos que utiliza el poder de los clústeres para almacenar de forma segura y calcular de manera eficiente datos masivos. Hadoop en sí es una gran familia de proyectos, y su familia principal o base. La capa es HDFS y MapReduce, HDFS y MapReduce se utilizan para almacenar y analizar datos masivos respectivamente. Otros proyectos, como Hive y HBase, se basan en HDFS y MapReduce y son subproyectos propuestos para resolver tipos específicos de problemas de procesamiento de big data. , El uso de Hive, HBase y otros subproyectos puede escribir más fácilmente programas de procesamiento de big data distribuidos sobre una base de mayor abstracción. Otros subproyectos de Hadoop incluyen Common, Avro, Pig, ZooKeeper, Sqoop, Oozie, etc. Con el tiempo, se agregarán algunos subproyectos nuevos y algunos proyectos que no sean de gran preocupación se eliminarán de la familia Hadoop. entonces Hadoop es un sistema dinámico.
Apache Hadoop: es un marco de código abierto de computación distribuida de la organización de código abierto Apache. Proporciona un subproyecto de sistema de archivos distribuido (HDFS) y una arquitectura de software que admite la computación distribuida MapReduce.
Apache Hive: es una herramienta de almacenamiento de datos basada en Hadoop. Puede mapear archivos de datos estructurados en una tabla de base de datos e implementar rápidamente estadísticas simples de MapReduce a través de declaraciones similares a SQL sin la necesidad de desarrollar aplicaciones especiales de MapReduce. , Muy adecuado para el análisis estadístico del almacén de datos.
ApachePig: es una herramienta de análisis de datos a gran escala basada en Hadoop. El lenguaje TIPO SQL que proporciona se llama Pig Latin. El compilador de este lenguaje convertirá las solicitudes de análisis de datos tipo SQL en una serie. de operaciones optimizadas de Processed MapReduce.
ApacheHBase: es un sistema de almacenamiento distribuido escalable, altamente confiable, de alto rendimiento y orientado a columnas que se puede utilizar para construir clústeres de almacenamiento estructurados a gran escala en servidores de PC económicos.
Apache Sqoop: es una herramienta utilizada para transferir datos entre Hadoop y bases de datos relacionales. Puede importar datos desde una base de datos relacional (MySQL, Oracle, Postgres, etc.) a Hadoop. También se puede importar a una base de datos relacional.
Apache Zookeeper: es un servicio de coordinación distribuido de código abierto diseñado para aplicaciones distribuidas. Se utiliza principalmente para resolver algunos problemas de gestión de datos que a menudo se encuentran en aplicaciones distribuidas y simplificar la dificultad de coordinación y gestión de las aplicaciones. proporciona servicios distribuidos de alto rendimiento Apache Mahout: es un marco distribuido para aprendizaje automático y minería de datos basado en Hadoop. Mahout utiliza MapReduce para implementar algunos algoritmos de minería de datos y resolver el problema de la minería paralela.
Apache Cassandra: es un sistema de base de datos NoSQL distribuido de código abierto. Fue desarrollado originalmente por Facebook para almacenar datos en formato simple, integrando el modelo de datos de Google BigTable y la arquitectura totalmente distribuida de Amazon Dynamo Apache Avro: es un sistema de serialización de datos diseñado para admitir aplicaciones de intercambio de datos de gran volumen y uso intensivo de datos. Avro es un nuevo formato de serialización de datos y una herramienta de transmisión que reemplazará gradualmente el mecanismo IPC original de Hadoop, ApacheAmbari: es una herramienta basada en web que admite el suministro, administración y monitoreo de clústeres de Hadoop.
ApacheChukwa: es un sistema de recopilación de datos de código abierto para monitorear sistemas distribuidos a gran escala. Puede recopilar varios tipos de datos en archivos adecuados para el procesamiento de Hadoop y guardarlos en HDFS para que Hadoop realice diversas tareas. tipo de operaciones MapReduce.
ApacheHama: es un marco de computación paralelo BSP (Bulk Synchronous Parallel) basado en HDFS que se puede utilizar para cálculos de big data a gran escala, incluidos gráficos, matrices y algoritmos de red.
ApacheFlume: es un sistema de agregación de registros masivos distribuido, confiable y de alta disponibilidad que se puede utilizar para la recopilación de datos de registros, el procesamiento de datos de registros y la transmisión de datos de registros.
ApacheGiraph: Es un sistema de procesamiento de gráficos iterativo distribuido escalable basado en la plataforma Hadoop e inspirado en BSP (paralelo síncrono masivo) y Pregel de Google.
ApacheOozie: es un servidor de motor de flujo de trabajo utilizado para gestionar y coordinar tareas que se ejecutan en la plataforma Hadoop (HDFS, Pig y MapReduce).
ApacheCrunch: Es una biblioteca Java escrita en base a la biblioteca FlumeJava de Google y se utiliza para crear programas MapReduce. Al igual que Hive y Pig, Crunch proporciona una biblioteca de patrones para implementar tareas comunes, como conectar datos, realizar agregaciones y ordenar registros: ApacheWhirr: es un conjunto de bibliotecas de clases que se ejecutan en servicios en la nube (incluido Hadoop), lo que proporciona un alto grado de funcionalidad. complementariedad. Whirr admite los servicios de Amazon EC2 y Rackspace.
Apache Bigtop: Es una herramienta para empaquetar, distribuir y probar Hadoop y su ecosistema circundante.
ApacheHCatalog: es una gestión de almacenamiento y tablas de datos basada en Hadoop que implementa una gestión central de metadatos y esquemas, abarca Hadoop y RDBMS, y utiliza Pig y Hive para proporcionar vistas relacionales.
ClouderaHue: es un sistema de gestión y monitoreo basado en WEB que implementa operaciones y gestión basadas en web de HDFS, MapReduce/YARN, HBase, Hive y Pig.