La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Qué es Hadoop para el análisis de big data?

¿Qué es Hadoop para el análisis de big data?

Para comprender qué es Hadoop, primero debemos comprender las cuestiones relacionadas con el big data y los sistemas de procesamiento tradicionales. A continuación, discutiremos qué es Hadoop y cómo Hadoop resuelve problemas relacionados con big data. También veremos estudios de casos del CERN para resaltar las ventajas de utilizar Hadoop.

En nuestro blog anterior "Tutorial de Big Data", analizamos en detalle el big data y sus desafíos. En este blog, discutiremos:

1. Problemas con los métodos tradicionales

2 El desarrollo de Hadoop

3.Hadoop

< p. >4.Solución Hadoop lista para usar

5.¿Cuándo usar Hadoop?

6. ¿Cuándo no se utiliza Hadoop?

Primero, un caso de estudio del CERN

Big data se está convirtiendo en una oportunidad para las organizaciones. Ahora, las organizaciones se han dado cuenta de que pueden obtener muchos beneficios del análisis de big data, como se muestra en la siguiente figura. Están examinando grandes conjuntos de datos para descubrir todos los patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias de los clientes y otra información comercial útil.

Estos análisis ayudan a las organizaciones a implementar un marketing más eficaz, nuevas oportunidades de ingresos y un mejor servicio al cliente. Están mejorando la eficiencia operativa, la ventaja competitiva sobre los competidores y otras ventajas comerciales.

¿Qué es Hadoop y las ventajas del análisis de big data?

Así que avancemos y comprendamos los problemas asociados con los enfoques tradicionales para aprovechar las oportunidades de big data.

En segundo lugar, problemas con los métodos tradicionales

En los métodos tradicionales, el principal problema es lidiar con la heterogeneidad de los datos, es decir, estructurados, semiestructurados y no estructurados. RDBMS se centra principalmente en datos estructurados, como transacciones bancarias y datos operativos, mientras que Hadoop se centra principalmente en datos semiestructurados y no estructurados, como texto, vídeo, audio, publicaciones y registros de Facebook. La tecnología RDBMS es un sistema maduro, probado y altamente consistente respaldado por muchas empresas. Por otro lado, Hadoop es necesario debido al big data (que consiste principalmente en datos no estructurados en diferentes formatos).

Ahora echemos un vistazo a las principales cuestiones relacionadas con el big data. Entonces, en el futuro, podemos entender cómo Hadoop se convirtió en una solución.

¿Qué es Hadoop – El problema del Big Data?

El primer problema es almacenar grandes cantidades de datos.

En los sistemas tradicionales no se pueden almacenar grandes cantidades de datos. Obviamente, el almacenamiento se limitará a un solo sistema y los datos están creciendo a un ritmo alarmante.

El segundo problema es el almacenamiento de datos heterogéneos.

Ahora sabemos que el almacenamiento es un problema, pero déjame decirte que es sólo una parte del problema. Porque, como hemos comentado, los datos no sólo son enormes, sino que también existen en varios formatos, como no estructurados, semiestructurados y estructurados. Por lo tanto, debe asegurarse de tener un sistema para almacenar todos estos tipos de datos generados a partir de diversas fuentes.

La tercera cuestión es el acceso y la velocidad de procesamiento.

La capacidad del disco duro está aumentando, pero las velocidades de transferencia del disco o de acceso no aumentan a un ritmo similar. Déjame explicártelo con un ejemplo: si solo tienes un canal de E/S de 100 Mbps y estás procesando 1 TB de datos, tardarás aproximadamente 2,91 horas. Ahora, si tiene cuatro computadoras con un canal de E/S, la misma cantidad de datos tomará aproximadamente 43 minutos. Por lo tanto, la velocidad de acceso y procesamiento son cuestiones más importantes que el almacenamiento de big data.

Antes de comprender qué es Hadoop, primero comprendamos el desarrollo de Hadoop durante un período de tiempo.

El desarrollo de Hadoop

En 2003, Doug Cutting lanzó el proyecto Nutch para gestionar miles de millones de búsquedas e indexar millones de páginas web. Finales de junio 65438 + octubre de 2003: Google publicó un artículo utilizando GFS (Google File System). Del 5 de junio a febrero de 2004, Google publicó artículos de MapReduce. En 2005, Nutch funcionaba mediante GFS y MapReduce.

En 2006, Yahoo trabajó con Doug Cutting y su equipo para crear Hadoop basado en GFS y MapReduce. Si te lo dijera, te sorprenderías. En 2007, Yahoo comenzó a utilizar Hadoop en un clúster de 1.000 nodos.

A finales de junio de 2008, Yahoo lanzó el proyecto de código abierto Hadoop a la Apache Software Foundation. En julio de 2008, Apache probó con éxito un clúster de 4.000 nodos utilizando Hadoop. En 2009, Hadoop organizó con éxito petabytes de datos, procesó miles de millones de búsquedas e indexó millones de páginas web en menos de 17 horas. En 2011, 65438+2 meses, Apache Hadoop lanzó la versión 1.0. A finales de agosto de 2013, se lanzó la versión 2.0.6.

Cuando analizamos estos problemas, descubrimos que los sistemas distribuidos pueden ser una solución y Hadoop proporciona la misma solución. Ahora, entendamos qué es Hadoop.

3. ¿Qué es Hadoop?

Hadoop es un framework que permite almacenar primero big data en un entorno distribuido para que pueda procesarse en paralelo. Básicamente, hay dos componentes en Hadoop:

1. Capacitación para la certificación de Big Data Hadoop

2. Cursos dirigidos por instructores: estudios de casos de la vida real y evaluaciones de exploración de por vida;

¿Qué es Hadoop – Marco Hadoop?

El primero es HDFS (Hadoop Distributed File System) para almacenamiento, que le permite almacenar datos en varios formatos en el clúster. El segundo es YARN, utilizado para la gestión de recursos en Hadoop. Permite el procesamiento paralelo de datos, es decir, almacenar datos en HDFS.

Primero comprendamos HDFS.

HDFS

HDFS crea un concepto abstracto, déjame simplificarlo. De manera similar a la virtualización, lógicamente puede pensar en HDFS como una sola unidad que almacena grandes datos, pero en realidad está almacenando los datos de forma distribuida en múltiples nodos. HDFS sigue la arquitectura maestro-esclavo.

¿Qué es Hadoop-HDFS?

En HDFS, el nodo de nombre es el nodo maestro y el nodo de datos es el nodo esclavo. El Namenode contiene metadatos sobre los datos almacenados en el nodo de datos, como qué bloque de datos se almacena en qué nodo de datos y dónde se replica el bloque de datos. Los datos reales se almacenan en los nodos de datos.

También me gustaría agregar que en realidad replicamos los bloques de datos que existen en el nodo de datos, y el factor de replicación predeterminado es 3. Debido a que utilizamos hardware básico y sabemos que la tasa de falla de este hardware es muy alta, si uno de los nodos de datos falla, HDFS aún tendrá una copia de estos bloques de datos faltantes. También puede configurar el factor de replicación según sea necesario. Puede leer la guía HDFS para obtener más información sobre HDFS.

En cuarto lugar, Hadoop es la solución.

Entendamos cómo Hadoop proporciona soluciones a los problemas de big data que acabamos de comentar.

¿Qué es Hadoop? Hadoop es la solución.

El primer problema es el almacenamiento de big data.

HDFS proporciona un método distribuido para almacenar big data. Sus datos se almacenan en bloques en todo el DataNode y puede especificar el tamaño de los bloques. Básicamente, si tiene 512 MB de datos y HDFS está configurado, creará bloques de 128 MB. Por lo tanto, HDFS divide los datos en cuatro bloques de 512/128 = 4, los almacena en diferentes nodos de datos y copia los bloques de datos en diferentes nodos de datos. Ahora que utilizamos hardware básico, el almacenamiento ya no es un problema.

También resuelve problemas de escala. Se centra en la escala horizontal en lugar de la escala vertical. Siempre puede agregar algunos DataNodes adicionales a su clúster HDFS según sea necesario en lugar de ampliar los recursos de los nodos de datos. Permítame resumirlo, básicamente se usa para almacenar 1 TB de datos y no requiere un sistema de 1 TB. Puede hacer esto en varios sistemas con 128 GB o menos.

El siguiente problema es almacenar varios datos.

Con HDFS puedes almacenar todo tipo de datos, ya sean estructurados, semiestructurados o no estructurados. Porque en HDFS no existe una verificación del modo previo al volcado. También sigue un patrón de escribir una vez, leer muchas. Por lo tanto, solo necesita escribir los datos una vez y leerlos muchas veces para encontrar información.

El desafío de Hird es acceder y procesar datos más rápido.

Sí, este es uno de los grandes retos del big data. Para resolver este problema, trasladamos el procesamiento a los datos en lugar de los datos al procesamiento. ¿Qué quiere decir esto? En lugar de mover los datos al nodo maestro y luego procesarlos. En MapReduce, la lógica de procesamiento se envía a cada nodo esclavo y luego los datos se procesan en paralelo entre diferentes nodos esclavos. Luego, los resultados procesados ​​se envían al nodo maestro donde se fusionan y la respuesta se envía de regreso al cliente.

En la arquitectura YARN, tenemos ResourceManager y NodeManager. El ResourceManager puede o no estar configurado en la misma computadora que el NameNode. Sin embargo, el NodeManager debe configurarse en la misma máquina que el DataNode.

YARN realiza todas las actividades de procesamiento mediante la asignación de recursos y la programación de tareas.

¿Qué es el hilo Hadoop?

Tiene dos componentes principales, administrador de recursos y administrador de nodos.

ResourceManager vuelve a ser el nodo maestro. Recibe solicitudes de procesamiento y luego pasa cada parte de la solicitud al administrador de nodo apropiado. ¿Qué es el análisis de Big Data? Hadoop realiza el procesamiento real aquí. NodeManager está instalado en cada DataNode. Es responsable de ejecutar tareas en cada DataNode individual.

Espero que ahora tengas alguna idea sobre Hadoop y sus componentes principales. Pasemos a aprender cuándo usar Hadoop y cuándo no.

¿Cuándo utilizar Hadoop?

Hadoop se utiliza para:

1. Búsqueda: Yahoo, Amazon, Zvents

2 Procesamiento de registros: Facebook, Yahoo

3. Almacén de datos-AOL Facebook

4. Análisis de imágenes y vídeos-New York Times.

Hasta ahora, hemos visto cómo Hadoop hace posible el procesamiento de big data. Sin embargo, existen algunas situaciones en las que no se recomienda utilizar Hadoop.