La Red de Conocimientos Pedagógicos - Conocimientos de formación/capacitación - Capacitación en Java de Beida Jade Bird: ¿Ocho técnicas de almacenamiento para administrar big data en el entorno Hadoop?

Capacitación en Java de Beida Jade Bird: ¿Ocho técnicas de almacenamiento para administrar big data en el entorno Hadoop?

Hoy en día, con el rápido desarrollo y progreso de la tecnología de la información, Internet y la tecnología de la información.

En la actualidad, la industria de big data se está volviendo cada vez más popular, lo que resulta en una escasez extrema de talentos de big data en nuestro país. Lo siguiente es una capacitación/introducción de TI a las habilidades de administrar el almacenamiento de big data en un entorno Hadoop.

1. Almacenamiento distribuido El almacenamiento centralizado tradicional existe desde hace algún tiempo.

Pero el big data no es realmente adecuado para una arquitectura de almacenamiento centralizado.

Hadoop está diseñado para acercar la informática a los nodos de datos y al mismo tiempo aprovechar las capacidades de escalamiento masivo del sistema de archivos HDFS.

Sin embargo, la solución habitual a la ineficiencia de Hadoop en la gestión de sus propios datos es almacenar los datos de Hadoop en una SAN.

Pero también crea obstáculos en su propio desempeño y escala.

Ahora, si procesa todos los datos a través de un procesador SAN centralizado, viola la naturaleza distribuida y paralela de Hadoop.

Puedes gestionar varias SAN para diferentes nodos de datos o puedes centralizar todos los nodos de datos en una única SAN.

Pero Hadoop es una aplicación distribuida, por lo que debe ejecutarse en almacenamiento distribuido, de modo que el almacenamiento conserve la misma flexibilidad que el propio Hadoop, pero también debe adoptar una solución de almacenamiento definida por software y ejecutarse en sistemas comerciales. servidores, esto es naturalmente más eficiente que el cuello de botella Hadoop.

2. Superconvergencia VS distribuida. Nota: no confunda superconvergencia y distribución.

Algunas soluciones hiperconvergentes son almacenamiento distribuido, pero generalmente este término significa que sus aplicaciones y almacenamiento se almacenan en el mismo nodo informático.

Este es un intento de resolver el problema de la localización de datos, pero provocará demasiada competencia por los recursos.

La plataforma de almacenamiento y aplicación Hadoop competirá por la misma memoria y CPU.

Hadoop se ejecuta en la capa de aplicación propietaria y el almacenamiento distribuido se ejecuta en la capa de almacenamiento propietaria, lo cual es mejor.

Luego, se utilizan tecnologías de almacenamiento en caché y capas para resolver el problema de ubicación de los datos y compensar las pérdidas de rendimiento de la red.

3. Un aspecto importante para evitar cuellos de botella en el controlador es evitar el procesamiento de datos a través de un único punto (como un controlador tradicional).

Por el contrario, al garantizar la paralelización de la plataforma de almacenamiento, el rendimiento se puede mejorar significativamente.

Además, este esquema proporciona escalabilidad incremental.

Agregar funcionalidad a un lago de datos es tan fácil como instalarle un servidor x86.

La plataforma de almacenamiento distribuido agregará automáticamente funcionalidad y reajustará los datos cuando sea necesario.

4. Deduplicación y compresión de datos La clave para dominar el big data es la tecnología de deduplicación y compresión.

Normalmente, entre el 70 % y el 90 % de los datos de grandes conjuntos de datos se simplificarán.

Con capacidad de PB, se pueden ahorrar decenas de miles de dólares en costos de disco.

Las plataformas modernas ofrecen deduplicación y compresión en línea (en lugar de posprocesamiento), lo que reduce en gran medida la capacidad necesaria para almacenar datos.

5. Combinar distribuciones de Hadoop Muchas grandes empresas tienen múltiples distribuciones de Hadoop.

Puede ser que los desarrolladores lo necesiten o que el departamento empresarial se haya adaptado a diferentes versiones.

Sin embargo, con el tiempo suele ser necesario mantener y operar estos clústeres.

Una vez que cantidades masivas de datos realmente comienzan a afectar a una empresa, múltiples distribuciones de Hadoop pueden generar ineficiencias.

Podemos mejorar la eficiencia de los datos creando un lago de datos comprimidos repetible. 6. Virtualización La virtualización de Hadoop ha arrasado en el mercado empresarial.

Más del 80% de los servidores físicos en muchas regiones están ahora virtualizados.

Sin embargo, muchas empresas todavía evitan hablar de virtualizar Hadoop debido a problemas de rendimiento y localización de datos.

7. Crear un lago de datos elástico Crear un lago de datos no es fácil, pero puede ser necesario un gran almacenamiento de datos.

Hay muchas maneras de hacer esto, pero ¿cuál es la correcta? La arquitectura adecuada debe ser un lago de datos dinámico y flexible capaz de almacenar datos de todas las fuentes en varios formatos (estructurados, no estructurados, semiestructurados).

Más importante aún, debe admitir aplicaciones que se ejecutan en recursos de datos locales en lugar de recursos remotos.