La Red de Conocimientos Pedagógicos - Conocimientos primarios - Cómo empezar a utilizar big data

Cómo empezar a utilizar big data

Primero, debe comprender el lenguaje Java y el sistema operativo Linux. Esta es la base para aprender big data. El orden del aprendizaje no es secuencial.

Big Data

Java: siempre que comprenda algunos conceptos básicos, no necesita tecnología Java profunda para generar big data. Aprender Java SE equivale a aprender big data.

Linux: debido a que el software relacionado con big data se ejecuta en Linux, debes aprender Linux sólidamente. Aprender bien Linux le será de gran ayuda para dominar rápidamente las tecnologías relacionadas con big data y le permitirá comprender mejor el entorno operativo y la configuración del entorno de red del software de big data como hadoop, hive, hbase y spark. , lo que le permitirá evitar muchos obstáculos, aprender a comprender los scripts y facilitarle la comprensión y configuración de clústeres de big data. También le permitirá aprender nuevas tecnologías de big data más rápidamente en el futuro.

Hadoop: esta es una popular plataforma de procesamiento de big data que casi se ha convertido en sinónimo de big data, por lo que es imprescindible. Hadoop incluye varios componentes: HDFS, MapReduce y YARN. HDFS es donde se almacenan los datos, al igual que el disco duro de nuestra computadora. MapReduce procesa y calcula datos. Una característica es que puede ejecutar todos los datos siempre que se dé un tiempo determinado, pero es posible que el tiempo no sea muy rápido, por lo que se denomina procesamiento por lotes de datos.

Cuidador del zoológico: Esta es una cura milagrosa. Se utilizará al instalar HA de Hadoop y también se utilizará en Hbase en el futuro. Generalmente se utiliza para almacenar cierta información de cooperación, es relativamente pequeña, generalmente no más de 1M. Todo el software que lo utiliza depende de ello. Para nosotros personalmente, es sólo cuestión de instalarlo correctamente y hacerlo funcionar.

Mysql: hemos terminado de aprender el procesamiento de big data. A continuación, debemos aprender la base de datos mysql, la herramienta de procesamiento de datos pequeños, porque se usará cuando instalemos Hive más adelante. ¿Qué nivel de MySQL necesito dominar? Puede instalarlo en Linux, ejecutarlo, configurar permisos simples, cambiar la contraseña de root y crear una base de datos. Lo principal aquí es aprender la sintaxis de SQL, porque la sintaxis de Hive es muy similar a esta.

Sqoop: utilizado para importar datos de Mysql a Hadoop. Por supuesto, también puedes exportar la tabla de datos Mysql directamente a un archivo y ponerla en HDFS sin esto. Por supuesto, hay que prestar atención a la presión de utilizar Mysql en un entorno de producción.

Hive: esto es un artefacto para personas que entienden la sintaxis SQL. Le permite procesar big data fácilmente y no tiene que molestarse en escribir programas MapReduce. ¿Alguien dijo cerdo? Como un cerdo. Solo domina uno.

Oozie: Ahora que has aprendido Hive, estoy seguro de que necesitas esto. Puede ayudarlo a administrar sus scripts de Hive o MapReduce y Spark, verificar si su programa se ejecuta correctamente, alertarlo si ocurren problemas, ayudarlo a reintentar el programa y, lo más importante, ayudarlo a configurar las dependencias de las tareas. Creo que te gustará, de lo contrario te sentirás como una mierda cuando mires el montón de guiones y cronds densos.

Hbase: Es la base de datos NOSQL del ecosistema Hadoop. Sus datos se almacenan en forma de claves y valores. Las claves son únicas, por lo que pueden usarse para copiar los datos. Puede almacenar más datos que MYSQL. Por lo tanto, a menudo se utiliza como destino de almacenamiento una vez completado el procesamiento de big data.

Kafka: Esta es una gran herramienta para hacer colas. ¿Para qué es la cola? ¿Sabes que tienes que hacer cola para comprar entradas? Si hay demasiados datos, es necesario ponerlos en cola para su procesamiento para que otros estudiantes que trabajan con usted no griten. ¿Por qué me das tantos datos (por ejemplo, cientos de gigabytes de archivos)? ¿Qué tengo que hacer? No lo culpes por no manejar big data. Puedes decirle que pongo los datos en la cola y los tomo uno por uno cuando los usas, para que no se queje y optimice su programa de inmediato, porque es asunto suyo no procesarlos. No es la pregunta que hiciste.

Por supuesto, también podemos utilizar esta herramienta para almacenar datos en línea en tiempo real en almacenamiento o HDFS. En este momento, puede utilizar una herramienta llamada Flume, que se utiliza especialmente para proporcionar procesamiento de datos simple y escribir en varios receptores de datos (como Kafka).

Spark: utilizado para compensar la falta de velocidad de procesamiento de datos basado en MapReduce. Su característica es cargar datos en la memoria para realizar cálculos, en lugar de leer desde un disco duro que es muy lento y evoluciona extremadamente lentamente. Es particularmente adecuado para operaciones iterativas, por lo que el flujo del algoritmo es particularmente bueno. Está escrito en escala. Se puede operar con lenguaje Java o Scala, porque ambos usan JVM.