Análisis de datos de Python: visualización
Para nosotros, los analistas de datos, no solo debemos comprender el significado detrás de los datos nosotros mismos, sino también mostrar el significado de los datos a nuestro jefe de manera más intuitiva. Entonces, aprendamos juntos esta habilidad indispensable.
Antes de trazar, importamos el paquete y generamos el conjunto de datos.
Primero echemos un vistazo al conjunto de datos utilizado.
El gráfico de líneas es un gráfico de uso común para observar tendencias. Podemos usar una variable para ver la tendencia cambiante de. los datos. De forma predeterminada, el parámetro kind="line" indica que el tipo de gráfico es un gráfico de líneas.
Para datos discretos, como datos categóricos, es necesario comprender la distribución de los datos en diferentes categorías. En este momento, se puede utilizar el histograma. Dibujamos una columna para cada categoría. En este punto, puede configurar el tipo de parámetro en barra.
Un gráfico de barras es un gráfico que se obtiene volteando un gráfico de barras verticales 90 grados. Al igual que los gráficos de barras, los gráficos de barras pueden tener uno o más conjuntos de datos.
Los gráficos de barras horizontales son muy convenientes cuando los nombres de las categorías son largos porque el texto se escribe de izquierda a derecha, lo cual es consistente con el orden de lectura de la mayoría de los usuarios, lo que hace que nuestros gráficos sean fáciles de leer. Los histogramas no se muestran bien cuando los nombres de las categorías son largos.
El histograma es una forma especial de gráfico de columnas. Cuando queremos ver la distribución de un conjunto de datos, elegimos un histograma. Las variables del histograma se dividen en diferentes rangos y luego se realizan estadísticas dentro de los diferentes rangos. En un histograma, columnas consecutivas entre columnas significan continuidad de valores.
El diagrama de caja se utiliza para mostrar la información estadística descriptiva del conjunto de datos, es decir, [cuartil]. Los extremos superior e inferior de la línea representan los valores máximo y mínimo de un determinado conjunto. de datos. Los extremos superior e inferior del cuadro representan los valores más altos del 25% y 75% en este conjunto de datos. La línea horizontal en el medio del cuadro representa el valor mediano. En este punto, puede configurar el tipo de parámetro en cuadro.
Si desea dibujar un diagrama de dispersión, puede establecer el tipo de parámetro en un diagrama de dispersión y debe especificar X e Y. Las relaciones entre variables se pueden explorar mediante diagramas de dispersión.
Un gráfico circular representa la proporción de un conjunto de datos por área y el tipo de parámetro se puede establecer en un gráfico circular.
Los estudiantes que recién comienzan a aprender deben comprender qué datos deben mostrarse y con qué gráficos. Resumamos.