Metodología de construcción de sistemas de datos desde el camino más alto hasta la simplicidad
Organizar el sistema de indicadores de datos de arriba a abajo
1 Determinar el objetivo
Esta es la primera pregunta que debe hacerse. Deberías hacerte una pregunta. ¿Cuál es el propósito final de dedicar tanto esfuerzo al análisis de datos? Si esto no está claro, es seguro que el sistema de datos no podrá iniciarse.
¿Quieres aumentar la actividad de los usuarios, aumentar los usuarios, aumentar las ventas o algún otro objetivo? Cuando lo pienso, siento que los quiero a todos. Todos esperan que no haya problemas, pero esto ampliará infinitamente los límites del trabajo e impedirá que las cosas avancen. Así que comience con los objetivos/KPI que más le interesen.
Entonces, ¿cuál es el objetivo que más debemos preocuparnos?
Para las empresas con usuarios en diferentes campos, diferentes etapas y diferentes roles, la respuesta a esta pregunta es diferente: para muchos jefes de empresas, el objetivo más importante es el beneficio para las empresas que no venden productos/; Para las empresas de servicios o los gobiernos, quizás la satisfacción del cliente sea el objetivo más preocupante; para las empresas de plataformas comerciales o las primeras empresas de comercio electrónico, el objetivo no es el beneficio, sino el volumen de transacciones.
Se marca el objetivo que más nos importa. ¿Se pueden solucionar todos los problemas que queremos a continuación? No es así. El mayor malentendido causado por el big data es que cuantos más datos y campos, mejor. Sin embargo, cuando realmente resolvemos problemas comerciales específicos, debemos eliminar un subconjunto relevante del conjunto completo de big data para utilizarlo.
Para una sola persona, ya sea el jefe o la alta dirección, no se debe prestar demasiada atención a los objetivos/KPI al mismo tiempo. Si observa docenas de KPI al mismo tiempo, imagine lo vertiginoso y lento que sería. Sin embargo, para las empresas, existen muchos KPI que son muy importantes. ¿Qué debo hacer? Se puede dividir en muchas personas, es decir, diferentes roles trabajan juntos, cada rol se enfoca en sus propios objetivos y todos los roles juntos son un conjunto completo de todos los objetivos/KPI de la empresa.
Supongamos que el objetivo más importante del jefe es el beneficio, y beneficio = ingreso – coste. Este objetivo se puede dividir en lo siguiente: el director de ventas se centra en los ingresos y el director de operaciones se centra en los costos. Por supuesto, esto no significa que el jefe no pueda considerar los ingresos, sino que el enfoque regular debe estar dentro de un rango factible.
2. Descomponer indicadores
Una vez determinado el objetivo, el siguiente paso es descomponer los indicadores relacionados.
¿Qué métricas se necesitan para monitorear o analizar el target? Por ejemplo, ganancias, los indicadores relevantes son ingresos y costos. Por supuesto, esto es demasiado duro. Qué ingresos y costos deben considerarse. Por ejemplo, las ventas en la industria minorista se pueden desglosar en flujo de clientes, tasa de entrada a la tienda, tasa de compra, precio unitario por cliente y tasa de recompra.
Por tanto, existen muchas formas de descomponerse y es necesario seguir el principio MECE (exhaustivo e independiente).
3. Refinar los campos
Para la fórmula de cálculo del indicador, qué campos están involucrados, qué tablas están en qué bibliotecas, si se requiere limpieza de datos, cuáles son las reglas de limpieza. , etc.
Por ejemplo, la tasa de compra se calcula mediante la fórmula "número de compradores/número de personas que ingresan a la tienda", y el número de compradores se calcula contando el "ID del cliente". Los campos involucrados en estos indicadores corresponden a qué campos en qué tablas de la base de datos deben ordenarse. Esta parte requiere la intervención y cooperación del personal de TI o los administradores de la base de datos.
4. Requisitos no funcionales
Después de completar el tercer paso anterior, hemos ordenado el sistema de indicadores y podemos implementarlo, pero para hacer que el sistema de datos final sea más completo. Completo y amigable, disponible, también necesitamos resolver algunos requisitos no funcionales.
UI: No parece importar qué estilo de visualización prefieras, pero de hecho, los usuarios tratan con sistemas de datos todos los días, y una UI del sistema hermosa y experiencial hará que los usuarios la prefieran.
Tráfico de la página: qué indicadores relacionados se colocan en la misma página del informe, cuál es la relación jerárquica entre las páginas y cómo los usuarios saltan entre páginas.
Permisos: Quién puede ver qué rangos de datos, qué campos e indicadores requieren un control de permisos unificado para evitar problemas de seguridad de los datos.
ETL: ¿Cuál es la frecuencia y el patrón de sincronización de datos desde la fuente de datos hasta el sistema de análisis?
Integración: Si es necesaria la integración con otros sistemas a nivel de interfaz, mensaje de aviso, etc.
Rendimiento: Invisible e intangible, pero determina directamente la disponibilidad del sistema. Si se necesitan varios minutos o incluso decenas de minutos para ver los resultados cuando la cantidad de datos es grande, creo que nadie estará dispuesto a utilizar este sistema.
5. Implementación del sistema
Después de completar los cuatro elementos anteriores, hemos formado un documento de requisitos/plan de implementación del sistema de operación de datos, que se puede incluir en el sistema de operación de datos. Luego, determine la carga de trabajo y el plan de tiempo según la cantidad de páginas del informe y la complejidad de la preparación de datos.
2. Implementar el sistema de BI de abajo hacia arriba
1. Conectar datos
Construir el sistema paso a paso de acuerdo con el documento de requisitos/plan de implementación. Algunas empresas llaman a este sistema una plataforma de big data y otras lo llaman sistema de BI. El alcance de la plataforma de big data será más amplio, pero para las operaciones de datos empresariales, BI debe ser el componente central.
Entonces, ya sea que se trate de desarrollo o implementación rápida basada en herramientas de terceros como Yonghong Technology, el primer paso en la construcción del sistema es conectar varias fuentes de datos y abrir canales con ellas.
En las empresas, los entornos de datos suelen ser heterogéneos y las fuentes de datos pueden incluir bases de datos, plataformas Hadoop, archivos Excel, archivos de registro, bases de datos NoSQL, interfaces de terceros, etc. Cada fuente de datos necesita un método de conexión rápido y amigable.
Por último, podremos ver todas las tablas y campos del sistema de todas las fuentes de datos que necesitemos.
2. Procesamiento de datos
Los datos en la fuente de datos suelen ser más o menos irregulares, como registros duplicados, valores nulos faltantes y valores atípicos obviamente irrazonables (como la transacción del año 2020). pedidos), lo mismo puede tener varios nombres en el sistema.
Si estos datos no se procesan o no se denominan limpieza, tendrá un gran impacto en la precisión del análisis, por lo que se requiere cierto procesamiento previo. Este proceso suele ser el más lento y aburrido, pero también es muy importante.
El autor recuerda que los temas tratados en este enlace se analizarán más detalladamente en el próximo artículo "Sobre los métodos de gobernanza de datos desde la avenida hacia la simplicidad".
3. Modelado de datos
Una vez procesados los datos, el siguiente paso es realizar el modelado de datos.
Cuando se trata de modelado, los usuarios sin conocimientos técnicos pueden sentirse intimidados y tener dificultades para entenderlo. ¿Qué hace realmente el molde? En pocas palabras, vincular varias tablas es un modelo de datos.
Por ejemplo, si una empresa quiere realizar un análisis de desempeño, necesita indicadores como la duración del servicio de los empleados, la educación, el número de proyectos, los montos de los proyectos, los márgenes de beneficio del proyecto, etc. el servicio y la educación están en la tabla de información personal, y el número de proyectos y los montos del proyecto están en la tabla de información personal. En la tabla de proyectos, el margen de beneficio del proyecto está en la tabla financiera. Estas tres tablas tienen el mismo campo "número de empleado". Estas tres tablas están relacionadas a través de este campo. Son un modelo de datos y un modelo de datos.
Crear informes de datos