Acerca de los cuatro aspectos clave del análisis de big data
Acerca de los cuatro vínculos clave del análisis de big data
Con el advenimiento de la era del big data, el concepto de IA se ha vuelto popular y la conciencia de la gente ha mejorado. ¿Por qué los big data son valiosos? ¿Es esto solo un concepto ficticio? ¿Qué opinas sobre los problemas impulsados por los datos? ¿Por qué más datos serán más efectivos? Estas preguntas son difíciles de responder, pero los big data no son de ninguna manera grandes y vacíos.
Shannon, el padre de la teoría de la información, dijo una vez que la información se utiliza para eliminar la desconfianza, como predecir si lloverá mañana si se conoce el tiempo de hoy, la velocidad del viento, las nubes, la presión del aire y otra información. , ayudará a sacar conclusiones más precisas. Por lo tanto, los macrodatos se utilizan para eliminar la incertidumbre. Dominar datos más eficaces puede impulsar a las empresas a tomar decisiones científicas y objetivas. Sang Wenfeng tiene su propia comprensión de big data. La recopilación de datos sigue las reglas de cuatro caracteres: "grande", "completo", "fino" y "oportuno". "Grande" enfatiza lo "grande" macroscópico en lugar de lo "grande" físico. Big data no consiste en perseguir ciegamente la “grandeza” del volumen de datos. Por ejemplo, las estadísticas diarias de los datos de precios de Apple en varias ciudades a nivel de prefectura son de solo 2 MB, pero en base a esto, se desarrolló un sistema de programación inteligente de Apple, que es una aplicación de big data, aunque algunos datos son grandes, pero tienen un valor limitado. ; "completo" enfatiza múltiples fuentes de datos. La recopilación de big data enfatiza la cantidad total en lugar del muestreo. Además de recopilar datos de clientes, también es necesario recopilar datos de registros de servidores, bases de datos comerciales y servicios de terceros para brindar una cobertura completa. Por ejemplo, en las encuestas de opinión antes de las elecciones estadounidenses, Hillary tenía más del 70% de posibilidades. de ganar, pero Trump se convirtió en presidente de los Estados Unidos porque Los datos de muestreo están sesgados y las personas de abajo que apoyan a Trump no se conectarán a Internet para responder. "Fino" enfatiza la recopilación de datos multidimensionales, es decir, la recopilación de dimensiones, atributos, campos, etc. de eventos. Por ejemplo, en el evento "agregar al carrito de compras" en la industria del comercio electrónico, además de recopilar los datos de clic del usuario, también se deben recopilar datos como en qué producto hizo clic el usuario y el comerciante correspondiente para facilitar el análisis cruzado posterior. . "Tiempo" enfatiza la actualidad de los datos. Evidentemente, sólo los datos oportunos tienen valor de referencia. Por ejemplo, en el índice nacional y el índice IPC, el valor de la información recopilada a principios de mes es obviamente diferente del obtenido a mediados de mes. Los datos deben obtenerse y analizarse en tiempo real. Si analizamos el valor de los datos desde otra perspectiva, se puede dividir en dos puntos: toma de decisiones basada en datos e inteligencia de productos basada en datos. El mayor valor de los datos es la inteligencia del producto. Con la base de datos, podemos construir un buen algoritmo estratégico para retroalimentar el producto, mejorar la capacidad de aprendizaje del producto en sí y puede iterarse continuamente. Por ejemplo, las recomendaciones de noticias de Toutiao y la optimización del motor de búsqueda de Baidu Search son manifestaciones de inteligencia de productos basada en datos.
Cuatro vínculos clave en el análisis de datos Sang Wenfeng divide el análisis de datos en cuatro vínculos: recopilación de datos, modelado de datos, análisis de datos e indicadores. Expuso el punto de vista de que si se quiere hacer un buen trabajo en el análisis de datos, se debe tener un concepto ascendente. Muchas empresas promueven el análisis de datos de arriba hacia abajo y utilizan indicadores de análisis empresarial para decidir qué datos recopilar. Este es el modelo de los ingenieros impulsados por la demanda y no favorece la recopilación de datos a largo plazo de la empresa. Un modelo ascendente saludable puede ayudar a las empresas a establecer verdaderamente un flujo de datos y un sistema de análisis de datos que sea coherente con su propio negocio. 1. Recopilación de datos Si realmente desea realizar un análisis de big data, primero debe construir una buena base de datos. El núcleo es "completo" y "detallado". Al recopilar datos, no puede recopilar datos solo a través de la aplicación o el cliente, los datos del servidor y la base de datos deben recopilarse y abrirse al mismo tiempo para recopilar la cantidad total de datos en lugar de muestrear datos. Al mismo tiempo, se deben recopilar dimensiones relevantes. de lo contrario, es posible encontrar datos históricos al analizar el negocio, así que no se preocupe si la cantidad de datos es demasiado grande, el costo del almacenamiento en disco es muy bajo en comparación con el valor de la acumulación de datos. Los métodos comunes de recopilación de datos se pueden dividir en tres categorías: visualización/enterramiento completo, enterramiento de código y herramientas de importación de datos.
El primero es visualización/cobertura completa. Este método no requiere mucha cooperación por parte de los ingenieros. Si los gerentes de producto y de operaciones desean realizar un análisis, pueden hacer clic directamente en la interfaz y el sistema recopilará los datos. , que es más flexible. Pero también existen desventajas: se perderá mucha información dimensional y los datos no serán lo suficientemente precisos.
El segundo tipo son los puntos de enterramiento de código. Los puntos de enterramiento de código no se refieren específicamente a los puntos de enterramiento de front-end. Los registros y módulos de datos del servidor back-end pueden ser puntos de enterramiento de código en un nivel más profundo. La industria del comercio electrónico se puede recopilar en la parte posterior. La ventaja de enterrar el código es que los datos son más precisos. Al recopilar datos a través del front-end, a menudo encontrará que los datos no coinciden y son muy diferentes de los datos reales del back-end. Puede haber tres razones: la primera es que el calibre estadístico es diferente y debe haber pérdida, la segunda es que el tráfico es demasiado grande, lo que resulta en una pérdida anormal de datos y la tercera es que el SDK es compatible; y los datos de ciertos dispositivos de algunos clientes no se pueden enviar, lo que genera asimetría de datos. El backend donde está enterrado el código es el servidor de la propia empresa, y su propia simulación central se puede calibrar para básicamente recopilar datos más precisos. El tercer método es importar los registros, tablas de datos y datos fuera de línea generados en segundo plano a través de la herramienta auxiliar de importación por lotes en tiempo real. Este es un fuerte acoplamiento. La recopilación de datos requiere la participación de personas que recopilan datos y los analizan. Quienes los analizan comprenden claramente los indicadores comerciales y tienen juicios sensibles sobre la precisión de los datos. Las personas que recopilan los datos luego realizan una recopilación sistemática basada en el negocio. . 2. Modelado de datos Muchas empresas tienen bases de datos comerciales que almacenan información de registro de usuarios, información de transacciones, etc. Luego, los gerentes de producto y el personal de operaciones buscan ayuda del personal técnico y utilizan bases de datos comerciales para respaldar el análisis de datos comerciales. Sin embargo, el costo de mantenimiento es muy alto y decenas de millones o cientos de millones de datos no se pueden operar bien. Por lo tanto, existen dos tipos de análisis: análisis de datos y modelos de análisis de datos de operación normal y resolución de problemas por separado. Hay dos criterios principales para el modelado de datos: fácil de entender y buen rendimiento. Basado en datos no es solo para analistas de datos y administradores de bases de datos. Permite a todos los empresarios de la empresa utilizar datos para el análisis de datos en el trabajo y obtener respuestas de segundo nivel, verificar sus nuevas ideas y pensamientos y probar nuevos métodos. es el estado de salud basado en datos de todos los empleados. El modelo de análisis de datos multidimensionales (OLAP) es el modelo más eficaz en el análisis de datos de los usuarios. Clasifica los datos de acceso de los usuarios en dimensiones e indicadores. La ciudad es una dimensión, el sistema operativo también es una dimensión y las ventas y el volumen de usuarios son indicadores. Establecer un modelo de análisis de datos multidimensional no resuelve el problema de analizar un determinado indicador comercial. Los usuarios pueden combinarlo de manera flexible para satisfacer diversas necesidades. 3. Análisis de datos El análisis de datos respalda la mejora del producto. Cuando los gerentes de producto mejoran las funciones del producto, a menudo tienen una idea en la cabeza y luego reprocesan las ideas elementales. Un concepto mencionado en "Lean Startup" es introducir el análisis de datos en las iteraciones del producto, realizar la recopilación y el análisis de datos sobre las funciones existentes y sacar conclusiones útiles para introducir en la siguiente ronda de iteraciones, mejorando así el producto. El análisis de big data es fundamental en este proceso. El fundador de Facebook describió una vez cómo su empresa determina la dirección de las mejoras de los productos. Facebook ha adoptado un mecanismo: si cada empleado tiene una idea, puede probarla con cientos de miles de usuarios, si el resultado no es bueno, la idea será abandonada y si el efecto es muy bueno, será promocionada. una gama más amplia. Este es un método científico para introducir el análisis de datos en la iteración del producto. Cuando Sang Wenfeng se unió a Baidu en 2007, también descubrió un fenómeno: cuando abría su buzón, recibía docenas de informes, presentando el número de visitas, preguntas, respuestas, etc., que Baidu conocía una por una. Cuando el gerente de producto de Baidu presenta un requisito, los ingenieros harán preguntas desde la perspectiva de los datos: ¿por qué esta función es buena? ¿Qué datos la respaldan? ¿Cómo se evaluará esta función cuando esté en línea? manifestación de un producto basado en datos. Monitoreo de operaciones basado en datos El monitoreo de operaciones generalmente utiliza el modelo pirata. La llamada operación consta de cinco cosas: cómo atraer a los usuarios para que lleguen y luego activarlos para que los usuarios se conviertan realmente en usuarios efectivos y luego retenerlos, para que los usuarios sean más atractivos; Puede permanecer en su producto y continuar usándolo; el siguiente paso son las referencias. Es muy difícil adquirir usuarios. ¿Puede movilizar a los usuarios existentes para atraer nuevos usuarios y lograr la autopropagación? dinero. . Utilice el análisis de datos para mejorar las operaciones.
Métodos de análisis de datos Existen varios métodos de análisis comunes en Internet, como análisis multidimensional, análisis de embudo, análisis de retención, ruta de usuario, agrupación de usuarios, análisis de clics, etc. Los diferentes métodos de análisis de datos son adecuados para diferentes escenarios comerciales y deben ser elegido de forma independiente. Para dar un ejemplo de análisis multidimensional, Census Data tiene un cliente en la industria del video llamado Kaiyan. Su software tiene una página de descarga. El personal de operaciones descubrió una vez que el volumen de descarga de su aplicación de Android era mucho menor que el de iOS. lo cual no era razonable. Consideraron si los usuarios de iOS estaban más dispuestos a ver videos y luego analizaron desde múltiples dimensiones para negar esta conclusión. Cuando descubrieron que algunas versiones de Android no tenían descargas y analizaron el ancho y alto de la pantalla, descubrieron que esta versión tenía el botón de descarga. no se muestra, por lo que la tasa de descarga es muy baja. De esta manera, a través del análisis multidimensional se encontraron puntos de mejora del producto. Como ejemplo de análisis de embudo, el sitio web oficial de Shence Data tiene una gran cantidad de visitas, pero la tasa de conversión de usuarios registrados que inician sesión es muy baja y debe mejorarse. Entonces todos estaban pensando en cómo activar mejor el embudo de conversión. Más tarde, Shence hizo un pequeño cambio y agregó una página de inicio de sesión después de enviar la solicitud de prueba, para que los usuarios puedan iniciar sesión fácilmente después de recibir su nombre de cuenta y contraseña, optimizando el proceso. experiencia del usuario, la tasa de conversión también se ha mejorado significativamente. 4. Cómo definir indicadores Para las startups, existen dos métodos que son muy efectivos: el método del primer indicador clave y el método del indicador pirata. El primer método de indicador clave es una teoría propuesta en "Análisis de datos ajustados". Cualquier producto tiene un indicador que necesita la mayor atención en una determinada etapa. Otros indicadores son derivados de este indicador. es que para una empresa nueva, puede comenzar a centrarse en la actividad diaria y ampliar algunos indicadores en torno a la actividad diaria. Cuando los productos de la empresa maduren, la monetización se convertirá en la clave y el ingreso neto (GMV) se convertirá en el primer indicador clave. .