¡La tasa de precisión alguna vez fue del 100%! Ex alumno de Tsinghua predijo la epidemia en Estados Unidos_Invención científica
Recientemente, un blog diario sobre las predicciones de Dios sobre los datos epidémicos en los Estados Unidos y Europa se ha vuelto popular en línea.
¿Qué tan asombroso es eso? Aquí hay dos o tres ejemplos:
-En los 10 días que comenzaron el 27 de marzo, la precisión del blog al predecir el número de infecciones en los Estados Unidos superó el 90%, y el 4 de abril, la precisión fue cerca del 100%.
-El 31 de marzo, el blog predijo que la epidemia en los Estados Unidos se desplomaría dentro de 8 a 10 días cuando el número de casos detectados superó los 2 millones siete días después, el 6 de abril, los datos de la epidemia; En Estados Unidos se produjo una caída vertiginosa: el aumento cayó del 12,43% al 8,13%. Este artículo provocó una gran respuesta y fue leído más de 13.400 veces.
-Desde el 27 de marzo, la precisión de la predicción diaria promedio del número de infecciones en Europa ha alcanzado el 97%. En los primeros cinco días de abril, la precisión de la predicción estuvo cerca del 100%.
La precisión de la predicción de Li Zhibin sobre el número de infecciones en los Estados Unidos llega al 90%
Al respecto, algunos internautas comentaron: Dios, el virus definitivamente te escuchará. .
Debes saber que el brote de la nueva epidemia de neumonía por coronavirus es un evento público global importante, que involucra muchos factores complejos como la política, la economía, la geografía, etc. Predecir un número específico de personas suena a fantasía, pero la precisión es un misterio. Por lo tanto, al bloguero detrás de este blog se le puede llamar un adivino moderno.
Entonces, ¿cómo se hizo esta adivina divina?
Egresado de la Universidad de Tsinghua + 8 años de experiencia en previsión de mercado.
El bloguero detrás de este blog, el propio adivino, se llama Li Zhibin.
Li Zhibin estudió en el Departamento de Ciencias de la Computación de la Universidad de Tsinghua de 1980 a 1985, y estudió y trabajó en la Academia de Ciencias de China de 1985 a 1994. A los 30 años se convirtió en investigador asociado, director del departamento de producto y subdirector. Me mudé a Nueva Zelanda en 1994 y luego me instalé en Hong Kong. Actualmente, Hong Kong Zhijia Logistics Software Co., Ltd.
Captura de pantalla del blog de Li Zhibin
De las dos empresas para las que trabaja Li Zhibin, el negocio principal de la primera es el desarrollo de sistemas logísticos; la segunda tiene experiencia en la Universidad China de Hong Kong; su negocio principal es el pronóstico de la demanda del mercado, que proporciona a las empresas análisis de datos y pronósticos de la demanda de productos y las fluctuaciones de precios en una región específica en los próximos tres a seis meses.
Li Zhibin dijo que ingresó al campo del análisis y predicción de datos en 2012. Debido a su experiencia en la Universidad China de Hong Kong en Yijing Company, Li Zhibin también aprendió mucho de los profesores.
Además, desde una perspectiva técnica, la experiencia de estudio de Li Zhibin en el Departamento de Ciencias de la Computación de la Universidad de Tsinghua también le permitió formar un sistema de conocimiento completo en modelado de software y análisis de big data al mismo tiempo, Tsinghua; El estilo académico de la universidad y su experiencia en ciencias e ingeniería también le hacen prestar más atención a los datos, la evidencia y los ejemplos que a las conclusiones.
Todo esto combinado hace que Li Zhibin sea muy sensible a los datos.
A finales del año pasado y principios de este, comenzaron a aparecer informes de casos en Wuhan, y también aparecieron pacientes sospechosos de neumonía por nuevo coronavirus en Hong Kong. Esto lo hizo Li Zhibin, que ha vivido en Hong Kong. Hong Kong durante mucho tiempo, bastante vigilante; el 7 de junio de 2020, la Región Administrativa Especial de Hong Kong declaró la nueva neumonía por coronavirus. El gobierno la declaró enfermedad de declaración obligatoria y los datos epidémicos comenzaron a difundirse al público. Como resultado, Li Zhibin comenzó a rastrear datos relacionados con COVID-19.
Desde entonces, Li Zhibin se levantaba cada mañana para recopilar datos centralizados. Al principio, eran solo datos de Wuhan, Hubei y Hong Kong, y luego datos de otros lugares de China continental. A finales de junio de 5438 + octubre, los datos del extranjero comenzaron a recopilarse y organizarse en tablas de Excel. Al mismo tiempo, comenzó a utilizar sus conocimientos profesionales para modelar los datos y combinó los datos de las noticias para analizar y juzgar los datos informados oficialmente.
Al principio, Li Zhibin solo compartía datos y opiniones entre sus compañeros de la Universidad de Tsinghua. Más tarde, pasó 30 minutos al día escribiendo un blog y publicándolo en Sina Blog. Hoy en día se ha convertido en un hábito diario.
Por supuesto, Li Zhibin, además de recopilar, organizar y analizar datos convencionales, también construye constantemente un modelo de datos basado en su conocimiento profesional y complementa y verifica constantemente los parámetros de este modelo. para cumplir con las expectativas.
El 27 de marzo, basándose en un modelo de datos estable, Li Zhibin proporcionó por primera vez los datos previstos para la situación de infección en Estados Unidos. El 28 de marzo dio datos de previsión de contagios en Europa.
La predicción de Li Zhibin sobre el número de personas infectadas en Europa tiene una precisión media del 97%.
En su predicción, no se trata solo del número de casos infectados, sino también de tasa de crecimiento de la infección, hora pico y número total de infecciones Número de personas, número total de muertes, tasa de mortalidad y otros datos. Por supuesto, el número de infecciones es la métrica más importante que utiliza para medir la precisión de sus predicciones.
Ni siquiera el propio Li Zhibin esperaba que sus datos de predicción fueran tan precisos.
Pero Li Zhibin enfatizó que nadie puede predecir el futuro con un 1.000% de precisión y que las predicciones deben estar en marcha.
Dijo: La previsión es un proceso dinámico porque muchos factores inesperados, como las medidas y eventos inmediatos, son impredecibles. En este momento, estas emergencias y decisiones deben convertirse en ajustes de parámetros y retroalimentarse al modelo de predicción para que se ejecute con mayor precisión. Mi modelo de predicción y mis parámetros de predicción también están en proceso de mejora continua.
No importa lo bueno que sea el software, no puede lograr una predicción 100% precisa.
Las predicciones de Li Zhibin son inseparables de dos elementos centrales: datos y modelos de predicción.
La primera es la fiabilidad de los datos. En la entrevista, Li Zhibin dijo que comenzó a recopilar datos todos los días desde el 5 de junio hasta el 38 de octubre. Al principio, sólo Wuhan y Hong Kong tenían datos, pero ahora recopila datos de cientos de países y regiones todos los días.
Li Zhibin enfatizó que en el proceso de recopilación y análisis de datos, es necesario identificar la aparición de conflictos de datos, especialmente cuando la cantidad de datos reportados oficialmente es grande, se utilizarán muchos métodos, incluidos datos de noticias; Verifique posibles conflictos de datos entre datos de diferentes regiones. Cuantos más conflictos haya en los datos, menor será su credibilidad.
Al mismo tiempo, en el proceso de juzgar la autenticidad de los datos, depende de la velocidad de publicación de los datos; cuanto mayor sea la frecuencia de publicación de los datos, mayor será la credibilidad, y menor y más lenta. Los datos publicados en el sur de Asia y el sudeste asiático se verán comprometidos.
La epidemia proviene del sitio web oficial de los CDC de EE. UU.
Además, al juzgar la credibilidad de los datos, también puedes utilizar datos de noticias para comparar. Li Zhibin le dijo a Lei Feng. com cree que, por ejemplo, la proporción de médicos y pacientes es relativamente estable, por lo que el número de pacientes se puede inferir del número de personal médico informado en las noticias.
Dijo que, de hecho, todos los datos pueden contener algunos errores humanos o errores estadísticos, y la confiabilidad de ninguna región es del 100%, pero en términos relativos, los datos de EE. UU. son menos conflictivos y los datos europeos son confiables; más bajo que en EE.UU. Como Europa occidental y Europa oriental están desequilibradas, se toma un promedio. Parece haber algunos problemas con los datos de la India, el Sudeste Asiático y Japón, como una publicación lenta de los datos y muchos conflictos de datos, lo que afecta la configuración de la credibilidad de los datos.
A finales de febrero, basándose en la verificación previa de modelos basada en datos nacionales, Li Zhibin comenzó a predecir datos epidémicos en los Estados Unidos y Europa. Por lo tanto, basándose en estos datos, Li Zhibin creó un modelo predictivo. De hecho, este modelo es extremadamente complejo, con cientos de parámetros en total, incluidos veinte o treinta parámetros importantes, que se dividen en las siguientes tres categorías:
La primera categoría es el número de casos confirmados, la población , El número de casos nuevos confirmados diariamente, el número de casos sospechosos, el número de casos detectados diariamente, el número de muertes, el número de casos curados, el número de casos hospitalizados y el número de casos hospitalizados.
El segundo tipo de parámetros está relacionado con las características de la región/ciudad/país, como el tipo de ciudad, la densidad de población, la temperatura, el clima, la proporción de personas mayores de 60 años en la ciudad, la edad media de la ciudad, construcción urbana, etc.
El tercer tipo de parámetros tiene que ver con recursos y capacidades de gobernanza, recursos médicos, número de camas de hospital, capacidades de organización social, transparencia de la información, métodos de gestión, etc.
Li Zhibin dijo que en el proceso de operación real, generalmente se usa Excel para recopilar datos, luego se importan a la base de datos de backend y luego se extraen tres conclusiones utilizando el modelo de software desarrollado por él mismo. Al final, juzgará el resultado manualmente. Enfatizó que hay muchos parámetros que no se pueden cuantificar, como el sentimiento social, por lo que es necesario que la gente participe;
También dijo: No importa lo bueno que sea el software, no puede predecir con un 100% de precisión.
Cuando barcos grandes y pequeños se topan con icebergs al mismo tiempo
Li Zhibin, graduado de la Universidad de Tsinghua, tiene ideas y pensamientos que van más allá del análisis de datos.
Por ejemplo, en el proceso de modelado, Li Zhibin comenzó con datos nacionales, que no solo tuvieron un impacto importante en el proceso de modelado de Li Zhibin, sino que también le permitieron hacer algunas observaciones.
Entonces, el día antes del cierre de la ciudad, compartió dos ideas con sus 80 compañeros de clase en la Universidad de Tsinghua:
Primero, Wuhan debería cerrarse inmediatamente porque el aumento de datos daba demasiado miedo;
En segundo lugar, rápidamente se establecieron 20 o 30 hospitales de campaña en red en Hubei, especialmente en Wuhan, como centros de aislamiento y tratamiento. Los llamados hospitales de campaña fueron posteriormente llamados hospitales improvisados. Debido a que la epidemia se ha desarrollado con tanta intensidad, aislar a los pacientes es una medida de prevención y control más importante que el tratamiento.
Estas ideas provocaron mucha discusión entre los estudiantes. Por supuesto, también hubo voces de duda y oposición, pero lo más importante es que los estudiantes participaron activamente y presentaron muchas ideas y sugerencias mejores, lo que benefició a todos. lote. Estas ideas resultaron más tarde pertinentes y fueron confirmadas por medidas de seguimiento oficiales. Entre ellos, la idea de un hospital de campaña avanzó dos semanas.
Además de las sugerencias anteriores, Li Zhibin también descubrió durante el análisis de datos y el proceso de construcción del modelo que las ciudades que se convierten en puntos críticos a menudo tienen varias características:
Ciudades antiguas;
El clima es húmedo;
La temperatura es de 5 a 15 grados;
El sistema de alcantarillado está envejeciendo;
La proporción de personas mayores es alta .
Cabe mencionar que las ciudades afectadas por la epidemia en diferentes países, como Wuhan en China, Daegu en Corea del Sur, Milán en Italia, Teherán en Irán, Nueva York en Estados Unidos, etc., generalmente cumplir con estas características.
En cuanto a la atribución de estas características, Li Zhibin enfatizó que se mezcla con conjeturas personales subjetivas y razonables, pero finalmente se refleja en los resultados de la predicción después de ser verificada por una serie de resultados.
Asimismo dijo que en realidad los parámetros también involucran modelos de organización social, modelos de gestión, transparencia de la información social y otras cuestiones, por lo que también fijará los resultados como pesimistas u optimistas en sus predicciones.
Según los resultados de predicción pesimistas proporcionados por Li Zhibin el 4 de abril, la precisión general de su predicción para el número de infecciones en los Estados Unidos llega al 96%.
La precisión de la predicción de Li Zhibin sobre el número de infecciones en los Estados Unidos llega al 96%
Sin embargo, en una entrevista exclusiva, Li Zhibin enfatizó el estado absoluto de los datos en la decisión. -hacer, a pesar de la participación de los seres humanos. Dijo que incluso si no se considera la epidemia, en el proceso diario de toma de decisiones, se puede decir que la importancia de los datos es del 100%, estos datos no sólo deben ser verdaderos, sino también completos y transparentes; Incluso si hay personas involucradas en el proceso posterior, los datos basados en estos datos son la base para la toma de decisiones.
Entonces, ¿cuál es el alcance de la toma de decisiones basada en datos?
Li Zhibin cree que incluso la epidemia de COVID-19, que es bastante accidental y contiene factores políticos, económicos y otros factores sociales complejos, puede predecirse.
Dijo que, similar a la situación con las enfermedades infecciosas, existe un patrón específico en su desarrollo. Ocasionalmente hay un patrón y es posible que no podamos captar el patrón 100% exacto, pero bajo una cierta proporción de patrones, aún podemos hacer algunos juicios y decisiones. Por supuesto, la premisa son cantidades masivas de datos válidos.
Así, Li Zhibin también habló de una metáfora interesante:
Un barco grande y un barco pequeño inevitablemente girarán cuando de repente se encuentren con un iceberg, pero en términos relativos, el barco grande; El final es decididamente más predecible. El bote pequeño se cambió de inmediato, pero el bote grande era demasiado grande y tenía inercia, lo que facilitaba chocar contra el iceberg. Esta inercia es la ley y el volumen del barco en sí es la cantidad de datos.
Cuanto mayor sea la cantidad de datos, más precisos serán los datos, más transparente será la información relevante, más fácil será predecir y más preciso será predecir la ocurrencia de tales incidentes masivos, Li Dijo Zhibin al final.
Ya sabes, ¡la precisión solía ser del 100%! Para obtener más información sobre "Tsinghua Alumni predice la epidemia en los Estados Unidos", continúe prestando atención a la columna de información sobre ciencia y tecnología del espacio profundo. El editor del espacio profundo continuará actualizándolo con más noticias sobre ciencia y tecnología.
Fuente de este artículo: Deep Space Game Editor: Anonymous King's Heart 2 Haz clic para probar