Cómo obtener información de big data
1. Bases de datos públicas
Sitios web de divulgación de datos de uso común:
UCI: conjuntos de datos clásicos de aprendizaje automático y minería de datos, que incluyen clasificación, agrupación, regresión, etc. Múltiples conjuntos de datos bajo la pregunta. Es muy clásico y relativamente antiguo, pero sigue activo a los ojos de los investigadores científicos.
Datos nacionales: los datos provienen de la Oficina Nacional de Estadísticas de la República Popular China y la República Popular China. Contienen datos sobre muchos aspectos de la economía de mi país y los medios de vida de la gente, y tienen datos mensuales. Cobertura trimestral y anual. Es completa y autorizada.
Amazon: una plataforma de datos en la nube intercientífica de Amazon, que incluye conjuntos de datos en química, biología, economía y otros campos.
figshare: la plataforma más grande para compartir resultados de investigaciones. Aquí puede encontrar resultados de investigaciones compartidos por expertos de todo el mundo y obtener datos de investigaciones.
Github: un canal de adquisición de datos muy completo, que incluye recursos de bases de datos en varias subdivisiones. La cobertura de ciencias naturales y ciencias sociales es completa y es adecuada para quienes realizan investigaciones y análisis de datos.
2. Utilice rastreadores para obtener datos valiosos
A continuación se muestran algunas plataformas de sitios web. Podemos utilizar rastreadores para rastrear datos en el sitio web. Algunos sitios web también brindan acceso a la interfaz API de datos. , pero requiere pago.
1. Datos financieros, 2. Datos de préstamos en línea; 3. Informe anual de la empresa; 8. Transporte y alimentación; turismo; 9. Plataforma de comercio electrónico; 10. Datos de audio y vídeo; 11. Información sobre vivienda; 12. Compra y alquiler de automóviles; 13. Datos de nuevos medios.
3. Plataforma de comercio de datos
Debido a la enorme demanda de datos hoy en día, se han generado muchas plataformas para el comercio de datos. Por supuesto, también hay datos que se pagan a través de ellas. Hay muchos datos gratuitos disponibles.
Youyi Data: Iniciada por el Centro Nacional de Información, es una plataforma de datos con recursos de información a nivel nacional y una plataforma líder en comercio de datos a nivel nacional. La plataforma tiene dos modelos de transacciones, B2B y B2C, e incluye recursos de datos en múltiples campos como asuntos gubernamentales, sociedad, redes sociales, educación, consumo, transporte, energía, finanzas y salud.
Datatang: se centra en transacciones integrales de datos de Internet, proporcionando transacciones de datos, procesamiento y servicios API de datos, incluidos datos en reconocimiento de voz, salud médica, geografía del transporte, comercio electrónico, redes sociales, reconocimiento de imágenes, etc.
4. Índice de red
Índice Baidu: plataforma de consulta de índice, que puede comprobar la atención de un tema en varios períodos de tiempo en función de los cambios en el índice y realizar análisis de tendencias y públicos. predicción de opinión. Muy buena guía. Además de prestar atención a las tendencias, también existen herramientas de análisis precisas, como el análisis de la demanda y la elaboración de perfiles de masas, que son de gran importancia como referencia para la investigación de mercado. Los otros dos buscadores Sogou y 360 también tienen productos similares, que pueden servir de referencia.
Índice de Alibaba: una herramienta autorizada de análisis de transacciones de productos básicos a nivel nacional que puede ver datos de transacciones y búsqueda de productos por región e industria. Según los datos de transacciones de las plataformas Taobao, Tmall y 1688, básicamente podemos ver la tendencia de. transacciones de productos básicos nacionales. La descripción general es de gran importancia para el análisis de tendencias y la observación de la industria.
Índice de Umeng: Umeng tiene estadísticas y análisis relativamente completos sobre datos de aplicaciones de Internet móviles, lo cual es muy útil para investigar productos móviles, realizar estudios de mercado y analizar el comportamiento del usuario. Además del índice Umeng, el Informe de Internet de Umeng también es una lectura excelente para comprender las tendencias de Internet.
5. Network Collector
Network Collector es un software que puede recopilar fácil y rápidamente contenido disperso en la red. Tiene una buena función de recopilación de contenido y no requiere costo. Muchos usuarios lo utilizan como herramienta de recopilación principal.
Zaoshu: una nueva generación de rastreadores de nube inteligentes. La más rápida entre las herramientas sobre orugas, 9 veces más rápida que otros productos similares. Con decenas de millones de IP, puede iniciar fácilmente innumerables solicitudes y los datos se almacenan en la nube, lo cual es seguro, conveniente, simple y rápido.
Train Collector: un software profesional de captura, procesamiento, análisis y minería de datos de Internet que puede capturar de manera flexible y rápida información de datos dispersos en páginas web.
Octopus: Un recolector sencillo y práctico con funciones completas y fácil manejo sin escribir reglas. Recolección en la nube única, las tareas de recolección se pueden ejecutar en el servidor en la nube incluso cuando la máquina está apagada.