La Red de Conocimientos Pedagógicos - Conocimientos para el examen de postgrado - Seis cambios tecnológicos importantes en el big data de China

Seis cambios tecnológicos importantes en el big data de China

Seis cambios tecnológicos importantes en el examen de analista de datos de Big Data de China

Combinando la esencia de la Conferencia de Computación en la Nube Hadoop de China y la Conferencia de Tecnología de Big Data de CSDN, la anterior Conferencia de Tecnología de Big Data de China (BDTC) se ha convertido en la principal conferencia nacional. conferencia Evento tecnológico. Desde el Salón Hadoop de 60 personas en 2008 hasta la fiesta tecnológica actual de 1.000 personas, como plataforma de intercambio profesional con gran valor práctico en la industria, cada Conferencia de Tecnología de Big Data de China representa fielmente los puntos técnicos calientes en el campo de big data y precipita la industria La experiencia práctica ha sido testigo del desarrollo y evolución de toda la tecnología del ecosistema de big data.

2014 65438 + 2014 China Big Data Technology Conference (BDTC) organizada por la China Computer Federation (CCF) del 12 al 14 de febrero, coorganizada por el Comité de Expertos en Big Data de la CCF y organizada conjuntamente por la Instituto de Tecnología Informática, Academia China de Ciencias y CSDN). La conferencia de tres días tiene como objetivo promover el desarrollo de la tecnología de big data en aplicaciones industriales. Planea establecer infraestructura de big data, ecosistema de big data, tecnología de big data, aplicaciones de big data, tecnología financiera de Internet de big data, procesamiento inteligente de información, etc. Foros temáticos y cumbres de la industria. Al mismo tiempo también se llevará a cabo la "Segunda Conferencia Académica de Big Data del CCF 2014", organizada por la Federación de Computación de China, organizada por el Comité de Expertos en Big Data del CCF y coorganizada por la Universidad de Nanjing y la Universidad de Fudan, y el informe temático ser compartido con la conferencia de tecnología.

Esta conferencia invitará a casi 100 destacados expertos extranjeros y profesionales de primera línea en el campo de la tecnología de big data para llevar a cabo debates en profundidad sobre los últimos avances del software de código abierto como Hadoop, YARN, Spark, Tez, HBase, Kafka, OceanBase, etc. Además de las tendencias de desarrollo de NoSQL/NewSQL, computación en memoria, computación en flujo y tecnologías de computación gráfica. El ecosistema OpenStack piensa en las necesidades informáticas de big data, así como en las últimas aplicaciones de la industria, como visualización, aprendizaje automático/aprendizaje profundo, inteligencia empresarial y análisis de datos en big data, y comparte las características técnicas y la experiencia práctica en la producción real. sistemas.

En la etapa inicial de la conferencia, se resolvieron especialmente los aspectos más destacados de conferencias anteriores, se registró el proceso de desarrollo del campo de la tecnología de big data de China y se proyectó el próximo BDTC 2014 en función de la situación ecológica actual. :

Persiguiendo las raíces Rastreando los orígenes y entendiendo los seis grandes cambios tecnológicos del big data

Con el desarrollo de la conferencia sobre tecnología del big data, hemos sido testigos de la llegada de la era del tecnología y aplicación de big data en China, y también fue testigo del desarrollo de toda la tecnología y evolución del ecosistema de big data:

1. Mirando hacia atrás en conferencias BDTC anteriores, no es difícil encontrar que a partir de 2009, la forma en que se organizan y programan los recursos ha cambiado gradualmente de la computación grid entre dominios a la computación en la nube local. Hoy en día, la computación en la nube se ha convertido en la única plataforma para la protección de recursos de big data.

2. Cambios en el almacenamiento de datos: HDFS y NoSQL surgieron en el momento histórico. Con la creciente diversidad de formatos de datos, el almacenamiento relacional tradicional ya no puede satisfacer las necesidades de las aplicaciones de la nueva era. Han surgido nuevas tecnologías como HDFS y NoSQL que se han convertido en una parte integral de muchas arquitecturas de aplicaciones a gran escala, promoviendo computadoras/servidores personalizados. .desarrollar y convertirse en una de las tecnologías más populares en el ecosistema de big data.

3. El modelo informático ha cambiado: las cajas informáticas Hadoop se han convertido en algo común. Para respaldar mejor y más económicamente su servicio de búsqueda, Google creó Map/Reduce y GFS. Inspirándose en el artículo de Google, el ex ingeniero de Yahoo Doug Cutting creó un ecosistema de software Hadoop que era diferente del modelo de computación de alto rendimiento, computando cerca de los datos. Hadoop es inherentemente noble y ahora se ha convertido en el proyecto de código abierto más "candente" de la Fundación Apache y también es reconocido como el estándar de facto para el procesamiento de big data. Hadoop proporciona capacidades masivas de procesamiento de datos en un entorno distribuido a bajo costo. Por lo tanto, el debate sobre la tecnología Hadoop y el intercambio de prácticas siempre han sido una de las características más llamativas de las anteriores conferencias sobre tecnología de big data de China.

4. Introducir tecnología de computación en flujo para cumplir con los requisitos de procesamiento de datos de baja latencia de las aplicaciones. Con la expansión de las necesidades comerciales, los big data han ido gradualmente más allá del alcance del procesamiento por lotes fuera de línea. Los marcos de procesamiento de flujo como Storm y Kafka, que dan pleno juego al tiempo real, la escalabilidad, la tolerancia a fallas y la flexibilidad, han resucitado la antigua tecnología de middleware de mensajes. Se ha convertido en un hermoso paisaje en todos los BDTC anteriores.

5. La computación en memoria está tomando forma: el advenedizo Spark se atreve a desafiar a los jugadores establecidos. Spark se origina en la plataforma informática de clúster de AMPLab de la Universidad de California, Berkeley. Es un todoterreno poco común, basado en la computación en memoria, que parte de múltiples iteraciones de procesamiento por lotes y abarca múltiples paradigmas informáticos, como el almacén de datos, el procesamiento de flujos y la computación de gráficos. En sólo cuatro años, Spark ha crecido hasta convertirse en un proyecto de primer nivel de la Apache Software Foundation, con 30 especialistas y usuarios entre los que se encuentran IBM, Amazon y Yahoo! , Sohu, Baidu, Alibaba, Tencent y muchas otras empresas conocidas, incluidas Spark SQL, Spark Streaming, MLlib, GraphX ​​​​y muchos otros proyectos relacionados. No hay duda de que Spark ha encontrado su lugar.

6. El desarrollo de la tecnología de bases de datos relacionales: el nuevo SQL reescribe la historia de las bases de datos. La investigación y el desarrollo de sistemas de bases de datos relacionales no se han detenido y se han logrado avances en términos de expansión horizontal, alta disponibilidad y alto rendimiento. Las aplicaciones prácticas requieren con mayor urgencia bases de datos MPP (procesamiento paralelo masivo) para el procesamiento analítico en línea (OLAP), incluido el aprendizaje de bases de datos MPP y la adopción de nuevas tecnologías en el campo de big data, como tecnología de copia múltiple, tecnología de almacenamiento en columnas, etc. Por otro lado, las bases de datos para el procesamiento de transacciones en línea (OLTP) se están desarrollando hacia un alto rendimiento, apuntando a un alto rendimiento y una baja latencia. Las tendencias tecnológicas incluyen memoria total y sin bloqueo.

Basado en el velero, vea el desarrollo del ecosistema de big data en 2014.

El tiempo vuela y la Conferencia de Tecnología Big Data de China de 2014 se celebró según lo previsto. La tecnología se está desarrollando rápidamente. ¿Qué podemos aprender del BDTC en 2014? Aquí también podríamos prestar atención a las tendencias actuales de desarrollo tecnológico:

1. MapReduce ha disminuido, ¿puede YARN/Tez lograr una mayor gloria? Para Hadoop, 2014 es un año feliz: EMC, Microsoft, Intel, Teradata, Cisco y muchos otros gigantes han aumentado su inversión en Hadoop. Sin embargo, este año no ha sido fácil para muchas organizaciones: debido a las deficiencias del tiempo real basado en MapReduce y la necesidad de una plataforma de procesamiento de big data más general, la transformación de Hadoop 2.0 es inevitable. Entonces, ¿qué desafíos encontrarán las organizaciones durante la transformación? ¿Cómo pueden las organizaciones aprovechar mejor las nuevas funciones que ofrece YARN? ¿Qué cambios importantes se producirán en el desarrollo futuro de Hadoop? Con este fin, BDTC 2014 invitó especialmente a los principales expertos internacionales de Hadoop, como Uma Maheswara Rao G, miembro del Comité Apache Hadoop y del Comité de Gestión de Proyectos (PMC) de Apache Hadoop, Liu Yi, miembro de Apache Hadoop, Bikas Saha (PMC, miembro de Apache Hadoop y Tez), nosotros También podría discutirlo cara a cara.

2. Los tiempos han cambiado y el futuro de los marcos de computación de flujo como Storm y Kafka es incierto. Si la lentitud de MapReduce ha brindado oportunidades a muchos marcos informáticos de transmisión, entonces, cuando los componentes del ecosistema Hadoop maduren y Spark se vuelva más fácil de usar, ¿qué habrá disponible para satisfacer estos marcos informáticos de transmisión? Aquí, también podríamos aprender de la práctica compartida de casi cien juegos en BDTC 2014, o comunicarnos cara a cara con expertos.

3. Spark, ¿es una subversión o un complemento? La compatibilidad con el ecosistema Hadoop permite el desarrollo de Spark cada día que pasa. Sin embargo, según los resultados de clasificación publicados recientemente por Sort Benchmark, en la clasificación de datos fuera de línea masivos (100 TB), en comparación con el campeón anterior Hadoop, Spark usó menos de una décima parte de la máquina y solo un tercio del tiempo para completar la misma tarea. No hay duda de que el Spark actual no se limita a la computación en tiempo real, sino que apunta directamente a una plataforma general de procesamiento de big data. Sin embargo, es posible que finalizar Sharp e iniciar Spark SQL haya comenzado a tomar forma. Entonces, cuando Spark sea más maduro y admita la computación fuera de línea de forma más nativa, ¿quién obtendrá el honor de ser una plataforma de procesamiento estándar de big data de código abierto? Aquí lo esperamos juntos.

4. Capa de infraestructura, ¿qué se utilizará para actualizar nuestra red? Hoy en día, la red se ha convertido en el objetivo de muchas plataformas de procesamiento de big data.

Por ejemplo, para superar los cuellos de botella de la red, Spark reemplazó el módulo de red NIO original con un nuevo módulo de red basado en Netty, mejorando así la utilización del ancho de banda de la red. Entonces, ¿cómo superar los cuellos de botella de la red a nivel de infraestructura? ¿Cuánta mejora de rendimiento se puede lograr utilizando directamente equipos de red más eficientes, como Infiniband? Construya una red más inteligente y ajuste de forma adaptativa los requisitos de transmisión de datos de la etapa de división/fusión en cada etapa informática, lo que no solo mejora la velocidad sino que también mejora la utilización. En BDTC 2014, podemos aprender valiosa experiencia de la tecnología Infiniband/RDMA y conferencias sobre aplicaciones, así como varias batallas SDN.

5. El alma de la minería de datos: el aprendizaje automático. En los últimos años, la competencia por el talento en el campo del aprendizaje automático se ha vuelto feroz. Empresas como Google, IBM, Microsoft, Baidu, Alibaba y Tencent han invertido cada vez más en el campo del aprendizaje automático, incluido el diseño y el sistema de chips. arquitectura (computación heterogénea), sistemas de software, algoritmos modelo y aplicaciones en profundidad. Big data marca la llegada de una nueva era. Los datos de PB hacen que la gente se siente sobre una montaña de oro. Sin embargo, sin algoritmos inteligentes, el alma del aprendizaje automático, la extracción de valor sin duda quedará en nada. En esta sesión, también hemos preparado varias sesiones para compartir relacionadas con el aprendizaje automático para todos, esperando su participación.

Además del intercambio de tecnología, la Segunda Conferencia Académica de Big Data CCF 2014 también se llevará a cabo al mismo tiempo, y el informe temático se compartirá con la conferencia de tecnología. Para entonces, también podremos obtener muchos de los últimos resultados de investigaciones científicas del campo académico.

Lo anterior es el contenido relevante compartido por el editor sobre los seis cambios tecnológicos más importantes en el big data de China. Para obtener más información, puede seguir a Global Ivy para compartir más información detallada.