Operación y mantenimiento automatizado de redes en la era de Internet
Internet tiene dos elementos principales: contenido y ojos. "Contenido" se refiere a servicios de red proporcionados por compañías de Internet (o ICP), como páginas web, juegos, mensajería instantánea, etc. y "globos oculares" se refieren a una gran cantidad de usuarios de Internet. El contenido de las empresas de Internet a menudo se distribuye en múltiples IDC, grandes o pequeños. Cada vez más "ojos" miran fijamente el contenido proporcionado por los ICP, y la infraestructura de almacenamiento de contenidos de las empresas de Internet también ha mostrado un crecimiento explosivo. Para garantizar la experiencia de acceso al contenido, las empresas de Internet necesitan implementar servidores comerciales en lotes en diferentes operadores y diferentes provincias/ciudades para proporcionar servicios externos, y establecer intranets IDC, redes de área metropolitana y redes de área amplia para la comunicación entre módulos comerciales. Al mismo tiempo, a través de CDN o CDN de fabricación propia, las empresas de servicios profesionales cubren los puntos ciegos del servicio. Por tanto, a medida que el negocio crece, el departamento de operación y mantenimiento adquiere cada vez más importancia. Después de años de acumulación, gradualmente han formado un sistema eficiente de operación y mantenimiento. Basado en la experiencia de las empresas nacionales de Internet, este artículo se centra en el estudio de una nueva generación de sistemas automatizados de operación y mantenimiento de infraestructura de TI.
1. Tres etapas de operación y mantenimiento
●La primera etapa: todos operan y mantienen.
En los primeros días, la infraestructura de TI de una empresa aún no había alcanzado una cierta escala (generalmente de unas pocas a docenas de máquinas) y no necesariamente tenía personal o departamentos de operación y mantenimiento dedicados. dividido entre varias posiciones. El personal de I+D tiene permisos de servidor para mantener y gestionar códigos y servicios en línea.
●La segunda etapa: automatización vertical
A medida que aumenta el volumen de negocios, la infraestructura de TI se desarrolla a otro nivel de magnitud (generalmente de cientos a miles de máquinas), el personal profesional de operación y mantenimiento comenzó a participar en trabajos diarios de instalación y mantenimiento, desempeñar el papel de "bomberos", recibir alarmas y tener especificaciones de operación y mantenimiento, pero la operación y el mantenimiento brindan principalmente servicios posteriores al desarrollo.
En esta etapa se ha iniciado paulatinamente la transición al procesamiento de procesos. El departamento de operación y mantenimiento comenzó a generar una lista de preguntas frecuentes, combinadas con scripts automatizados adecuados para su propio alcance comercial, y comenzó a utilizar el ensamblaje de software de código abierto para completar la mayor parte del trabajo.
Específicamente, cada línea de productos tiene su propio script, utilizando SVN+Puppet o Chef para completar la gestión del servidor en línea y de la configuración.
●La tercera etapa: todo es automático.
En la marea de la Internet, han surgido cada vez más equipos de caballos oscuros. Todos tienen la experiencia de aumentar las visitas de los usuarios N veces en un corto período de tiempo. En el proceso de explosión del tráfico, el buen seguimiento de la infraestructura de Internet de ICP determina directamente si el contenido empresarial puede satisfacer el acceso simultáneo de una gran cantidad de usuarios.
Al mismo tiempo, el sistema de operación y mantenimiento debe ser suficientemente completo, eficiente y ágil. Empresas como Google, Tencent, Baidu y Alibaba generalmente tienen equipos de operación y mantenimiento unificados y uno o más sistemas automatizados de operación y mantenimiento como referencia. Los departamentos de operaciones y desarrollo tendrán perspectivas paralelas. Y también ha comenzado a prestar más atención a la optimización de la infraestructura de TI a nivel arquitectónico y a la gestión y conmutación automáticas en clústeres de gran escala (Figura 1).
Figura 1. Descripción general de la infraestructura de TI de las grandes empresas de Internet
2. Análisis del sistema de operación y mantenimiento BAT (Baidu, Alibaba, Tencent)
Proporcionado por las empresas nacionales de Internet Baidu, Alibaba y Tencent ( En lo sucesivo, BAT) El contenido empresarial y la arquitectura de TI son diferentes, y el enfoque del sistema de operación y mantenimiento durante el proceso de desarrollo también es diferente.
1. Operación y mantenimiento de Tencent: gestión de servicios de operación y mantenimiento basada en ITIL
Se estima que para 2065, 438+05, Tencent tendrá 600.000 servidores en todo el país. Con el éxito de la práctica de implementación automatizada de 2012, la aceptación automatizada está actualmente en marcha. En términos de equipos de red, se realizará un trabajo totalmente automático desde el lado de la demanda: generación automática de listas de equipos --> distribución automática de listas de compras --> generación automática de relaciones de conexión de puertos y relaciones de topología --> distribución automática de configuraciones -- > aceptación automática. Todo el proceso de operación y mantenimiento también ha evolucionado desde la gestión de TI tradicional inicial a un proceso de gestión de servicios basado en ITIL (como se muestra en la Figura 2).
Figura 2. Gestión de servicios de operación y mantenimiento ITIL de Tencent.
2. Sistema de operación y mantenimiento de Alibaba: gestión de infraestructura basada en CMDB + modelado jerárquico lógico.
La base de datos de gestión de configuración CMDB (Configuration Management Database) (en lo sucesivo, CMDB) almacena todos los componentes de la infraestructura de TI como elementos de configuración, mantiene datos detallados para cada elemento de configuración y mantiene datos de relación entre elementos de configuración. así como datos de gestión como eventos e historial de cambios. Al consolidar estos datos en un repositorio central, una CMDB puede brindar a las organizaciones la seguridad de comprender y gestionar las relaciones de causa y efecto entre los tipos de datos. Al mismo tiempo, CMDB está estrechamente relacionada con todos los procesos de soporte y prestación de servicios, respaldando la operación de estos procesos, aprovechando al máximo el valor de la información de configuración y confiando en procesos relevantes para garantizar la precisión de los datos. Puede realizar la integración y automatización de procesos dentro y entre el soporte de servicios de TI, la operación y mantenimiento de TI y la gestión de activos de TI. En proyectos reales, la CMDB a menudo se considera la base para construir otros procesos ITIL y se le da prioridad. El éxito del plan ITIL tiene mucho que ver con el establecimiento exitoso de la CMDB.
3. Operación y mantenimiento automatizados de Baidu: implementación + monitoreo + sistema comercial + relación.
Los principales desafíos de operación y mantenimiento que enfrenta Baidu incluyen: cambios repentinos de tráfico, el impacto de entornos complejos, modelos de desarrollo iterativos rápidos y el equilibrio entre eficiencia de operación y mantenimiento, calidad y costo de operación y mantenimiento. El equipo de operación y mantenimiento de Baidu cree que cuando la escala del servidor alcanza decenas de miles, la perspectiva de operación y mantenimiento debe cambiar a la granularidad del servicio. 10.000 unidades no significa "100 unidades * 100"; el estado operativo de la máquina ya no representa el estado operativo de la empresa; el departamento de operación y mantenimiento proporciona servicios preliminares para I+D, y la relación entre los servicios se vuelve cada vez más compleja; el cúmulo se expande.
Figura 3. Marco de tecnología de operación y mantenimiento automatizado de Baidu
El marco de tecnología de operación y mantenimiento automatizado de Baidu se divide en cuatro partes: implementación, monitoreo, sistema comercial y relación. Todo el marco destaca la integración de la infraestructura empresarial y de TI y se centra en la vinculación de "relaciones". La llamada asociación se refiere principalmente a la dependencia de tiempo entre tareas, la dependencia de datos entre tareas y la dependencia de referencia entre tareas y recursos, que corresponden respectivamente a procesos de servicio como la programación de tareas, la transmisión de datos y la ubicación de recursos, formando múltiples servicios. cadenas.
La operación y el mantenimiento de las relaciones están estrechamente relacionados con el negocio. Se necesita un sistema para ordenar toda la relación, a fin de ubicar el eslabón comercial en la compleja cadena de servicios y estimar el impacto en caso de falla. ocurre el alcance, localizarlo oportunamente y notificarlo a los departamentos correspondientes. En un sistema de este tipo, un sistema de seguimiento automático es muy importante. El marco de monitoreo técnico de Baidu utiliza principalmente recopilación de datos, detección de servicios, recopilación, monitoreo y evaluación de información de terceros, y luego los transfiere a los módulos de procesamiento de datos y enlace de alarmas para su procesamiento, y extiende las funciones a través de interfaces API (Figura 4).
Figura 4. Marco de monitoreo de tecnología de automatización de Baidu
De hecho, las empresas de Internet como BAT y empresas de otras industrias seguirán las mejores prácticas de la biblioteca de infraestructura de TI (ITIL) o la gestión de servicios ISO20000 en la construcción de TI y adoptarán soluciones automatizadas de gestión de TI. para lograr importantes objetivos comerciales, como reducir las interrupciones del servicio, reducir los costos operativos y mejorar la eficiencia de TI. Con el lanzamiento y la promoción de las versiones ITIL e ISO20000 3.0, se han convertido en estándares de facto. En el campo actual de la gestión de TI empresarial, se necesitan con urgencia dos estándares. En particular, los requisitos de certificación ISO20000 se han convertido en una necesidad cada vez más común entre las empresas. ITIL v3.0 cubre la gestión del ciclo de vida completo de las operaciones de TI, desde la estrategia y el diseño hasta la transformación, la operación y la mejora. Las soluciones relacionadas suelen cubrir múltiples campos y productos, y la planificación, implementación y selección de herramientas pueden resultar complicadas. Si elige herramientas de código abierto, encontrará una gran cantidad de trabajo de desarrollo de CMDB, que puede usarse como referencia para muchas empresas que se centran en la relación costo-beneficio, pero debido a que no se pueden garantizar el rendimiento y los efectos, es posible que no sea aplicable. . Por lo tanto, un plan de negocios maduro sería una mejor opción.
La última versión de iMC V7 innova en torno a las tres dimensiones de recursos, usuarios y servicios. Lanza componentes como la gestión de operación y mantenimiento del servicio SOM (basado en los estándares ITIL e ISO20000), agrega gestión de servidores y. Puede fácilmente Puede satisfacer mejor las necesidades de más escenarios basados en Internet.
En general, se cree que una base de datos de gestión de configuración eficiente y fácil de usar generalmente debe cumplir seis criterios importantes, a saber, definición de modelo de información conjunta y flexible, cumplimiento de estándares y soporte para políticas integradas. , descubrimiento automático y estricto control de acceso. Suele haber muchos tipos de elementos y datos de gestión en la infraestructura TI empresarial, como dispositivos de red, servidores, máquinas virtuales, etc.
, por lo que es necesario que exista un método de unión adecuado para almacenar información diversa. Aunque la plataforma de gestión inteligente iMC ha podido satisfacer las necesidades de equipos de red y servidores, con el desarrollo de la tecnología de virtualización de servidores, las máquinas virtuales se han convertido cada vez más en el elemento principal de la infraestructura de TI. Por lo tanto, basándose en el sistema de gestión de virtualización CAS CVM, H3C Communications gestiona de forma integral recursos importantes como la CPU del servidor, la memoria, la E/S de disco, la E/S de red y los recursos de la máquina virtual. A diferencia de BAT, el software de gestión de redes de H3C está orientado a la industria. Aunque actualmente no existe una "gestión" de recursos especiales, como la gestión de nombres de dominio, se puede vincular con sistemas especiales a través de interfaces API para satisfacer las necesidades de operación y mantenimiento personalizados. Especialmente en el escenario de Internet, se pueden realizar muchos requisitos de acoplamiento personalizados para diferentes necesidades comerciales. Por ejemplo, el componente iMC + WSM está conectado al sistema de portal de una importante empresa nacional de Internet y la herramienta IMC está conectada a la operación y mantenimiento del propio usuario. Además, de manera similar al modelado lógico en capas de Alibaba, el sistema de software H3C "iMC + CAS" también realiza mucha abstracción lógica y capas en la capa superior, formando muchos módulos, que son los diversos componentes que puede ver.
3. Sistema automatizado de operación y mantenimiento de red
“Incluso los extraños con solo habilidades técnicas básicas pueden realizar operaciones y mantenimiento de TI profesionales, incluso una persona de operación y mantenimiento con solo una escuela secundaria; El personal educativo también puede liderar el equipo para completar la construcción de nodos de salas de computadoras pequeñas y medianas y ser responsable del mantenimiento y administración de cientos a miles de servidores". Esta es una evaluación general del nivel de operación y mantenimiento de TI. de algunas empresas. Puede parecer exagerado, pero de hecho, muchas empresas nacionales de Internet han podido cumplir o acercarse a este estándar confiando en un sólido sistema de operación y mantenimiento de TI.
Estas empresas han pasado por diversas etapas de desarrollo de operación y mantenimiento. Los departamentos de operaciones y mantenimiento solían ser equipos de "cuerpos de bomberos" pasivos, aislados y descentralizados. En el proceso de desarrollo posterior, la arquitectura del sistema de TI se fue estandarizando y modelando gradualmente. El departamento de operación y mantenimiento ha establecido una base de datos y una base de conocimientos completa para la gestión de recursos del sistema y equipos, que incluyen todas las configuraciones de hardware, todas las configuraciones de parámetros de software, fechas de compra, registros de mantenimiento, paneles de control de riesgos de operación y mantenimiento, etc. A través del software de gestión de red, durante el proceso de operación y mantenimiento, el sistema recopilará todos los problemas, eventos, cambios, niveles de servicio y otra información y la ingresará en el sistema de gestión, mejorando continuamente y formando un conjunto de mecanismos automatizados de soporte de operación. Según la arquitectura de la computación en la nube, en dicho sistema, los principales recursos de TI incluyen recursos informáticos, de almacenamiento y de red. En los últimos años, impulsada por los fabricantes de equipos de red, también se ha desarrollado plenamente la tecnología de automatización para la gestión de equipos de red.
En resumen, en las primeras etapas de la construcción de Internet, una empresa necesita considerar cómo ampliar sus recursos a medida que aumenta el número de visitas de los usuarios. En concreto, se puede subdividir en cinco aspectos: planificación, construcción, gestión, seguimiento y operación y mantenimiento.
1. Planificación y modelado
Para garantizar la expansión fluida de los negocios posteriores y el seguimiento fluido del sistema de gestión de red, las empresas de Internet generalmente consideran plenamente la estandarización y la construcción en En el diseño inicial de la arquitectura del sistema general, agregar recursos comerciales es como pedir comida rápida y tomarla según sea necesario.
Estandarización: en primer lugar, está construido utilizando protocolos y tecnologías estándar, con buena escalabilidad, productos unificados y fácil administración; en segundo lugar, utiliza equipos a nivel de centro de datos para garantizar confiabilidad y flexibilidad, considerando plenamente la los requisitos de baja latencia del sistema empresarial.
Modelado: diseñe el modelo de arquitectura de red de acuerdo con los requisitos comerciales y forme una línea de base después de la verificación, que se pueda copiar en lotes y administrar de manera uniforme. También es adecuado para mejorar la eficiencia de la implementación y la eficiencia de la administración de la red a través de la automatización. .
Figura 5. Arquitectura general de Internet IDC
2. Automatización de edificios
Una vez que la infraestructura de TI de Internet tenga capacidades de replicación por lotes, la eficiencia en línea se puede mejorar mediante la tecnología de automatización. Durante la construcción de nuevos nodos, un pequeño equipo de 3 a 5 personas puede completar el trabajo en línea de la sala de computadoras. Por ejemplo, una empresa de Internet envió una vez a dos ingenieros al sitio para instalar, implementar y configurar equipos para operaciones de emergencia en el extranjero. Luego, a través del enlace de Internet, el dispositivo obtiene automáticamente la configuración y la versión del dispositivo del sistema de gestión de la sede, descarga el sistema empresarial y completa la instalación del equipo de la sala de ordenadores en el plazo de una semana.
Para lograr el objetivo de operación y mantenimiento automatizados, se deben considerar dos aspectos durante el proceso de construcción (Figura 6).
Copia por lotes: según las necesidades comerciales, resuelva las inquietudes técnicas, diseñe modelos de red, realice suficientes pruebas y pilotos, genere plantillas de configuración de software y hardware y luego implemente en lotes.
En línea automático: aproveche al máximo TR069, Autoconfig y otras tecnologías, adopte la función de configuración cero y conecte automáticamente el equipo en lotes, duplicando la eficiencia.
Figura 6. Automatización y configuración por lotes en línea
○ Hay tres diferencias principales entre la configuración automática y TR069:
○ La configuración automática es adecuada para la implementación sin configuración y el seguimiento posterior generalmente requiere un especialista el sistema de administración de red TR069 es una solución de administración completa que no solo es útil en la configuración cero inicial, sino que también puede monitorear y configurar el dispositivo y actualizar el software en cualquier momento.
○La configuración automática usa DHCP y TFTP: simple, la configuración cero TR069 usa DHCP y HTTP: compleja, que requiere un servidor ACS dedicado.
Seguridad: TR069 es más seguro y puede basarse en HTTPS/SSL.
H3C iMC BIMS implementa la función ACS (Servidor de Configuración Automática) en el protocolo TR-069 y gestiona de forma remota los equipos CPE a través del protocolo TR-069. BIMS tiene las capacidades y ventajas de configuración cero, capacidades de red flexibles y puede administrar equipos DHCP y equipos de red privada después de NAT. El flujo de trabajo de BIMS se muestra en la Figura 7.
Figura 7. Flujo de trabajo de 7. H3C iMC BIMS
3. Gestión inteligente
Para el equipo de gestión de la red, es necesario proporcionar a otros equipos herramientas convenientes para la consulta de información, la gestión de alarmas y otras operaciones. Las primeras herramientas de gestión de redes a menudo eran inseparables de las operaciones de línea de comandos y no soportaban bien el procesamiento por lotes. Por ejemplo, la biblioteca MIB de equipos de red es mucho más torpe que Netconf, una nueva tecnología inteligente como C y C++. Por lo tanto, desde la perspectiva del uso, las herramientas de gestión gráficas e inteligentes suelen ser más populares.
Inteligencia: utilice nuevas tecnologías para mejorar la eficiencia del procesamiento del modelo de gestión MIB tradicional, introduzca una arquitectura de automatización integrada y realice la gestión de aplicaciones de terminales inteligentes (como se muestra en la Figura 8).
Figura 8. Procesamiento inteligente de mensajes y eventos
● Tecnología Netconf
Los principales protocolos de gestión de red actuales son SNMP y Netconf. SNMP utiliza UDP, que es fácil de implementar y tiene tecnología madura. Sin embargo, no puede satisfacer las necesidades de administración en términos de seguridad y confiabilidad, eficiencia de administración y operación, operaciones interactivas e implementación de operaciones complejas. Netconf utiliza XML como método de codificación de datos para los datos de configuración y el contenido de los mensajes de protocolo, utiliza SSHv2 basado en TCP para la transmisión y utiliza RPC para la operación y el control. XML puede expresar lógica interna compleja y objetos de gestión modelados, como puertos, protocolos, servicios y sus relaciones, lo que mejora la eficiencia operativa y la estandarización de objetos. Al utilizar el modo de transmisión SSHv2, tiene buena confiabilidad, seguridad e interactividad. Las principales diferencias de contraste entre ellos se muestran en la Tabla 1.
Tabla 1 Comparación de tecnologías de gestión de red
● Arquitectura de automatización integrada EAA
La implementación de la arquitectura de automatización EAA incluye los siguientes tres pasos.
○Defina fuentes de eventos de interés, es decir, módulos de software o hardware en el sistema, como comandos específicos, registros, alertas de trampas, etc.
○Defina estrategias de monitoreo de EAA, como guardar la configuración del dispositivo, cambiar entre activo y en espera, reiniciar el proceso, etc.
○Cuando se monitorea el origen del evento definido, se activa la estrategia de monitoreo EAA.
4. Plataforma de monitoreo
Utilizar herramientas básicas de monitoreo, como Show, Display, SNMP, Syslog, etc. Y cree un entorno integrado de monitoreo de plataforma para lograr un monitoreo completo (como se muestra en la figura).
;