La Red de Conocimientos Pedagógicos - Conocimientos de formación/capacitación - Capacitación en Java de Beida Jade Bird: ¿Cómo pueden los programadores de operación y mantenimiento manejar rápidamente los problemas en línea?

Capacitación en Java de Beida Jade Bird: ¿Cómo pueden los programadores de operación y mantenimiento manejar rápidamente los problemas en línea?

Para la mayoría de los programadores de operación y mantenimiento, es muy necesario prestar siempre atención a posibles problemas con los servidores y programas del sistema y resolverlos con anticipación.

Hoy utilizaremos el análisis de casos para comprender cómo los programadores de operación y mantenimiento pueden manejar rápidamente los problemas en línea.

Una vez que caes en un pozo, el enfoque inteligente debe ser: saltar al pozo_ gt llenar el pozo_ gt evitar el pozo. El proceso de manejo de fallas en línea es el mismo. La prioridad es de mayor a menor. El objetivo del manejo de fallas en línea es salir del pozo y restaurar rápidamente los servicios en línea o reducir el impacto en los servicios en línea.

La disponibilidad de los servicios online determina los beneficios para el cliente del proveedor del servicio y afecta a los ingresos de la empresa.

Una vez que el entorno en línea no esté disponible y no se pueda atender a los usuarios, traerá pérdidas económicas a la empresa/equipo y, lo que es más grave, traerá una mala reputación a la empresa/equipo.

Por lo general, las empresas plantean requisitos de estabilidad y confiabilidad para el entorno en línea, que también es el KPI del equipo e incluso del departamento.

Por este motivo, una tarea importante después de encontrarnos con un fallo de producción es restablecer los servicios de producción. Incluso si los servicios en línea no pueden restablecerse por completo, se deben hacer esfuerzos para minimizar el impacto en los servicios en línea.

Llene el hoyo 'Llene el hoyo': encuentre la causa del problema y resuelva el problema de manera fundamental.

Después de restaurar los servicios en línea y minimizar el impacto en los usuarios/empresas/equipos, debemos investigar a fondo el problema, descubrir la causa raíz del fallo y resolver el problema fundamentalmente.

Por lo general, "llenar el hoyo" y "saltar al hoyo" se realizan al mismo tiempo. La finalización de "rellenar el hoyo" significa que "saltar al hoyo" es exitoso. Sin embargo, en situaciones de emergencia, existen algunos métodos especiales de "salto", como reiniciar servicios o degradar/fusionar servicios, etc. Pero, de hecho, el "relleno del pozo" no se completó en ese momento, pero se utilizaron medios no convencionales para "saltar fuera del pozo" primero.

Evitar obstáculos 'Evitar obstáculos': sacar inferencias de un ejemplo para eliminar peligros ocultos.

Después de encontrar la causa raíz y resolver el problema, es necesario hacer inferencias de un ejemplo y pensar en las debilidades en el proceso de resolución de problemas y procesamiento. ¿Qué procesos/normas/sistemas deben optimizarse? ¿Este problema existe en otros sistemas o equipos? A través de dicha reflexión y autocrítica, se genera un informe de accidente en línea, el proceso se mejora continuamente y se evita el proceso para evitar errores nuevamente. También se intercambia experiencia entre el equipo para mejorar juntos.

La idea del manejo de fallas en línea se basa en los objetivos y prioridades del manejo de fallas en línea. Uno de los objetivos de la resolución de problemas en línea es restaurar o reducir el impacto en los servicios en línea. El énfasis está en la palabra "rápido". Después de "saltar a hoyos" y "llenar hoyos", el resumen es evitar los hoyos.

Por lo tanto, los pasos del manejo de fallas en línea se pueden dividir en: descubrimiento de fallas, localización de fallas, resolución de problemas de fallas y seguimiento de fallas. Los primeros tres pasos son el comportamiento de "salto de boxes", y el último paso incluye ". Llenar el hoyo' y 'Evitar el hoyo'.

Los pasos anteriores no significan que debas proceder de arriba a abajo. Se recomienda hacerlo en paralelo sin confusión, porque generalmente después de una falla en línea, el programa de manejo de fallas se iniciará con urgencia y participarán todas las funciones de operación y mantenimiento, desarrollo, pruebas y productos. En este momento, la división del trabajo continúa, los mensajes se resumen en paralelo, las fallas se eliminan rápidamente y se restablecen los servicios.

Esta idea es similar a la idea de diseño fork/join del sistema operativo y tiene como objetivo mejorar la eficiencia.

Cuando la causa de la falla no se puede encontrar rápidamente, debemos omitir decididamente el enlace de ubicación de la falla y eliminar la falla directamente, como utilizar la degradación del servicio, la expansión del servidor y otros medios para garantizar que los servicios en línea sean bajos. y controlable.

Beijing Beida Jade Bird/Se recomienda esperar hasta que el servicio en línea sea "compatible" y luego localizar lentamente la causa de la falla y resolver fundamentalmente el problema.