La Red de Conocimientos Pedagógicos - Conocimientos históricos - La Escuela de Capacitación Java de Yunnan le explica cómo los programadores de operación y mantenimiento pueden manejar rápidamente los problemas en línea.

La Escuela de Capacitación Java de Yunnan le explica cómo los programadores de operación y mantenimiento pueden manejar rápidamente los problemas en línea.

Para la mayoría de los programadores de operación y mantenimiento, es muy necesario prestar siempre atención a posibles problemas con los servidores y programas del sistema y resolverlos con anticipación. Hoy utilizaremos el análisis de casos para comprender cómo los programadores de operación y mantenimiento pueden manejar rápidamente los problemas en línea.

Una vez que caes en un pozo, el enfoque inteligente debe ser: saltar al pozo_ gt llenar el pozo_ gt evitar el pozo y el proceso de manejo de fallas en línea es el mismo, con prioridad de mayor a menor. Los objetivos del manejo de fallas en línea son los siguientes:

Tiaokeng

‘Saltar del hoyo’: restaurar rápidamente los servicios en línea o reducir el impacto en los servicios en línea a un nivel bajo.

La disponibilidad de los servicios online determina los beneficios para el cliente del proveedor del servicio y afecta a los ingresos de la empresa. Una vez que el entorno en línea no esté disponible y no se pueda atender a los usuarios, traerá pérdidas económicas a la empresa/equipo y, lo que es más grave, traerá mala reputación a la empresa/equipo. Por lo tanto, las empresas generalmente plantean requisitos de estabilidad y confiabilidad para el entorno en línea, que también son KPI para equipos e incluso departamentos. Por esta razón, una tarea importante después de encontrar una falla en la producción es restaurar los servicios de producción. Incluso si los servicios en línea no pueden restablecerse por completo, se deben hacer esfuerzos para minimizar el impacto en los servicios en línea.

Rellene las lagunas

Rellene los huecos: encuentre la causa del problema y resuélvalo fundamentalmente.

Después de restaurar los servicios en línea y minimizar el impacto en los usuarios/empresas/equipos, debemos investigar a fondo el problema, descubrir la causa raíz del fallo y resolver el problema fundamentalmente. Por lo general, "llenar el hoyo" y "saltar el hoyo" se realizan al mismo tiempo. La finalización de "llenar el hoyo" significa el éxito de "saltar el hoyo". Sin embargo, en situaciones de emergencia, existen algunos métodos especiales de "salto", como reiniciar servicios o degradar/fusionar servicios, etc. Pero, de hecho, el "relleno del pozo" no se completó en ese momento, pero se utilizaron medios no convencionales para "saltar fuera del pozo" primero.

Evitar trampas

‘Evitar trampas’: sacar inferencias de un ejemplo para eliminar peligros ocultos.

Después de encontrar la causa raíz y resolver el problema, es necesario hacer inferencias de un ejemplo y pensar en las debilidades en el proceso de resolución y procesamiento del problema. ¿Qué procesos/normas/sistemas deben optimizarse? ¿Este problema existe en otros sistemas o equipos? A través de dicha reflexión y autocrítica, se genera un informe de incidentes en línea, el proceso se mejora continuamente para evitar nuevamente errores y se intercambian experiencias entre el equipo para mejorar.

Reflexiones sobre la solución de problemas en línea

De acuerdo con los objetivos y prioridades de la solución de problemas en línea, uno de los objetivos de la solución de problemas en línea es restaurar los servicios en línea o reducir el impacto en los servicios en línea. El énfasis está en la palabra "rápido". Después de "saltar a hoyos" y "llenar hoyos", el resumen es evitar los hoyos. Por lo tanto, los pasos del manejo de fallas en línea se pueden dividir en:

Descubrimiento de fallas

Ubicación de fallas

Solución de problemas

Rastreo de fallas

Entre ellos, los primeros tres pasos son el comportamiento de "saltar al hoyo", y el último paso incluye "llenar el hoyo" y "evitar el hoyo".

Los pasos anteriores no significan que debas proceder de arriba a abajo. Se recomienda hacerlo en paralelo sin confusión, porque generalmente después de una falla en línea, el programa de manejo de fallas se iniciará con urgencia y participarán todas las funciones de operación y mantenimiento, desarrollo, pruebas y productos. En este momento, la división del trabajo continúa, los mensajes se resumen en paralelo, las fallas se eliminan rápidamente y se restablecen los servicios. Esta idea es similar a la idea de diseño de bifurcación/unión del sistema operativo y tiene como objetivo mejorar la eficiencia.

Cuando la causa de la falla no se puede encontrar rápidamente, debemos omitir decisivamente el enlace de ubicación de la falla y eliminar la falla directamente, como utilizar la degradación del servicio, la expansión del servidor y otros medios para garantizar que los servicios en línea sean bajos. y controlable. Kunming Beida Jade Bird/Se recomienda esperar hasta que el servicio en línea sea "compatible" y luego localizar lentamente la causa de la falla y resolver fundamentalmente el problema.