Lista de alertas en cephfs
Después de la poda...
La traducción del texto va por detrás de la organización del registro. Mecanismo de registro de mds: mds guarda metadatos en forma de registros, que se almacenan en los eventos de cada operación. Los eventos (generalmente 1024) forman un segmento. Cuando el número de segmentos alcanza un cierto número (mds_log_max_segments por defecto es 32), los registros se recortan, es decir, los metadatos asociados con ciertos registros se reescriben. La aparición de esta alarma en realidad indica que la velocidad de reescritura es lenta o que se ha encontrado un error. Simplemente mejorar la configuración no es la forma más ideal.
El nombre del cliente no puede responder a la liberación de la función
El cliente no respondió a tiempo a la solicitud para liberar el límite superior. En cephfs, el cliente necesita la capacidad operativa para obtener la respuesta del mds, lo que se denomina límite. Obtener cap y tener capacidades operativas relevantes. Si otros clientes necesitan operar, mds le pedirá al cliente actual que libere el límite superior. Si el cliente tiene un error o no responde, mds emitirá una alerta dentro de los 60 segundos (configuración session_timeout).
El nombre del cliente no puede responder a la presión de la caché
El cliente no respondió a la presión de la caché (mds) de manera oportuna. Los metadatos almacenan en caché una parte de la información de los metadatos y mds almacena en caché la misma información en su propia memoria. Si los metadatos almacenados en caché exceden el caché de inodo máximo o el uso máximo de memoria, mds le pedirá al cliente que libere una cierta cantidad de caché. Si 32k (configuración predeterminada en MDS_Recall_Warning_Rejection, que se reducirá en el futuro) no se libera dentro del tiempo especificado, es decir, 60 segundos (el valor de MDS_Recall_Warning_Rejection), se generará una alarma. El motivo de la alarma puede ser que el cliente tenga un error o no pueda responder a tiempo.
El nombre del cliente no puede avanzar su primer cliente/actualizar tid
El cliente no actualizó su primer valor de tid de cliente. Tid se refiere a la identificación de la tarea que el cliente comunica directamente con mds. Actualice la identificación de la tarea cada vez que el cliente complete la tarea, indicando a MDS MDS que ignore las tareas anteriores a la identificación. Mds puede liberar recursos ocupados relacionados. De lo contrario, el recurso no se liberará automáticamente. Cuando el número de tareas completadas registradas por el cliente mds supera los 100 K (configuración max_completed_requests), el cliente no actualiza la ID y se generará la alarma correspondiente.
Esta alerta puede indicar un error en el cliente. También encontré algunas solicitudes de mds bloqueados debido a problemas de bloqueo. Después de reiniciar mds, se pueden restaurar y el estado de bloqueo es normal.
MDS en modo de solo lectura
Traduce literalmente mds a modo de solo lectura. El modo de solo lectura significa que no se permiten operaciones como la creación de archivos en el cliente. El motivo para ingresar al modo de solo lectura puede ser un error al escribir en el grupo de metadatos o forzar a mds a ingresar al modo de solo lectura mediante un comando.
N solicitudes lentas están bloqueadas
Traducción literal de múltiples solicitudes lentas en estado bloqueado. Esta alerta indica que el mensaje del cliente no se ha procesado completamente y ha excedido el tiempo especificado por mds_op_complaint_time (el valor predeterminado es 30 segundos). Las posibles razones son que mds se está ejecutando lentamente, o que no se confirma la escritura de registros en rados (hay un problema con la página u osd subyacente), o hay un error en mds. En este momento, puede usar el comando ops para ver las operaciones que se están ejecutando actualmente y analizar más a fondo los motivos del bloqueo de las solicitudes.
Demasiados nodos de información en la caché
La conversión de texto almacenó en caché demasiados nodos de información en la caché mds. El caché de mds se refiere a dos aspectos: la cantidad de inodos y la cantidad de memoria ocupada. El valor predeterminado de inodo es mds_cache_size 100K, mds_cache_memory_limit 1G. Se genera una alerta cuando se alcanza el umbral de alerta, normalmente 50 (mds_health_cache_threshold). Las alarmas se pueden evitar ajustando los parámetros, pero esto es sólo una medida temporal.
Una solución permanente requiere realizar un seguimiento del negocio para comprender las razones específicas de la ocupación de recursos y si solo se puede resolver ajustando los parámetros.