¿Monitorizas lo que únicamente debe funcionar cuando todo lo demás falla? ~ Muutech Monitoring Solutions

La monitorización, clave en el rendimiento del teletrabajo

junio 1, 2020

agosto 26, 2020

¿Monitorizas lo que únicamente debe funcionar cuando todo lo demás falla?

Copias de seguridad (backups) y SAIs (UPS), los grandes olvidados

Creo que todo aquel que haya trabajado con una infraestructura IT durante algún tiempo se ha encontrado alguna vez con alguno de estos problemas:

Las copias de seguridad (backups) habían dejado de hacerse hacía meses y nadie se había dado cuenta (por un cambio de contraseña, un cambio de ubicación, llenado del disco destino, fallo en los discos del NAS, etc.)
Los SAI (sistemas de alimentación ininterrumpida o UPS en inglés) no duran ni un suspiro cuando se va la luz: tras años sin cortes eléctricos las baterías ya no funcionan o se ha ido cargando el sistema sin control hasta que ante un corte de suministro estas se consumen enseguida.
Las máquinas y equipos que tenemos en alta disponibilidad y que deben actuar cuando fallan sus “maestros” están apagados, desactualizados, tienen el disco duro lleno, etc.

Por suerte, y como casi siempre, llega el sistema de monitorización al rescate. Nosotros usamos nuestra plataforma, basada en Zabbix 5.0 y Grafana 7, pero lo que aquí contamos sirve también para otras plataformas, aunque igual es más complejo o no queda tan visual.

Monitorización de copias de seguridad / backups

Hay muchas aproximaciones a la gestión de copias de seguridad o backups. Desde el típico script que corre en cron todas las noches hasta plataformas como Veeam Backup.

Para el primer caso y con la mayoría de plataformas, lo habitual es terminar el script o configurar la herramienta para que envíe un email con el resultado. Esto, si tienes pocos servidores o equipos, está bien, típico correo para revisar con la taza de café en la mano. Pero en cuanto tienes cierto volumen o prefieres ahorrarte 5 minutos todos los días, lo mejor es tener una herramienta que te envie un email SOLO si ha fallado. Además, ¿qué ocurre cuando no te llega ese email? ¿Ha fallado el correo o es que no se han hecho los backups? ¿Quién revisa esos correos cuando tú no estás?

El enfoque a aplicar es el mismo que para cualquier monitorización, solo avisar si hay problemas. Podemos poner nuestra herramienta de monitorización a leer emails o si el script es nuestro, simplemente enviar un Zabbix trapper o vía API un 1 o un 0 a nuestra plataforma de monitorización. Desde ella podremos indicar cuanto esperar antes de dar una alarma si no nos llega ni un 1 ni un 0 en cierto tiempo, etc. Flexibilidad total.

Veeam Backup funciona por email normalmente, pero la verdad, leer emails con cualquier plataforma, aunque factible, suele dar problemas. Por fortuna esta plataforma funciona también con traps de SNMP, avisándonos del resultado de cualquier trabajo. Lo configuramos de forma inmediata para que envíe las traps a nuestro Zabbix (más información en: https://helpcenter.veeam.com/docs/one/alarms/snmp_traps.html?ver=100)

Las traps “en crudo”, son de esta forma:

Por lo que las procesamos con nuestro Zabbix a través de un ítem para cada trabajo (job, identificado por #JOBNAME) de la siguiente forma (nosotros lo hacemos con autodescubrimiento pero se puede hacer ítem a ítem):

En key:

snmptrap[SNMPv2-SMI::enterprises.31023.1.1.101 (.*) SNMPv2-SMI::enterprises.31023.1.1.102 {#JOBNAME} ]

Necesitamos preprocesar el ítem para extraer el resultado:

La expresión regular sería:

snmptrap[SNMPv2-SMI::enterprises.31023.1.1.101 (.*) SNMPv2-SMI::enterprises.31023.1.1.102 {#JOBNAME} ]

Y ya lo tenemos:

De este modo conseguimos también poder visualizar en forma de “calendario” si ha habido algún problema y hacerlo de un modo independiente al sistema o sistemas de backup que usemos: podemos visualizar y alarmar de modo común un script propio, Veeam, etc.

Monitorización de NAS (Network Attached Storage)

Es muy habitual que los software o scripts de backup vuelquen las copias sobre equipos NAS de fabricantes como por ejemplo Sinology o QNAP y estos se encarguen después por ejemplo de volcar a su vez copias sobre un disco duro externo USB o servicios en la nube como Amazon Glacier. Por tanto, es vital monitorizar su correcto funcionamiento ya que, aunque los sistemas de backup nos avisarán ante discos duros llenos o indisponibilidad del NAS, es muy importante adelantarse a estos fallos, avisando de fallos SMART en los discos o de la previsible falta de capacidad para adelantarnos a la compra de más almacenamiento. La mayoría de estos datos nos los proporciona el equipo a través de SNMP y podemos encontrar diversas plantillas accesibles en internet a través de la comunidad.

A mayores, se pueden hacer cosas divertidas, como monitorizar que por la noche haya habido un pico de actividad en la red, como se aprecia en la gráfica del cuadro de mando:

Monitorización de Sistemas de Alimentación Ininterrumpidos (SAIs/UPS)

Los hay de todas las formas, tamaño y potencias pero equipos de fabricantes como RIELLO o APC son la última barrera ante una caída de tensión eléctrica. No solo mantienen levantado el sistema en caso de un corte temporal (los más habituales), si no que permiten un apagado ordenado en caso de que esta se alargue más de lo necesario. Por tanto, son vitales para garantizar la disponibilidad de los servicios tanto sean externos, como internos para que la gente pueda trabajar, las máquinas industriales comunicar sus datos, etc.

Por ello es muy importante monitorizar su salud, además de hacer pruebas controladas al menos una vez al año. La mayoría de SAI empresariales ofrecen su monitorización a través de SNMP y por fortuna existe una MIB estándar (UPS-MIB) que la mayoría de fabricantes respetan. Gracias a ello podemos obtener datos fundamentales como la carga del SAI, la duración estimada de las baterías en caso de corte, alertas de cuando está el suministro caído, así como también el consumo -dato económico y muchas veces indicador de problemas- de lo que tengamos conectado a ello:

Conclusiones

Es importante tener herramientas y elementos para cuando las cosas no van bien, eso está claro; pero también es muy importante tener la tranquilidad de que esos elementos van a estar ahí cuando los problemas ocurran y para ellos, como hemos visto, no solo es importante su monitorización si no también el hacer pruebas controladas de forma periódica; pruebas para las que, como siempre, nuestro sistema de monitorización será el que nos diga si el servicio se ve afectado o no y durante cuánto tiempo.

¡Buena monitorización!

Víctor Calvo

CEO & MANAGING DIRECTOR

Experto en monitorización IT, sistemas y redes.
Minerva es nuestra plataforma enterprise-grade de monitorización basada en Zabbix y Grafana.
¡Te ayudamos a monitorizar tus equipos de red, comunicaciones y sistemas!

Suscríbete a nuestra Newsletter

La monitorización, clave en el rendimiento del teletrabajo

¿Monitorizas lo que únicamente debe funcionar cuando todo lo demás falla?

Copias de seguridad (backups) y SAIs (UPS), los grandes olvidados

Monitorización de copias de seguridad / backups

Monitorización de NAS (Network Attached Storage)

Monitorización de Sistemas de Alimentación Ininterrumpidos (SAIs/UPS)

Conclusiones

Related posts

La monitorización, clave en el rendimiento del teletrabajo

Monitorización, un aliado en tiempos de guerra

Monitorización de servidores con tecnologías iLO (HP), iDRAC (DELL) e IPMI con Zabbix

Monitoriza tus servidores Windows y descubre lo que nadie ve

Deja una respuesta Cancelar la respuesta