🧱 Redundancia de Energía
1. 🜁 Alegoría para comprenderlo mejor
Imagina que tu empresa es un hospital, y el sistema informático es el equipo de soporte vital de los pacientes. Si hay un apagón eléctrico, aunque sea solo por unos segundos, los monitores, respiradores y bombas de medicación se detendrán.
Un simple fallo puede costar vidas.
Por eso necesitas tres capas de protección:
-
SAI como si fueran las baterías de emergencia internas del respirador, que reaccionan al instante.
-
Generadores de respaldo, como un grupo electrógeno del hospital que mantiene las luces y sistemas funcionando durante días.
-
Fuentes de alimentación redundantes en cada dispositivo, por si falla uno, otro asume sin pausa, como si cada monitor tuviera dos corazones eléctricos latiendo en paralelo.
2. 🧠 Definiciones clave del tema
-
Redundancia de energía – Garantiza que los sistemas puedan continuar operando sin interrupción incluso si falla la fuente principal de electricidad.
-
Fuente de alimentación redundante – Dual Power Supply (PSU)
Múltiples unidades conectadas para evitar caída si una PSU falla. -
Sistema de alimentación ininterrumpida – Uninterruptible Power Supply (UPS)
Proporciona energía inmediata y temporal ante cortes. -
Unidad de distribución de energía gestionada – Managed Power Distribution Unit (PDU)
Permite el control remoto y secuenciado de tomas de corriente y protege contra variaciones de tensión. -
Generador de respaldo – Backup Generator
Suministra energía prolongada usando combustible o fuentes renovables. -
Microrred – Microgrid
Infraestructura eléctrica independiente dentro de un centro de datos capaz de operar de forma autónoma.
3. 🏗️ Componentes involucrados
-
PSU redundantes (Hot-swappable)
-
SAIs empresariales y baterías de respaldo
-
PDUs inteligentes
-
Generadores de diésel, gas o renovables
-
Interruptores de transferencia (manuales o automáticos)
-
Controladores energéticos y sensores de carga
4. 🔐 Riesgos asociados
-
Caída repentina del servicio por fallo eléctrico → pérdida de datos.
-
Corrupción de RAID por interrupción de escritura.
-
Pérdida de acceso a la red o a sistemas críticos.
-
Fallos en el encendido tras reinicio (boot loops, corrupción BIOS).
-
Riesgo físico en centros de datos (calor extremo, ventilación fallida).
5. 🛡️ Controles de seguridad aplicables
-
SAIs redundantes por zonas críticas.
-
Alimentación dual separada (conectada a PDUs diferentes).
-
Fencing eléctrico (control de toma en remoto ante riesgo).
-
Alertas en el SIEM ante picos, cortes o descargas.
-
Protección contra sobretensiones (surge protection).
-
Pruebas mensuales de failover energético.
6. ✔️ Buenas prácticas explicadas
-
Diseño por capas: Combinar PSU + UPS + generador.
-
Pruebas regulares de conmutación eléctrica para detectar fallos.
-
Supervisión centralizada de consumo y carga por PDU inteligente.
-
Documentación de capacidades máximas y curvas de carga.
-
Ubicación segura del generador (ventilado, aislado, sin humedad).
-
Renovación de baterías cada 2-3 años.
-
Uso de energía verde como segunda opción energética (geotérmica, solar, hidrógeno).
7. 🔍 Indicadores de monitoreo (KPIs)
-
Tiempo de activación del UPS.
-
Tiempo hasta inicio del generador.
-
Carga de batería de SAI (mínima y máxima).
-
Consumo energético por rack y servidor.
-
Número de eventos de corte energético.
-
Capacidad real vs. capacidad nominal.
8. ⚙️ Herramientas, tecnologías o protocolos
-
SNMP (para monitorización de PDUs y UPS).
-
Zabbix, Nagios, PRTG (para alertas de energía).
-
SAIs de APC, Eaton, CyberPower.
-
Sistemas de gestión energética de DCIM.
-
CARP/VRRP para failover si el nodo energético es crítico.
9. 📁 Documentación y compliance
-
Plan de contingencia energética
-
Política de disponibilidad crítica
-
Manual de mantenimiento del generador y SAI
-
Informe mensual de consumo eléctrico del data center
-
Registro de pruebas de conmutación y carga
10. 🎯 Casos de uso reales
-
AWS y Google Cloud tienen baterías Powerpack + energía solar + generadores.
-
Hospitales utilizan configuraciones de doble alimentación + generadores + UPS.
-
Data Centers Tier IV tienen tolerancia total a fallos eléctricos por diseño redundante completo.
🧪 Ejercicios Purple Team – Redundancia de Energía
🧱 Nivel Avanzado
🔻 Red Team
Simulo un ataque físico aprovechando una mala ubicación del generador (en zona inundable del edificio). Accedo durante mantenimiento y desconecto manualmente el sistema de combustible. La infraestructura falla cuando la red principal se corta.
🔷 Blue Team
Implemento sensores de humedad e intrusión física conectados a alertas del SOC. Aseguro el generador dentro de una jaula con acceso restringido, y monitorizo con CCTV IP. También tengo una rutina de verificación visual cada semana.
🟣 Purple Team
Coordino la simulación de un corte eléctrico no anunciado. El objetivo es cronometrar la conmutación al SAI y luego al generador, medir el tiempo de recuperación real y revisar el tiempo de notificación al SOC. Documento los resultados en el playbook de resiliencia.
🧱 Nivel Experto
🔻 Red Team
Lanzo un ataque combinado de sabotaje lógico + físico:
-
Accedo remotamente a la consola de la PDU gestionada (sin MFA), y apago tomas clave.
-
Al mismo tiempo, interrumpo físicamente el suministro del generador provocando fallo total.
🔷 Blue Team
Configuro las PDUs con listas blancas de control de acceso (ACL), autenticación multifactor y alertas SNMP ante cambios de estado. Además, instalo un SAI redundante con 3 fases separadas (crítico, medio, no crítico), para garantizar aislamiento y continuidad.
🟣 Purple Team
Realizo un test de failover completo validando tres puntos:
-
El tiempo de caída de red (medido desde el SIEM).
-
La correcta respuesta de los procedimientos del equipo ante el apagado malicioso.
-
La integridad de los logs tras el reinicio del sistema.
Propongo como mejora un sistema DCIM de gestión de infraestructura para centralizar la energía + alertas térmicas + carga.
🧱 Nivel Maestro
🔻 Red Team
Aprovecho un ataque de ingeniería social contra el proveedor externo de mantenimiento eléctrico. Me hago pasar por técnico autorizado y:
-
Obtengo acceso remoto al panel de UPS.
-
Desactivo funciones de carga lenta de batería.
-
Simulo una conmutación manual que sobrecarga los servidores al volver la energía.
🔷 Blue Team
Implemento doble verificación de identidad para contratistas, separación de entornos entre consola energética y red operativa, y alertas por modificación de parámetros eléctricos. Uso redundancia geográfica y replicación caliente entre centros (active-active).
🟣 Purple Team
Hago un tabletop exercise con todos los responsables: CISO, jefe de mantenimiento, NOC, SOC y seguridad física.
-
Evaluamos respuestas cruzadas.
-
Cronometramos recuperación de SLA.
-
Reescribimos el protocolo de control de proveedores externos.
Después, propongo migrar parte de la energía a renovables (solar + hidrógeno) con Powerpack + automatización basada en IA para gestión de carga inteligente.