Respuesta a incidentes y continuidad de negocio

Objetivos: Al terminar este tema, podrás…

  • Aplicar el ciclo NIST SP 800-61 a un incidente real bajo presión
  • Tomar decisiones de contención con información incompleta
  • Definir RTO y RPO apropiados para los componentes de tu sistema
  • Diseñar un protocolo de comunicación de crisis para tu proyecto

Cómo funciona esta clase

Trabajan en grupos de 3 a 4 personas durante toda la clase. A lo largo del escenario van a enfrentar decisiones reales de respuesta a incidentes. Cuando lleguen a una, tienen un tiempo límite para deliberar y comprometerse con una opción; un vocero del grupo la anuncia en voz alta antes de que se revele qué pasó.

Traten esto como una sala de crisis real. Deciden juntos y cargan con las consecuencias.


Son las 2:47 AM

Tu teléfono vibra. Es una alerta de Uptime Robot: el servidor de MicroPréstamos, la app que tu equipo lleva tres meses en producción para una ONG de microfinanzas, está respondiendo con errores 500.

Abres el correo. En los últimos cuarenta minutos llegaron 34 solicitudes de restablecimiento de contraseña. Los usuarios duermen. No hay tráfico legítimo a esta hora.

Tu corazón se acelera. Algo pasó.

Decisión grupal 1 — Los primeros cinco minutos

Tienen 3 minutos.

Son las 2:47 AM. Acaban de ver la alerta y los correos de reseteo. ¿Cuál es su primera acción?

  • A) Apagar el servidor inmediatamente
  • B) Conectarse e investigar qué pasó antes de tocar nada
  • C) Llamar al resto del equipo primero
  • D) Notificar a los usuarios que hay un problema

Elijan una. Vocero anuncia.


¿Qué es un incidente de seguridad?

Un incidente de seguridad es cualquier evento que compromete o amenaza la confidencialidad, integridad o disponibilidad de un sistema de información.

La clasificación por severidad existe precisamente porque la urgencia varía: un evento sospechoso puede requerir monitoreo; una brecha activa requiere respuesta inmediata. Clasificar bien al inicio determina qué tan rápido actúas:

SeveridadDescripciónEjemplosTiempo de respuesta
CríticaCompromiso activo de sistemas esenciales o datos sensibles masivosRansomware en producción, exfiltración activa de base de datosInmediato (minutos)
AltaCompromiso confirmado con potencial de escalaciónCuenta de administrador comprometida, malware en red interna< 1 hora
MediaActividad sospechosa que requiere investigaciónIntentos de acceso inusuales, alertas de detección< 4 horas
BajaEvento menor sin impacto operacional inmediatoCorreo de phishing reportado sin abrir, escaneo de puertos externo< 24 horas

Decisión grupal 2 — Clasificar el incidente

Tienen 2 minutos.

Con lo que saben hasta ahora (el servidor respondiendo con errores 500 y 34 correos de reseteo de contraseña), ¿qué severidad le asignan?

  • A) Crítica
  • B) Alta
  • C) Media
  • D) Baja

Elijan una y justifiquen en una sola frase. Vocero anuncia.


Ciclo de respuesta a incidentes (NIST SP 800-61)

El framework NIST SP 800-61 define cuatro fases para gestionar incidentes. Las fases tienen un orden, pero la información nueva fuerza retrocesos con frecuencia: en la práctica se avanza y se regresa.


Fase 1: Preparación

La fase más importante ocurre antes de cualquier incidente.

Mientras investigan, el equipo de MicroPréstamos descubre varias cosas incómodas:

  • No hay un documento de respuesta a incidentes. Nadie sabe exactamente quién hace qué.
  • Los logs de acceso a la base de datos están en el mismo servidor comprometido.
  • El número de teléfono del administrador de la ONG está en el README del repositorio, que se hizo público por error hace dos semanas.
  • El último backup fue hace seis días.

Decisión grupal 3 — La deficiencia más crítica

Tienen 2 minutos.

De las cuatro deficiencias que acaban de descubrir, ¿cuál les parece la más grave en este momento, mientras el incidente está activo?

  • A) No hay plan de respuesta documentado
  • B) Los logs están en el servidor comprometido
  • C) El número del administrador estaba expuesto en el README
  • D) El backup tiene seis días de antigüedad

Elijan una. Vocero anuncia.


Fase 2: Detección y análisis

Logran conectarse. El servidor responde. Revisan los logs de aplicación (no los de base de datos, que están comprometidos) y encuentran esto:

[02:03:14] POST /login HTTP/1.1 — 200 OK — 127ms
[02:03:14] POST /login HTTP/1.1 — 200 OK — 4823ms
[02:03:15] POST /login HTTP/1.1 — 200 OK — 5102ms
[02:03:16] GET /admin/export-users HTTP/1.1 — 200 OK
[02:03:18] GET /admin/export-loans HTTP/1.1 — 200 OK

Todas las requests vienen de la misma IP. El ataque ocurrió a las 2:03 AM. La alerta llegó a las 2:47 AM.

Decisión grupal 4 — Triaje de los logs

Tienen 3 minutos.

Tienen estos logs y poco tiempo. No pueden investigar todo a la vez.

¿Qué investigan primero?

  • A) La diferencia de tiempos en /login (127ms vs. 4823ms)
  • B) Quién hizo las requests a /admin/export-users y /admin/export-loans
  • C) Por qué el ataque ocurrió a las 2:03 AM pero la alerta llegó a las 2:47 AM
  • D) De dónde viene la IP que hizo todas las requests

Elijan una y justifiquen en una frase. Vocero anuncia.


Fase 3: Contención, erradicación y recuperación

Son las 3:15 AM. Ya saben que hubo un dump de la base de datos. El atacante probablemente ya tiene los datos. Tienen que tomar decisiones rápidas con información incompleta.

Decisión grupal 5 — ¿Desconectan el servidor?

Tienen 3 minutos.

Saben que el ataque terminó hace más de una hora. El atacante ya se fue. El sistema sigue online y algunos usuarios nocturnos podrían estar activos.

  • A) Desconectar el servidor de internet inmediatamente
  • B) Mantenerlo online mientras terminan la investigación
  • C) Desconectar solo la base de datos, dejar el frontend activo

Elijan una. Vocero anuncia.

Decisión grupal 6 — ¿Fuerzan cambio de contraseñas ahora?

Tienen 2 minutos.

Los datos de usuarios fueron exfiltrados, incluyendo contraseñas hasheadas. Son las 3:30 AM.

  • A) Forzar reseteo de todas las contraseñas ahora mismo
  • B) Esperar hasta las 8 AM para hacer el reseteo con una comunicación clara

Elijan una. Vocero anuncia.

Después de decidir sobre las contraseñas, queda la pregunta de recuperación:

OpciónVentajasRiesgos
Restaurar desde backupEstado limpio garantizadoSe pierden 6 días de datos; ¿el backup también fue comprometido?
Limpiar el servidor comprometidoNo se pierden datos¿Encontraron todo lo que dejó el atacante?
Nuevo servidor + restaurar datosEstado limpio + datos recuperadosRequiere más tiempo, pero es el enfoque más seguro

Fase 4: Actividad post-incidente

Son las 10 AM. El sistema está restaurado, los usuarios notificados, la vulnerabilidad parcheada. El equipo lleva siete horas despierto.

Esta es la fase que más organizaciones omiten, y la que más valor aporta. El post-mortem reconstruyó la línea de tiempo completa:

  • 01:58 AM — El atacante empieza a sondear /login
  • 02:03 AM — Inyección SQL exitosa, dump de tabla de usuarios
  • 02:04 AM — Login como administrador con credenciales del dump
  • 02:04–02:06 AM — Exportación de datos de usuarios y préstamos
  • 02:06 AM — El atacante se desconecta
  • 02:47 AM — Primera alerta (errores 500)

La causa técnica es clara: el endpoint /login construía queries concatenando strings con el input del usuario, sin parametrización.

Decisión grupal 7 — La causa raíz real

Tienen 3 minutos.

La causa técnica es SQL injection por falta de parametrización. Pero el post-mortem busca la causa sistémica: por qué eso llegó a producción.

¿Cuál creen que es la causa raíz del sistema?

  • A) El desarrollador que escribió esa query no conocía las mejores prácticas
  • B) No hubo revisión de seguridad antes del despliegue a producción
  • C) No había testing automatizado que detectara vulnerabilidades comunes
  • D) No hubo monitoreo que detectara el ataque en tiempo real

Elijan la que consideran más importante. Vocero anuncia y justifica.


Comunicación durante la crisis

La comunicación mal manejada puede causar más daño que el incidente mismo.

Decisión grupal 8 — El orden de las llamadas

Tienen 2 minutos.

Son las 3:30 AM. Tienen en la lista: el CTO del equipo, la directora de la ONG, los 200 usuarios del sistema, y la SIC.

¿En qué orden los contactan, y qué les dicen en este momento?

Definan el orden. Vocero anuncia.

Comunicación con usuarios

MomentoQué comunicarQué NO hacer
InmediatamenteQue hay un incidente en investigación, que tomen precaucionesDar detalles técnicos, especular sobre el alcance
Cuando tengas claridadQué datos se vieron afectados, qué deben hacerMinimizar o suavizar la realidad
Post-resoluciónQué pasó, qué se hizo, qué cambió para que no vuelva a pasarDesaparecer sin cierre

RTO y RPO: los números que definen tu estrategia

Uno de los aprendizajes más concretos del incidente de MicroPréstamos fue el backup de seis días. Nadie eligió hacer backups cada seis días. Simplemente nadie eligió.

RTO (Recovery Time Objective): ¿Cuánto tiempo puede estar el sistema caído antes de que el daño sea inaceptable?

RPO (Recovery Point Objective): ¿Cuántos datos puedes perder? ¿Qué tan atrás en el tiempo puedes restaurar?

SistemaRTORPOImplicación técnica
Portal de e-commerce1 hora0 minutosAlta disponibilidad + replicación en tiempo real
Sistema de nómina24 horas4 horasBackup cada 4 horas + servidor de respaldo
Wiki interna72 horas24 horasBackup diario, restauración puede esperar
MicroPréstamos (sin política)Sin definir6 díasBackup semanal, sin decisión explícita

RTO y RPO más agresivos cuestan más. Un RTO de cero requiere infraestructura redundante activa en paralelo. La decisión no es solo técnica. Es de negocio. Pero si no la tomas explícitamente, alguien la tomó por omisión.

La regla 3-2-1

Una estrategia de backup efectiva:

  • 3 copias de los datos (el original + 2 backups)
  • 2 tipos de medio diferentes (disco local + nube)
  • 1 copia fuera del sitio (offsite, protegida contra desastres físicos)

Backups y ransomware: Si los backups están en la misma red que el servidor comprometido, el ransomware también los cifra. Al menos una copia debe estar aislada.


Dos maneras de responder a un incidente

Maersk/NotPetya 2017: reconstrucción bajo presión

En junio de 2017, el malware NotPetya se propagó globalmente. Maersk, la naviera más grande del mundo, perdió en horas casi toda su infraestructura: 49.000 laptops, 3.500 servidores, toda su red de Active Directory.

Lo que hizo Maersk:

  • Reconstruyó toda la infraestructura en 10 días (proceso que normalmente toma 6 meses)
  • Recuperó su controlador de dominio gracias a un único servidor en Ghana que estaba offline por un corte de luz
  • Operó puertos con WhatsApp y hojas de cálculo mientras se reconstruía el sistema
  • El CEO explicó públicamente el impacto con transparencia

Costo: ~$300 millones USD.

Para discutir

  • El servidor de Ghana salvó la recuperación. ¿Fue suerte o hay un principio de diseño detrás?
  • Maersk operó “manualmente” durante la crisis. ¿Tu sistema tiene un modo de operación manual?
  • ¿Qué habría pasado si el CEO hubiera guardado silencio?

Equifax 2017: lo que no debes hacer

Equifax expuso datos de 147 millones de personas. La cronología de su respuesta:

  • La vulnerabilidad tenía parche disponible dos meses antes del ataque
  • Tardaron 76 días en descubrir la brecha
  • Tardaron 40 días más en notificar al público
  • Ejecutivos vendieron acciones entre el descubrimiento y la notificación pública
  • El sitio creado para verificar si eras afectado tenía su propia vulnerabilidad XSS

Costo: ~$1.400 millones USD.

Para discutir

  • 76 días sin detectar una brecha activa. ¿Qué tipo de monitoreo habría hecho la diferencia?
  • ¿Qué tienen en común los errores de Equifax y los de MicroPréstamos? ¿Qué los diferencia?

Conceptos clave

TérminoDefinición
Incidente de seguridadEvento que compromete la confidencialidad, integridad o disponibilidad de un sistema
RTOTiempo máximo aceptable para restaurar un servicio después de una interrupción
RPOCantidad máxima aceptable de datos que se pueden perder en un incidente
Plan de respuestaDocumento que define procedimientos, roles y comunicaciones para gestionar incidentes
Análisis post-mortemRevisión estructurada después de un incidente para identificar causas sistémicas y lecciones aprendidas
Continuidad de negocioCapacidad de mantener operaciones esenciales durante y después de un incidente

Navegación:Anterior | Inicio | Siguiente