¿Se trabaja .NET 10?

Sí. El curso está planteado sobre .NET 10 como referencia actual LTS. Microsoft documenta que .NET 10 es una versión Long Term Support con tres años de soporte.

¿Incluye SLOs y error budgets?

Sí. Es uno de los ejes principales del curso. Se trabajan SLIs, SLOs, error budgets, burn rate, políticas de actuación y decisiones de producto basadas en fiabilidad. Google SRE plantea el uso del error budget como mecanismo para decidir cuándo asumir o frenar cambios.

¿Incluye OpenTelemetry?

Sí. El curso cubre logs, métricas y trazas con OpenTelemetry en .NET. Microsoft explica que .NET ya incluye APIs de logging, métricas y Activity que sirven como base para la implementación de OpenTelemetry.

¿Se trabajan health checks?

Sí. Se cubren health checks, readiness, liveness, startup probes e integración con orquestadores. ASP.NET Core incluye Health Checks Middleware para reportar el estado de componentes de infraestructura.

¿Incluye Kubernetes?

Sí. Hay un bloque específico sobre operación de servicios .NET en contenedores y Kubernetes, incluyendo probes, recursos, escalado, configuración, logs, métricas, trazas y troubleshooting.

¿Se trabaja respuesta a incidentes?

Sí. El curso incluye incident response, on-call, severidades, comunicación, runbooks, postmortems blameless, reducción de recurrencias y métricas como MTTD, MTTA y MTTR.

¿Incluye resiliencia de aplicaciones?

Sí. Se trabajan timeouts, retries, circuit breakers, bulkheads, fallback, idempotencia, consistencia eventual, degradación controlada y gestión de dependencias externas.

¿Hace falta experiencia previa en SRE?

No es imprescindible, pero ayuda. El curso explica los fundamentos SRE y los baja a prácticas concretas en .NET. Sí se recomienda experiencia previa desarrollando, desplegando u operando aplicaciones backend.

¿Puede bonificarse por FUNDAE?

Sí. Al tratarse de una formación corporativa en .NET, DevOps, observabilidad, fiabilidad, seguridad, automatización y competencias digitales, puede plantearse como formación bonificable hasta el 100% a través de FUNDAE, según el crédito disponible y cumpliendo los requisitos administrativos aplicables.

Curso de SRE (Site Reliability Engineering) en .Net para empresas

Aprende con el curso de SRE (Site Reliability Engineering) en .Net para empresas hasta 100% bonificado, a medida para tu organización.

Totalmente práctico y aplicable

Formación en SRE (Site Reliability Engineering) en .Net a medida

100% bonificable a través de FUNDAE

Curso TUTORIZADO por expertos

Solicitar precio

Me interesa

Calcula mis créditos de FUNDAE

Solicitar precio

Calcula mis créditos de FUNDAE

Programa formativo

Temario del curso

Encuentra todo el temario del curso aquí.

Temario

Comprensión de Site Reliability Engineering como disciplina que usa ingeniería, automatización, métricas y cultura operativa para mejorar fiabilidad.
Traducción de los principios SRE a servicios .NET: APIs ASP.NET Core, workers, microservicios, monolitos modulares, colas y procesos batch.
Diferenciación entre operaciones tradicional, DevOps, plataforma, observabilidad y SRE para evitar solapamientos confusos dentro del equipo.
Análisis de por qué muchas aplicaciones .NET fallan en producción por problemas de timeouts, dependencias, despliegues, configuración o falta de señales.
Identificación de responsabilidades compartidas entre desarrollo, plataforma, operaciones, QA, seguridad y negocio en la fiabilidad del servicio.
Revisión de la relación entre velocidad de entrega y estabilidad, usando SLOs y error budgets como lenguaje común de decisión.
Creación de una primera matriz de servicios críticos, usuarios afectados, dependencias, riesgos y expectativas de disponibilidad.
Separación entre fiabilidad percibida por el usuario y estado técnico interno, evitando métricas cómodas pero poco representativas.
Evaluación inicial de madurez SRE en el equipo: alertas, incidentes, automatización, despliegues, observabilidad, runbooks y postmortems.
Diseño de una hoja de ruta SRE para aplicaciones .NET con quick wins, controles mínimos, métricas y objetivos de mejora.

Comprensión de Site Reliability Engineering como disciplina que usa ingeniería, automatización, métricas y cultura operativa para mejorar fiabilidad.
Traducción de los principios SRE a servicios .NET: APIs ASP.NET Core, workers, microservicios, monolitos modulares, colas y procesos batch.
Diferenciación entre operaciones tradicional, DevOps, plataforma, observabilidad y SRE para evitar solapamientos confusos dentro del equipo.
Análisis de por qué muchas aplicaciones .NET fallan en producción por problemas de timeouts, dependencias, despliegues, configuración o falta de señales.
Identificación de responsabilidades compartidas entre desarrollo, plataforma, operaciones, QA, seguridad y negocio en la fiabilidad del servicio.
Revisión de la relación entre velocidad de entrega y estabilidad, usando SLOs y error budgets como lenguaje común de decisión.
Creación de una primera matriz de servicios críticos, usuarios afectados, dependencias, riesgos y expectativas de disponibilidad.
Separación entre fiabilidad percibida por el usuario y estado técnico interno, evitando métricas cómodas pero poco representativas.
Evaluación inicial de madurez SRE en el equipo: alertas, incidentes, automatización, despliegues, observabilidad, runbooks y postmortems.
Diseño de una hoja de ruta SRE para aplicaciones .NET con quick wins, controles mínimos, métricas y objetivos de mejora.

¿Tienes dudas?

Estamos aquí para ayudarte

Reservar plaza

Tema 1: SRE aplicado al ecosistema .NET empresarial

Comprensión de Site Reliability Engineering como disciplina que usa ingeniería, automatización, métricas y cultura operativa para mejorar fiabilidad.
Traducción de los principios SRE a servicios .NET: APIs ASP.NET Core, workers, microservicios, monolitos modulares, colas y procesos batch.
Diferenciación entre operaciones tradicional, DevOps, plataforma, observabilidad y SRE para evitar solapamientos confusos dentro del equipo.
Análisis de por qué muchas aplicaciones .NET fallan en producción por problemas de timeouts, dependencias, despliegues, configuración o falta de señales.
Identificación de responsabilidades compartidas entre desarrollo, plataforma, operaciones, QA, seguridad y negocio en la fiabilidad del servicio.
Revisión de la relación entre velocidad de entrega y estabilidad, usando SLOs y error budgets como lenguaje común de decisión.
Creación de una primera matriz de servicios críticos, usuarios afectados, dependencias, riesgos y expectativas de disponibilidad.
Separación entre fiabilidad percibida por el usuario y estado técnico interno, evitando métricas cómodas pero poco representativas.
Evaluación inicial de madurez SRE en el equipo: alertas, incidentes, automatización, despliegues, observabilidad, runbooks y postmortems.
Diseño de una hoja de ruta SRE para aplicaciones .NET con quick wins, controles mínimos, métricas y objetivos de mejora.

Tema 2: SLIs, SLOs, SLAs y error budgets

Definición de SLIs como indicadores medibles que reflejan la experiencia real del usuario o consumidor del servicio.
Diseño de SLOs para disponibilidad, latencia, errores, throughput, frescura de datos, éxito de jobs, colas y operaciones críticas.
Diferenciación entre SLO interno, SLA contractual y métricas operativas que ayudan al equipo pero no deben prometerse a cliente.
Cálculo de error budgets a partir de SLOs y uso de ese presupuesto para decidir si priorizar velocidad, deuda o estabilización.
Aplicación de políticas de error budget cuando un servicio consume demasiada fiabilidad y debe pausar cambios arriesgados.
Diseño de ventanas de medición razonables: rolling windows, periodos mensuales, trimestres, días laborables o franjas críticas.
Evitación de SLOs imposibles del 100%, que suelen generar costes excesivos y reducen capacidad de cambio sin aportar valor proporcional.
Selección de SLOs por journey de usuario, endpoint crítico, operación de negocio, pipeline de datos o dependencia externa.
Visualización de cumplimiento SLO en dashboards ejecutivos y técnicos con lectura clara para desarrollo, SRE y negocio.
Creación de un catálogo de SLOs para servicios .NET con owner, fuente de datos, fórmula, objetivo, alerta y política de actuación.

Tema 3: Arquitectura observable en ASP.NET Core

Diseño de aplicaciones ASP.NET Core preparadas para emitir señales útiles de logs, métricas, trazas, health checks y eventos de dominio.
Separación entre observabilidad técnica, observabilidad funcional y observabilidad de experiencia de usuario para no medir solo infraestructura.
Instrumentación de endpoints, middlewares, servicios internos, repositorios, llamadas HTTP, colas, workers y operaciones críticas.
Incorporación de correlation IDs y trace context para seguir una petición entre frontend, API, servicios, bases de datos y sistemas externos.
Definición de convenciones de nombres para métricas, spans, logs, etiquetas, atributos y dimensiones de negocio.
Evitación de señales ruidosas que generan dashboards grandes pero no ayudan a diagnosticar ni decidir.
Creación de eventos de aplicación para operaciones relevantes: pedido creado, pago rechazado, informe generado o proceso fallido.
Revisión de impacto de instrumentación en rendimiento, coste, almacenamiento y privacidad de datos.
Diseño de una estrategia de observabilidad por criticidad del servicio, no aplicando el mismo nivel a todo.
Elaboración de una guía de instrumentación ASP.NET Core reutilizable por equipos de desarrollo.

Tema 4: Logging estructurado y diagnóstico en producción

Creación de logs estructurados con niveles, propiedades, categorías, correlation IDs, tenant, operación y contexto técnico suficiente.
Diferenciación entre logs de auditoría, logs de aplicación, logs de seguridad, logs técnicos y logs de diagnóstico temporal.
Reducción de logs ruidosos que aumentan coste y dificultan detectar señales importantes durante incidentes.
Diseño de mensajes útiles para producción, evitando textos ambiguos como “error inesperado” sin contexto ni acción posible.
Protección de datos sensibles en logs: tokens, contraseñas, datos personales, payloads completos, cabeceras y secretos.
Uso de scopes y enrichment para añadir información contextual sin repetirla manualmente en cada línea.
Revisión de estrategias de sampling, retención, filtrado y agregación según criticidad y coste.
Conexión de logs con trazas y métricas para que una alerta permita llegar al detalle sin búsqueda manual excesiva.
Preparación de consultas frecuentes para troubleshooting: errores 5xx, timeouts, latencia, fallos de autenticación y saturación.
Creación de estándares de logging para servicios .NET con ejemplos correctos, errores comunes y criterios de revisión en PR.

Tema 5: Métricas técnicas, métricas de negocio y RED/USE

Aplicación del método RED en servicios de request-response: rate, errors y duration como base para APIs ASP.NET Core.
Aplicación del método USE en recursos: utilization, saturation y errors para CPU, memoria, pool de conexiones, colas y dependencias.
Diseño de métricas de negocio que permitan detectar degradación funcional aunque la infraestructura parezca sana.
Creación de histogramas de latencia para percentiles p50, p90, p95 y p99, evitando confiar solo en medias engañosas.
Medición de saturación antes de que aparezcan errores: colas creciendo, conexiones agotadas, thread pool presionado o base de datos lenta.
Definición de etiquetas útiles sin explotar cardinalidad por usuario, identificador único, payload o valores demasiado variables.
Diferenciación entre métricas de servicio, métricas de infraestructura, métricas de dependencia y métricas de experiencia.
Revisión de métricas en background services, jobs programados, consumidores de cola y procesos batch.
Diseño de dashboards que respondan preguntas operativas concretas en lugar de acumular gráficas sin propósito.
Creación de una guía de métricas .NET con nombres, unidades, dimensiones, owners y relación con SLOs.

Tema 6: Trazas distribuidas y OpenTelemetry en .NET

Comprensión de trazas distribuidas como herramienta para seguir una operación entre servicios, dependencias, colas, bases de datos y sistemas externos.
Uso de OpenTelemetry en .NET aprovechando las APIs de logging, metrics y Activity integradas en el framework.
Instrumentación de ASP.NET Core, HttpClient, Entity Framework Core, SQL, Redis, colas y dependencias relevantes.
Propagación de contexto entre servicios para mantener correlación en arquitecturas distribuidas y event-driven.
Creación de spans personalizados para operaciones de negocio críticas, no solo para llamadas técnicas automáticas.
Diseño de atributos seguros y útiles, evitando incluir datos personales, secretos o payloads completos en trazas.
Configuración de exportadores hacia OpenTelemetry Collector, Jaeger, Zipkin, Grafana Tempo, Azure Monitor u otras plataformas.
Aplicación de sampling para equilibrar coste, detalle y capacidad de investigación durante incidentes.
Uso de trazas para detectar latencia acumulada, N+1, timeouts, llamadas repetidas y dependencia externa degradada.
Creación de una estrategia de trazabilidad para servicios .NET con convenciones, exporters, sampling, retención y uso en incidentes.

Tema 7: Health checks, readiness, liveness y startup probes

Configuración de Health Checks Middleware en ASP.NET Core para reportar estado de aplicación e infraestructura.
Diferenciación entre liveness, readiness y startup checks para evitar reinicios innecesarios o tráfico hacia servicios no preparados.
Creación de checks para base de datos, colas, cache, almacenamiento, dependencias HTTP, configuración crítica y servicios externos.
Separación entre checks baratos y checks costosos para no sobrecargar dependencias por simple monitorización.
Diseño de endpoints de salud internos y externos con permisos, formato de respuesta y exposición controlada.
Integración de health checks con Kubernetes, balanceadores, API gateways, monitorización y orquestadores.
Evitación de health checks que solo dicen “OK” aunque la aplicación no pueda cumplir su función principal.
Incorporación de degradación parcial cuando una dependencia no crítica falla pero el servicio puede seguir operando.
Generación de métricas y alertas a partir de estados de health checks, evitando depender solo de endpoints manuales.
Creación de una plantilla de health checks para servicios ASP.NET Core empresariales.

Tema 8: Alertas accionables y reducción de ruido

Diseño de alertas basadas en síntomas de usuario y SLOs, no solo en métricas internas de infraestructura.
Priorización de alertas que requieren acción inmediata frente a avisos informativos o señales para revisión posterior.
Creación de severidades claras según impacto: degradación leve, error parcial, caída crítica, pérdida de datos o riesgo de seguridad.
Evitación de alert fatigue mediante umbrales adecuados, ventanas temporales, agrupación, deduplicación y rutas de escalado.
Inclusión de contexto mínimo en cada alerta: servicio, SLO afectado, impacto probable, dashboard, runbook y owner.
Diseño de alertas para burn rate de error budget, detectando consumo rápido antes de agotar completamente el margen.
Revisión periódica de alertas no accionables, falsas positivas, duplicadas o ignoradas por el equipo.
Integración con herramientas de guardia, chatops, tickets, incident management y postmortems.
Creación de pruebas de alerta para confirmar que se disparan cuando deben y no dependen de supuestos rotos.
Elaboración de una política de alerting para aplicaciones .NET con SLO, severidad, canal, runbook y propietario.

Tema 9: Resiliencia con timeouts, retries y circuit breakers

Diseño de timeouts explícitos para llamadas HTTP, base de datos, colas, storage y servicios externos.
Configuración de retries con backoff, jitter y límites para evitar tormentas de reintentos cuando una dependencia está degradada.
Uso de circuit breakers para cortar llamadas a dependencias fallidas y proteger recursos del servicio.
Aplicación de bulkheads para aislar fallos entre operaciones, clientes, colas o dependencias críticas.
Diseño de fallbacks seguros cuando el servicio puede devolver datos parciales, cacheados o respuestas degradadas.
Prevención de retry storms, cascadas de fallos y consumo excesivo de error budget por mala política de resiliencia.
Integración de librerías de resiliencia en clientes HTTP, servicios internos y consumidores de eventos.
Medición de timeouts, retries, circuit breaker state, fallbacks y errores por dependencia.
Revisión de políticas de resiliencia en PRs para evitar configuraciones mágicas sin justificación.
Creación de una guía de resiliencia .NET con patrones permitidos, umbrales, métricas y ejemplos de uso.

Tema 10: Idempotencia, consistencia y operaciones críticas

Diseño de operaciones idempotentes para pagos, pedidos, actualizaciones, eventos, comandos y procesos batch.
Uso de idempotency keys en APIs cuando el cliente puede repetir peticiones por timeout o error de red.
Prevención de duplicados en consumidores de cola, jobs y procesos asíncronos mediante claves, estados y deduplicación.
Gestión de consistencia eventual en flujos distribuidos sin vender al usuario garantías que el sistema no puede cumplir.
Aplicación de outbox, inbox, transacciones locales, compensaciones y estados intermedios cuando el dominio lo requiere.
Diseño de reintentos seguros en operaciones que modifican datos, evitando efectos secundarios duplicados.
Creación de métricas de operaciones duplicadas, reintentos, compensaciones, inconsistencias y fallos parciales.
Revisión de riesgos en procesos críticos como facturación, aprovisionamiento, notificaciones, integraciones y cambios de permisos.
Preparación de runbooks para reconciliación de datos cuando una operación queda a medias.
Documentación de invariantes críticas para que desarrollo y SRE entiendan qué nunca debe romperse.

Tema 11: Gestión de dependencias externas y third-party reliability

Identificación de dependencias críticas: APIs externas, bases de datos gestionadas, colas, proveedores de identidad, pagos, email y storage.
Clasificación de dependencias por criticidad, SLO propio, impacto en usuario, posibilidad de fallback y capacidad de sustitución.
Diseño de contratos de timeout, retry, circuit breaker, rate limiting y degradación por proveedor.
Monitorización separada de latencia, errores, throttling y disponibilidad de cada dependencia.
Gestión de límites de cuota, rate limits, credenciales, expiración de tokens, certificados y cambios de contrato.
Creación de dashboards de dependencia para saber si el problema está en la aplicación, red, proveedor o configuración.
Preparación de playbooks para caída de proveedor, degradación parcial, credenciales caducadas o cambios inesperados de API.
Diseño de caches, colas, buffering o modo degradado para sobrevivir a fallos temporales de terceros.
Revisión de SLAs de proveedores y comparación con los SLOs internos que dependen de ellos.
Documentación de riesgos de dependencia externa y planes de contingencia por servicio.

Tema 12: CI/CD fiable para aplicaciones .NET

Diseño de pipelines que restauran, compilan, prueban, analizan, empaquetan y publican artefactos .NET de forma repetible.
Separación de validaciones por tipo: build, unit tests, integration tests, contract tests, security scans, smoke tests y performance checks.
Reducción de pipelines flaky mediante entornos controlados, datos sintéticos, dependencias estables y timeouts realistas.
Uso de quality gates para bloquear cambios que rompen tests, cobertura crítica, seguridad, contratos o configuración.
Creación de pipelines rápidos para PRs y pipelines más profundos para release, nocturnos o cambios de alto riesgo.
Gestión de secretos, variables, service connections, permisos mínimos y protección de ramas.
Preparación de artefactos versionados: contenedores, paquetes, scripts, migraciones y documentación de release.
Integración de checks SRE en CI/CD: health endpoints, configuración, observabilidad mínima, runbooks y rollback.
Documentación de workflows con owner, entorno, triggers, requisitos, dependencias y plan de fallo.
Medición del pipeline con lead time, tasa de fallo, duración, flaky tests, rollback y frecuencia de despliegue.

Tema 13: Despliegues seguros: canary, blue-green, feature flags y rollback

Comparación entre rolling deployment, blue-green, canary, shadow traffic, feature flags y despliegue tradicional.
Selección de estrategia según criticidad, arquitectura, base de datos, tráfico, coste, capacidad de observación y facilidad de rollback.
Diseño de canary releases con métricas de éxito, umbrales, duración, cohortes de usuarios y abort automático.
Uso de feature flags para separar despliegue técnico de activación funcional, reduciendo riesgo de release.
Preparación de rollback técnico y funcional antes de desplegar, no cuando la incidencia ya está abierta.
Validación postdeploy con smoke tests, health checks, métricas de error, latencia, logs y SLO burn rate.
Gestión de migraciones de base de datos compatibles hacia delante y hacia atrás cuando hay despliegues progresivos.
Documentación de release notes técnicas, cambios de configuración, riesgos y plan de reversión.
Revisión de despliegues con alta carga, cambios de contrato, dependencias nuevas o modificaciones de datos.
Creación de un playbook de despliegue seguro para servicios .NET críticos.

Tema 14: Kubernetes, contenedores y operación de servicios .NET

Construcción de imágenes .NET optimizadas, seguras, pequeñas y reproducibles con multi-stage builds.
Configuración de recursos en Kubernetes: requests, limits, probes, deployments, services, ingress y secrets.
Ajuste de readiness, liveness y startup probes para aplicaciones ASP.NET Core, evitando reinicios por checks mal diseñados.
Gestión de configuración por entorno con ConfigMaps, Secrets, variables, appsettings y proveedores de configuración.
Análisis de fallos en pods: CrashLoopBackOff, OOMKilled, timeouts, errores de probes, problemas de red y permisos.
Diseño de escalado horizontal con HPA, métricas de CPU, memoria, cola, latencia o métricas custom.
Integración de logs, métricas y trazas desde contenedores hacia la plataforma de observabilidad.
Revisión de seguridad de contenedores: usuario no root, imágenes base, vulnerabilidades, permisos y supply chain.
Preparación de runbooks para reinicios, despliegues fallidos, saturación y degradación en cluster.
Creación de estándares para operar aplicaciones .NET en Kubernetes o plataformas equivalentes.

Tema 15: Performance engineering en .NET para SRE

Análisis de latencia en APIs ASP.NET Core, identificando cuellos de botella en CPU, memoria, GC, IO, red, base de datos y dependencias.
Uso de métricas de runtime .NET para entender thread pool, GC, allocations, exceptions, queues y consumo de recursos.
Evaluación de percentiles de latencia para detectar degradaciones que las medias ocultan.
Diseño de pruebas de carga con escenarios realistas, ramp-up, usuarios concurrentes, datos sintéticos y criterios de éxito.
Uso de profiling controlado para localizar hot paths sin saturar entornos productivos.
Revisión de problemas frecuentes: N+1 queries, serialización pesada, bloqueos síncronos, HttpClient mal usado y caches defectuosas.
Optimización de consumo de memoria y asignaciones en servicios con alta concurrencia.
Medición de rendimiento antes y después de cambios para evitar optimizaciones subjetivas.
Integración de performance budgets en PRs, releases o pipelines críticos.
Creación de un proceso de performance review para servicios .NET con impacto en SLOs.

Tema 16: Bases de datos, EF Core y fiabilidad de persistencia

Monitorización de latencia, errores, locks, deadlocks, conexiones, saturación y consumo de recursos en bases de datos.
Revisión de EF Core desde perspectiva SRE: consultas lentas, N+1, tracking innecesario, transacciones largas y migraciones peligrosas.
Diseño de pools de conexión, timeouts, retries y resiliencia sin ocultar problemas estructurales de base de datos.
Preparación de migraciones seguras compatibles con despliegues progresivos y rollback.
Creación de métricas de consultas críticas, errores por operación, tiempo de ejecución y saturación de dependencias.
Diseño de estrategias de backup, restore, point-in-time recovery y pruebas periódicas de recuperación.
Gestión de degradación cuando la base de datos está lenta: colas, caches, modo read-only parcial o limitación de tráfico.
Revisión de consistencia entre caché y base de datos en operaciones críticas.
Preparación de runbooks para deadlocks, crecimiento de tablas, índices ausentes, migración fallida y pérdida de conexión.
Documentación de riesgos de datos, owners, RTO, RPO, criticidad y plan de recuperación.

Tema 17: Workers, background services, colas y procesamiento asíncrono

Diseño de `BackgroundService`, hosted services, workers y consumidores de cola con observabilidad y control de ciclo de vida.
Gestión de cancelación, shutdown graceful, reintentos, poison messages, dead letter queues y backpressure.
Medición de lag, throughput, errores, duración de procesamiento, mensajes pendientes y tasa de reintento.
Diseño de idempotencia y deduplicación en procesamiento asíncrono para evitar efectos secundarios duplicados.
Separación de errores transitorios y errores permanentes para no reintentar indefinidamente mensajes imposibles.
Control de concurrencia para no saturar bases de datos, APIs externas o recursos compartidos.
Preparación de dashboards específicos para colas, jobs y workers, no solo para APIs HTTP.
Creación de runbooks para colas bloqueadas, mensajes venenosos, backlog creciente y workers detenidos.
Integración de eventos de dominio y trazas distribuidas en flujos asíncronos.
Definición de SLOs para procesamiento: frescura, tiempo hasta completar, éxito de job y tamaño de backlog.

Tema 18: Seguridad operativa, secretos y respuesta ante riesgos

Gestión segura de secretos en aplicaciones .NET: variables protegidas, vaults, rotación, permisos mínimos y eliminación de secretos en repositorio.
Monitorización de errores de autenticación, intentos fallidos, accesos denegados, cambios de permisos y actividad anómala.
Integración de seguridad en pipelines: SAST, dependency scanning, container scanning, secret scanning y revisión de IaC.
Diseño de alertas de seguridad accionables, separando eventos informativos de señales que requieren respuesta inmediata.
Preparación de runbooks para credencial expuesta, dependencia vulnerable, abuso de API, error de autorización o fuga en logs.
Revisión de logs para asegurar que no contienen datos personales, tokens, cookies, cabeceras sensibles o payloads completos.
Gestión de permisos de observabilidad para que dashboards y trazas no expongan información sensible.
Coordinación entre SRE, AppSec, DevOps y desarrollo durante incidentes con impacto de seguridad.
Documentación de riesgos aceptados, controles compensatorios y fechas de revisión.
Creación de una checklist SRE-AppSec para servicios .NET antes de producción.

Tema 19: Incident response, on-call y gestión de crisis

Diseño de un proceso de incident response con detección, clasificación, asignación, mitigación, comunicación, resolución y cierre.
Definición de severidades según impacto real en usuario, negocio, datos, seguridad, reputación y SLOs.
Creación de roles durante un incidente: incident commander, comunicación, operaciones, especialista técnico y enlace con negocio.
Preparación de canales de comunicación internos y externos con mensajes claros, actualizaciones periódicas y decisiones registradas.
Uso de dashboards, trazas, logs, métricas y runbooks para reducir tiempo de diagnóstico durante presión real.
Gestión de on-call con rotación, escalado, handover, fatiga, compensación y reglas de activación.
Creación de timelines de incidente para reconstruir hechos, decisiones, cambios y señales.
Separación entre mitigación rápida y corrección definitiva para restaurar servicio sin improvisar cambios peligrosos.
Coordinación con seguridad, legal, DPO, soporte o comunicación cuando el incidente lo exige.
Medición de incidentes con MTTD, MTTA, MTTR, duración, impacto, recurrencia y consumo de error budget.

Tema 20: Postmortems sin culpa y aprendizaje operativo

Redacción de postmortems blameless centrados en sistemas, decisiones, señales, procesos y condiciones que permitieron el fallo.
Reconstrucción de timeline con detección, alertas, cambios recientes, decisiones, mitigación y recuperación.
Identificación de causas contribuyentes, no solo una causa raíz simplificada que oculta problemas de sistema.
Clasificación de acciones: prevención, detección, mitigación, documentación, automatización, formación y cambio de arquitectura.
Priorización de acciones postmortem según impacto, coste, riesgo y relación con SLOs.
Seguimiento de compromisos para evitar que los postmortems produzcan documentos sin cambios reales.
Conexión de postmortems con backlog técnico, error budgets, deuda operativa y roadmap de fiabilidad.
Revisión de incidentes recurrentes para detectar patrones de fallo no resueltos.
Comunicación de aprendizajes al equipo sin culpabilizar a personas ni ocultar decisiones incómodas.
Medición de madurez por reducción de recurrencia, calidad de acciones, tiempo de cierre y mejoras en alertas.

Tema 21: Toil, automatización y runbooks ejecutables

Identificación de toil como trabajo manual, repetitivo, reactivo, automatizable y con poco valor duradero.
Medición de tiempo dedicado a soporte repetitivo, reinicios, despliegues manuales, consultas, cambios de configuración y tareas de guardia.
Priorización de automatización según frecuencia, riesgo, coste humano, criticidad y facilidad de ejecución.
Creación de runbooks claros con síntomas, diagnóstico, comandos, dashboards, mitigación, escalado y validación final.
Transformación de runbooks manuales en scripts, workflows, jobs, ChatOps o automatizaciones controladas.
Validación periódica de runbooks para evitar que estén obsoletos cuando ocurre una incidencia.
Control de permisos para automatizaciones que modifican entornos, reinician servicios, escalan recursos o ejecutan rollback.
Documentación de automatizaciones con owner, alcance, riesgos, logs, modo seguro y procedimiento de parada.
Medición de reducción de toil por horas ahorradas, menos intervenciones, menor MTTR y menos escalados nocturnos.
Creación de un backlog de automatización SRE para servicios .NET con valor y riesgo priorizados.

Tema 22: Capacity planning, escalado y gestión de demanda

Análisis de patrones de tráfico, estacionalidad, picos, campañas, procesos batch y crecimiento previsto.
Medición de capacidad actual mediante throughput, latencia, saturación, consumo de CPU, memoria, conexiones, colas y base de datos.
Definición de headroom necesario para absorber picos, fallos parciales, despliegues y mantenimiento.
Diseño de escalado horizontal y vertical con criterios claros de cuándo añadir capacidad y cuándo optimizar.
Preparación de pruebas de capacidad antes de eventos relevantes, lanzamientos, campañas o migraciones.
Identificación de límites duros: conexiones a base de datos, cuotas externas, rate limits, threads, colas o almacenamiento.
Creación de dashboards de capacidad con lectura para SRE, plataforma, desarrollo y dirección técnica.
Coordinación con negocio para anticipar demanda y evitar sorpresas operativas.
Revisión de costes asociados a sobredimensionamiento, infrautilización y escalado reactivo.
Documentación de planes de capacidad con escenarios, umbrales, riesgos y acciones previas.

Tema 23: FinOps, coste de fiabilidad y eficiencia operativa

Análisis del coste de fiabilidad: redundancia, observabilidad, almacenamiento de logs, réplicas, escalado, backups y herramientas.
Comparación entre nivel de fiabilidad deseado y coste de alcanzarlo, evitando prometer disponibilidad desproporcionada.
Medición de coste por servicio, entorno, componente, dependencia, dashboard, logs, métricas, traces y tráfico.
Identificación de desperdicio: recursos sobredimensionados, logs excesivos, trazas sin sampling, entornos olvidados y jobs innecesarios.
Optimización de costes sin comprometer SLOs críticos ni dejar servicios sin margen operativo.
Diseño de políticas de retención de logs, métricas y trazas según valor de diagnóstico y requisitos de cumplimiento.
Revisión de coste de dependencias externas, licencias, bases de datos gestionadas y transferencia de datos.
Integración de señales FinOps en decisiones de arquitectura, escalado, observabilidad y despliegue.
Preparación de informes que expliquen coste, riesgo y beneficio de inversiones en fiabilidad.
Creación de un modelo de gobierno donde SRE, plataforma y finanzas revisan fiabilidad y coste de forma coordinada.

Tema 24: Chaos engineering y pruebas de resiliencia controladas

Comprensión de chaos engineering como práctica para validar hipótesis de resiliencia mediante fallos controlados.
Selección de experimentos seguros: latencia de dependencia, caída de API externa, pérdida de pod, saturación, errores de cola o base lenta.
Definición de hipótesis, blast radius, métricas, rollback, owners, ventana y comunicación antes de ejecutar pruebas.
Ejecución inicial en laboratorio o staging antes de considerar experimentos controlados en producción.
Revisión de impacto en SLOs, alertas, runbooks, escalado, dashboards y respuesta del equipo.
Creación de pruebas de resiliencia automatizadas para validar timeouts, retries, circuit breakers y degradación.
Evitación de caos sin propósito, sin métricas o sin capacidad de detener el experimento.
Inclusión de seguridad y negocio cuando los experimentos pueden afectar usuarios, datos o reputación.
Documentación de aprendizajes y acciones correctivas tras cada experimento.
Integración gradual de resiliencia testing en roadmap SRE y preparación de releases críticos.

Tema 25: SRE en arquitectura de microservicios y monolitos modulares

Comparación de necesidades SRE en microservicios, monolitos modulares, sistemas híbridos y aplicaciones internas.
Identificación de riesgos específicos de microservicios: latencia, dependencia, observabilidad distribuida, despliegues coordinados y ownership.
Revisión de riesgos en monolitos: cambios grandes, acoplamiento, despliegue único, base compartida y dificultad para aislar fallos.
Diseño de SLOs por servicio, capacidad de negocio, módulo, endpoint o flujo de usuario.
Creación de límites de ownership para que cada equipo sepa qué opera, qué mide y qué incidentes atiende.
Aplicación de patrones de resiliencia según topología: APIs internas, eventos, colas, módulos compartidos o servicios externos.
Revisión de estrategias de degradación parcial para que una parte del sistema pueda fallar sin detener todo.
Diseño de observabilidad distribuida que permita seguir una operación entre varios servicios o módulos.
Creación de runbooks adaptados a la arquitectura real, no a una teoría genérica de microservicios.
Preparación de decisiones de evolución arquitectónica basadas en fiabilidad, no solo en organización o tecnología.

Tema 26: Gobierno SRE, cultura y colaboración entre equipos

Creación de un modelo de gobierno SRE con responsabilidades claras entre desarrollo, plataforma, operaciones, seguridad y negocio.
Definición de ownership de servicios: quién desarrolla, quién despliega, quién atiende alertas, quién decide SLOs y quién prioriza deuda.
Incorporación de SRE en diseño, refinamiento, revisión de arquitectura, PRs, postmortems y planificación de releases.
Diseño de rituals operativos: revisión de SLOs, revisión de alertas, postmortems, planificación de capacidad y revisión de error budget.
Gestión de tensiones entre negocio, producto y tecnología cuando la fiabilidad exige ralentizar cambios.
Creación de criterios para pausar releases, priorizar deuda o invertir en automatización cuando el error budget se consume.
Formación de equipos de desarrollo para que produzcan servicios operables, no solo funcionalidades terminadas.
Medición de cultura SRE por participación en incidentes, calidad de runbooks, reducción de toil y mejora de SLOs.
Evitación de que SRE se convierta en equipo de soporte que absorbe problemas sin cambiar sistemas.
Diseño de una hoja de ruta cultural para implantar SRE gradualmente sin generar rechazo ni burocracia excesiva.

Tema 27: Proyecto final integrador: plataforma SRE para servicios .NET críticos

Selección de un servicio .NET de laboratorio con API, worker, base de datos, dependencia externa, CI/CD y fallos simulados.
Definición de SLIs, SLOs y error budget para disponibilidad, latencia, errores, colas y operaciones críticas.
Instrumentación del servicio con logs estructurados, métricas, trazas distribuidas, correlation IDs y health checks.
Configuración de dashboards orientados a SLO, diagnóstico, dependencias, capacidad, rendimiento y experiencia de usuario.
Diseño de alertas accionables con severidad, burn rate, owner, contexto, dashboard y runbook asociado.
Implementación de resiliencia con timeouts, retries, circuit breakers, bulkheads, fallback e idempotencia.
Preparación de pipelines CI/CD con tests, quality gates, smoke tests, despliegue seguro, rollback y validación postdeploy.
Simulación de incidentes: dependencia caída, latencia alta, base lenta, cola acumulada, despliegue defectuoso y error de configuración.
Redacción de postmortem blameless con timeline, impacto, causas contribuyentes, acciones preventivas y backlog de fiabilidad.
Presentación final con arquitectura SRE, SLOs, observabilidad, automatización, incident response, deuda priorizada y roadmap de madurez.

Preguntas frecuentes

Resolvemos todas tus dudas sobre nuestra formación en SRE (Site Reliability Engineering) en .Net

Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.

Es para ambos perfiles. Los desarrolladores aprenden a crear servicios operables desde el diseño, y los equipos SRE aprenden a aplicar sus prácticas al ecosistema .NET, ASP.NET Core, OpenTelemetry, CI/CD y producción.

¿Tienes dudas?
Estamos aqui para ayudarte

Contactar

¿Tienes dudas?
Estamos aqui para ayudarte

Contactar

Curso de SRE (Site Reliability Engineering) en .Net para empresas

Aprende con el curso de SRE (Site Reliability Engineering) en .Net para empresas hasta 100% bonificado, a medida para tu organización.

¿Qué es FUNDAE?

¿Cómo funciona FUNDAE?

¿Cómo se bonifica un curso?

¿Qué es FUNDAE?

¿Cómo funciona FUNDAE?

¿Cómo se bonifica un curso?

¿Qué es FUNDAE?

¿Cómo funciona FUNDAE?

¿Cómo se bonifica un curso?

Curso de SRE (Site Reliability Engineering) en .Net hasta 100% Bonificable a través de FUNDAE

Tu bonificación paso a paso

La formación que decides
te devuelve dinero

Convierte la fiabilidad en una práctica medible

Lleva observabilidad real a aplicaciones .NET La formación cubre logs estructurados, métricas, trazas, OpenTelemetry, health checks y dashboards útiles. Esto reduce el tiempo de diagnóstico y permite entender qué ocurre en producción sin depender de intuición.

Reduce incidentes

Personaliza el temario al 100% para tu equipo

Nueva Plataforma
de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Temario del curso

Pensado para quienes deben dominar SRE (Site Reliability Engineering) en .Net en su día a día

Resolvemos todas tus dudas sobre nuestra formación en SRE (Site Reliability Engineering) en .Net

Diseñemos hoy el curso que tu empresa necesita

Refuerza arquitectura orientada a producción Los equipos aprenden a diseñar servicios .NET con timeouts, retries, circuit breakers, idempotencia, degradación controlada y capacidad de operación. La fiabilidad deja de ser una tarea posterior al desarrollo.

Mejora CI/CD y despliegues El programa incorpora despliegues canary, blue-green, feature flags, smoke tests, rollback, quality gates y validación postdeploy. Esto permite entregar más rápido sin asumir riesgos innecesarios.

Alinea desarrollo, plataforma y negocio Los SLOs y error budgets crean un lenguaje común para decidir cuándo acelerar, cuándo estabilizar y cuándo invertir en deuda operativa. Esto reduce fricción entre producto, desarrollo, operaciones y dirección.

Prepara servicios críticos para escalar El curso cubre capacity planning, performance, Kubernetes, colas, bases de datos, dependencias externas y FinOps. Así los equipos pueden anticipar límites antes de que los usuarios sufran degradaciones.

Ejercicios prácticos

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Ejercicios prácticos

Practica y mejora con nuestra plataforma

Curso de SRE (Site Reliability Engineering) en .Net para empresas

Aprende con el curso de SRE (Site Reliability Engineering) en .Net para empresas hasta 100% bonificado, a medida para tu organización.

Curso de SRE (Site Reliability Engineering) en .Net hasta 100% Bonificable a través de FUNDAE

Tu bonificación paso a paso

La formación que decideste devuelve dinero

Convierte la fiabilidad en una práctica medible

Lleva observabilidad real a aplicaciones .NET La formación cubre logs estructurados, métricas, trazas, OpenTelemetry, health checks y dashboards útiles. Esto reduce el tiempo de diagnóstico y permite entender qué ocurre en producción sin depender de intuición.

Reduce incidentes

Personaliza el temario al 100% para tu equipo

Nueva Plataformade E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Temario del curso

Pensado para quienes deben dominar SRE (Site Reliability Engineering) en .Net en su día a día

Resolvemos todas tus dudas sobre nuestra formación en SRE (Site Reliability Engineering) en .Net

Diseñemos hoy el curso que tu empresa necesita

Refuerza arquitectura orientada a producción Los equipos aprenden a diseñar servicios .NET con timeouts, retries, circuit breakers, idempotencia, degradación controlada y capacidad de operación. La fiabilidad deja de ser una tarea posterior al desarrollo.

Mejora CI/CD y despliegues El programa incorpora despliegues canary, blue-green, feature flags, smoke tests, rollback, quality gates y validación postdeploy. Esto permite entregar más rápido sin asumir riesgos innecesarios.

Alinea desarrollo, plataforma y negocio Los SLOs y error budgets crean un lenguaje común para decidir cuándo acelerar, cuándo estabilizar y cuándo invertir en deuda operativa. Esto reduce fricción entre producto, desarrollo, operaciones y dirección.

Prepara servicios críticos para escalar El curso cubre capacity planning, performance, Kubernetes, colas, bases de datos, dependencias externas y FinOps. Así los equipos pueden anticipar límites antes de que los usuarios sufran degradaciones.

Ejercicios prácticos

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Ejercicios prácticos

Practica y mejora con nuestra plataforma

La formación que decides
te devuelve dinero

Nueva Plataforma
de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje