Curso de SRE (Site Reliability Engineering) en .Net hasta 100% Bonificable a través de FUNDAE
Tu bonificación paso a paso
Forma a tu equipo sin costes mediante la bonificación estatal. Este programa de SRE (Site Reliability Engineering) en .Netpara empresas es subvencionable hasta el 100%.
Potencia las habilidades de edición y automatización de tus profesionales.
Accede a una formación avanzada en SRE (Site Reliability Engineering) en .Net práctica y orientada a resultados.
Prepara a tu equipo para los retos documentales del entorno laboral actual.
Gestionamos gratis tu bonificación de este curso corporativo de SRE (Site Reliability Engineering) en .Net ante FUNDAE.
Diseñamos un plan A Medida de SRE (Site Reliability Engineering) en .Net para empresas, tutorizado y bonificable por FUNDAE, con casos prácticos. Contáctanos.
Lleva observabilidad real a aplicaciones .NET La formación cubre logs estructurados, métricas, trazas, OpenTelemetry, health checks y dashboards útiles. Esto reduce el tiempo de diagnóstico y permite entender qué ocurre en producción sin depender de intuición.
1
Reduce incidentes
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
Comprensión de Site Reliability Engineering como disciplina que usa ingeniería, automatización, métricas y cultura operativa para mejorar fiabilidad.
Traducción de los principios SRE a servicios .NET: APIs ASP.NET Core, workers, microservicios, monolitos modulares, colas y procesos batch.
Diferenciación entre operaciones tradicional, DevOps, plataforma, observabilidad y SRE para evitar solapamientos confusos dentro del equipo.
Análisis de por qué muchas aplicaciones .NET fallan en producción por problemas de timeouts, dependencias, despliegues, configuración o falta de señales.
Identificación de responsabilidades compartidas entre desarrollo, plataforma, operaciones, QA, seguridad y negocio en la fiabilidad del servicio.
Revisión de la relación entre velocidad de entrega y estabilidad, usando SLOs y error budgets como lenguaje común de decisión.
Creación de una primera matriz de servicios críticos, usuarios afectados, dependencias, riesgos y expectativas de disponibilidad.
Separación entre fiabilidad percibida por el usuario y estado técnico interno, evitando métricas cómodas pero poco representativas.
Evaluación inicial de madurez SRE en el equipo: alertas, incidentes, automatización, despliegues, observabilidad, runbooks y postmortems.
Diseño de una hoja de ruta SRE para aplicaciones .NET con quick wins, controles mínimos, métricas y objetivos de mejora.
Comprensión de Site Reliability Engineering como disciplina que usa ingeniería, automatización, métricas y cultura operativa para mejorar fiabilidad.
Traducción de los principios SRE a servicios .NET: APIs ASP.NET Core, workers, microservicios, monolitos modulares, colas y procesos batch.
Diferenciación entre operaciones tradicional, DevOps, plataforma, observabilidad y SRE para evitar solapamientos confusos dentro del equipo.
Análisis de por qué muchas aplicaciones .NET fallan en producción por problemas de timeouts, dependencias, despliegues, configuración o falta de señales.
Identificación de responsabilidades compartidas entre desarrollo, plataforma, operaciones, QA, seguridad y negocio en la fiabilidad del servicio.
Revisión de la relación entre velocidad de entrega y estabilidad, usando SLOs y error budgets como lenguaje común de decisión.
Creación de una primera matriz de servicios críticos, usuarios afectados, dependencias, riesgos y expectativas de disponibilidad.
Separación entre fiabilidad percibida por el usuario y estado técnico interno, evitando métricas cómodas pero poco representativas.
Evaluación inicial de madurez SRE en el equipo: alertas, incidentes, automatización, despliegues, observabilidad, runbooks y postmortems.
Diseño de una hoja de ruta SRE para aplicaciones .NET con quick wins, controles mínimos, métricas y objetivos de mejora.
Tema 1: SRE aplicado al ecosistema .NET empresarial
Comprensión de Site Reliability Engineering como disciplina que usa ingeniería, automatización, métricas y cultura operativa para mejorar fiabilidad.
Traducción de los principios SRE a servicios .NET: APIs ASP.NET Core, workers, microservicios, monolitos modulares, colas y procesos batch.
Diferenciación entre operaciones tradicional, DevOps, plataforma, observabilidad y SRE para evitar solapamientos confusos dentro del equipo.
Análisis de por qué muchas aplicaciones .NET fallan en producción por problemas de timeouts, dependencias, despliegues, configuración o falta de señales.
Identificación de responsabilidades compartidas entre desarrollo, plataforma, operaciones, QA, seguridad y negocio en la fiabilidad del servicio.
Revisión de la relación entre velocidad de entrega y estabilidad, usando SLOs y error budgets como lenguaje común de decisión.
Creación de una primera matriz de servicios críticos, usuarios afectados, dependencias, riesgos y expectativas de disponibilidad.
Separación entre fiabilidad percibida por el usuario y estado técnico interno, evitando métricas cómodas pero poco representativas.
Evaluación inicial de madurez SRE en el equipo: alertas, incidentes, automatización, despliegues, observabilidad, runbooks y postmortems.
Diseño de una hoja de ruta SRE para aplicaciones .NET con quick wins, controles mínimos, métricas y objetivos de mejora.
Tema 2: SLIs, SLOs, SLAs y error budgets
Definición de SLIs como indicadores medibles que reflejan la experiencia real del usuario o consumidor del servicio.
Diseño de SLOs para disponibilidad, latencia, errores, throughput, frescura de datos, éxito de jobs, colas y operaciones críticas.
Diferenciación entre SLO interno, SLA contractual y métricas operativas que ayudan al equipo pero no deben prometerse a cliente.
Cálculo de error budgets a partir de SLOs y uso de ese presupuesto para decidir si priorizar velocidad, deuda o estabilización.
Aplicación de políticas de error budget cuando un servicio consume demasiada fiabilidad y debe pausar cambios arriesgados.
Diseño de ventanas de medición razonables: rolling windows, periodos mensuales, trimestres, días laborables o franjas críticas.
Evitación de SLOs imposibles del 100%, que suelen generar costes excesivos y reducen capacidad de cambio sin aportar valor proporcional.
Selección de SLOs por journey de usuario, endpoint crítico, operación de negocio, pipeline de datos o dependencia externa.
Visualización de cumplimiento SLO en dashboards ejecutivos y técnicos con lectura clara para desarrollo, SRE y negocio.
Creación de un catálogo de SLOs para servicios .NET con owner, fuente de datos, fórmula, objetivo, alerta y política de actuación.
Tema 3: Arquitectura observable en ASP.NET Core
Diseño de aplicaciones ASP.NET Core preparadas para emitir señales útiles de logs, métricas, trazas, health checks y eventos de dominio.
Separación entre observabilidad técnica, observabilidad funcional y observabilidad de experiencia de usuario para no medir solo infraestructura.
Instrumentación de endpoints, middlewares, servicios internos, repositorios, llamadas HTTP, colas, workers y operaciones críticas.
Incorporación de correlation IDs y trace context para seguir una petición entre frontend, API, servicios, bases de datos y sistemas externos.
Definición de convenciones de nombres para métricas, spans, logs, etiquetas, atributos y dimensiones de negocio.
Evitación de señales ruidosas que generan dashboards grandes pero no ayudan a diagnosticar ni decidir.
Creación de eventos de aplicación para operaciones relevantes: pedido creado, pago rechazado, informe generado o proceso fallido.
Revisión de impacto de instrumentación en rendimiento, coste, almacenamiento y privacidad de datos.
Diseño de una estrategia de observabilidad por criticidad del servicio, no aplicando el mismo nivel a todo.
Elaboración de una guía de instrumentación ASP.NET Core reutilizable por equipos de desarrollo.
Tema 4: Logging estructurado y diagnóstico en producción
Creación de logs estructurados con niveles, propiedades, categorías, correlation IDs, tenant, operación y contexto técnico suficiente.
Diferenciación entre logs de auditoría, logs de aplicación, logs de seguridad, logs técnicos y logs de diagnóstico temporal.
Reducción de logs ruidosos que aumentan coste y dificultan detectar señales importantes durante incidentes.
Diseño de mensajes útiles para producción, evitando textos ambiguos como “error inesperado” sin contexto ni acción posible.
Protección de datos sensibles en logs: tokens, contraseñas, datos personales, payloads completos, cabeceras y secretos.
Uso de scopes y enrichment para añadir información contextual sin repetirla manualmente en cada línea.
Revisión de estrategias de sampling, retención, filtrado y agregación según criticidad y coste.
Conexión de logs con trazas y métricas para que una alerta permita llegar al detalle sin búsqueda manual excesiva.
Preparación de consultas frecuentes para troubleshooting: errores 5xx, timeouts, latencia, fallos de autenticación y saturación.
Creación de estándares de logging para servicios .NET con ejemplos correctos, errores comunes y criterios de revisión en PR.
Tema 5: Métricas técnicas, métricas de negocio y RED/USE
Aplicación del método RED en servicios de request-response: rate, errors y duration como base para APIs ASP.NET Core.
Aplicación del método USE en recursos: utilization, saturation y errors para CPU, memoria, pool de conexiones, colas y dependencias.
Diseño de métricas de negocio que permitan detectar degradación funcional aunque la infraestructura parezca sana.
Creación de histogramas de latencia para percentiles p50, p90, p95 y p99, evitando confiar solo en medias engañosas.
Medición de saturación antes de que aparezcan errores: colas creciendo, conexiones agotadas, thread pool presionado o base de datos lenta.
Definición de etiquetas útiles sin explotar cardinalidad por usuario, identificador único, payload o valores demasiado variables.
Diferenciación entre métricas de servicio, métricas de infraestructura, métricas de dependencia y métricas de experiencia.
Revisión de métricas en background services, jobs programados, consumidores de cola y procesos batch.
Diseño de dashboards que respondan preguntas operativas concretas en lugar de acumular gráficas sin propósito.
Creación de una guía de métricas .NET con nombres, unidades, dimensiones, owners y relación con SLOs.
Tema 6: Trazas distribuidas y OpenTelemetry en .NET
Comprensión de trazas distribuidas como herramienta para seguir una operación entre servicios, dependencias, colas, bases de datos y sistemas externos.
Uso de OpenTelemetry en .NET aprovechando las APIs de logging, metrics y Activity integradas en el framework.
Instrumentación de ASP.NET Core, HttpClient, Entity Framework Core, SQL, Redis, colas y dependencias relevantes.
Propagación de contexto entre servicios para mantener correlación en arquitecturas distribuidas y event-driven.
Creación de spans personalizados para operaciones de negocio críticas, no solo para llamadas técnicas automáticas.
Diseño de atributos seguros y útiles, evitando incluir datos personales, secretos o payloads completos en trazas.
Configuración de exportadores hacia OpenTelemetry Collector, Jaeger, Zipkin, Grafana Tempo, Azure Monitor u otras plataformas.
Aplicación de sampling para equilibrar coste, detalle y capacidad de investigación durante incidentes.
Uso de trazas para detectar latencia acumulada, N+1, timeouts, llamadas repetidas y dependencia externa degradada.
Creación de una estrategia de trazabilidad para servicios .NET con convenciones, exporters, sampling, retención y uso en incidentes.
Tema 7: Health checks, readiness, liveness y startup probes
Configuración de Health Checks Middleware en ASP.NET Core para reportar estado de aplicación e infraestructura.
Diferenciación entre liveness, readiness y startup checks para evitar reinicios innecesarios o tráfico hacia servicios no preparados.
Creación de checks para base de datos, colas, cache, almacenamiento, dependencias HTTP, configuración crítica y servicios externos.
Separación entre checks baratos y checks costosos para no sobrecargar dependencias por simple monitorización.
Diseño de endpoints de salud internos y externos con permisos, formato de respuesta y exposición controlada.
Integración de health checks con Kubernetes, balanceadores, API gateways, monitorización y orquestadores.
Evitación de health checks que solo dicen “OK” aunque la aplicación no pueda cumplir su función principal.
Incorporación de degradación parcial cuando una dependencia no crítica falla pero el servicio puede seguir operando.
Generación de métricas y alertas a partir de estados de health checks, evitando depender solo de endpoints manuales.
Creación de una plantilla de health checks para servicios ASP.NET Core empresariales.
Tema 8: Alertas accionables y reducción de ruido
Diseño de alertas basadas en síntomas de usuario y SLOs, no solo en métricas internas de infraestructura.
Priorización de alertas que requieren acción inmediata frente a avisos informativos o señales para revisión posterior.
Creación de severidades claras según impacto: degradación leve, error parcial, caída crítica, pérdida de datos o riesgo de seguridad.
Evitación de alert fatigue mediante umbrales adecuados, ventanas temporales, agrupación, deduplicación y rutas de escalado.
Inclusión de contexto mínimo en cada alerta: servicio, SLO afectado, impacto probable, dashboard, runbook y owner.
Diseño de alertas para burn rate de error budget, detectando consumo rápido antes de agotar completamente el margen.
Revisión periódica de alertas no accionables, falsas positivas, duplicadas o ignoradas por el equipo.
Integración con herramientas de guardia, chatops, tickets, incident management y postmortems.
Creación de pruebas de alerta para confirmar que se disparan cuando deben y no dependen de supuestos rotos.
Elaboración de una política de alerting para aplicaciones .NET con SLO, severidad, canal, runbook y propietario.
Tema 9: Resiliencia con timeouts, retries y circuit breakers
Diseño de timeouts explícitos para llamadas HTTP, base de datos, colas, storage y servicios externos.
Configuración de retries con backoff, jitter y límites para evitar tormentas de reintentos cuando una dependencia está degradada.
Uso de circuit breakers para cortar llamadas a dependencias fallidas y proteger recursos del servicio.
Aplicación de bulkheads para aislar fallos entre operaciones, clientes, colas o dependencias críticas.
Diseño de fallbacks seguros cuando el servicio puede devolver datos parciales, cacheados o respuestas degradadas.
Prevención de retry storms, cascadas de fallos y consumo excesivo de error budget por mala política de resiliencia.
Integración de librerías de resiliencia en clientes HTTP, servicios internos y consumidores de eventos.
Medición de timeouts, retries, circuit breaker state, fallbacks y errores por dependencia.
Revisión de políticas de resiliencia en PRs para evitar configuraciones mágicas sin justificación.
Creación de una guía de resiliencia .NET con patrones permitidos, umbrales, métricas y ejemplos de uso.
Tema 10: Idempotencia, consistencia y operaciones críticas
Diseño de operaciones idempotentes para pagos, pedidos, actualizaciones, eventos, comandos y procesos batch.
Uso de idempotency keys en APIs cuando el cliente puede repetir peticiones por timeout o error de red.
Prevención de duplicados en consumidores de cola, jobs y procesos asíncronos mediante claves, estados y deduplicación.
Gestión de consistencia eventual en flujos distribuidos sin vender al usuario garantías que el sistema no puede cumplir.
Aplicación de outbox, inbox, transacciones locales, compensaciones y estados intermedios cuando el dominio lo requiere.
Diseño de reintentos seguros en operaciones que modifican datos, evitando efectos secundarios duplicados.
Creación de métricas de operaciones duplicadas, reintentos, compensaciones, inconsistencias y fallos parciales.
Revisión de riesgos en procesos críticos como facturación, aprovisionamiento, notificaciones, integraciones y cambios de permisos.
Preparación de runbooks para reconciliación de datos cuando una operación queda a medias.
Documentación de invariantes críticas para que desarrollo y SRE entiendan qué nunca debe romperse.
Tema 11: Gestión de dependencias externas y third-party reliability
Identificación de dependencias críticas: APIs externas, bases de datos gestionadas, colas, proveedores de identidad, pagos, email y storage.
Clasificación de dependencias por criticidad, SLO propio, impacto en usuario, posibilidad de fallback y capacidad de sustitución.
Diseño de contratos de timeout, retry, circuit breaker, rate limiting y degradación por proveedor.
Monitorización separada de latencia, errores, throttling y disponibilidad de cada dependencia.
Gestión de límites de cuota, rate limits, credenciales, expiración de tokens, certificados y cambios de contrato.
Creación de dashboards de dependencia para saber si el problema está en la aplicación, red, proveedor o configuración.
Preparación de playbooks para caída de proveedor, degradación parcial, credenciales caducadas o cambios inesperados de API.
Diseño de caches, colas, buffering o modo degradado para sobrevivir a fallos temporales de terceros.
Revisión de SLAs de proveedores y comparación con los SLOs internos que dependen de ellos.
Documentación de riesgos de dependencia externa y planes de contingencia por servicio.
Tema 12: CI/CD fiable para aplicaciones .NET
Diseño de pipelines que restauran, compilan, prueban, analizan, empaquetan y publican artefactos .NET de forma repetible.
Separación de validaciones por tipo: build, unit tests, integration tests, contract tests, security scans, smoke tests y performance checks.
Reducción de pipelines flaky mediante entornos controlados, datos sintéticos, dependencias estables y timeouts realistas.
Uso de quality gates para bloquear cambios que rompen tests, cobertura crítica, seguridad, contratos o configuración.
Creación de pipelines rápidos para PRs y pipelines más profundos para release, nocturnos o cambios de alto riesgo.
Gestión de secretos, variables, service connections, permisos mínimos y protección de ramas.
Preparación de artefactos versionados: contenedores, paquetes, scripts, migraciones y documentación de release.
Integración de checks SRE en CI/CD: health endpoints, configuración, observabilidad mínima, runbooks y rollback.
Documentación de workflows con owner, entorno, triggers, requisitos, dependencias y plan de fallo.
Medición del pipeline con lead time, tasa de fallo, duración, flaky tests, rollback y frecuencia de despliegue.
Tema 13: Despliegues seguros: canary, blue-green, feature flags y rollback
Comparación entre rolling deployment, blue-green, canary, shadow traffic, feature flags y despliegue tradicional.
Selección de estrategia según criticidad, arquitectura, base de datos, tráfico, coste, capacidad de observación y facilidad de rollback.
Diseño de canary releases con métricas de éxito, umbrales, duración, cohortes de usuarios y abort automático.
Uso de feature flags para separar despliegue técnico de activación funcional, reduciendo riesgo de release.
Preparación de rollback técnico y funcional antes de desplegar, no cuando la incidencia ya está abierta.
Validación postdeploy con smoke tests, health checks, métricas de error, latencia, logs y SLO burn rate.
Gestión de migraciones de base de datos compatibles hacia delante y hacia atrás cuando hay despliegues progresivos.
Documentación de release notes técnicas, cambios de configuración, riesgos y plan de reversión.
Revisión de despliegues con alta carga, cambios de contrato, dependencias nuevas o modificaciones de datos.
Creación de un playbook de despliegue seguro para servicios .NET críticos.
Tema 14: Kubernetes, contenedores y operación de servicios .NET
Construcción de imágenes .NET optimizadas, seguras, pequeñas y reproducibles con multi-stage builds.
Configuración de recursos en Kubernetes: requests, limits, probes, deployments, services, ingress y secrets.
Ajuste de readiness, liveness y startup probes para aplicaciones ASP.NET Core, evitando reinicios por checks mal diseñados.
Gestión de configuración por entorno con ConfigMaps, Secrets, variables, appsettings y proveedores de configuración.
Análisis de fallos en pods: CrashLoopBackOff, OOMKilled, timeouts, errores de probes, problemas de red y permisos.
Diseño de escalado horizontal con HPA, métricas de CPU, memoria, cola, latencia o métricas custom.
Integración de logs, métricas y trazas desde contenedores hacia la plataforma de observabilidad.
Revisión de seguridad de contenedores: usuario no root, imágenes base, vulnerabilidades, permisos y supply chain.
Preparación de runbooks para reinicios, despliegues fallidos, saturación y degradación en cluster.
Creación de estándares para operar aplicaciones .NET en Kubernetes o plataformas equivalentes.
Tema 15: Performance engineering en .NET para SRE
Análisis de latencia en APIs ASP.NET Core, identificando cuellos de botella en CPU, memoria, GC, IO, red, base de datos y dependencias.
Uso de métricas de runtime .NET para entender thread pool, GC, allocations, exceptions, queues y consumo de recursos.
Evaluación de percentiles de latencia para detectar degradaciones que las medias ocultan.
Diseño de pruebas de carga con escenarios realistas, ramp-up, usuarios concurrentes, datos sintéticos y criterios de éxito.
Uso de profiling controlado para localizar hot paths sin saturar entornos productivos.
Revisión de problemas frecuentes: N+1 queries, serialización pesada, bloqueos síncronos, HttpClient mal usado y caches defectuosas.
Optimización de consumo de memoria y asignaciones en servicios con alta concurrencia.
Medición de rendimiento antes y después de cambios para evitar optimizaciones subjetivas.
Integración de performance budgets en PRs, releases o pipelines críticos.
Creación de un proceso de performance review para servicios .NET con impacto en SLOs.
Tema 16: Bases de datos, EF Core y fiabilidad de persistencia
Monitorización de latencia, errores, locks, deadlocks, conexiones, saturación y consumo de recursos en bases de datos.
Revisión de EF Core desde perspectiva SRE: consultas lentas, N+1, tracking innecesario, transacciones largas y migraciones peligrosas.
Diseño de pools de conexión, timeouts, retries y resiliencia sin ocultar problemas estructurales de base de datos.
Preparación de migraciones seguras compatibles con despliegues progresivos y rollback.
Creación de métricas de consultas críticas, errores por operación, tiempo de ejecución y saturación de dependencias.
Diseño de estrategias de backup, restore, point-in-time recovery y pruebas periódicas de recuperación.
Gestión de degradación cuando la base de datos está lenta: colas, caches, modo read-only parcial o limitación de tráfico.
Revisión de consistencia entre caché y base de datos en operaciones críticas.
Preparación de runbooks para deadlocks, crecimiento de tablas, índices ausentes, migración fallida y pérdida de conexión.
Documentación de riesgos de datos, owners, RTO, RPO, criticidad y plan de recuperación.
Tema 17: Workers, background services, colas y procesamiento asíncrono
Diseño de `BackgroundService`, hosted services, workers y consumidores de cola con observabilidad y control de ciclo de vida.
Gestión de cancelación, shutdown graceful, reintentos, poison messages, dead letter queues y backpressure.
Medición de lag, throughput, errores, duración de procesamiento, mensajes pendientes y tasa de reintento.
Diseño de idempotencia y deduplicación en procesamiento asíncrono para evitar efectos secundarios duplicados.
Separación de errores transitorios y errores permanentes para no reintentar indefinidamente mensajes imposibles.
Control de concurrencia para no saturar bases de datos, APIs externas o recursos compartidos.
Preparación de dashboards específicos para colas, jobs y workers, no solo para APIs HTTP.
Creación de runbooks para colas bloqueadas, mensajes venenosos, backlog creciente y workers detenidos.
Integración de eventos de dominio y trazas distribuidas en flujos asíncronos.
Definición de SLOs para procesamiento: frescura, tiempo hasta completar, éxito de job y tamaño de backlog.
Tema 18: Seguridad operativa, secretos y respuesta ante riesgos
Gestión segura de secretos en aplicaciones .NET: variables protegidas, vaults, rotación, permisos mínimos y eliminación de secretos en repositorio.
Monitorización de errores de autenticación, intentos fallidos, accesos denegados, cambios de permisos y actividad anómala.
Integración de seguridad en pipelines: SAST, dependency scanning, container scanning, secret scanning y revisión de IaC.
Diseño de alertas de seguridad accionables, separando eventos informativos de señales que requieren respuesta inmediata.
Preparación de runbooks para credencial expuesta, dependencia vulnerable, abuso de API, error de autorización o fuga en logs.
Revisión de logs para asegurar que no contienen datos personales, tokens, cookies, cabeceras sensibles o payloads completos.
Gestión de permisos de observabilidad para que dashboards y trazas no expongan información sensible.
Coordinación entre SRE, AppSec, DevOps y desarrollo durante incidentes con impacto de seguridad.
Documentación de riesgos aceptados, controles compensatorios y fechas de revisión.
Creación de una checklist SRE-AppSec para servicios .NET antes de producción.
Tema 19: Incident response, on-call y gestión de crisis
Diseño de un proceso de incident response con detección, clasificación, asignación, mitigación, comunicación, resolución y cierre.
Definición de severidades según impacto real en usuario, negocio, datos, seguridad, reputación y SLOs.
Creación de roles durante un incidente: incident commander, comunicación, operaciones, especialista técnico y enlace con negocio.
Preparación de canales de comunicación internos y externos con mensajes claros, actualizaciones periódicas y decisiones registradas.
Uso de dashboards, trazas, logs, métricas y runbooks para reducir tiempo de diagnóstico durante presión real.
Gestión de on-call con rotación, escalado, handover, fatiga, compensación y reglas de activación.
Creación de timelines de incidente para reconstruir hechos, decisiones, cambios y señales.
Separación entre mitigación rápida y corrección definitiva para restaurar servicio sin improvisar cambios peligrosos.
Coordinación con seguridad, legal, DPO, soporte o comunicación cuando el incidente lo exige.
Medición de incidentes con MTTD, MTTA, MTTR, duración, impacto, recurrencia y consumo de error budget.
Tema 20: Postmortems sin culpa y aprendizaje operativo
Redacción de postmortems blameless centrados en sistemas, decisiones, señales, procesos y condiciones que permitieron el fallo.
Reconstrucción de timeline con detección, alertas, cambios recientes, decisiones, mitigación y recuperación.
Identificación de causas contribuyentes, no solo una causa raíz simplificada que oculta problemas de sistema.
Clasificación de acciones: prevención, detección, mitigación, documentación, automatización, formación y cambio de arquitectura.
Priorización de acciones postmortem según impacto, coste, riesgo y relación con SLOs.
Seguimiento de compromisos para evitar que los postmortems produzcan documentos sin cambios reales.
Conexión de postmortems con backlog técnico, error budgets, deuda operativa y roadmap de fiabilidad.
Revisión de incidentes recurrentes para detectar patrones de fallo no resueltos.
Comunicación de aprendizajes al equipo sin culpabilizar a personas ni ocultar decisiones incómodas.
Medición de madurez por reducción de recurrencia, calidad de acciones, tiempo de cierre y mejoras en alertas.
Tema 21: Toil, automatización y runbooks ejecutables
Identificación de toil como trabajo manual, repetitivo, reactivo, automatizable y con poco valor duradero.
Medición de tiempo dedicado a soporte repetitivo, reinicios, despliegues manuales, consultas, cambios de configuración y tareas de guardia.
Priorización de automatización según frecuencia, riesgo, coste humano, criticidad y facilidad de ejecución.
Creación de runbooks claros con síntomas, diagnóstico, comandos, dashboards, mitigación, escalado y validación final.
Transformación de runbooks manuales en scripts, workflows, jobs, ChatOps o automatizaciones controladas.
Validación periódica de runbooks para evitar que estén obsoletos cuando ocurre una incidencia.
Control de permisos para automatizaciones que modifican entornos, reinician servicios, escalan recursos o ejecutan rollback.
Documentación de automatizaciones con owner, alcance, riesgos, logs, modo seguro y procedimiento de parada.
Medición de reducción de toil por horas ahorradas, menos intervenciones, menor MTTR y menos escalados nocturnos.
Creación de un backlog de automatización SRE para servicios .NET con valor y riesgo priorizados.
Tema 22: Capacity planning, escalado y gestión de demanda
Análisis de patrones de tráfico, estacionalidad, picos, campañas, procesos batch y crecimiento previsto.
Medición de capacidad actual mediante throughput, latencia, saturación, consumo de CPU, memoria, conexiones, colas y base de datos.
Definición de headroom necesario para absorber picos, fallos parciales, despliegues y mantenimiento.
Diseño de escalado horizontal y vertical con criterios claros de cuándo añadir capacidad y cuándo optimizar.
Preparación de pruebas de capacidad antes de eventos relevantes, lanzamientos, campañas o migraciones.
Identificación de límites duros: conexiones a base de datos, cuotas externas, rate limits, threads, colas o almacenamiento.
Creación de dashboards de capacidad con lectura para SRE, plataforma, desarrollo y dirección técnica.
Coordinación con negocio para anticipar demanda y evitar sorpresas operativas.
Revisión de costes asociados a sobredimensionamiento, infrautilización y escalado reactivo.
Documentación de planes de capacidad con escenarios, umbrales, riesgos y acciones previas.
Tema 23: FinOps, coste de fiabilidad y eficiencia operativa
Análisis del coste de fiabilidad: redundancia, observabilidad, almacenamiento de logs, réplicas, escalado, backups y herramientas.
Comparación entre nivel de fiabilidad deseado y coste de alcanzarlo, evitando prometer disponibilidad desproporcionada.
Medición de coste por servicio, entorno, componente, dependencia, dashboard, logs, métricas, traces y tráfico.
Identificación de desperdicio: recursos sobredimensionados, logs excesivos, trazas sin sampling, entornos olvidados y jobs innecesarios.
Optimización de costes sin comprometer SLOs críticos ni dejar servicios sin margen operativo.
Diseño de políticas de retención de logs, métricas y trazas según valor de diagnóstico y requisitos de cumplimiento.
Revisión de coste de dependencias externas, licencias, bases de datos gestionadas y transferencia de datos.
Integración de señales FinOps en decisiones de arquitectura, escalado, observabilidad y despliegue.
Preparación de informes que expliquen coste, riesgo y beneficio de inversiones en fiabilidad.
Creación de un modelo de gobierno donde SRE, plataforma y finanzas revisan fiabilidad y coste de forma coordinada.
Tema 24: Chaos engineering y pruebas de resiliencia controladas
Comprensión de chaos engineering como práctica para validar hipótesis de resiliencia mediante fallos controlados.
Selección de experimentos seguros: latencia de dependencia, caída de API externa, pérdida de pod, saturación, errores de cola o base lenta.
Definición de hipótesis, blast radius, métricas, rollback, owners, ventana y comunicación antes de ejecutar pruebas.
Ejecución inicial en laboratorio o staging antes de considerar experimentos controlados en producción.
Revisión de impacto en SLOs, alertas, runbooks, escalado, dashboards y respuesta del equipo.
Creación de pruebas de resiliencia automatizadas para validar timeouts, retries, circuit breakers y degradación.
Evitación de caos sin propósito, sin métricas o sin capacidad de detener el experimento.
Inclusión de seguridad y negocio cuando los experimentos pueden afectar usuarios, datos o reputación.
Documentación de aprendizajes y acciones correctivas tras cada experimento.
Integración gradual de resiliencia testing en roadmap SRE y preparación de releases críticos.
Tema 25: SRE en arquitectura de microservicios y monolitos modulares
Comparación de necesidades SRE en microservicios, monolitos modulares, sistemas híbridos y aplicaciones internas.
Identificación de riesgos específicos de microservicios: latencia, dependencia, observabilidad distribuida, despliegues coordinados y ownership.
Revisión de riesgos en monolitos: cambios grandes, acoplamiento, despliegue único, base compartida y dificultad para aislar fallos.
Diseño de SLOs por servicio, capacidad de negocio, módulo, endpoint o flujo de usuario.
Creación de límites de ownership para que cada equipo sepa qué opera, qué mide y qué incidentes atiende.
Aplicación de patrones de resiliencia según topología: APIs internas, eventos, colas, módulos compartidos o servicios externos.
Revisión de estrategias de degradación parcial para que una parte del sistema pueda fallar sin detener todo.
Diseño de observabilidad distribuida que permita seguir una operación entre varios servicios o módulos.
Creación de runbooks adaptados a la arquitectura real, no a una teoría genérica de microservicios.
Preparación de decisiones de evolución arquitectónica basadas en fiabilidad, no solo en organización o tecnología.
Tema 26: Gobierno SRE, cultura y colaboración entre equipos
Creación de un modelo de gobierno SRE con responsabilidades claras entre desarrollo, plataforma, operaciones, seguridad y negocio.
Definición de ownership de servicios: quién desarrolla, quién despliega, quién atiende alertas, quién decide SLOs y quién prioriza deuda.
Incorporación de SRE en diseño, refinamiento, revisión de arquitectura, PRs, postmortems y planificación de releases.
Diseño de rituals operativos: revisión de SLOs, revisión de alertas, postmortems, planificación de capacidad y revisión de error budget.
Gestión de tensiones entre negocio, producto y tecnología cuando la fiabilidad exige ralentizar cambios.
Creación de criterios para pausar releases, priorizar deuda o invertir en automatización cuando el error budget se consume.
Formación de equipos de desarrollo para que produzcan servicios operables, no solo funcionalidades terminadas.
Medición de cultura SRE por participación en incidentes, calidad de runbooks, reducción de toil y mejora de SLOs.
Evitación de que SRE se convierta en equipo de soporte que absorbe problemas sin cambiar sistemas.
Diseño de una hoja de ruta cultural para implantar SRE gradualmente sin generar rechazo ni burocracia excesiva.
Tema 27: Proyecto final integrador: plataforma SRE para servicios .NET críticos
Selección de un servicio .NET de laboratorio con API, worker, base de datos, dependencia externa, CI/CD y fallos simulados.
Definición de SLIs, SLOs y error budget para disponibilidad, latencia, errores, colas y operaciones críticas.
Instrumentación del servicio con logs estructurados, métricas, trazas distribuidas, correlation IDs y health checks.
Configuración de dashboards orientados a SLO, diagnóstico, dependencias, capacidad, rendimiento y experiencia de usuario.
Diseño de alertas accionables con severidad, burn rate, owner, contexto, dashboard y runbook asociado.
Implementación de resiliencia con timeouts, retries, circuit breakers, bulkheads, fallback e idempotencia.
Preparación de pipelines CI/CD con tests, quality gates, smoke tests, despliegue seguro, rollback y validación postdeploy.
Simulación de incidentes: dependencia caída, latencia alta, base lenta, cola acumulada, despliegue defectuoso y error de configuración.
Redacción de postmortem blameless con timeline, impacto, causas contribuyentes, acciones preventivas y backlog de fiabilidad.
Presentación final con arquitectura SRE, SLOs, observabilidad, automatización, incident response, deuda priorizada y roadmap de madurez.
Perfiles profesionales
Pensado para quienes deben dominar SRE (Site Reliability Engineering) en .Net en su día a día
Desarrolladores backend .NET
Este curso encaja con desarrolladores que crean APIs, servicios, workers y aplicaciones ASP.NET Core que ya están en producción o deben llegar a ella con garantías. Aprenderán a diseñar código observable, resiliente, seguro y preparado para fallar de forma controlada, incorporando prácticas SRE desde el desarrollo y no solo cuando aparece una incidencia.
Equipos DevOps y plataforma
Los perfiles DevOps podrán aplicar SRE a pipelines, despliegues, contenedores, Kubernetes, entornos cloud, automatización, alertas, rollback, health checks y runbooks. La formación les ayuda a conectar infraestructura, entrega continua y operación diaria con métricas de fiabilidad realmente útiles para negocio y tecnología.
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en SRE (Site Reliability Engineering) en .Net
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
Es para ambos perfiles. Los desarrolladores aprenden a crear servicios operables desde el diseño, y los equipos SRE aprenden a aplicar sus prácticas al ecosistema .NET, ASP.NET Core, OpenTelemetry, CI/CD y producción.
Sí. El curso está planteado sobre .NET 10 como referencia actual LTS. Microsoft documenta que .NET 10 es una versión Long Term Support con tres años de soporte.
Sí. Es uno de los ejes principales del curso. Se trabajan SLIs, SLOs, error budgets, burn rate, políticas de actuación y decisiones de producto basadas en fiabilidad. Google SRE plantea el uso del error budget como mecanismo para decidir cuándo asumir o frenar cambios.
Sí. El curso cubre logs, métricas y trazas con OpenTelemetry en .NET. Microsoft explica que .NET ya incluye APIs de logging, métricas y Activity que sirven como base para la implementación de OpenTelemetry.
Sí. Se cubren health checks, readiness, liveness, startup probes e integración con orquestadores. ASP.NET Core incluye Health Checks Middleware para reportar el estado de componentes de infraestructura.
Sí. Hay un bloque específico sobre operación de servicios .NET en contenedores y Kubernetes, incluyendo probes, recursos, escalado, configuración, logs, métricas, trazas y troubleshooting.
Sí. El curso incluye incident response, on-call, severidades, comunicación, runbooks, postmortems blameless, reducción de recurrencias y métricas como MTTD, MTTA y MTTR.
Sí. Se trabajan timeouts, retries, circuit breakers, bulkheads, fallback, idempotencia, consistencia eventual, degradación controlada y gestión de dependencias externas.
No es imprescindible, pero ayuda. El curso explica los fundamentos SRE y los baja a prácticas concretas en .NET. Sí se recomienda experiencia previa desarrollando, desplegando u operando aplicaciones backend.
Sí. Al tratarse de una formación corporativa en .NET, DevOps, observabilidad, fiabilidad, seguridad, automatización y competencias digitales, puede plantearse como formación bonificable hasta el 100% a través de FUNDAE, según el crédito disponible y cumpliendo los requisitos administrativos aplicables.
Es para ambos perfiles. Los desarrolladores aprenden a crear servicios operables desde el diseño, y los equipos SRE aprenden a aplicar sus prácticas al ecosistema .NET, ASP.NET Core, OpenTelemetry, CI/CD y producción.
Sí. El curso está planteado sobre .NET 10 como referencia actual LTS. Microsoft documenta que .NET 10 es una versión Long Term Support con tres años de soporte.
Sí. Es uno de los ejes principales del curso. Se trabajan SLIs, SLOs, error budgets, burn rate, políticas de actuación y decisiones de producto basadas en fiabilidad. Google SRE plantea el uso del error budget como mecanismo para decidir cuándo asumir o frenar cambios.
Sí. El curso cubre logs, métricas y trazas con OpenTelemetry en .NET. Microsoft explica que .NET ya incluye APIs de logging, métricas y Activity que sirven como base para la implementación de OpenTelemetry.
Sí. Se cubren health checks, readiness, liveness, startup probes e integración con orquestadores. ASP.NET Core incluye Health Checks Middleware para reportar el estado de componentes de infraestructura.
Sí. Hay un bloque específico sobre operación de servicios .NET en contenedores y Kubernetes, incluyendo probes, recursos, escalado, configuración, logs, métricas, trazas y troubleshooting.
Sí. El curso incluye incident response, on-call, severidades, comunicación, runbooks, postmortems blameless, reducción de recurrencias y métricas como MTTD, MTTA y MTTR.
Sí. Se trabajan timeouts, retries, circuit breakers, bulkheads, fallback, idempotencia, consistencia eventual, degradación controlada y gestión de dependencias externas.
No es imprescindible, pero ayuda. El curso explica los fundamentos SRE y los baja a prácticas concretas en .NET. Sí se recomienda experiencia previa desarrollando, desplegando u operando aplicaciones backend.
Sí. Al tratarse de una formación corporativa en .NET, DevOps, observabilidad, fiabilidad, seguridad, automatización y competencias digitales, puede plantearse como formación bonificable hasta el 100% a través de FUNDAE, según el crédito disponible y cumpliendo los requisitos administrativos aplicables.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
SRE no elimina todos los fallos, pero ayuda a detectarlos antes, mitigarlos mejor y evitar recurrencias. El curso trabaja alertas accionables, runbooks, postmortems, automatización y reducción de toil.
2
Refuerza arquitectura orientada a producción Los equipos aprenden a diseñar servicios .NET con timeouts, retries, circuit breakers, idempotencia, degradación controlada y capacidad de operación. La fiabilidad deja de ser una tarea posterior al desarrollo.
3
Mejora CI/CD y despliegues El programa incorpora despliegues canary, blue-green, feature flags, smoke tests, rollback, quality gates y validación postdeploy. Esto permite entregar más rápido sin asumir riesgos innecesarios.
4
Alinea desarrollo, plataforma y negocio Los SLOs y error budgets crean un lenguaje común para decidir cuándo acelerar, cuándo estabilizar y cuándo invertir en deuda operativa. Esto reduce fricción entre producto, desarrollo, operaciones y dirección.
5
Prepara servicios críticos para escalar El curso cubre capacity planning, performance, Kubernetes, colas, bases de datos, dependencias externas y FinOps. Así los equipos pueden anticipar límites antes de que los usuarios sufran degradaciones.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras
Los equipos SRE podrán profundizar en el ecosistema .NET, entendiendo cómo instrumentar aplicaciones, interpretar trazas, diseñar SLOs, mejorar respuesta a incidentes y reducir toil. El curso baja los principios SRE a decisiones concretas en ASP.NET Core, OpenTelemetry, CI/CD, escalado y soporte.
Tech leads y arquitectos de software
Los responsables técnicos podrán incorporar fiabilidad como atributo arquitectónico: disponibilidad, latencia, resiliencia, observabilidad, degradación controlada, capacidad y recuperabilidad. La formación les ayuda a revisar diseños .NET desde producción, no solo desde estructura de código o patrones.
Equipos QA, calidad y testing técnico
Los perfiles de QA técnico podrán conectar pruebas con fiabilidad operativa: pruebas de carga, regresión, smoke tests, resiliencia, caos controlado, validaciones postdeploy y checks de disponibilidad. El curso les permite participar en SRE desde prevención, no únicamente desde validación funcional.
Responsables de ingeniería y managers técnicos
Los managers podrán entender cómo medir fiabilidad, priorizar deuda operativa, gobernar error budgets, negociar velocidad frente a estabilidad y organizar equipos con responsabilidades claras. El curso aporta lenguaje común para dirección, desarrollo, plataforma, seguridad y negocio.