Curso de ObservabilityOps (Observability Operations) hasta 100% Bonificable a través de FUNDAE
Tu bonificación paso a paso
Forma a tu equipo sin costes mediante la bonificación estatal. Este programa de ObservabilityOps (Observability Operations)para empresas es subvencionable hasta el 100%.
Potencia las habilidades de edición y automatización de tus profesionales.
Accede a una formación avanzada en ObservabilityOps (Observability Operations) práctica y orientada a resultados.
Prepara a tu equipo para los retos documentales del entorno laboral actual.
Gestionamos gratis tu bonificación de este curso corporativo de ObservabilityOps (Observability Operations) ante FUNDAE.
Reduce ruido y mejora la respuesta a incidentes Se trabajan alertas accionables, SLOs, runbooks, escalados y postmortems para reducir alert fatigue y mejorar MTTR.
1
Alinea desarrollo, SRE, operaciones y seguridad ObservabilityOps conecta instrumentación, operación, plataforma, SecOps, arquitectura y dirección técnica bajo un modelo común.
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
Presentación del enfoque ObservabilityOps como disciplina para operar sistemas observables, fiables y accionables.
Diferencia entre monitorización tradicional, observabilidad técnica, APM, logging, tracing, SRE y operaciones modernas.
Resolución de dudas habituales: qué medir, qué no medir, qué herramienta elegir y por qué los dashboards no bastan.
Revisión de señales principales: métricas, logs, trazas, eventos, perfiles, cambios, despliegues y experiencia de usuario.
Identificación de problemas frecuentes: alertas ruidosas, logs inútiles, dashboards abandonados y trazas sin contexto.
Relación entre observabilidad, incident response, SLOs, ITSM, DevOps, SecOps, FinOps y mejora continua.
Recorrido inicial por una arquitectura de observabilidad con agentes, collectors, backends, dashboards y alerting.
Identificación de perfiles implicados: desarrollo, SRE, operaciones, seguridad, plataforma, soporte, arquitectura y dirección.
Preparación de un laboratorio con servicios, errores simulados, métricas, logs y trazas.
Checklist inicial para evaluar la madurez de observabilidad de una organización.
Presentación del enfoque ObservabilityOps como disciplina para operar sistemas observables, fiables y accionables.
Diferencia entre monitorización tradicional, observabilidad técnica, APM, logging, tracing, SRE y operaciones modernas.
Resolución de dudas habituales: qué medir, qué no medir, qué herramienta elegir y por qué los dashboards no bastan.
Revisión de señales principales: métricas, logs, trazas, eventos, perfiles, cambios, despliegues y experiencia de usuario.
Identificación de problemas frecuentes: alertas ruidosas, logs inútiles, dashboards abandonados y trazas sin contexto.
Relación entre observabilidad, incident response, SLOs, ITSM, DevOps, SecOps, FinOps y mejora continua.
Recorrido inicial por una arquitectura de observabilidad con agentes, collectors, backends, dashboards y alerting.
Identificación de perfiles implicados: desarrollo, SRE, operaciones, seguridad, plataforma, soporte, arquitectura y dirección.
Preparación de un laboratorio con servicios, errores simulados, métricas, logs y trazas.
Checklist inicial para evaluar la madurez de observabilidad de una organización.
Tema 1: Presentación, dudas principales y primeros pasos con ObservabilityOps
Presentación del enfoque ObservabilityOps como disciplina para operar sistemas observables, fiables y accionables.
Diferencia entre monitorización tradicional, observabilidad técnica, APM, logging, tracing, SRE y operaciones modernas.
Resolución de dudas habituales: qué medir, qué no medir, qué herramienta elegir y por qué los dashboards no bastan.
Revisión de señales principales: métricas, logs, trazas, eventos, perfiles, cambios, despliegues y experiencia de usuario.
Identificación de problemas frecuentes: alertas ruidosas, logs inútiles, dashboards abandonados y trazas sin contexto.
Relación entre observabilidad, incident response, SLOs, ITSM, DevOps, SecOps, FinOps y mejora continua.
Recorrido inicial por una arquitectura de observabilidad con agentes, collectors, backends, dashboards y alerting.
Identificación de perfiles implicados: desarrollo, SRE, operaciones, seguridad, plataforma, soporte, arquitectura y dirección.
Preparación de un laboratorio con servicios, errores simulados, métricas, logs y trazas.
Checklist inicial para evaluar la madurez de observabilidad de una organización.
Tema 2: Fundamentos de observabilidad moderna
Qué significa que un sistema sea observable y qué preguntas debe poder responder en producción.
Diferencia entre saber que algo falla y entender por qué falla, dónde falla y a quién afecta.
Relación entre síntomas, causas, señales, contexto, dependencias y acciones correctoras.
Uso de golden signals: latencia, tráfico, errores y saturación.
Uso del modelo RED para servicios orientados a peticiones: rate, errors y duration.
Uso del modelo USE para infraestructura: utilization, saturation y errors.
Diferencia entre métricas agregadas y eventos detallados.
Importancia de conservar contexto de despliegue, versión, región, nodo, usuario, tenant y dependencia.
Riesgos de medir demasiado sin saber qué decisiones se tomarán con cada señal.
Taller: analizar un servicio y definir qué señales mínimas debería emitir.
Tema 3: Diseño de una estrategia ObservabilityOps corporativa
Definición de objetivos: fiabilidad, menor MTTR, menos ruido, mejor diagnóstico, control de costes y experiencia de usuario.
Identificación de servicios críticos, dependencias, propietarios, clientes afectados y niveles de servicio.
Priorización de qué sistemas instrumentar primero según criticidad, incidentes, deuda técnica y visibilidad actual.
Diseño de estándares mínimos de telemetría por servicio, equipo, entorno y tipo de carga.
Separación entre observabilidad de infraestructura, aplicación, negocio, seguridad y experiencia digital.
Definición de ownership: quién emite, quién mantiene, quién consume y quién actúa sobre cada señal.
Creación de un mapa de madurez: básico, operativo, correlado, proactivo, automatizado y gobernado.
Identificación de herramientas actuales, duplicidades, huecos, costes y limitaciones.
Diseño de una hoja de ruta a 90 días para elevar la madurez de observabilidad.
Taller: crear estrategia ObservabilityOps para una organización ficticia con servicios críticos.
Tema 4: Arquitectura de telemetría: agentes, exporters, collectors y backends
Diseño de una arquitectura de captura, procesamiento, envío, almacenamiento, visualización y alerta.
Diferencia entre agente local, exporter, SDK, collector, backend y plataforma SaaS.
Papel de OpenTelemetry Collector como pieza para recibir, procesar y exportar telemetría.
Separación entre telemetry pipeline de desarrollo, pruebas, staging y producción.
Diseño de rutas de telemetría para métricas, logs, trazas, eventos y perfiles.
Uso de procesadores para filtrar, enriquecer, agregar, muestrear o transformar señales.
Envío de datos a Prometheus, Grafana, Loki, Tempo, Jaeger, Elastic, Datadog, Dynatrace o New Relic.
Control de errores del pipeline: pérdida de datos, backpressure, caída de collector o límites de ingesta.
Diseño de alta disponibilidad para componentes críticos de observabilidad.
Taller: dibujar una arquitectura de telemetría para microservicios y Kubernetes.
Tema 5: OpenTelemetry como estándar de instrumentación
Qué es OpenTelemetry y por qué reduce dependencia de un proveedor concreto.
Diferencia entre API, SDK, Collector, instrumentation libraries y protocolo OTLP.
Instrumentación automática frente a instrumentación manual.
Emisión de trazas, métricas y logs desde aplicaciones modernas.
Uso de recursos, atributos, spans, eventos y contexto distribuido.
Propagación de contexto entre servicios, colas, APIs y jobs.
Diseño de convenciones de atributos para servicio, entorno, versión, región, tenant y equipo.
Errores habituales: spans sin nombre útil, atributos de alta cardinalidad o falta de correlación con logs.
Compatibilidad con plataformas de observabilidad existentes.
Taller: instrumentar una pequeña aplicación con OpenTelemetry y enviar datos a un collector.
Tema 6: Métricas operativas y Prometheus
Diseño de métricas técnicas, métricas de aplicación y métricas de negocio.
Diferencia entre counter, gauge, histogram y summary.
Uso de exporters para infraestructura, bases de datos, colas, ingress, Kubernetes y servicios externos.
Diseño de nombres, etiquetas y unidades de métricas.
Control de cardinalidad para evitar costes, lentitud y series inmanejables.
Consultas básicas con PromQL para disponibilidad, latencia, errores, saturación y throughput.
Construcción de métricas derivadas para ratios, percentiles y ventanas temporales.
Relación entre métricas y alertas accionables.
Riesgos de monitorizar medias cuando se necesitan percentiles.
Taller: crear métricas, consultarlas y detectar una degradación simulada.
Tema 7: Logs estructurados y operación basada en eventos
Diferencia entre log textual, log estructurado y evento operativo.
Diseño de logs con campos útiles: timestamp, level, service, trace_id, user, request_id, error, tenant y version.
Buenas prácticas para niveles de log: debug, info, warn, error y fatal.
Relación entre logs, trazas y métricas para diagnóstico completo.
Uso de logs para errores, decisiones de negocio, auditoría técnica y eventos relevantes.
Evitar logs ruidosos, repetidos, sin contexto o con datos sensibles.
Diseño de retención según criticidad, coste, investigación y cumplimiento.
Consulta de logs con filtros por servicio, versión, request_id, usuario o error.
Enriquecimiento de logs con contexto de despliegue y correlación.
Taller: convertir logs pobres en logs estructurados útiles para troubleshooting.
Tema 8: Trazas distribuidas y diagnóstico de microservicios
Qué es una traza distribuida y cómo ayuda a entender una petición extremo a extremo.
Diferencia entre trace, span, parent span, child span, atributos y eventos.
Propagación de contexto entre APIs, microservicios, colas, workers y bases de datos.
Uso de trazas para detectar latencia, errores, dependencias lentas y cuellos de botella.
Diseño de nombres de spans que expliquen acciones reales y no solo clases o métodos.
Relación entre trace_id y logs para saltar entre señales.
Muestreo de trazas: head sampling, tail sampling y criterios de retención.
Trazas en entornos Kubernetes y arquitecturas cloud-native.
Herramientas de tracing como Tempo, Jaeger o plataformas APM.
Taller: investigar una petición lenta mediante traza distribuida y logs correlados.
Tema 9: Dashboards útiles para operación y dirección técnica
Diferencia entre dashboard operativo, dashboard ejecutivo, dashboard de servicio y dashboard de troubleshooting.
Diseño de paneles orientados a preguntas concretas, no a acumular gráficos.
Dashboards para disponibilidad, latencia, errores, saturación, tráfico y experiencia de usuario.
Dashboards por servicio, entorno, equipo, dependencia, región y versión.
Visualización de despliegues, cambios y eventos junto a métricas.
Uso de variables, filtros y drill-down para navegar desde visión global a detalle.
Riesgos de dashboards bonitos que nadie consulta durante un incidente.
Diseño de paneles para guardia, responsables de plataforma, desarrollo y dirección.
Revisión periódica de dashboards obsoletos o duplicados.
Taller: construir dashboard operativo para un servicio crítico con métricas, logs y trazas.
Tema 10: Alerting accionable y reducción de ruido
Diferencia entre alerta informativa, alerta accionable, incidente y métrica de seguimiento.
Diseño de alertas que requieren intervención humana real.
Reducción de ruido, duplicidades, falsos positivos y alertas por síntomas secundarios.
Alertas basadas en impacto de usuario, SLO, error budget, saturación o degradación sostenida.
Uso de severidades, prioridades, rutas de escalado y ventanas de mantenimiento.
Diseño de mensajes de alerta con contexto, causa probable, dashboard, runbook y acción recomendada.
Evitar alertas por cada componente cuando basta una alerta por servicio afectado.
Pruebas de alertas antes de activarlas en producción.
Métricas de salud del sistema de alerting: volumen, ruido, ignoradas, falsas y accionadas.
Taller: rediseñar un conjunto de alertas ruidosas en alertas accionables.
Tema 11: SLIs, SLOs y error budgets
Diferencia entre SLI, SLO, SLA y objetivo interno de fiabilidad.
Diseño de SLIs desde la experiencia del usuario: disponibilidad, latencia, éxito, frescura o calidad.
Creación de SLOs realistas por servicio, canal, cliente, horario o función crítica.
Uso de error budgets para tomar decisiones sobre cambios, despliegues, deuda técnica y riesgo.
Relación entre SLOs y alertas de alto valor.
Diseño de ventanas temporales para medir fiabilidad sin sobrerreaccionar.
SLOs para APIs, batch jobs, sistemas de datos, frontend, colas y servicios internos.
Revisión de SLOs que no representan la experiencia real del usuario.
Comunicación de SLOs a dirección, soporte, producto y equipos técnicos.
Taller: definir SLIs, SLOs y error budget para una plataforma crítica.
Tema 12: Incident response basado en observabilidad
Diseño del flujo de incidente: detección, clasificación, asignación, investigación, mitigación, comunicación y cierre.
Uso de observabilidad para reducir MTTA, MTTR y tiempo de diagnóstico.
Relación entre alerta, dashboard, traza, log, métrica, cambio reciente y dependencia afectada.
Creación de salas de guerra, canales de Teams/Slack y roles durante incidentes.
Diferencia entre incidente técnico, degradación parcial, incidencia de cliente y problema de seguridad.
Comunicación interna durante incidentes con datos verificables y lenguaje claro.
Escalado a desarrollo, plataforma, base de datos, seguridad o proveedor externo.
Registro de timeline del incidente con señales, decisiones y acciones.
Evitar hipótesis sin evidencia usando datos correlados.
Taller: simular un incidente y resolverlo usando métricas, logs, trazas y runbook.
Tema 13: Troubleshooting avanzado y correlación de señales
Metodología para investigar problemas de latencia, errores, saturación, memory leaks, colas y timeouts.
Uso combinado de métricas para detectar síntoma y trazas/logs para buscar causa.
Correlación entre despliegues recientes y degradaciones.
Identificación de dependencias externas lentas o inestables.
Análisis de errores intermitentes y fallos solo en ciertos tenants, regiones o versiones.
Diagnóstico de problemas en Kubernetes: pods, nodes, ingress, DNS, storage y autoscaling.
Uso de perfiles y profiling continuo como ampliación para cuellos de botella de código.
Creación de hipótesis verificables y descarte progresivo.
Documentación del aprendizaje para evitar repetir investigaciones.
Taller: resolver tres escenarios de troubleshooting con señales incompletas.
Tema 14: Observabilidad en Kubernetes y cloud-native
Señales clave en Kubernetes: nodes, pods, deployments, services, ingress, HPA, storage y control plane.
Métricas de CPU, memoria, restarts, evictions, throttling, network, readiness y liveness.
Logs de aplicaciones, contenedores, eventos de Kubernetes y controladores.
Trazas en servicios desplegados en Kubernetes.
Observabilidad de service mesh, ingress controllers y API gateways.
Exporters y collectors habituales para clústeres Kubernetes.
Dashboards de plataforma frente a dashboards de producto.
Alertas para degradación real, no solo reinicios aislados.
Problemas de cardinalidad en etiquetas de Kubernetes.
Taller: diagnosticar una degradación en un servicio Kubernetes.
Tema 15: Observabilidad de APIs, microservicios y arquitectura distribuida
Métricas clave para APIs: rate, errores, latencia, saturación, códigos HTTP y dependencias.
Trazas para entender llamadas entre servicios y dependencias externas.
Logs estructurados para errores de negocio, validaciones y excepciones.
Observabilidad de colas, workers, jobs asíncronos y procesos batch.
Detección de retries excesivos, circuit breakers abiertos y cascadas de fallos.
Medición de dependencia entre servicios y mapas de arquitectura viva.
Análisis de versiones desplegadas y compatibilidad entre servicios.
Observabilidad de APIs públicas frente a APIs internas.
Diseño de SLIs para endpoints críticos.
Taller: construir observabilidad completa para una API de negocio.
Tema 16: Observabilidad de bases de datos, colas y almacenamiento
Métricas de bases de datos: conexiones, locks, latencia, queries lentas, replicación y saturación.
Logs de errores, deadlocks, timeouts y consultas problemáticas.
Trazas que muestran impacto de queries dentro de una petición.
Observabilidad de colas: lag, profundidad, consumo, reprocesos, errores y mensajes muertos.
Señales de almacenamiento: IOPS, latencia, espacio, throughput y errores.
Alertas preventivas para agotamiento de recursos y degradación progresiva.
Relación entre cambios de aplicación y presión sobre base de datos.
Dashboards para DBA, plataforma y desarrollo.
Diagnóstico de problemas de rendimiento causados por dependencias de datos.
Taller: investigar degradación causada por base de datos o cola saturada.
Tema 17: Observabilidad de experiencia de usuario y frontend
Diferencia entre disponibilidad técnica y experiencia real del usuario.
Métricas frontend: carga inicial, errores JS, Core Web Vitals, navegación y conversiones críticas.
Real User Monitoring como complemento de backend observability.
Relación entre errores de frontend y trazas de backend.
Observabilidad de sesiones, navegadores, dispositivos, regiones y versiones de frontend.
Alertas por impacto real en usuarios y no solo por fallos internos.
Medición de journeys críticos: login, búsqueda, compra, envío de formulario o consulta.
Correlación entre despliegues frontend y aumento de errores.
Dashboards para producto, UX, soporte y desarrollo.
Taller: detectar degradación de experiencia y conectarla con backend.
Tema 18: Observabilidad de seguridad y señales SecOps
Uso de logs y eventos para detectar comportamientos anómalos y patrones de abuso.
Señales de autenticación, autorización, errores 401/403, cambios de permisos y accesos sospechosos.
Relación entre observabilidad operativa, SIEM, detección y respuesta.
Detección de picos de errores, scraping, intentos de acceso, abuso de API y patrones fuera de lo normal.
Trazabilidad de acciones críticas con request_id, user_id, tenant, IP y contexto.
Control de datos sensibles dentro de logs y trazas.
Separación entre logging de auditoría y logging operativo.
Alertas de seguridad que no deben mezclarse con ruido operativo.
Coordinación entre SRE, SecOps, DevOps y cumplimiento.
Taller: diseñar señales observables para detectar abuso de API y acceso anómalo.
Tema 19: Observabilidad de IA, LLMOps y sistemas agentic
Señales necesarias en aplicaciones con LLMs: latencia, coste, tokens, errores, proveedor, modelo y tasa de fallback.
Registro de prompts, respuestas, herramientas invocadas y contexto recuperado con criterios de privacidad.
Observabilidad de RAG: documentos recuperados, puntuación, fuentes, respuestas sin evidencia y feedback.
Trazas de agentes: pasos, tools, decisiones, errores, retries y delegaciones.
Métricas de calidad: groundedness, rechazo correcto, satisfacción, tasa de escalado y alucinación detectada.
Alertas por coste, latencia, errores de proveedor, caída de embeddings o degradación de retrieval.
Control de datos sensibles en prompts, logs y trazas de IA.
Dashboards para producto IA, plataforma, seguridad y dirección técnica.
Riesgos de sistemas no deterministas y necesidad de auditoría.
Taller: diseñar observabilidad para un asistente RAG corporativo.
Tema 20: Gestión de costes, cardinalidad y FinOps de observabilidad
Identificación de costes por ingesta, almacenamiento, retención, consultas, usuarios, cardinalidad y herramientas SaaS.
Impacto de etiquetas de alta cardinalidad en métricas y logs.
Políticas de retención por tipo de dato, criticidad y uso real.
Muestreo de trazas y logs sin perder capacidad de diagnóstico.
Filtrado de ruido antes de enviar datos a backends caros.
Separación de entornos para evitar costes innecesarios en desarrollo.
Dashboards de coste por equipo, servicio, entorno y tipo de señal.
Revisión de señales que nadie usa y siguen generando coste.
Negociación entre fiabilidad, profundidad de datos y presupuesto.
Taller: reducir coste de observabilidad sin perder señales críticas.
Tema 21: Automatización operativa y auto-remediation
Diferencia entre alerta, runbook manual, automatización asistida y remediación automática.
Casos adecuados para automatizar: reinicios controlados, escalado, limpieza, avisos, bloqueo preventivo o rollback.
Integración con herramientas ITSM, ChatOps, CI/CD, Kubernetes y plataformas cloud.
Uso de runbooks ejecutables y acciones aprobadas.
Riesgos de automatizar sin límites, sin auditoría o sin rollback.
Diseño de guardrails para remediaciones seguras.
Validación de acciones antes de ejecutarlas en producción.
Registro de quién activó, qué se ejecutó y cuál fue el resultado.
Métricas de automatización: tiempo ahorrado, éxito, fallos y acciones evitadas.
Taller: diseñar runbook automatizado para una alerta recurrente.
Tema 22: ITSM, postmortems y aprendizaje organizativo
Conexión entre observabilidad, incidentes, tickets, problemas y cambios.
Integración con ITSM para crear incidentes con contexto técnico.
Registro de timeline, impacto, servicios afectados, responsables y decisiones.
Postmortems sin culpa con foco en sistema, proceso y aprendizaje.
Identificación de acciones correctoras: código, infraestructura, alertas, dashboards, documentación o formación.
Seguimiento de acciones postmortem hasta cierre.
Relación entre cambios recientes y errores de producción.
Uso de observabilidad para validar cambios y despliegues.
Métricas de aprendizaje: incidentes repetidos, acciones cerradas y reducción de recurrencia.
Taller: elaborar postmortem técnico basado en evidencias de observabilidad.
Tema 23: Gobierno, estándares y modelo operativo de ObservabilityOps
Definición de estándares mínimos por servicio: métricas, logs, trazas, dashboards, alertas y runbooks.
Creación de ownership por servicio, señal, dashboard, alerta y SLO.
Normas de naming para métricas, etiquetas, logs, spans, dashboards y alertas.
Control de permisos, datos sensibles, retención, exportación y acceso a plataformas.
Revisión periódica de dashboards, alertas, SLOs, collectors y costes.
Proceso para incorporar nuevos servicios al modelo de observabilidad.
Gestión de deuda de observabilidad y backlog de mejoras.
Auditoría de señales inútiles, alertas ruidosas, colecciones duplicadas y herramientas infrautilizadas.
Comité operativo de observabilidad con desarrollo, plataforma, seguridad y operaciones.
Taller: crear framework de gobierno ObservabilityOps para una empresa.
Tema 24: Madurez, adopción y cultura de observabilidad
Evaluación de madurez del equipo: reactivo, monitorizado, observable, SLO-driven, automatizado y predictivo.
Formación de desarrolladores para instrumentar bien desde el diseño.
Formación de operaciones para diagnosticar sin depender de conocimiento tribal.
Creación de hábitos: revisar SLOs, analizar alertas, mantener dashboards y actualizar runbooks.
Evitar que observabilidad sea responsabilidad exclusiva de un equipo central.
Integración con revisiones de arquitectura, CI/CD, incidentes y retrospectivas.
Métricas de adopción: servicios instrumentados, alertas accionables, dashboards usados y MTTR.
Gestión de resistencias: exceso de herramientas, miedo al coste, alert fatigue o falta de tiempo.
Hoja de ruta de mejora continua por trimestre.
Taller: diseñar plan de adopción ObservabilityOps a 90 días.
Tema 25: Herramientas y plataformas del ecosistema
Comparación funcional entre stacks open source, SaaS, cloud-native y soluciones enterprise.
Uso de Grafana para visualización y exploración.
Prometheus y Mimir para métricas y almacenamiento escalable.
Loki o Elastic para logs y consulta operativa.
Tempo o Jaeger para trazas distribuidas.
Pyroscope y profiling continuo como extensión para rendimiento.
Datadog, Dynatrace, New Relic y Splunk como plataformas gestionadas o enterprise.
Cloud observability en Azure Monitor, AWS CloudWatch y Google Cloud Observability.
Criterios de elección: coste, vendor lock-in, escala, privacidad, integración, madurez y soporte.
Taller: seleccionar stack de observabilidad para tres escenarios corporativos.
Tema 26: Proyecto Final
Definición de un sistema corporativo con frontend, API, microservicios, base de datos, cola, Kubernetes y dependencia externa.
Diseño de estrategia ObservabilityOps con objetivos, servicios críticos, propietarios, señales, SLOs y riesgos.
Instrumentación conceptual con métricas, logs estructurados, trazas distribuidas y eventos relevantes.
Configuración de pipeline de telemetría con OpenTelemetry Collector, exporters, filtros, enriquecimiento y backends.
Diseño de dashboards para operación, troubleshooting, dirección técnica, SRE y equipos de desarrollo.
Creación de SLIs, SLOs, error budgets y alertas accionables basadas en impacto real.
Diseño de runbooks, escalados, integración con ITSM, comunicación de incidentes y postmortems.
Plan de seguridad, privacidad, retención, control de cardinalidad, coste y permisos de observabilidad.
Simulación de incidente con análisis de métricas, logs, trazas, cambios, dependencias y causa raíz.
Presentación final del modelo, justificando arquitectura, herramientas, gobierno, costes, riesgos y plan de mejora.
Perfiles profesionales
Pensado para quienes deben dominar ObservabilityOps (Observability Operations) en su día a día
Equipos DevOps, SRE y plataforma
Profesionales responsables de mantener servicios fiables, desplegables, medibles y operables. El curso les ayuda a convertir métricas, logs, trazas, SLOs y alertas en una práctica diaria de operación, diagnóstico y mejora continua.
Administradores de sistemas, cloud y Kubernetes
Perfiles que gestionan infraestructura, clústeres, workloads, redes, almacenamiento, servicios cloud y plataformas híbridas. La formación les permite diseñar observabilidad desde la infraestructura hasta la experiencia del usuario.
Desarrolladores backend y arquitectos de software
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en ObservabilityOps (Observability Operations)
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
No. La monitorización detecta estados conocidos; ObservabilityOps añade instrumentación, correlación, SLOs, alerting, incident response, gobierno, coste y mejora continua.
Sí. OpenTelemetry es una pieza central del curso: instrumentación, SDKs, Collector, OTLP, atributos, trazas, métricas, logs y pipelines.
Sí. Se trabajan como parte del ecosistema de métricas, dashboards, alertas y exploración operativa, junto a otras plataformas open source o enterprise.
Sí. El curso cubre logs estructurados, trazas distribuidas, correlación con trace_id, troubleshooting, búsqueda y diseño de señales útiles.
Sí. Hay bloques específicos sobre Kubernetes, cloud-native, pods, nodes, ingress, workloads, eventos, métricas y problemas habituales de plataforma.
Sí. Se trabajan SLIs, SLOs, error budgets, alerting, incident response, postmortems y mejora continua desde una perspectiva operativa.
Sí. Se abordan sistemas LLM, RAG, agentes, prompts, tokens, coste, latencia, herramientas invocadas, trazabilidad y evaluación de calidad.
El curso usa herramientas como OpenTelemetry, Prometheus, Grafana, Loki, Tempo, Jaeger, Elastic, Datadog, Dynatrace o New Relic, pero el enfoque es metodológico y aplicable a distintos stacks.
Sí. Se cubren cardinalidad, retención, muestreo, filtrado, coste por equipo, coste por señal, uso real y gobierno de telemetría.
Sí. Es especialmente útil cuando ya existen herramientas, pero hay ruido de alertas, dashboards poco usados, baja trazabilidad o dificultad para diagnosticar incidentes.
Sí. Puede orientarse a Kubernetes, Azure, AWS, Google Cloud, on-premise, microservicios, aplicaciones legacy, APIs, bases de datos o plataformas SaaS.
Sí, puede plantearse como formación bonificable hasta el 100% por FUNDAE para empresas, siempre que se cumplan los requisitos administrativos, comunicación, asistencia y documentación.
Sí. OpenTelemetry es una pieza central del curso: instrumentación, SDKs, Collector, OTLP, atributos, trazas, métricas, logs y pipelines.
Sí. Se trabajan como parte del ecosistema de métricas, dashboards, alertas y exploración operativa, junto a otras plataformas open source o enterprise.
Sí. El curso cubre logs estructurados, trazas distribuidas, correlación con trace_id, troubleshooting, búsqueda y diseño de señales útiles.
Sí. Hay bloques específicos sobre Kubernetes, cloud-native, pods, nodes, ingress, workloads, eventos, métricas y problemas habituales de plataforma.
Sí. Se trabajan SLIs, SLOs, error budgets, alerting, incident response, postmortems y mejora continua desde una perspectiva operativa.
Sí. Se abordan sistemas LLM, RAG, agentes, prompts, tokens, coste, latencia, herramientas invocadas, trazabilidad y evaluación de calidad.
El curso usa herramientas como OpenTelemetry, Prometheus, Grafana, Loki, Tempo, Jaeger, Elastic, Datadog, Dynatrace o New Relic, pero el enfoque es metodológico y aplicable a distintos stacks.
Sí. Se cubren cardinalidad, retención, muestreo, filtrado, coste por equipo, coste por señal, uso real y gobierno de telemetría.
Sí. Es especialmente útil cuando ya existen herramientas, pero hay ruido de alertas, dashboards poco usados, baja trazabilidad o dificultad para diagnosticar incidentes.
Sí. Puede orientarse a Kubernetes, Azure, AWS, Google Cloud, on-premise, microservicios, aplicaciones legacy, APIs, bases de datos o plataformas SaaS.
Sí, puede plantearse como formación bonificable hasta el 100% por FUNDAE para empresas, siempre que se cumplan los requisitos administrativos, comunicación, asistencia y documentación.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
Mejora la fiabilidad con SLOs Los equipos aprenden a medir fiabilidad desde la experiencia del usuario y a usar error budgets para tomar decisiones sobre cambios y riesgo.
3
Controla costes de telemetría El temario aborda cardinalidad, retención, muestreo, filtrado, herramientas SaaS y señales inútiles para evitar que la observabilidad se vuelva insostenible.
4
Prepara entornos cloud-native y Kubernetes Incluye observabilidad de microservicios, Kubernetes, APIs, bases de datos, colas, frontend, cloud y servicios distribuidos.
5
Incorpora IA y sistemas modernos El curso contempla observabilidad de aplicaciones con LLMs, RAG, agentes, coste de inferencia, trazas de herramientas y calidad de respuestas.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras
Equipos que necesitan instrumentar aplicaciones, APIs, microservicios, colas, jobs, bases de datos y dependencias externas. El curso les ayuda a crear software observable desde diseño, no parcheado después en producción.
Responsables de operaciones e ITSM
Personas que coordinan incidentes, cambios, disponibilidad, soporte y continuidad del servicio. La formación les permite conectar observabilidad con gestión de incidentes, prioridades, impacto, SLAs y comunicación interna.
Equipos de seguridad y SecOps
Perfiles que necesitan aprovechar logs, eventos, trazas y métricas para detectar comportamientos anómalos, abuso, degradaciones, cambios sospechosos o problemas de disponibilidad con impacto en seguridad.
Dirección técnica, CTO y responsables de arquitectura
Responsables que necesitan tomar decisiones sobre herramientas, costes, estándares, fiabilidad, deuda operativa y madurez del equipo. El curso les aporta un marco para gobernar observabilidad con criterio técnico y económico.