Envíanos tu consulta
Términos y condiciones *
*Si no puedes asistir en directo te facilitaremos un enlace para verlo en diferido
logoImagina
Formación
Modalidades
Próximas Convocatorias
Temario
FAQ
Solicitar información
iconoCurso

Curso de SRE- Site Reliability Engineering

DISPONIBLE EN MODALIDAD:
aMedidaIcon
Aula Virtual Personalizada
arrowRightDark

Este curso cubre los principios y prácticas fundamentales del Site Reliability Engineering (SRE), un enfoque moderno para gestionar sistemas de producción de manera eficiente. Los participantes aprenderán cómo implementar SLAs, SLOs y SLIs, automatizar tareas críticas, gestionar incidentes y optimizar la capacidad y escalabilidad de los sistemas distribuidos. El curso incluye prácticas con herramientas líderes en la industria como Prometheus, Grafana y Kubernetes, además de la realización de un proyecto final integrador.

iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient

Formación en SRE- Site Reliability Engineering bonificable para empresas

A quién va dirigido nuestro curso de SRE- Site Reliability Engineering

Ingenieros de sistemas, administradores de infraestructuras y profesionales de DevOps interesados en optimizar la confiabilidad y escalabilidad de sistemas distribuidos en producción.

Objetivos de nuestro curso de SRE- Site Reliability Engineering

  • Comprender los principios y prácticas del Site Reliability Engineering.
  • Implementar monitoreo y observabilidad en sistemas distribuidos.
  • Automatizar tareas y optimizar la escalabilidad en entornos críticos.
  • Gestionar incidentes y mejorar la confiabilidad del sistema.
  • Desarrollar un proyecto final de implementación completa de SRE.

Qué vas a aprender en nuestro curso de SRE- Site Reliability Engineering

Este curso cubre los principios y prácticas fundamentales del Site Reliability Engineering (SRE), un enfoque moderno para gestionar sistemas de producción de manera eficiente. Los participantes aprenderán cómo implementar SLAs, SLOs y SLIs, automatizar tareas críticas, gestionar incidentes y optimizar la capacidad y escalabilidad de los sistemas distribuidos. El curso incluye prácticas con herramientas líderes en la industria como Prometheus, Grafana y Kubernetes, además de la realización de un proyecto final integrador.

Requisitos de nuestro curso de SRE- Site Reliability Engineering

  • Experiencia con los fundamentos de la administración de sistemas y DevOps.
  • Instalaciones previas:Prometheus, Grafana, Docker Desktop, Kubernetes (MiniKube), Ansible, Terraform y GIT
  • Tener un equipo con acceso a un usuario con permisos de instalación, conexión estable a Internet, mínimo 16GB de RAM y mínimo 100GB de memoria en disco libres.

Temario del curso de SRE- Site Reliability Engineering

tema 1

Introducción al Site Reliability Engineering (SRE)

  • Definición de SRE y su importancia en la ingeniería moderna
  • Historia y evolución de SRE en Google
  • Diferencia entre SRE y DevOps
  • Principios fundamentales de SRE
  • Importancia de la automatización en SRE
  • Papel de SRE en la confiabilidad de sistemas distribuidos
  • Impacto de SRE en la escalabilidad y la resiliencia de los sistemas
  • Casos de éxito de SRE en grandes empresas tecnológicas
  • Introducción a los principales términos de SRE: SLO, SLI, SLA
  • Perspectivas y futuro de la ingeniería de confiabilidad
iconArrowDown
tema 2

Conceptos Clave: SLA, SLO y SLI

  • Definición de SLA (Service Level Agreement)
  • Definición de SLO (Service Level Objective)
  • Definición de SLI (Service Level Indicator)
  • Diferencias entre SLA, SLO y SLI
  • Ejemplo práctico: Definición de SLAs, SLOs y SLIs en una aplicación web
  • Métodos para medir la confiabilidad del sistema
  • Cómo establecer objetivos de confiabilidad realistas
  • Implementación de SLOs para mejorar la calidad del servicio
  • Herramientas para monitorear SLIs en tiempo real
  • Mejores prácticas para la gestión de SLAs en organizaciones
iconArrowDown
tema 3

Monitoreo y Observabilidad en SRE

  • Diferencia entre monitoreo y observabilidad
  • Herramientas clave de monitoreo: Prometheus, Grafana, Datadog
  • Implementación de observabilidad en sistemas distribuidos
  • Ejemplo práctico: Configuración de Prometheus para monitorear una aplicación
  • Métricas clave: latencia, disponibilidad, tasa de error, tráfico
  • Análisis de logs y trazabilidad en sistemas complejos
  • Uso de herramientas de observabilidad para la detección temprana de problemas
  • Alertas basadas en SLIs y su importancia en la confiabilidad
  • Monitoreo de servicios en la nube y sistemas on-premise
  • Mejores prácticas de monitoreo y observabilidad en sistemas críticos
iconArrowDown
tema 4

Automación en SRE

  • Rol de la automatización en SRE
  • Automatización de tareas repetitivas para reducir errores humanos
  • Herramientas de automatización: Ansible, Terraform, Jenkins
  • Ejemplo práctico: Automación de despliegue con Ansible
  • Automatización del monitoreo y respuesta a incidentes
  • Reducción del tiempo de inactividad mediante scripts automatizados
  • Despliegue continuo (CI/CD) y su relación con SRE
  • Automatización de la infraestructura en la nube
  • Estrategias para gestionar la infraestructura como código
  • Mejores prácticas de automatización en grandes infraestructuras
iconArrowDown
tema 5

Gestión de Incidentes

  • Introducción a la gestión de incidentes en SRE
  • Ciclo de vida de un incidente: detección, respuesta, resolución, análisis
  • Herramientas para la gestión de incidentes: PagerDuty, Opsgenie
  • Ejemplo práctico: Simulación de un incidente crítico y su resolución
  • Comunicación efectiva durante un incidente
  • Cómo reducir el tiempo medio de resolución (MTTR)
  • Post-mortem de incidentes y lecciones aprendidas
  • Documentación de incidentes y creación de playbooks
  • Planes de contingencia y recuperación ante desastres
  • Mejores prácticas para la respuesta a incidentes en SRE
iconArrowDown
tema 6

Mejora Continua y Reducción de Riesgos

  • Introducción a la mejora continua en SRE
  • Identificación y mitigación de riesgos en sistemas distribuidos
  • Herramientas para la mejora continua: Kaizen, Lean
  • Ejemplo práctico: Implementación de un plan de mejora continua en una aplicación crítica
  • Uso de SLOs para identificar áreas de mejora
  • Estrategias para prevenir la recurrencia de incidentes
  • Reducción de riesgos mediante pruebas automatizadas
  • Evaluación de sistemas críticos para identificar vulnerabilidades
  • Cultura de mejora continua en equipos de SRE
  • Mejores prácticas para la reducción de riesgos en entornos productivos
iconArrowDown
tema 7

Capacidad y Escalabilidad en SRE

  • Importancia de la capacidad y escalabilidad en sistemas confiables
  • Monitoreo de la capacidad y su relación con los SLOs
  • Técnicas para escalar aplicaciones en la nube
  • Ejemplo práctico: Escalado horizontal de una aplicación en Kubernetes
  • Estrategias para manejar el tráfico variable en aplicaciones distribuidas
  • Uso de autoescalado en sistemas de nube
  • Cómo gestionar la capacidad en sistemas de alto rendimiento
  • Identificación de cuellos de botella y cómo eliminarlos
  • Estrategias para manejar el crecimiento de usuarios
  • Mejores prácticas para la planificación de la capacidad
iconArrowDown
tema 8

SRE y Cloud Computing

  • Impacto de la computación en la nube en SRE
  • Beneficios y desafíos de implementar SRE en la nube
  • Principales proveedores de nube: AWS, Google Cloud, Azure
  • Ejemplo práctico: Monitoreo de una aplicación en AWS con CloudWatch
  • Herramientas de gestión y monitoreo en la nube
  • Estrategias de alta disponibilidad en entornos cloud
  • Implementación de SLOs y SLIs en entornos cloud
  • Gestión de costos en sistemas basados en la nube
  • Migración de sistemas on-premise a la nube desde la perspectiva de SRE
  • Mejores prácticas para implementar SRE en la nube
iconArrowDown
tema 9

Implementación de Alertas Basadas en SLIs

  • Importancia de las alertas basadas en SLIs
  • Ejemplo práctico: Configuración de alertas en Prometheus
  • Cómo ajustar alertas para minimizar falsas alarmas
  • Estrategias para responder a alertas en tiempo real
  • Integración de alertas con herramientas de gestión de incidentes
  • Priorización de alertas basadas en impacto y criticidad
  • Documentación de procedimientos de respuesta a alertas
  • Reducción de la fatiga por alertas mediante automatización
  • Mejores prácticas para diseñar sistemas de alertas eficaces
  • Uso de inteligencia artificial para mejorar la gestión de alertas
iconArrowDown
tema 10

Mantenimiento y Gestión de Sistemas Distribuidos

  • Introducción al mantenimiento en sistemas distribuidos
  • Estrategias de mantenimiento preventivo
  • Ejemplo práctico: Implementación de una estrategia de mantenimiento en un sistema en la nube
  • Cómo minimizar el tiempo de inactividad durante el mantenimiento
  • Herramientas para el mantenimiento automatizado
  • Gestión de dependencias y actualizaciones en sistemas distribuidos
  • Planificación de paradas programadas y actualizaciones
  • Técnicas para mantener la confiabilidad durante el mantenimiento
  • Gestión de parches de seguridad en sistemas distribuidos
  • Mejores prácticas para el mantenimiento de infraestructuras críticas
iconArrowDown
tema 11

Gestión de Costos en SRE

  • Importancia de la gestión de costos en SRE
  • Relación entre confiabilidad y costos en infraestructuras
  • Técnicas para optimizar costos en sistemas distribuidos
  • Ejemplo práctico: Reducción de costos en AWS mediante optimización de recursos
  • Uso eficiente de recursos en la nube para reducir costos
  • Monitoreo de costos en tiempo real
  • Estrategias para prever y gestionar sobrecostos en sistemas críticos
  • Implementación de políticas de uso eficiente de recursos
  • Automatización de la gestión de costos mediante herramientas en la nube
  • Mejores prácticas para gestionar costos en SRE
iconArrowDown
tema 12

Seguridad en SRE

  • Desafíos de seguridad en la ingeniería de confiabilidad
  • Implementación de políticas de seguridad en sistemas distribuidos
  • Ejemplo práctico: Configuración de seguridad en una aplicación web basada en microservicios
  • Monitoreo y auditoría de sistemas desde la perspectiva de SRE
  • Técnicas para prevenir ataques de denegación de servicio (DDoS)
  • Gestión de parches de seguridad y actualizaciones automáticas
  • Estrategias para la respuesta a incidentes de seguridad
  • Implementación de controles de acceso y permisos en sistemas críticos
  • Mejores prácticas para asegurar sistemas de alto rendimiento
  • Integración de SRE y DevSecOps en organizaciones
iconArrowDown
tema 13

Resiliencia en SRE

  • Definición de resiliencia en sistemas distribuidos
  • Estrategias para garantizar la resiliencia en sistemas críticos
  • Ejemplo práctico: Implementación de un sistema resiliente con Kubernetes
  • Tolerancia a fallos y recuperación automática en sistemas distribuidos
  • Uso de backups y replicación para asegurar la continuidad del servicio
  • Herramientas para la gestión de la resiliencia en la nube
  • Estrategias para mitigar fallos catastróficos en infraestructuras críticas
  • Implementación de pruebas de resiliencia mediante chaos engineering
  • Mejores prácticas para garantizar la resiliencia en entornos productivos
  • Casos de éxito de resiliencia en grandes infraestructuras
iconArrowDown
tema 14

Pruebas de Confiabilidad con Chaos Engineering

  • Introducción a Chaos Engineering
  • Herramientas para Chaos Engineering: Chaos Monkey, Gremlin
  • Ejemplo práctico: Implementación de Chaos Monkey en un entorno de producción
  • Estrategias para romper sistemas de manera controlada
  • Cómo identificar y resolver puntos débiles en la infraestructura
  • Documentación de las pruebas de resiliencia
  • Uso de Chaos Engineering para aumentar la confiabilidad
  • Mejores prácticas para realizar pruebas de caos en sistemas críticos
  • Cultura de tolerancia a fallos y aprendizaje en SRE
  • Casos de éxito en la aplicación de Chaos Engineering
iconArrowDown
tema 15

Proyecto Final: Implementación de una Estrategia Completa de SRE

  • Selección de un sistema o aplicación para la implementación
  • Definición de SLAs, SLOs y SLIs para el sistema seleccionado
  • Implementación de monitoreo y observabilidad
  • Automatización del despliegue y gestión de incidentes
  • Implementación de alertas basadas en SLIs
  • Gestión de capacidad y escalabilidad
  • Estrategias de resiliencia y pruebas con Chaos Engineering
  • Mantenimiento y gestión de costos
  • Seguridad y confiabilidad en sistemas críticos
  • Documentación y presentación del proyecto final
iconArrowDown