Envíanos tu consulta
Términos y condiciones *
*Si no puedes asistir en directo te facilitaremos un enlace para verlo en diferido
logoImagina
Formación
Modalidades
Próximas Convocatorias
Temario
FAQ
Solicitar información
iconoCurso

Curso de Amazon Glue

DISPONIBLE EN MODALIDAD:
aMedidaIcon
Aula Virtual Personalizada
arrowRightDark

Este curso de Amazon Glue cubre desde la configuración básica hasta la creación de ETL avanzados, optimización de flujos de trabajo y uso de Glue Catalog para gestionar datos escalables y automatizados.

iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient

Formación en Amazon Glue bonificable para empresas

A quién va dirigido nuestro curso de Amazon Glue

Ingenieros de datos, analistas de datos y desarrolladores interesados en el diseño de flujos de datos avanzados y escalables en AWS.

Objetivos de nuestro curso de Amazon Glue

  • Comprender los conceptos clave y la arquitectura de Amazon Glue para la integración y transformación de datos.
  • Aprender a configurar y administrar catálogos de datos con Glue Catalog.
  • Dominar la creación de ETL (Extracción, Transformación y Carga) con Glue Studio y Glue PySpark.
  • Implementar flujos de trabajo automatizados para la integración de datos.
  • Optimizar el rendimiento y la escalabilidad en proyectos de datos utilizando Glue.

Qué vas a aprender en nuestro curso de Amazon Glue

Este curso de Amazon Glue cubre desde la configuración básica hasta la creación de ETL avanzados, optimización de flujos de trabajo y uso de Glue Catalog para gestionar datos escalables y automatizados.

Requisitos de nuestro curso de Amazon Glue

  • Conocimientos en servicios AWS, bases de datos, y lenguaje Python o SQL.
  • Cuenta activa en AWS con permisos para Amazon Glue, Amazon S3, y servicios de computación.
  • Ordenador con acceso a internet y navegador web compatible.
  • Acceso a AWS IAM con privilegios para Glue y servicios relacionados.

Temario del curso de Amazon Glue

tema 1

Introducción a Amazon Glue

  • Conceptos básicos de integración de datos
  • ¿Qué es Amazon Glue y para qué se utiliza?
  • Principales componentes de Amazon Glue
  • Casos de uso comunes en proyectos de datos
  • Relación de Glue con otros servicios AWS
  • Arquitectura interna de Glue
  • Ventajas de Glue frente a herramientas tradicionales
  • Revisión de escenarios empresariales donde se usa Glue
  • Configuración inicial de la consola de Glue
  • Ejercicio práctico: Exploración de la interfaz de Glue
iconArrowDown
tema 2

Glue Data Catalog

  • ¿Qué es el Glue Data Catalog?
  • Crear bases de datos y tablas en el catálogo
  • Importar esquemas desde Amazon S3
  • Configuración de crawlers para descubrimiento de datos
  • Cómo gestionar particiones dinámicas
  • Integración con AWS Athena y Redshift
  • Estrategias de organización de catálogos de datos
  • Métodos de búsqueda y consulta en el catálogo
  • Ejercicio práctico: Configuración de un catálogo básico
  • Buenas prácticas en la administración de Glue Catalog
iconArrowDown
tema 3

Creación de ETL con Glue Studio

  • Introducción a Glue Studio
  • Configuración de fuentes y destinos de datos
  • Uso de transformaciones predefinidas en Glue Studio
  • Creación de flujos de trabajo visuales
  • Generación automática de scripts PySpark
  • Configuración de trabajos escalables
  • Debugging y monitoreo de trabajos ETL
  • Ejercicio práctico: Construcción de un ETL visual con Glue Studio
  • Análisis de errores comunes en Glue Studio
  • Optimización de flujos de datos en Glue Studio
iconArrowDown
tema 4

Trabajos ETL con Glue PySpark

  • Introducción a Glue PySpark
  • Configuración de entornos de trabajo en AWS
  • Escritura de scripts PySpark para ETL
  • Uso de transformaciones avanzadas con PySpark
  • Integración con bibliotecas externas en Glue
  • Gestión de dependencias en PySpark
  • Ejercicio práctico: Creación de un trabajo ETL avanzado con PySpark
  • Análisis de rendimiento de scripts PySpark en Glue
  • Debugging de trabajos PySpark en Glue
  • Mejores prácticas para desarrollar scripts escalables
iconArrowDown
tema 5

Automatización de Flujos de Trabajo con Glue Workflows

  • ¿Qué son los flujos de trabajo en Glue?
  • Configuración de triggers en Glue
  • Creación de dependencias entre trabajos
  • Automatización de tareas en Glue
  • Integración de Glue con AWS Lambda
  • Monitoreo de flujos de trabajo automatizados
  • Ejercicio práctico: Implementación de un flujo de trabajo completo
  • Resolución de errores en workflows
  • Optimización de flujos para grandes volúmenes de datos
  • Escenarios avanzados de automatización
iconArrowDown
tema 6

Transformaciones de Datos Avanzadas

  • Funciones de transformación nativas de Glue
  • Uso de DynamicFrames para manejar datos
  • Aplicación de filtros y agregaciones complejas
  • Combinar y dividir conjuntos de datos
  • Validación y limpieza de datos
  • Aplicación de reglas de negocio en transformaciones
  • Ejercicio práctico: Diseño de transformaciones avanzadas
  • Uso de Glue con datos semiestructurados (JSON, XML)
  • Creación de datos enriquecidos a partir de fuentes múltiples
  • Estrategias de transformación para optimizar almacenamiento
iconArrowDown
tema 7

Glue Crawlers

  • Introducción a Glue Crawlers
  • Configuración inicial y tipos de crawlers
  • Descubrimiento de datos automatizado
  • Gestión de esquemas dinámicos
  • Integración con Glue Data Catalog
  • Ejercicio práctico: Configuración de un crawler en S3
  • Resolución de problemas comunes en crawlers
  • Uso de crawlers para datos particionados
  • Optimización del rendimiento de crawlers
  • Monitoreo y mantenimiento de crawlers en producción
iconArrowDown
tema 8

Optimización de Rendimiento en Glue

  • Comprendiendo los costos de Glue
  • Configuración de unidades de datos (DPU)
  • Ajuste de paralelismo en trabajos ETL
  • Estrategias para manejar grandes volúmenes de datos
  • Reducción del tiempo de ejecución en trabajos PySpark
  • Ejercicio práctico: Ajuste de un trabajo para mejorar rendimiento
  • Uso de logging avanzado para análisis de errores
  • Monitoreo de métricas en CloudWatch
  • Estrategias de particionamiento de datos en S3
  • Buenas prácticas para optimización general en Glue
iconArrowDown
tema 9

Integración con Otros Servicios AWS

  • Glue y S3: mejores prácticas de integración
  • Uso de Glue con AWS Athena
  • Integración con Redshift para cargas masivas
  • Relación de Glue con DynamoDB
  • Glue y Kinesis para análisis en tiempo real
  • Ejercicio práctico: Flujo de datos completo entre servicios AWS
  • Implementación de seguridad en servicios integrados
  • Automatización de procesos con Step Functions
  • Estrategias para mantener la consistencia entre servicios
  • Escenarios prácticos de integración compleja
iconArrowDown
tema 10

Seguridad y Cumplimiento en Amazon Glue

  • Gestión de permisos con AWS IAM
  • Configuración de encriptación de datos
  • Seguridad en datos almacenados en S3
  • Uso de roles y políticas para control de acceso
  • Auditorías de seguridad en Glue
  • Ejercicio práctico: Configuración de seguridad básica en Glue
  • Estrategias de cumplimiento para normativas GDPR y CCPA
  • Control de acceso basado en etiquetas (Tag-based Access Control)
  • Monitoreo de seguridad con CloudTrail
  • Resolución de vulnerabilidades comunes en Glue
iconArrowDown
tema 11

Proyecto Final

  • Definición de un caso de uso empresarial
  • Configuración de un Glue Catalog personalizado
  • Creación de un ETL con Glue Studio
  • Implementación de scripts avanzados con Glue PySpark
  • Automatización de flujos con workflows
  • Integración de datos con otros servicios AWS
  • Monitoreo y optimización del rendimiento
  • Implementación de seguridad y auditorías
  • Documentación de procesos y resultados
  • Presentación del proyecto final
iconArrowDown