Envíanos tu consulta
Términos y condiciones *
logoImagina
iconoCurso

Curso de Spark SQL con Python para procesos ETL

DISPONIBLE EN MODALIDAD:

El curso se centra en el uso de Spark SQL a través de Python para llevar a cabo tareas de extracción, transformación y carga de datos (ETL). Se abarcarán temas desde conceptos básicos de Spark SQL hasta herramientas de transformación avanzadas y procesamiento de datos en tiempo real. El curso se enfoca en la práctica, con ejercicios guiados y proyectos a lo largo de los cuales los alumnos podrán poner en práctica los conocimientos adquiridos.

Los alumnos aprenderán a extraer estructurados y no estructurados datos de una variedad de fuentes; a manipular y transformar datos en formas complejas; a realizar consultas complejas a través de Spark SQL; a combinar los resultados de estas consultas en una sola respuesta; a limpiar, unir y normalizar los datos; y a procesar datos en tiempo real con herramientas como Kafka. Al concluir el curso, los alumnos estarán preparados para diseñar y desarrollar un proyecto de ETL completo con Spark SQL.

iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient
Aprende Spark SQL con Python para procesos ETL: Curso completo
¿A quién va dirigido?
Profesionales con experiencia en desarrollo con Python que quieran profundizar en cómo emplearlo para llevar a cabo procesos ETL con PySpark
Objetivos
  • Aprender los conceptos básicos de Spark SQL
  • Practicar el uso de Spark SQL para crear consultas complejas
  • Aprender a combinar los resultados de estas consultas en una sola respuesta
  • Desarrollar habilidades para limpiar, unir y normalizar los datos
  • Comprender cómo procesar datos en tiempo real con herramientas como Kafka
¿Qué vas a aprender?

El curso se centra en el uso de Spark SQL a través de Python para llevar a cabo tareas de extracción, transformación y carga de datos (ETL). Se abarcarán temas desde conceptos básicos de Spark SQL hasta herramientas de transformación avanzadas y procesamiento de datos en tiempo real. El curso se enfoca en la práctica, con ejercicios guiados y proyectos a lo largo de los cuales los alumnos podrán poner en práctica los conocimientos adquiridos. Los alumnos aprenderán a extraer estructurados y no estructurados datos de una variedad de fuentes; a manipular y transformar datos en formas complejas; a realizar consultas complejas a través de Spark SQL; a combinar los resultados de estas consultas en una sola respuesta; a limpiar, unir y normalizar los datos; y a procesar datos en tiempo real con herramientas como Kafka. Al concluir el curso, los alumnos estarán preparados para diseñar y desarrollar un proyecto de ETL completo con Spark SQL.

Requisitos
  • Tener experiencia desarrollando con Python y realizando consultas SQL
  • Son necesarios permisos de instalación en el equipo en el que se realice la formación
  • Tener acceso (revisar configuraciones proxy en caso de tenerlas) a una cuenta Community de Azure Databricks para realizar los laboratorios de Spark
  • Tener Python 3, Git y un IDE para desarrollar en Python instalado previamente (por ejemplo Pycharm) instalados previamente en el equipo
Temario del curso
tema 1Introducción a Spark SQL
  • Introducción a PySpark
  • PySpark en la actualidad y principales usos en el mundo real
  • Introducción a los procesos ETL
  • Introducción a Spark SQL
  • ¿Cómo funciona Spark SQL?
  • ¿Cuáles son los componentes de Spark SQL?
  • ¿Qué herramientas se usan para usar Spark SQL?
  • Instalación de Spark
  • Configuración de entornos de desarrollo
  • Configuración de Spark
  • Configuración de parámetros de Spark
  • Creación de nuestro primer proyecto PySpark
tema 2Extracción de datos
  • Conexión con bases de datos relacionales
  • Conexión con bases de datos no relacionales
  • Otras conexiones habituales en el mundo real
  • Extracción de datos no estructurados
tema 3Transformaciones de datos en Spark SQL
  • Manipulación y transformación de datos
  • Limpieza, unión y normalización de datos
  • Transformación de datos con DataFrames
  • Transformación de datos con SQL
  • Transformación de datos con funciones de agregación
  • Transformación de datos con funciones de manipulación de cadenas
  • Uso de expresiones regulares
  • Transformación de datos con funciones de manipulación de fechas
  • Scripts de transformación
tema 4Modelado de datos en Spark SQL
  • Definición de esquemas de tablas
  • Carga y almacenamiento de datos
  • Particionamiento de datos
  • Creación de índices
  • Compresión de datos
tema 5Procesos ETL (Extracción, Transformación y Carga) con Spark SQL
  • Diseño de procesos ETL
  • Ejecución de procesos ETL
  • Optimización de procesos ETL
  • Optimización de consultas
  • Uso de funciones de Python en consultas de Spark SQL
  • Monitorización de procesos ETL
  • Pruebas de procesos ETL
tema 6Proceso ETL: Carga de datos
  • Carga de datos en bases de datos relacionales
  • Carga de datos en bases de datos no relacionales
tema 7Consultas de Spark SQL
  • Escribiendo consultas en Spark SQL
  • Diseño de consultas
  • Ejecución de consultas
  • Optimización de consultas
  • Creación de tablas temporales
tema 8Procesos de agregación con Spark SQL
  • Introducción a los procesos de agregación
  • Uso de funciones de agregación
  • Uso de ventanas de agregación
  • Uso de funciones de ventanas
  • Uso de funciones de ranking
tema 9Procesos de unión con Spark SQL
  • Tipos de unión en Spark SQL
  • Uso de unión externa
  • Uso de unión natural
  • Uso de unión cruzada
  • Uso de unión para unir múltiples tablas
tema 10Uso avanzado de Spark SQL
  • Uso de variables de sesión
  • Uso de configuración dinámica
  • Uso de almacenamiento persistente
  • Uso de UDFs (funciones definidas por el usuario)
  • Uso de vistas
tema 11Trabajando con grandes conjuntos de datos en Spark SQL
  • Introducción a los grandes conjuntos de datos
  • Particionamiento de grandes conjuntos de datos
  • Optimización de consultas para grandes conjuntos de datos
  • Uso de configuración avanzada para grandes conjuntos de datos
  • Uso de herramientas de análisis para grandes conjuntos de datos
tema 12Procesamiento de datos en tiempo real
  • Introducción a Kafka
  • Configuración de Kafka
  • Procesamiento de datos con Kafka
tema 13Proyecto final de ETL con Spark SQL
  • Diseño de un proyecto de ETL
  • Desarrollo de un proyecto de ETL
  • Pruebas y depuración de un proyecto de ETL
  • Puesta en producción de un proyecto de ETL

Formación Bonificada para Empresas a través de FUNDAE

Somos entidad organizadora de FUNDAE, todas nuestras formaciones se pueden bonificar hasta el 100%, sujeto a vuestro crédito disponible y a cumplir con todos los requisitos de realización establecidos por la Fundación Estatal para el Empleo.

 

Si desconoces el funcionamiento de las bonificaciones, ofrecemos el servicio de gestión en FUNDAE, consúltanos cualquier duda que te surja.

Descargar Guía FUNDAE
imagenFundae
iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient