Curso completo de Spark SQL con Python para procesos ETL

DISPONIBLE EN MODALIDAD:

Aula Virtual Personalizada

Aprende a extraer, transformar y cargar datos de una variedad de fuentes; a realizar consultas complejas; a limpiar, unir y normalizar los datos; y a procesar datos en tiempo real con herramientas como Kafka. Al concluir el curso, los alumnos estarán preparados para diseñar y desarrollar un proyecto de ETL completo con Spark SQL y Python.

El curso se centra en el uso de Spark SQL a través de Python para llevar a cabo tareas de extracción, transformación y carga de datos (ETL). Se abarcarán temas desde conceptos básicos de Spark SQL hasta herramientas de transformación avanzadas y procesamiento de datos en tiempo real. El curso se enfoca en la práctica, con ejercicios guiados y proyectos a lo largo de los cuales los alumnos podrán poner en práctica los conocimientos adquiridos.

Los alumnos aprenderán a extraer estructurados y no estructurados datos de una variedad de fuentes; a manipular y transformar datos en formas complejas; a realizar consultas complejas a través de Spark SQL; a combinar los resultados de estas consultas en una sola respuesta; a limpiar, unir y normalizar los datos; y a procesar datos en tiempo real con herramientas como Kafka. Al concluir el curso, los alumnos estarán preparados para diseñar y desarrollar un proyecto de ETL completo con Spark SQL.

Formación en Spark SQL con Python para procesos ETL bonificable para empresas

¿A quién va dirigido?

Profesionales con experiencia en desarrollo con Python que quieran profundizar en cómo emplearlo para llevar a cabo procesos ETL con PySpark

Objetivos

Aprender los conceptos básicos de Spark SQL
Practicar el uso de Spark SQL para crear consultas complejas
Aprender a combinar los resultados de estas consultas en una sola respuesta
Desarrollar habilidades para limpiar, unir y normalizar los datos
Comprender cómo procesar datos en tiempo real con herramientas como Kafka

¿Qué vas a aprender?

Requisitos

Tener experiencia desarrollando con Python y realizando consultas SQL
Son necesarios permisos de instalación en el equipo en el que se realice la formación
Tener acceso (revisar configuraciones proxy en caso de tenerlas) a una cuenta Community de Azure Databricks para realizar los laboratorios de Spark
Tener Python 3, Git y un IDE para desarrollar en Python instalado previamente (por ejemplo Pycharm) instalados previamente en el equipo