Curso completo de Spark

DISPONIBLE EN MODALIDAD:

Aula Virtual Personalizada

Apache Spark es un framework de computación en clúster de código abierto, orientado al procesamiento de datos en tiempo real, que provee de una interfaz para programar clústers con paralelismo de datos implícito y tolerancia a fallos y actualmente es el proyecto de Apache más activo.

En este curso aprenderás a utilizar Spark desde la base para operar sobre datos, conocerás qué son los clusters y cómo trabajar con ellos, qué es el machine learning y a desplegar aplicaciones.

Formación en Spark bonificable para empresas

¿A quién va dirigido?

A todos aquellos desarrolladores que quieran aprender la tecnología de procesamiento de datos en memoria más puntera del mercado.

Objetivos

Aprender a utilizar Scala y Python con el framework Spark 3x a través de Databricks y localmente
Aprender los fundamentos de Spark y crear RDDs, DataFrames y DataSets
Aprender a gestionar, preparar y organizar datos, además de entender el ciclo de vida del dato
Aprender a crear, entrenar y evaluar modelos de ML con Spark
Aprender a detectar problemas y aplicar buenas prácticas en la gestión de los datos

¿Qué vas a aprender?

En este curso aprenderás a utilizar Spark desde la base para operar sobre datos, conocerás qué son los clusters y cómo trabajar con ellos, qué es el machine learning y a desplegar aplicaciones.

Requisitos

Tener experiencia desarrollando con Scala o Python y haber realzado consultas SQL
Son necesarios permisos de instalación en el equipo en el que se realice la formación
Tener acceso (revisar configuraciones proxy en caso de tenerlas) a una cuenta Community de Azure Databricks para realizar los laboraorios de Spark
Tener Scala, Python 3 y Git instalados previamente para reproducir ejemplos localmente