Envíanos tu consulta
Términos y condiciones *
*Si no puedes asistir en directo te facilitaremos un enlace para verlo en diferido
logoImagina
Formación
Modalidades
Próximas Convocatorias
Temario
FAQ
Solicitar información
iconoCurso

Curso de Spark con Python

DISPONIBLE EN MODALIDAD:
aMedidaIcon
Aula Virtual Personalizada
arrowRightDark

Aprende a utilizar Apache Spark, el framework de computación en clúster de código abierto, orientado al procesamiento de datos en tiempo real, que provee de una interfaz para programar clusters con paralelismo de datos implícito y tolerancia a fallos.

iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient

Formación en Spark con Python bonificable para empresas

A quién va dirigido nuestro curso de Spark con Python

A todos aquellos desarrolladores que quieran aprender la tecnología de procesamiento de datos en memoria más puntera del mercado.

Objetivos de nuestro curso de Spark con Python

  • Aprender a utilizar Python con el framework Spark 3x a través de Databricks
  • Aprender a gestionar, preparar y organizar datos
  • Aprender a crear, entrenar y evaluar modelos de ML con Spark
  • Aprender el ciclo de vida del dato y a sacar valor de éstos
  • Aprender a detectar problemas y aplicar buenas prácticas en la gestión de los datos

Qué vas a aprender en nuestro curso de Spark con Python

Aprende a utilizar Apache Spark, el framework de computación en clúster de código abierto, orientado al procesamiento de datos en tiempo real, que provee de una interfaz para programar clusters con paralelismo de datos implícito y tolerancia a fallos.

Requisitos de nuestro curso de Spark con Python

  • Tener experiencia desarrollando con Python y realizando consultas SQL
  • Son necesarios permisos de instalación en el equipo en el que se realice la formación
  • Tener acceso (revisar configuraciones proxy en caso de tenerlas) a una cuenta Community de Azure Databricks para realizar los laboraorios de Spark
  • Tener Python 3, Git y un IDE para desarrollar en Python instalado previamente (por ejemplo Pycharm) instalados previamente en el equipo

Temario del curso de Spark con Python

tema 1

Introducción

  • ¿Qué es Spark?
  • ¿Qué es Hadoop?
  • ¿Qué es HBase?
  • HDFS
  • Principales comandos de HDFS
  • Instalación de Spark
  • PySpark
  • Funciones esenciales de Python
  • Consola de Spark
  • Acceso a DataBricks
  • Arquitectura
  • Componentes
iconArrowDown
tema 2

Apache Spark SQL

  • Introducción a Spark SQL
  • Esquemas
  • Operaciones SQL
  • Opciones de Entrada/Salida
  • DataFrames
  • DataSets
  • Uniones
  • Conjuntos de datos fuertemente tipados
  • Uso de conjunto de datos
  • Conversiones
  • Optimizaciones de rendimiento
iconArrowDown
tema 3

RDD

  • Introducción a los RDD en Spark
  • Creación de un RDD
  • Map
  • Filter
  • Flatmap
  • Cache
  • Persistencia
  • RDDs numérico
iconArrowDown
tema 4

RDD Clave-Valor

  • Introducción a los RDD Clave-Valor en Spark
  • Creación de RDD Clave-Valor
  • Filter
  • MapValue
  • Reduce By Key
  • Group By Key
  • Sort By Key
  • Particionamiento de datos
  • Operaciones Join
iconArrowDown
tema 5

Machine Learning con Spark

  • Introducción a MLLib
  • Creación de un sistema de ML
  • Regresión Lineal con MLLib
  • Dataframes con MLLib
iconArrowDown
tema 6

Clusters

  • Estrategias de replicación
  • Creación de un cluster
  • Lanzamiento de trabajos
  • Monitorización de clusters
  • Particionamiento
iconArrowDown
tema 7

Despliegue

  • Estructura de los proyectos
  • Despliegue de aplicaciones
  • Empaquetado de aplicaciones
  • Spark-Submit
iconArrowDown
tema 8

Buenas prácticas

  • Recomendaciones de programación paralela
  • Inmutabilidad
  • Uso de lambdas
  • Bucles
  • Uso de funciones dentro de Dataframes
iconArrowDown
tema 9

Detección de problemas

  • Planes de ejecución
  • Detectando un Shuffle en un procesamiento
  • Probando operaciones que puedan causar un Shuffle
  • Cambiando el diseño de trabajos con dependencias amplias
  • Usando operaciones keyBy para reducir los Shuffle
  • Usando particionadores personalizado
iconArrowDown

Preguntas Frecuentes de Spark con Python

¿Cuáles son los Beneficios del curso Spark con Python?

accordionIcon
El curso te proporcionará conocimientos avanzados en procesamiento de datos a gran escala utilizando Spark y Python. Mejorarás tu capacidad para manejar grandes volúmenes de datos de manera eficiente y adquirirás habilidades en el análisis de datos y aprendizaje automático.

¿El curso de Spark con Python se puede bonificar a través de FUNDAE?

accordionIcon
Sí, el curso puede ser bonificado a través de FUNDAE. Esto significa que las empresas pueden recibir una subvención para que sus empleados participen en el curso sin costo adicional.

¿En qué modalidades se imparte el curso de Spark con Python?

accordionIcon
El curso se imparte en modalidad online o en aula virtual personalizada, lo que facilita el acceso y flexibilidad para los estudiantes.

¿Qué habilidades desarrollaré con el curso de Spark con Python?

accordionIcon
Desarrollarás habilidades en el manejo y procesamiento de grandes volúmenes de datos, análisis de datos, y dominio de Spark y Python. También mejorarás tus competencias en el uso de algoritmos de aprendizaje automático y optimización de recursos.

¿Cómo puedo inscribirme en el curso de Spark con Python?

accordionIcon
Puedes inscribirte en el curso rellenando los formularios que aparecen en la web de Imagina Formación. Es un proceso sencillo y directo.