Despliega Spark con Python A Medida para tu equipo, Structured Streaming, SQL y MLlib, optimizando procesos y bonificable por FUNDAE. Pide información.
Enfoque Productivo Real Preparado para entornos empresariales y despliegue en producción.
1
Dominio de Optimización Profundiza en tuning y rendimiento para grandes volúmenes de datos.
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Tema 1: Fundamentos de Big Data y Computación Distribuida
Qué es Big Data
Limitaciones del procesamiento tradicional
Procesamiento distribuido
Clústeres y nodos
Modelo MapReduce
Evolución hacia Spark
Concepto de paralelismo
Arquitectura maestro-esclavo
Almacenamiento distribuido
Ecosistema Hadoop
Tema 2: Arquitectura Interna de Apache Spark
Driver y Executors
Cluster Manager
DAG Scheduler
Task Scheduler
Particiones
Jobs, stages y tasks
Lazy evaluation
Lineage
Fault tolerance
Modelo de ejecución distribuido
Tema 3: Instalación y Configuración de PySpark
Instalación local
Variables de entorno
Ejecución en modo local
Configuración de SparkSession
Integración con Jupyter
Configuración de memoria
Logging y debugging
Configuración en clúster
Uso con Docker
Buenas prácticas de entorno
Tema 4: Spark Core y RDD en PySpark
Concepto de RDD
Creación de RDD
Transformaciones
Acciones
Narrow vs wide transformations
Persistencia y cache
Repartition y coalesce
Broadcast variables
Accumulators
Gestión de particiones
Tema 5: Operaciones Avanzadas con RDD
mapPartitions
reduceByKey
groupByKey
combineByKey
join en RDD
Sorting distribuido
Optimización de particionado
Persistencia selectiva
Manejo de errores
Patrones avanzados de RDD
Tema 6: DataFrames en PySpark
Concepto de DataFrame
Esquemas
Lectura de datos
Escritura de datos
Transformaciones
Filtrado
Agregaciones
Column expressions
Funciones integradas
Optimización automática
Tema 7: Spark SQL
SparkSession y SQLContext
Creación de vistas temporales
Ejecución de consultas SQL
Funciones SQL
Joins avanzados
Subqueries
Window functions
UDF en PySpark
Catalyst Optimizer
Tungsten execution engine
Tema 8: Manejo de Datos Estructurados y No Estructurados
Lectura de CSV
Lectura de JSON
Lectura de Parquet
Lectura de ORC
Manejo de datos anidados
Normalización de estructuras
Conversión de tipos
Manejo de datos corruptos
Schema inference
Optimización de formatos
Tema 9: Integración con Almacenamiento Distribuido
HDFS
S3
Azure Data Lake
Google Cloud Storage
JDBC
Bases de datos relacionales
Conectores externos
Configuración de credenciales
Seguridad en accesos
Buenas prácticas de almacenamiento
Tema 10: Optimización y Rendimiento
Gestión de particiones
Evitar shuffle innecesario
Broadcast join
Ajuste de memoria
Spark UI
Monitoreo de jobs
Diagnóstico de cuellos de botella
Ajuste de paralelismo
Configuración avanzada
Buenas prácticas de tuning
Tema 11: Structured Streaming en PySpark
Concepto de streaming estructurado
Fuentes de datos en streaming
Kafka integration
File stream
Micro-batching
Watermarking
Windowed aggregations
Output modes
Checkpointing
Manejo de fallos
Tema 12: Procesamiento en Tiempo Real
Integración con Kafka
Transformaciones en streaming
Agregaciones en tiempo real
Manejo de estados
Latencia y throughput
Escalabilidad
Gestión de offsets
Monitorización
Recuperación ante fallos
Casos reales de uso
Tema 13: Machine Learning con MLlib
Arquitectura MLlib
Pipeline API
Transformadores
Estimadores
Feature engineering
Scaling y normalización
Split de datos
Evaluación de modelos
Persistencia de modelos
Integración con DataFrames
Tema 14: Modelos Supervisados
Regresión lineal
Regresión logística
Árboles de decisión
Random Forest
Gradient Boosted Trees
Clasificación multiclase
Evaluación de métricas
Cross-validation
Hyperparameter tuning
Interpretación de resultados
Tema 15: Modelos No Supervisados
KMeans
Clustering jerárquico
PCA
ALS para recomendación
Análisis de componentes
Reducción de dimensionalidad
Métricas de clustering
Optimización de parámetros
Persistencia de modelos
Casos prácticos
Tema 16: Procesamiento de Grafos con GraphFrames
Conceptos de grafos
Nodes y edges
Creación de GraphFrames
Consultas sobre grafos
PageRank
Connected components
Motif finding
Análisis de redes
Integración con DataFrames
Casos de análisis relacional
Tema 17: Seguridad en Spark
Autenticación
Autorización
Control de accesos
Cifrado de datos
Seguridad en clúster
Configuración segura
Protección de credenciales
Auditoría
Buenas prácticas
Cumplimiento normativo
Tema 18: Despliegue en Producción
spark-submit
Configuración en clúster
Uso con YARN
Uso con Kubernetes
Logging en producción
Monitorización continua
Gestión de dependencias
Versionado de pipelines
Automatización de jobs
Integración CI/CD
Tema 19: Integración con Ecosistema Python
Pandas UDF
Arrow optimization
Interoperabilidad con pandas
Uso con scikit-learn
Integración con TensorFlow
Visualización de datos
Serialización de objetos
Manejo de dependencias
Optimización de UDF
Limitaciones conocidas
Tema 20: Buenas Prácticas y Patrones de Diseño
Arquitectura de pipelines
Modularización
Reutilización de código
Testing en PySpark
Versionado de datos
Manejo de errores
Logging estructurado
Documentación
Escalabilidad
Mantenimiento a largo plazo
Tema 21: Proyecto Final Integral
Diseño de pipeline distribuido
Ingesta masiva de datos
Transformación avanzada
Análisis con Spark SQL
Modelo ML distribuido
Streaming en tiempo real
Optimización de rendimiento
Despliegue en clúster
Monitorización
Documentación técnica completa
Perfiles profesionales
Pensado para quienes deben dominar Spark con Python en su día a día
Ingenieros de Datos
Profesionales que diseñan y mantienen pipelines de datos masivos y requieren dominio completo de Spark con Python.
Científicos de Datos
Perfiles que trabajan con análisis avanzado y modelos distribuidos en grandes volúmenes de datos.
Arquitectos Big Data
Profesionales que diseñan soluciones distribuidas y necesitan comprender arquitectura y optimización interna de Spark.
Equipos de Analítica Avanzada
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en Spark con Python
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
Sí, cubre Spark Core, Spark SQL, DataFrames, MLlib, Structured Streaming y procesamiento de grafos accesibles desde Python.
Sí, es bonificable HASTA el 100% a través de FUNDAE, permitiendo a la empresa financiar la formación con su crédito formativo.
No, el curso está diseñado exclusivamente para trabajar con PySpark sin necesidad de utilizar Scala.
Sí, se cubre ejecución local y despliegue en entornos distribuidos como YARN o Kubernetes.
Sí, el proyecto final integra procesamiento masivo, ML y streaming en un caso completo de extremo a extremo.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras