Empresas como Uber, Netflix o Airbnb impulsan sus datos con Apache Spark
Acelera la adopción de Spark en tu equipo con un curso A Medida en streaming y rendimiento, tutorizado y bonificable por FUNDAE para empresas. Contáctanos.
Aprende desde cero hasta un nivel experto en Spark, uno de los motores de análisis de datos distribuidos más potentes, usado por las empresas más innovadoras del mundo.
1
Mejora la eficiencia de tus proyectos dominando la gestión de datos masivos, optimizando así los recursos y el tiempo en tus procesos de análisis empresarial.
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Trabajando con arrays, maps, estructuras y otros datos complejos
Trabajando con JSON
Ordenación de datos
Uso de funciones definidas por el usuario
Tema 7: Agregaciones y Uniones
Funciones de agregación disponibles en Spark
Agrupaciones con expresiones
Agrupaciones con maps
Agrupación de sets
Funciones ventana
Uso de funciones de agregación definidas por el usuario
Expresiones de unión (joins)
Tipos de Joins
¿Cómo realiza Spark los joins?
Tema 8: Orígenes de datos
Las bases de la API de lectura de datos
Las bases de la API de escritura de datos
Lectura y escritura de archivos CSV
Lectura y escritura de archivos JSON
Lectura y escritura de bases de datos SQL
Lectura y escritura de archivos ORC
Lectura y escritura de archivos TXT
Tema 9: Apache Spark SQL
Introducción a Spark SQL
Introducción a Apache Hive y relación con Spark
Introducción a Spark SQL CLI
Introducción a Interfaz programática de SQL de Spark
Operaciones SQL
Opciones de Entrada/Salida
Catálogo
Introducción de las tablas de Spark SQL
Creación de tablas
Creación de tablas externas
Inserción de datos en tablas
Metadatos de tablas
Borrado de tablas
Cacheado de tablas
Introducción a las vistas de Spark SQL
Creación de vistas
Borrado de vistas
Introducción a las bases de datos de Spark SQL
Creación de bases de datos
Configuración de bases de datos
Borrado de bases de datos
Selects con "case", "when" y "then"
Funciones
Tipos complejos
Subqueries
Configuraciones generales
Establecimiento de valores de configuración en SQL
Tema 10: DataSets
¿Cuándo debemos usar Datasets?
Creación de DataSets
Acciones
Transformaciones, filtrado y mapeo
Joins de DataSets
Agrupaciones y agregaciones
Tema 11: Resilient Distributed DataSets (RDDs)
Introducción a los RDD en Spark
Tipos de RDDs
¿Cuándo es conveniente usar RDDs?
Ventajas de DataFrames vs RDD
Creación de un RDD
Interoperabilidad entre RDDs, DataSets y DataFrames
Creación de un RDD a partir de una colección local
Creación de un RDD de distintos orígenes
Manipulación de RDDs
Transformaciones
Acciones
Guardado en archivos de texto
Guardado en archivos Hadoop
Otros tipos de guardado
Cacheo de RDDs
Establecimiento de puntos de control
RDDs numérico
Tema 12: RDD Clave-Valor
Introducción a los RDD Clave-Valor en Spark
Creación de RDD Clave-Valor
Introducción a las bases del uso de Clave-Valor
Filter
MapValue
Reduce By Key
Group By Key
Sort By Key
CoGrupos
Control de particionamiento de datos
Operaciones Join
Serialización personalizada
Tema 13: GraphX (Solo con Scala)
Operadores GraphX
Usos reales de GraphX
Configuración y puesta en Marcha
Algoritmos de GraphX
Pregel API
GraphX builders
VertexRDD
EdgeRDD
Buenas Prácticas
Tema 14: Variables compartidas distribuidas
Transmisión de variables
Acumuladores
Acumuladores personalizados
Tema 15: Ejecuciones de Spark en un Cluster
Modos de ejecución
Introducción al ciclo de vida de una aplicación Spark desde fuera
Fase de petición de cliente
Fases de iniciación y ejecución
Fase de terminación
Introducción al ciclo de vida de una aplicación Spark desde dentro de Spark
La sesión de Spark
Las instrucciones lógicas
La Job de Spark
Las fases
Tareas
Detalles de ejecución
Tema 16: Despliegue de aplicaciones Spark
Estructura de los proyectos
SBT (Solo con Scala)
¿Dónde se pueden desplegar las aplicaciones de Spark?
Spark-Submit
On-premise Clusters vs Cloud
Empaquetado de aplicaciones
Introducción a los cluster managers
Modo Standalone
Spark con Yarn
Configuración de Spark con aplicaciones Yarn
Spark con Mesos
Configuraciones para desarrollo seguro
Configuraciones para redes de clusters
Estrategias de replicación
Recomendaciones
Creación de un cluster
Lanzamiento de trabajos
Monitorización de clusters
Particionamiento
Buenas prácticas
Tema 17: Monitorización
Monitorización de Spark jobs
Interfaz Web de Spark
Jobs
Stages
Almacenamiento
SQL
Visualizando aplicaciones de Spark con Interfaces web
Los logs en las aplicaciones de Spark
log4j en Spark
Tema 18: Mejoras del rendimiento
Técnicas de optimización
Uso y gestión de la memoria
Almacenamiento de datos en caché de memoria
Sugerencias combinadas para consultas SQL
Ejecución de consultas adaptables
Tema 19: Testing y debugging
Entorno distribuido
Pruebas en un entorno distribuido
Problemas de un entorno distribuido
Testing en aplicaciones Spark
Tipos de test
Métodos de test en Spark
Debugging en aplicaciones Spark
Tema 20: Introducción al Machine Learning con Spark
Introducción a MLlib
Fundamentos de MLlib
Estimadores
Entrenamiento y evaluación
Persistencia y aplicación de modelos
Creación de un sistema de MLlib
Regresión Lineal con MLlib
Árboles de decisión
Bosques aleatorios
Dataframes con MLlib
Métricas
Tema 21: Detección de problemas
Planes de ejecución
Detectando un Shuffle en un procesamiento
Probando operaciones que puedan causar un Shuffle
Cambiando el diseño de trabajos con dependencias amplias
Usando operaciones keyBy para reducir los Shuffle
Usando particionadores personalizados
Tema 22: Performance Tuning
Serialización de objetos en RDD
Configuraciones de Clusters
Elección de diseño
Programación
"Shuffle" de configuraciones
Recolector de basura
Gestión de la memoria
Paralelismo
Mejoras en el filtrado
Repartición
Funciones definidas por el usuario
Cacheo de datos de forma temporal
Uniones
Agregaciones
Transmisión de variables
Tema 23: Buenas prácticas y especificaciones de lenguajes
Recomendaciones de programación paralela
Inmutabilidad
Uso de lambdas
Bucles
Uso de funciones dentro de Dataframes
Especificaciones y diferencias de PySpark (Solo con Python)
Integración con Pandas (Solo con Python)
Especificaciones y diferencias de R con Spark
Perfiles profesionales
Pensado para quienes deben dominar Spark en su día a día
Desarrolladores de Backend
Quieren dominar el procesamiento de datos masivos con Spark, optimizando el rendimiento en sus aplicaciones empresariales.
Científicos de Datos
Necesitan manejar grandes volúmenes de datos y aplicar modelos de Machine Learning en Spark para obtener insights empresariales.
Ingenieros de Datos
Desean mejorar sus habilidades en la gestión y orquestación de clústeres, aprovechando la potencia de Spark para procesar grandes conjuntos de datos.
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en Spark
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
El curso de Apache Spark te capacitará para manejar grandes volúmenes de datos de manera eficiente. Aprenderás a utilizar estructuras de datos distribuidas, ejecutar aplicaciones en clústeres y aplicar técnicas de procesamiento en tiempo real. Esto mejorará tus competencias en el ámbito del análisis de datos y aumentará tus posibilidades de éxito en proyectos de big data dentro de tu empresa.
Sí, el curso de Apache Spark es bonificable a través de FUNDAE. Las empresas pueden beneficiarse de los créditos disponibles para la formación de sus empleados, lo que puede cubrir hasta el 100% del coste del curso. Si gestionamos la bonificación, aplicamos un cargo extra del 10% del valor del curso + IVA, el cual también es bonificable.
El curso de Apache Spark se imparte en modalidad de aula virtual personalizada, utilizando Zoom para las videoconferencias. Esta modalidad permite la interacción en tiempo real con el formador y acceso a las grabaciones, facilitando tanto el aprendizaje como la gestión del tiempo.
Con el curso de Apache Spark, desarrollarás habilidades para trabajar con datos a gran escala, aplicar transformaciones y acciones en RDDs, DataFrames y DataSets, y ejecutar procesos distribuidos. También ganarás experiencia en el despliegue de aplicaciones y la optimización del rendimiento en clusters.
Puedes inscribirte en el curso de Apache Spark completando el formulario de inscripción disponible en nuestra página web. Es importante proporcionar toda la información requerida para asegurarnos de que tu inscripción se procese de manera adecuada y eficiente.
El curso de Apache Spark te capacitará para manejar grandes volúmenes de datos de manera eficiente. Aprenderás a utilizar estructuras de datos distribuidas, ejecutar aplicaciones en clústeres y aplicar técnicas de procesamiento en tiempo real. Esto mejorará tus competencias en el ámbito del análisis de datos y aumentará tus posibilidades de éxito en proyectos de big data dentro de tu empresa.
Sí, el curso de Apache Spark es bonificable a través de FUNDAE. Las empresas pueden beneficiarse de los créditos disponibles para la formación de sus empleados, lo que puede cubrir hasta el 100% del coste del curso. Si gestionamos la bonificación, aplicamos un cargo extra del 10% del valor del curso + IVA, el cual también es bonificable.
El curso de Apache Spark se imparte en modalidad de aula virtual personalizada, utilizando Zoom para las videoconferencias. Esta modalidad permite la interacción en tiempo real con el formador y acceso a las grabaciones, facilitando tanto el aprendizaje como la gestión del tiempo.
Con el curso de Apache Spark, desarrollarás habilidades para trabajar con datos a gran escala, aplicar transformaciones y acciones en RDDs, DataFrames y DataSets, y ejecutar procesos distribuidos. También ganarás experiencia en el despliegue de aplicaciones y la optimización del rendimiento en clusters.
Puedes inscribirte en el curso de Apache Spark completando el formulario de inscripción disponible en nuestra página web. Es importante proporcionar toda la información requerida para asegurarnos de que tu inscripción se procese de manera adecuada y eficiente.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
Amplía tus competencias profesionales y aumenta tus oportunidades laborales en el campo del Big Data, un sector en constante crecimiento y demanda.
3
Adquiere experiencia práctica y aplicable en entornos empresariales reales, garantizando que puedas implementar soluciones efectivas desde el primer día.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras