Más del 68% de las empresas que trabajan con Big Data utilizan Apache Spark
Acelera la adopción de Spark con Scala en tu equipo con programa Online y A Medida, bonificable por FUNDAE para empresas. Solicita propuesta a medida.
Aprende a manejar Spark con Scala desde los fundamentos hasta aplicaciones avanzadas, con un enfoque práctico en la resolución de problemas reales de Big Data.
1
Desarrolla habilidades críticas para trabajar con grandes volúmenes de datos, mejorando la eficiencia y la competitividad de tu empresa en un mundo impulsado por los datos.
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
El problema del Big Data
¿Qué es Spark?
Usos de Spark en el mundo real
¿Qué es Hadoop?
HDFS
Principales comandos de HDFS
Introducción a Yarn
Instalación de Hadoop
¿Qué es HBase?
Instalación de Scala y Spark localmente
Ejecutando la consola interactiva de Spark
Configuraciones esenciales y puesta en marcha del equipo local para crear proyectos Spark con Scala
Configurando nuestro IDE: IntelliJ IDEA
Creación de un proyecto Spark desde IDEA IntelliJ
Analizando archivos principales y configuraciones por defecto
Arquitectura de los proyectos Spark
Analizando los componentes de un proyecto Spark
Ejecutando el proyecto Spark localmente
Introducción a Azure Databricks y a la creación de una cuenta gratuita
Creación de un proyecto Spark en DataBricks
Ejecutando el proyecto Spark desde Databricks
Recomendaciones en el uso de Databricks
El problema del Big Data
¿Qué es Spark?
Usos de Spark en el mundo real
¿Qué es Hadoop?
HDFS
Principales comandos de HDFS
Introducción a Yarn
Instalación de Hadoop
¿Qué es HBase?
Instalación de Scala y Spark localmente
Ejecutando la consola interactiva de Spark
Configuraciones esenciales y puesta en marcha del equipo local para crear proyectos Spark con Scala
Configurando nuestro IDE: IntelliJ IDEA
Creación de un proyecto Spark desde IDEA IntelliJ
Analizando archivos principales y configuraciones por defecto
Arquitectura de los proyectos Spark
Analizando los componentes de un proyecto Spark
Ejecutando el proyecto Spark localmente
Introducción a Azure Databricks y a la creación de una cuenta gratuita
Configuraciones esenciales y puesta en marcha del equipo local para crear proyectos Spark con Scala
Configurando nuestro IDE: IntelliJ IDEA
Creación de un proyecto Spark desde IDEA IntelliJ
Analizando archivos principales y configuraciones por defecto
Arquitectura de los proyectos Spark
Analizando los componentes de un proyecto Spark
Ejecutando el proyecto Spark localmente
Introducción a Azure Databricks y a la creación de una cuenta gratuita
Creación de un proyecto Spark en DataBricks
Ejecutando el proyecto Spark desde Databricks
Recomendaciones en el uso de Databricks
Tema 2: Fundamentos y Herramientas de Spark
Arquitectura de una aplicación Spark
Introducción a las APIs de Spark
Iniciando Spark
SparkSession
Introducción a los Dataframes
Introducción a las particiones
Introducción a las transformaciones
Ejecución de la aplicación
Transmisión estructurada
Ejecución de aplicaciones en producción
Datasets
APIs de bajo nivel
Ecosistema y paquetes de Spark
Tema 3: DataFrames, SQL y DataSets
DataFrames
DataSets
DataFrames vs DataSets
Esquemas
Columnas y filas
Tipos en Spark
Planificación lógica
Planificación física
Ejecución
Tema 4: Operaciones estructuradas
Operaciones sobre esquemas
Columnas y expresiones
Creación de filas
Creación de DataFrames
Selección con "select" y "selectExpr"
Conversión de tipos
Añadir columnas
Renombrado de columnas
"Casteo" del tipo de las columnas
Obtención de filas
Filtrado de filas
Muestreo aleatorio
Divisiones aleatorias
Uniones de filas
Aplicando límites
Ordenación de filas
Repartición y unión
Tema 5: Trabajo con tipos distintos de datos
Conversión a tipos de Spark
Trabajando con números
Trabajando con cadenas de texto
Trabajando con expresiones regulares
Trabajando con fechas y horas
Trabajando con booleanos
Trabajando con datos nulos
Trabajando con arrays, maps, estructuras y otros datos complejos
Trabajando con JSON
Ordenación de datos
Uso de funciones definidas por el usuario
Tema 6: Agregaciones y Uniones
Funciones de agregación disponibles en Spark
Agrupaciones con expresiones
Agrupaciones con maps
Agrupación de sets
Funciones ventana
Uso de funciones de agregación definidas por el usuario
Expresiones de unión (joins)
Tipos de Joins
¿Cómo realiza Spark los joins?
Tema 7: Orígenes de datos
Las bases de la API de lectura de datos
Las bases de la API de escritura de datos
Lectura y escritura de archivos CSV
Lectura y escritura de archivos JSON
Lectura y escritura de bases de datos SQL
Lectura y escritura de archivos ORC
Lectura y escritura de archivos TXT
Tema 8: Apache Spark SQL
Introducción a Spark SQL
Introducción a Apache Hive y relación con Spark
Introducción a Spark SQL CLI
Introducción a Interfaz programática de SQL de Spark
Operaciones SQL
Opciones de Entrada/Salida
Catálogo
Introducción de las tablas de Spark SQL
Creación de tablas
Creación de tablas externas
Inserción de datos en tablas
Metadatos de tablas
Borrado de tablas
Cacheado de tablas
Introducción a las vistas de Spark SQL
Creación de vistas
Borrado de vistas
Introducción a las bases de datos de Spark SQL
Creación de bases de datos
Configuración de bases de datos
Borrado de bases de datos
Selects con "case", "when" y "then"
Funciones
Tipos complejos
Subqueries
Configuraciones generales
Establecimiento de valores de configuración en SQL
Tema 9: DataSets y Resilient Distributed DataSets (RDDs)
¿Cuándo debemos usar Datasets?
Creación de DataSets
Acciones
Transformaciones, filtrado y mapeo
Joins de DataSets
Agrupaciones y agregaciones
Introducción a los RDD en Spark
Tipos de RDDs
¿Cuándo es conveniente usar RDDs?
Ventajas de DataFrames vs RDD
Creación de un RDD
Interoperabilidad entre RDDs, DataSets y DataFrames
Creación de un RDD a partir de una colección local
Creación de un RDD de distintos orígenes
Manipulación de RDDs
Transformaciones
Acciones
Guardado en archivos de texto
Guardado en archivos Hadoop
Otros tipos de guardado
Cacheo de RDDs
Establecimiento de puntos de control
RDDs numérico
Tema 10: RDD Clave-Valor
Introducción a los RDD Clave-Valor en Spark
Creación de RDD Clave-Valor
Introducción a las bases del uso de Clave-Valor
Filter
MapValue
Reduce By Key
Group By Key
Sort By Key
CoGrupos
Control de particionamiento de datos
Operaciones Join
Serialización personalizada
Tema 11: GraphX y variables compartidas distribuidas
Operadores GraphX
Usos reales de GraphX
Configuración y puesta en Marcha
Algoritmos de GraphX
Pregel API
GraphX builders
VertexRDD
EdgeRDD
Transmisión de variables
Acumuladores
Acumuladores personalizados
Tema 12: Ejecuciones de Spark en un Cluster
Modos de ejecución
Introducción al ciclo de vida de una aplicación Spark desde fuera
Fase de petición de cliente
Fases de iniciación y ejecución
Fase de terminación
Introducción al ciclo de vida de una aplicación Spark desde dentro de Spark
La sesión de Spark
Las instrucciones lógicas
La Job de Spark
Las fases
Tareas
Detalles de ejecución
Tema 13: Despliegue de aplicaciones Spark
Estructura de los proyectos
Introducción al uso de SBT
¿Dónde se pueden desplegar las aplicaciones de Spark?
Spark-Submit
On-premise Clusters vs Cloud
Empaquetado de aplicaciones
Introducción a los cluster managers
Modo Standalone
Spark con Yarn
Configuración de Spark con aplicaciones Yarn
Spark con Mesos
Configuraciones para desarrollo seguro
Configuraciones para redes de clusters
Estrategias de replicación
Recomendaciones
Creación de un cluster
Lanzamiento de trabajos
Monitorización de clusters
Particionamiento
Buenas prácticas
Tema 14: Monitorización de aplicaciones Spark
Monitorización de Spark jobs
Interfaz Web de Spark
Jobs
Stages
Almacenamiento
SQL
Visualizando aplicaciones de Spark con Interfaces web
Los logs en las aplicaciones de Spark
log4j en Spark
Tema 15: Mejoras del rendimiento de Spark, testing y debugging en Spark
Técnicas de optimización
Uso y gestión de la memoria
Almacenamiento de datos en caché de memoria
Sugerencias combinadas para consultas SQL
Ejecución de consultas adaptables
Entorno distribuido
Pruebas en un entorno distribuido
Problemas de un entorno distribuido
Testing en aplicaciones Spark
Tipos de test
Métodos de test en Spark
Debugging en aplicaciones Spark
Tema 16: Introducción al Machine Learning con Spark
Introducción a MLlib
Fundamentos de MLlib
Estimadores
Entrenamiento y evaluación
Persistencia y aplicación de modelos
Creación de un sistema de MLlib
Regresión Lineal con MLlib
Árboles de decisión
Bosques aleatorios
Dataframes con MLlib
Métricas
Tema 17: Performance Tuning
Serialización de objetos en RDD
Configuraciones de Clusters
Elección de diseño
Programación
"Shuffle" de configuraciones
Recolector de basura
Gestión de la memoria
Paralelismo
Mejoras en el filtrado
Repartición
Funciones definidas por el usuario
Cacheo de datos de forma temporal
Uniones
Agregaciones
Transmisión de variables
Tema 18: Detección de problemas y buenas prácticas
Planes de ejecución
Detectando un Shuffle en un procesamiento
Probando operaciones que puedan causar un Shuffle
Cambiando el diseño de trabajos con dependencias amplias
Usando operaciones keyBy para reducir los Shuffle
Usando particionadores personalizados
Recomendaciones de programación paralela
Inmutabilidad
Uso de lambdas
Bucles
Uso de funciones dentro de Dataframes
Tema 19: Proyecto Final
Definición del proyecto
Especificando el origen de los datos
Desarrollo de la solución con Spark
Build y despligue de la solución
Perfiles profesionales
Pensado para quienes deben dominar Spark con Scala en su día a día
Ingenieros de Datos
Buscan dominar el procesamiento y análisis de grandes volúmenes de datos en clústeres, optimizando su infraestructura.
Científicos de Datos
Necesitan implementar modelos de Machine Learning a gran escala, aprovechando la potencia de Spark.
Analistas de Datos
Deben mejorar sus habilidades para manejar y transformar datos eficientemente usando Scala en Spark.
Administradores de Sistemas
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en Spark con Scala
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
Tus empleados obtendrán conocimientos avanzados en el procesamiento de big data utilizando Apache Spark y el lenguaje de programación Scala, lo que les permitirá manejar grandes volúmenes de datos de manera eficiente y desarrollar soluciones de datos rápidas y escalables.
Sí, el curso puede ser 100% bonificado a través de FUNDAE, lo cual significa que tu empresa puede recuperar el coste de la formación empleando los créditos de formación de los que disponga.
Este curso se puede impartir en dos modalidades: online y en aula virtual personalizada (videoconferencia en tiempo real, síncrono y a través de Zoom, con un temario, fechas, horarios y proyectos desarrollados a medida). Ambas modalidaes son hasta 100% bonificables a través de FUNDAE.
Los participantes desarrollarán habilidades en procesamiento de datos a gran escala con Apache Spark, programación en Scala, manejo de grandes volúmenes de datos, optimización de consultas y desarrollo de aplicaciones de big data robustas.
Puedes inscribir a tus empleados contactando con nosotros a través del formulario de inscripción en nuestra web o mediante correo electrónico. También ofrecemos asistencia personalizada para gestionar la bonificación a través de FUNDAE.
Tus empleados obtendrán conocimientos avanzados en el procesamiento de big data utilizando Apache Spark y el lenguaje de programación Scala, lo que les permitirá manejar grandes volúmenes de datos de manera eficiente y desarrollar soluciones de datos rápidas y escalables.
Sí, el curso puede ser 100% bonificado a través de FUNDAE, lo cual significa que tu empresa puede recuperar el coste de la formación empleando los créditos de formación de los que disponga.
Este curso se puede impartir en dos modalidades: online y en aula virtual personalizada (videoconferencia en tiempo real, síncrono y a través de Zoom, con un temario, fechas, horarios y proyectos desarrollados a medida). Ambas modalidaes son hasta 100% bonificables a través de FUNDAE.
Los participantes desarrollarán habilidades en procesamiento de datos a gran escala con Apache Spark, programación en Scala, manejo de grandes volúmenes de datos, optimización de consultas y desarrollo de aplicaciones de big data robustas.
Puedes inscribir a tus empleados contactando con nosotros a través del formulario de inscripción en nuestra web o mediante correo electrónico. También ofrecemos asistencia personalizada para gestionar la bonificación a través de FUNDAE.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
Aumenta la capacidad de innovación de tu equipo con el uso de herramientas de procesamiento en tiempo real, esenciales para crecer en un entorno cada vez más digital.
3
Curso diseñado para empresas, con un enfoque en el despliegue de aplicaciones y soluciones efectivas en clusters, proporcionando un retorno de inversión tangible desde el primer momento.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras
A continuación te mostramos las próximas convocatorias disponibles de nuestras formaciones online. Si te interesa realizar una formación a medida para un grupo de trabajadores, puedes solicitar un Aula Virtual Personalizada.