Envíanos tu consulta
Términos y condiciones *
*Si no puedes asistir en directo te facilitaremos un enlace para verlo en diferido
logoImagina
Formación
Modalidades
Próximas Convocatorias
Temario
FAQ
Solicitar información
iconoCurso

Curso de Databricks: Gestión y Análisis de Grandes Volúmenes de Datos

DISPONIBLE EN MODALIDAD:
aMedidaIcon
Aula Virtual Personalizada
arrowRightDark

Este curso te permitirá dominar Databricks, una de las plataformas más potentes para la gestión de Big Data y machine learning. Aprenderás desde la configuración del entorno en la nube hasta la implementación de pipelines de datos y modelos avanzados, garantizando un conocimiento práctico aplicable en entornos empresariales.

iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient

Formación en Databricks: Gestión y Análisis de Grandes Volúmenes de Datos bonificable para empresas

A quién va dirigido nuestro curso de Databricks: Gestión y Análisis de Grandes Volúmenes de Datos

Ingenieros de datos, analistas de datos y científicos de datos interesados en gestionar, procesar y analizar grandes volúmenes de datos con Databricks.

Objetivos de nuestro curso de Databricks: Gestión y Análisis de Grandes Volúmenes de Datos

  • Comprender los conceptos fundamentales y la arquitectura de Databricks.
  • Configurar y gestionar entornos Databricks en la nube.
  • Implementar pipelines de datos con Apache Spark en Databricks.
  • Diseñar y ejecutar modelos avanzados de machine learning utilizando Databricks.
  • Optimizar y monitorear procesos en entornos distribuidos.

Qué vas a aprender en nuestro curso de Databricks: Gestión y Análisis de Grandes Volúmenes de Datos

Este curso te permitirá dominar Databricks, una de las plataformas más potentes para la gestión de Big Data y machine learning. Aprenderás desde la configuración del entorno en la nube hasta la implementación de pipelines de datos y modelos avanzados, garantizando un conocimiento práctico aplicable en entornos empresariales.

Requisitos de nuestro curso de Databricks: Gestión y Análisis de Grandes Volúmenes de Datos

  • Conocimientos previos: Fundamentos de Big Data y Apache Spark y experiencia desarrollando con Python y Scala, fundamentos de SQL y procesamiento distribuido.
  • Acceso a una cuenta con suscripción activa de Databricks Workspace y una cuenta con licencia activa en una plataforma cloud compatible con Databricks (AWS, Azure o GCP) con recursos donde poder crear clústers y tener acceso a bases de datos que poder emplear durate la formación.
  • Tener un equipo con acceso a un usuario con permisos de instalación, conexión estable a Internet, CPU multinúcleo (mínimo 4 núcleos), mínimo 16 GB de RAM para máquinas virtuales y un espacio de almacenamiento libre mínimo de 100 GB.
  • Tener instaladas previamente en el equipo CLI y SDK de Databricks.

Temario del curso de Databricks: Gestión y Análisis de Grandes Volúmenes de Datos

tema 1

Introducción a Databricks

  • Historia y evolución de Databricks
  • Relación entre Apache Spark y Databricks
  • Casos de uso en la industria
  • Ventajas de Databricks frente a otras plataformas
  • Introducción al entorno Databricks Workspace
  • Componentes principales: Clusters, Jobs y Notebooks
  • Acceso y navegación en la interfaz web de Databricks
  • Configuración inicial en la nube
  • Diferencias entre Databricks en AWS, Azure y GCP
  • Primeros pasos con Databricks Community Edition
iconArrowDown
tema 2

Arquitectura de Databricks

  • Introducción a la arquitectura distribuida
  • Clusters y su configuración
  • Driver y ejecutores en Apache Spark
  • Funciones del Databricks Runtime
  • Integración con sistemas de almacenamiento en la nube
  • Funcionamiento de pipelines en tiempo real y batch
  • Optimización de la comunicación entre nodos
  • Escalabilidad horizontal y vertical
  • Resiliencia y tolerancia a fallos
  • Monitoreo de recursos y métricas
iconArrowDown
tema 3

Configuración del entorno Databricks

  • Creación de un Databricks Workspace.
  • Configuración de clusters de Apache Spark
  • Uso de Databricks CLI y REST API
  • Manejo de versiones del Databricks Runtime
  • Configuración de bibliotecas y dependencias
  • Conexión a bases de datos externas
  • Integración con Data Lake y sistemas de almacenamiento
  • Configuración de acceso y permisos
  • Manejo de usuarios y roles en Databricks
  • Ejecución de tareas automatizadas
iconArrowDown
tema 4

Procesamiento de datos con Apache Spark en Databricks

  • Introducción a Spark SQL
  • Lectura y escritura de datos en formatos comunes (CSV, JSON, Parquet)
  • Manejo de DataFrames y Datasets
  • Transformaciones y acciones en Apache Spark
  • Optimización de consultas con Catalyst Optimizer
  • Configuración de particiones para eficiencia
  • Uso de funciones UDF y UDAF en Spark
  • Integración con Delta Lake para gestión de datos
  • Procesamiento de datos en streaming
  • Escenarios prácticos de procesamiento en batch y real-time
iconArrowDown
tema 5

Integración con Delta Lake

  • Introducción a Delta Lake como capa de almacenamiento
  • Creación de tablas Delta en Databricks
  • Ventajas del formato Delta frente a otros formatos
  • Implementación de transacciones ACID
  • Manejo de versiones de datos (Time Travel)
  • Uso de Merge para actualizaciones incrementales
  • Optimizaciones con Z-Order Clustering
  • Manejo de datos históricos y particionados
  • Configuración de Delta Sharing para compartir datos
  • Escenarios prácticos con Delta Lake
iconArrowDown
tema 6

Integración con herramientas de visualización

  • Introducción a herramientas de visualización soportadas
  • Conexión de Databricks con Tableau
  • Uso de Power BI con Databricks
  • Creación de gráficos dentro de Notebooks
  • Exportación de resultados a sistemas externos
  • Configuración de Dashboards en Databricks
  • Análisis en tiempo real con Databricks SQL
  • Mejores prácticas para la presentación de datos
  • Automatización de reportes visuales.
  • Ejercicios prácticos con visualización integrada.
iconArrowDown
tema 7

Machine Learning en Databricks

  • Introducción a MLlib de Apache Spark
  • Procesamiento de datos para machine learning
  • Creación de modelos supervisados y no supervisados
  • Uso de AutoML en Databricks
  • Configuración y entrenamiento de modelos con TensorFlow y PyTorch
  • Validación y evaluación de modelos
  • Implementación de pipelines de machine learning
  • Integración con MLflow para tracking de modelos
  • Despliegue de modelos en entornos de producción
  • Escenarios prácticos de machine learning
iconArrowDown
tema 8

Gestión de almacenamiento en Databricks

  • Integración con Amazon S3, Azure Blob y Google Cloud Storage
  • Configuración de rutas y permisos
  • Uso eficiente de Data Lake Storage
  • Optimización del almacenamiento con Delta Lake
  • Manejo de datos no estructurados
  • Configuración de sistemas distribuidos
  • Análisis del uso de almacenamiento
  • Diagnóstico y solución de problemas de almacenamiento
  • Encriptación de datos en reposo
  • Prácticas recomendadas para la gestión de datos
iconArrowDown
tema 9

Seguridad en Databricks

  • Mecanismos de seguridad en entornos cloud
  • Configuración de autenticación y autorización
  • Gestión de accesos y roles
  • Implementación de cifrado en datos sensibles
  • Uso de conexiones seguras con TLS/SSL
  • Monitoreo de accesos y actividades en Databricks
  • Gestión de datos sensibles con Delta Lake
  • Cumplimiento de normativas de protección de datos
  • Auditoría y monitoreo de seguridad
  • Prácticas recomendadas para entornos empresariales
iconArrowDown
tema 10

Optimización de rendimiento en Databricks

  • Configuración avanzada de clusters
  • Optimización de tareas en Apache Spark
  • Uso de Spark UI para diagnóstico
  • Ajustes de memoria y almacenamiento
  • Optimización de queries en Databricks SQL
  • Reducción de costos en entornos cloud
  • Monitoreo de métricas clave con herramientas externas
  • Estrategias de escalado automático
  • Identificación de cuellos de botella
  • Prácticas recomendadas para un rendimiento óptimo
iconArrowDown
tema 11

Monitorización y métricas en Databricks

  • Introducción al monitoreo en tiempo real
  • Configuración de herramientas de monitoreo
  • Integración con Grafana y Prometheus
  • Monitoreo de métricas clave de clusters
  • Análisis de logs y eventos en Databricks
  • Creación de alertas personalizadas
  • Dashboards para la supervisión de tareas
  • Identificación de patrones de uso
  • Solución de problemas comunes
  • Escenarios prácticos de monitoreo avanzado
iconArrowDown
tema 12

Gestión de costos en Databricks

  • Introducción a los costos en entornos cloud
  • Configuración de clusters para eficiencia económica
  • Monitoreo de costos por recurso
  • Estrategias para reducir costos en Databricks
  • Optimización de tareas de Spark en clusters
  • Uso de instancias spot o preemptibles
  • Ajustes automáticos de escalabilidad
  • Métricas para la gestión de costos
  • Reportes automatizados de consumo
  • Casos prácticos de reducción de costos
iconArrowDown
tema 13

Proyecto final: Implementación de un flujo de datos avanzado

  • Configuración de un pipeline completo en Databricks
  • Ingestión de datos desde múltiples fuentes
  • Procesamiento de datos en batch y en streaming
  • Optimización de queries y almacenamiento
  • Entrenamiento y despliegue de un modelo de machine learning
  • Visualización de resultados con Power BI
  • Implementación de medidas de seguridad en el pipeline
  • Monitoreo del rendimiento del proyecto
  • Documentación y presentación del flujo implementado
  • Validación del proyecto frente a casos de uso reales
iconArrowDown