Envíanos tu consulta
Términos y condiciones *
logoImagina
Formación
Modalidades
Próximas Convocatorias
Temario
FAQ
Solicitar información
iconoCurso

Curso de Apache Druid

DISPONIBLE EN MODALIDAD:
aMedidaIcon
Aula Virtual Personalizada
arrowRightDark

Este curso te enseña a implementar y utilizar Apache Druid, una plataforma distribuida para análisis en tiempo real de grandes volúmenes de datos. Ideal para analistas e ingenieros de datos, aprenderás a configurar entornos, ejecutar consultas avanzadas y optimizar tu infraestructura para un rendimiento óptimo. ¡Descubre el poder del análisis en tiempo real con Druid!

iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient

Formación en Apache Druid bonificable para empresas

A quién va dirigido nuestro curso de Apache Druid

Analistas de datos, ingenieros de datos y arquitectos de software interesados en procesar y analizar datos masivos en tiempo real.

Objetivos de nuestro curso de Apache Druid

  • Comprender la arquitectura y funcionamiento de Apache Druid para procesar grandes volúmenes de datos.
  • Configurar y desplegar un entorno funcional de Apache Druid desde cero.
  • Diseñar y ejecutar consultas eficientes para análisis en tiempo real.
  • Integrar Apache Druid con herramientas populares de ingestión y visualización de datos.
  • Implementar prácticas de optimización y monitoreo para entornos de producción.

Qué vas a aprender en nuestro curso de Apache Druid

Este curso te enseña a implementar y utilizar Apache Druid, una plataforma distribuida para análisis en tiempo real de grandes volúmenes de datos. Ideal para analistas e ingenieros de datos, aprenderás a configurar entornos, ejecutar consultas avanzadas y optimizar tu infraestructura para un rendimiento óptimo. ¡Descubre el poder del análisis en tiempo real con Druid!

Requisitos de nuestro curso de Apache Druid

  • Experiencia y conocimientos fundamentales de SQL, bases de datos relacionales y no relacionales, además de nociones acerca de sistemas distribuidos y análisis de datos.
  • Requisitos técnicos: CPU multinúcleo (mínimo 8 núcleos). 16 GB de RAM como mínimo. 200 GB de almacenamiento libre en disco SSD. Sistema Operativo: Linux (Ubuntu 20.04 o superior) o macOS. Permisos requeridos: Acceso de administrador para instalar software y configurar redes en el sistema operativo.
  • Instalaciones necesarias: Docker 20.10+, Java 11+, Apache Druid 25.0.0.
  • Acceso a un entorno de red para el despliegue distribuido.

Temario del curso de Apache Druid

tema 1

Introducción a Apache Druid

  • Conceptos básicos de Apache Druid
  • Casos de uso en tiempo real
  • Comparativa con otras herramientas de análisis masivo
  • Componentes principales de Druid
  • Instalación y configuración básica
  • Arquitectura de almacenamiento y procesamiento
  • Roles clave en un clúster de Druid
  • Cómo se manejan las consultas en Druid
  • Tipos de datos soportados
  • Primer vistazo a la consola web de Druid
iconArrowDown
tema 2

Casos de uso y beneficios de Apache Druid

  • Aplicaciones en análisis de streaming
  • Uso en empresas de tecnología y retail
  • Implementación en sistemas financieros
  • Comparativa con Snowflake y ClickHouse
  • Análisis de datos geoespaciales
  • Reducción de latencias en dashboards
  • Optimización de recursos en clusters
  • Escenarios de alta concurrencia
  • Casos de estudio de la industria
  • Beneficios para usuarios finales
iconArrowDown
tema 3

Arquitectura de Apache Druid

  • Arquitectura distribuida y escalable
  • Componentes: Overlord, MiddleManager, Historical y Broker
  • Funcionamiento del DataNode y Metastore
  • Coordinador y balanceo de datos
  • Optimización de particiones y segmentaciones
  • Procesamiento en memoria y almacenamiento persistente
  • Funcionamiento de consultas en tiempo real y batch
  • Manejo de tolerancia a fallos en el clúster
  • Escalabilidad horizontal y vertical
  • Integración con sistemas de monitoreo
iconArrowDown
tema 4

Ingestión de datos en Druid

  • Procesos de ingestión en tiempo real vs. batch
  • Tipos de conectores de ingestión
  • Integración con Apache Kafka y Apache Hadoop
  • Creación de esquemas de ingestión
  • Transformaciones y filtros durante la ingestión
  • Configuración de ingestion tasks en la consola
  • Optimización de procesos de ingestión
  • Manejo de datos con tiempo no lineal
  • Consideraciones sobre fuentes de datos externas
  • Automatización de procesos de ingestión
iconArrowDown
tema 5

Diseño de esquemas de datos en Druid

  • Planificación de segmentaciones de datos
  • Configuración de time granularity
  • Uso de índices inversos
  • Ventajas de las dimensiones preagregadas
  • Transformaciones y cálculos durante la ingestión
  • Esquemas dinámicos vs. estáticos
  • Definición de data sources múltiples
  • Normalización vs. desnormalización en Druid
  • Relación entre dimensiones y métricas
  • Herramientas para validar esquemas
iconArrowDown
tema 6

Diseño de consultas en Druid

  • Introducción a Druid SQL
  • Consultas OLAP vs. OLTP en Druid
  • Funciones avanzadas de agregación y filtrado
  • Ejecución de consultas en tiempo real
  • Optimización de consultas mediante índices
  • Uso de funciones JSON y arreglos
  • Consultas jerárquicas y drilling down
  • Exportación de datos y resultados
  • Errores comunes en consultas y cómo evitarlos
  • Benchmarks de rendimiento en consultas
iconArrowDown
tema 7

Seguridad en Apache Druid

  • Introducción a los mecanismos de seguridad en Druid
  • Configuración de autenticación y autorización
  • Gestión de usuarios y roles
  • Prácticas recomendadas para datos sensibles
  • Configuración de acceso a clústeres
  • Implementación de TLS/SSL en conexiones
  • Auditoría de actividades en Druid
  • Monitorización de accesos y uso del sistema
  • Copias de seguridad y recuperación ante fallos
  • Integración con sistemas de autenticación externos (LDAP, OAuth)
iconArrowDown
tema 8

Optimización del rendimiento de Druid

  • Configuración avanzada de índices
  • Uso eficiente del almacenamiento en segmentos
  • Ajustes de caching y memoria
  • Escalado eficiente del clúster
  • Monitoreo de métricas clave con Grafana y Prometheus
  • Identificación y resolución de cuellos de botella
  • Optimización de ingestión para datos masivos
  • Consideraciones sobre hardware y red
  • Balanceo de cargas entre nodos
  • Migración y actualización del clúster
iconArrowDown
tema 9

Monitorización y métricas en Apache Druid

  • Introducción a las métricas clave en Druid
  • Configuración de herramientas de monitoreo
  • Integración con Prometheus y Grafana
  • Alertas personalizadas para operaciones críticas
  • Identificación de patrones de uso y cuellos de botella
  • Análisis de logs para resolución de problemas
  • Métricas para optimización de consultas
  • Monitorización de ingestión de datos
  • Prácticas recomendadas de monitoreo
  • Creación de dashboards personalizados
iconArrowDown
tema 10

Escalabilidad y clustering avanzado

  • Configuración de un clúster distribuido
  • Balanceo de carga entre nodos
  • Configuración de autoescalado con Kubernetes
  • Estrategias de partición de datos
  • Migración de datos entre clústeres
  • Gestión de múltiples data sources
  • Configuración avanzada de históricos y brokers
  • Adaptación de nodos según uso
  • Integración con soluciones de escalabilidad en la nube
  • Optimización del costo en infraestructuras escalables
iconArrowDown
tema 11

Integración con herramientas externas

  • Integración con herramientas de visualización como Tableau y Superset
  • Conexión con herramientas de ingestión: Kafka y Pulsar
  • Uso de API REST de Druid para consultas
  • Integración con bibliotecas de Python para análisis
  • Exportación de datos a sistemas externos
  • Casos de uso con sistemas de notificación y alerta
  • Conexión con plataformas cloud (AWS, GCP, Azure)
  • Configuración de autenticación para integraciones
  • Consideraciones de seguridad en integraciones
  • Automatización de pipelines con Apache Airflow
iconArrowDown
tema 12

Proyecto final: Implementación de un sistema de análisis en tiempo real

  • Configuración de un clúster de Apache Druid desde cero
  • Ingestión de datos de un flujo en tiempo real con Kafka
  • Diseño de un esquema eficiente para los datos
  • Creación de consultas avanzadas para análisis OLAP
  • Integración con una herramienta de visualización (Tableau o Superset)
  • Optimización del rendimiento del sistema
  • Implementación de mecanismos de seguridad
  • Monitoreo del clúster con Grafana
  • Presentación de resultados en tiempo real
  • Documentación completa del proyecto
iconArrowDown