Curso de ClickHouse para Administradores hasta 100% Bonificable a travรฉs de FUNDAE
Tu bonificaciรณn paso a paso
Forma a tu equipo sin costes mediante la bonificaciรณn estatal. Este programa de ClickHouse para Administradorespara empresas es subvencionable hasta el 100%.
Potencia las habilidades de ediciรณn y automatizaciรณn de tus profesionales.
Accede a una formaciรณn avanzada en ClickHouse para Administradores prรกctica y orientada a resultados.
Prepara a tu equipo para los retos documentales del entorno laboral actual.
Gestionamos gratis tu bonificaciรณn de este curso corporativo de ClickHouse para Administradores ante FUNDAE.
ClickHouse impulsa la eficiencia de datos en más del 50% de las empresas innovadoras
Despliega ClickHouse para Administradores A Medida, mejora rendimiento, replicación y seguridad, bonificable FUNDAE para tu equipo. Diseñamos el plan formativo.
Conviértete en un experto en administración de ClickHouse con un curso que cubre desde las bases hasta configuraciones avanzadas, garantizando un dominio completo del sistema.
1
Optimiza el rendimiento de tus bases de datos mediante técnicas avanzadas de particionamiento, indexación y la implementación eficaz de replicación para una alta disponibilidad.
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
Qué es ClickHouse y por qué se clasifica como motor OLAP columnar orientado a analítica de alta velocidad y gran volumen.
Diferencias prácticas entre un sistema OLAP como ClickHouse y un sistema OLTP clásico, especialmente en inserción, lectura, actualización y borrado.
Principios de almacenamiento por columnas y cómo impactan en compresión, I/O y latencia de consulta.
Idea general de ejecución vectorizada y procesamiento por bloques, clave para entender su rendimiento.
Casos de uso típicos: analítica de eventos, observabilidad, series temporales, BI, seguridad, telemetría y lakehouse analytics.
Casos donde no es la mejor opción: cargas fuertemente transaccionales, actualizaciones fila a fila intensivas o alta contención de escritura fina.
Vocabulario básico que un DBA debe dominar desde el inicio: parte, partición, marca, shard, réplica, merge, mutation y TTL.
Diferencias entre ClickHouse open source, ClickHouse Cloud y BYOC desde el punto de vista operativo.
Relación entre diseño físico de tablas y rendimiento real de consultas, que en ClickHouse es mucho más crítica que en otros motores.
Enfoque mental correcto para administrar ClickHouse: menos obsesión con índices tradicionales y más foco en layout, ingestión y background processing.
Qué es ClickHouse y por qué se clasifica como motor OLAP columnar orientado a analítica de alta velocidad y gran volumen.
Diferencias prácticas entre un sistema OLAP como ClickHouse y un sistema OLTP clásico, especialmente en inserción, lectura, actualización y borrado.
Principios de almacenamiento por columnas y cómo impactan en compresión, I/O y latencia de consulta.
Idea general de ejecución vectorizada y procesamiento por bloques, clave para entender su rendimiento.
Casos de uso típicos: analítica de eventos, observabilidad, series temporales, BI, seguridad, telemetría y lakehouse analytics.
Casos donde no es la mejor opción: cargas fuertemente transaccionales, actualizaciones fila a fila intensivas o alta contención de escritura fina.
Vocabulario básico que un DBA debe dominar desde el inicio: parte, partición, marca, shard, réplica, merge, mutation y TTL.
Diferencias entre ClickHouse open source, ClickHouse Cloud y BYOC desde el punto de vista operativo.
Relación entre diseño físico de tablas y rendimiento real de consultas, que en ClickHouse es mucho más crítica que en otros motores.
Enfoque mental correcto para administrar ClickHouse: menos obsesión con índices tradicionales y más foco en layout, ingestión y background processing.
Qué es ClickHouse y por qué se clasifica como motor OLAP columnar orientado a analítica de alta velocidad y gran volumen.
Diferencias prácticas entre un sistema OLAP como ClickHouse y un sistema OLTP clásico, especialmente en inserción, lectura, actualización y borrado.
Principios de almacenamiento por columnas y cómo impactan en compresión, I/O y latencia de consulta.
Idea general de ejecución vectorizada y procesamiento por bloques, clave para entender su rendimiento.
Casos de uso típicos: analítica de eventos, observabilidad, series temporales, BI, seguridad, telemetría y lakehouse analytics.
Casos donde no es la mejor opción: cargas fuertemente transaccionales, actualizaciones fila a fila intensivas o alta contención de escritura fina.
Vocabulario básico que un DBA debe dominar desde el inicio: parte, partición, marca, shard, réplica, merge, mutation y TTL.
Diferencias entre ClickHouse open source, ClickHouse Cloud y BYOC desde el punto de vista operativo.
Relación entre diseño físico de tablas y rendimiento real de consultas, que en ClickHouse es mucho más crítica que en otros motores.
Enfoque mental correcto para administrar ClickHouse: menos obsesión con índices tradicionales y más foco en layout, ingestión y background processing.
Tema 2: Instalación, Configuración Inicial y Puesta en Marcha
Opciones de despliegue que debe conocer un administrador: instalación local, servidores autogestionados, Kubernetes, Cloud y BYOC.
Requisitos de hardware y sistema operativo, poniendo especial atención en RAM, CPU, disco y tipo de almacenamiento.
Estructura estándar de directorios de configuración y datos, y cómo cambia según el método de instalación.
Papel de `config.xml`, `users.xml`, `config.d` y `users.d` en la organización de una instalación mantenible.
Parámetros de red iniciales: puertos HTTP, TCP nativo, HTTPS y otros interfaces que conviene habilitar o cerrar.
Verificación de arranque correcto mediante logs, estado del servicio y consultas básicas de smoke test.
Primer endurecimiento del servidor: usuario por defecto, límites de escucha, exposición de puertos y credenciales iniciales.
Definición inicial de macros, clusters y parámetros mínimos para dejar el entorno listo para crecimiento posterior.
Comprobación de permisos de sistema de ficheros, rutas de datos temporales y espacio disponible antes de entrar en producción.
Criterios para decidir cuándo una instalación inicial está realmente “lista”: conectividad, logs limpios, métricas básicas y respaldo de configuración.
Tema 3: ClickHouse CLI y Consola SQL
Uso de `clickhouse-client` para operaciones diarias de administración, diagnóstico rápido y ejecución manual de SQL.
Diferencias entre `clickhouse-client`, `clickhouse-local` y `clickhousectl`, y en qué escenario conviene cada uno.
Gestión de sesiones, settings de consulta y cambios temporales de comportamiento desde la línea de comandos.
Uso de formatos de salida adecuados para terminal, automatización y exportación de resultados.
Ejecución de scripts SQL, consultas multi-statement y flujos repetibles para tareas operativas.
Importación y exportación desde CLI mediante `FORMAT`, ficheros y tuberías del sistema operativo.
Buenas prácticas para conexiones seguras desde cliente: TLS, usuario dedicado y separación entre credenciales humanas y de servicio.
Uso de la SQL Console de ClickHouse Cloud para explorar datos, guardar consultas y colaborar con el equipo.
Compartición y reutilización de consultas guardadas en la SQL Console como apoyo a operación y troubleshooting.
Criterios para decidir cuándo una tarea debe hacerse por CLI, por consola web o ya debe pasar a automatización.
Tema 4: ClickHouse Playground
Qué es el Playground y cómo usarlo como entorno de aprendizaje inmediato sin desplegar infraestructura propia.
Datasets de ejemplo disponibles y cómo aprovecharlos para enseñar consultas, formatos y primeros diagnósticos.
Valor del Playground para validar sintaxis, funciones y comportamiento básico antes de probar en producción.
Limitaciones del Playground en persistencia, seguridad, personalización y control administrativo.
Uso del Playground para explicar conceptos de particionado, agregación y ordenación con datasets reales.
Cómo emplearlo para comparar formatos de salida y ver el efecto de cláusulas comunes de consulta.
Utilidad para entrenar a alumnos en lectura de resultados y comprensión del dialecto SQL de ClickHouse.
Casos en los que el Playground no sustituye un laboratorio real de DBA: usuarios, seguridad, replicación o tuning del servidor.
Estrategias para trasladar ejemplos del Playground a entornos propios sin perder reproducibilidad.
Papel del Playground como punto de entrada pedagógico, no como sustituto de un entorno administrable.
Tema 5: Clientes, Drivers e Interfaces más destacables
Diferencia entre interfaz HTTP y protocolo nativo TCP, con sus implicaciones en overhead, soporte y rendimiento.
Drivers oficiales más relevantes para administración e integración: JDBC, ODBC, C++ y clientes oficiales por lenguaje.
Interfaces de compatibilidad como MySQL y PostgreSQL, útiles para herramientas existentes y migraciones graduales.
Interfaces especializadas como gRPC, Arrow Flight, SSH y Prometheus, y qué aportan en escenarios concretos.
Criterios de elección del driver: lenguaje, soporte de tipos, compresión, TLS, pooling y semántica de errores.
Relevancia del soporte de formatos nativos cuando la prioridad es ingestión rápida y baja latencia.
Implicaciones operativas de cada interfaz en autenticación, observabilidad y troubleshooting.
Cómo afecta el interface elegido a timeouts, reintentos e idempotencia de inserciones.
Diferencias entre usar un cliente genérico y uno oficialmente soportado por ClickHouse.
Buenas prácticas para estandarizar drivers en la organización y reducir variabilidad operativa.
Tema 6: Tablas y Consultas en ClickHouse
Creación de bases de datos y tablas entendiendo que el engine elegido condiciona fuertemente la operativa futura.
Diferencia entre `ORDER BY`, `PRIMARY KEY`, `PARTITION BY` y `SAMPLE BY`, que no deben enseñarse como conceptos equivalentes.
Tipos de vistas disponibles hoy: normales, materializadas, refreshable materialized y window views.
Papel de `SELECT`, `INSERT`, `ALTER`, `DELETE` y `UPDATE` dentro del ciclo de vida real de datos analíticos.
Uso correcto de `PREWHERE`, `WHERE`, `GROUP BY`, `JOIN`, ventanas y subconsultas en el contexto del motor.
Coste y semántica de `FINAL`, y por qué debe tratarse como excepción y no como hábito.
Introducción al uso de funciones de tabla para leer datos externos sin cargarlos previamente.
Evolución de esquemas con `ALTER TABLE` y riesgos asociados a cambios en claves, codecs o materializaciones.
Soporte transaccional actual y qué garantías prácticas ofrece frente a la idea tradicional de ACID completo.
Lectura de metadatos desde tablas `system` para validar diseño, definición y estado operacional de los objetos.
Tema 7: Formatos de Datos en ClickHouse
Panorama de formatos de entrada y salida soportados y por qué son un elemento central del ecosistema ClickHouse.
Diferencias prácticas entre CSV, TSV, JSONEachRow, Native, Parquet, Avro, Arrow y otros formatos habituales.
Cuándo conviene priorizar `Native` para ingestión y cuándo interesa un formato interoperable como Parquet.
Relación entre formato, tipado y coste de parsing, especialmente en pipelines de alto throughput.
Problemas frecuentes de importación: fechas, `NULL`, escapado, precisión numérica, arrays, maps y JSON.
Uso de formatos tanto en consultas `INSERT` como en funciones de tabla (`File`, `URL`, `S3`) y exportaciones.
Cómo validar capacidades del servidor con `system.formats` antes de asumir soporte completo de un formato.
Diferencias entre formatos buenos para transporte humano y formatos buenos para ingestión masiva.
Buenas prácticas para pruebas de compatibilidad de formatos entre productor y consumidor.
Criterios de selección de formato en función de volumen, latencia, compresión, trazabilidad y coste operativo.
Tema 8: Administración de Índices
Comprender que el índice primario de ClickHouse es disperso y no un B-Tree tradicional como en motores OLTP.
Relación entre `ORDER BY` y efectividad real del índice primario en el pruning de lectura.
Funcionamiento y casos de uso de los data skipping indexes como segundo mecanismo de reducción de lectura.
Tipos de skip index que deben conocerse a nivel administrativo y cómo elegirlos según cardinalidad y patrón de filtros.
Administración de granularidad de índice y su impacto en tamaño, selectividad y coste de mantenimiento.
Diferencia entre índice primario, skip index, proyecciones, índices vectoriales e índices de texto para no mezclarlos conceptualmente.
Materialización y rematerialización de índices tras cambios de definición o incorporación de datos históricos.
Verificación de uso real de índices mediante `EXPLAIN`, métricas y logs de consulta.
Cuándo un índice empeora la situación por sobrecoste de escritura o baja selectividad práctica.
Gobierno del ciclo de vida del índice: diseño, validación, observación, ajuste y posible retirada.
Tema 9: Buenas prácticas en la gestión de Índices e Inserciones
Diseñar la clave de ordenación desde los patrones de consulta reales y no desde la intuición del modelador.
Evitar crear skip indexes por “si acaso”; en ClickHouse un índice inútil penaliza inserción y complica el mantenimiento.
Insertar en lotes grandes siempre que sea posible para reducir el número de partes y mejorar la eficiencia del merge.
Usar inserciones asíncronas para lotes pequeños cuando la aplicación no puede agrupar suficientemente.
Mantener lotes consistentes para que los reintentos sean idempotentes y la deduplicación funcione correctamente.
Preferir clientes oficiales y formatos eficientes en la ruta de ingestión para reducir parsing y errores sutiles.
Entender cuándo insertar en tabla local y cuándo en capa distribuida según topología y objetivo operativo.
Evitar `OPTIMIZE FINAL` como “solución universal” a problemas de diseño o de acumulación de partes.
Coordinar inserciones con vistas materializadas y deduplicación para no generar duplicados aguas abajo.
Medir bytes leídos, partes tocadas y latencia antes y después de cada cambio de índice o estrategia de ingestión.
Tema 10: Gestión de Usuarios y Roles
Modelo RBAC de ClickHouse y entidades principales que deben enseñarse juntas: usuarios, roles, row policies, settings profiles y quotas.
Activación y uso de la gestión de acceso basada en SQL frente al enfoque clásico por fichero.
Creación, alteración y retirada de usuarios con un enfoque de mínimo privilegio desde el primer día.
Diseño de roles funcionales para administración, ingestión, lectura analítica, soporte y automatizaciones.
Asignación de roles por defecto y herencia entre roles sin caer en acumulaciones difíciles de auditar.
Gestión fina de privilegios mediante `GRANT` y `REVOKE`, incluyendo privilegios de administración de acceso.
Revisión operativa de privilegios efectivos usando `SHOW` y tablas `system` dedicadas.
Diferencia entre permisos sobre objetos y permisos de administración global.
Estrategia de alta, cambio y baja de identidades humanas y de servicio.
Auditoría periódica de usuarios huérfanos, roles redundantes y grants excesivos.
Tema 11: Configuraciones de usuarios
Organización de configuraciones de usuario en `users.xml`, directorios locales de acceso o entidades gestionadas por SQL.
Uso de perfiles de settings para dar a cada usuario un comportamiento controlado y repetible.
Aplicación de cuotas para limitar consumo por ventana temporal y evitar abuso accidental o malicioso.
Restricciones por red, host o segmento como primera capa de control de exposición.
Configuración de modos readonly y semirestringidos para perfiles de consulta no administrativos.
Límites por usuario sobre memoria, tiempo de ejecución, número de consultas y concurrencia.
Políticas de contraseña y endurecimiento de autenticación según criticidad del entorno.
Asociación de usuarios a perfiles, cuotas y restricciones sin mezclar responsabilidades.
Gestión del almacenamiento de entidades de acceso y precedencia entre distintas fuentes de configuración.
Estrategias para migrar desde configuración por XML a administración SQL sin romper compatibilidad operativa.
Tema 12: Copias de Seguridad y Restauración ante desastres
Uso de `BACKUP` y `RESTORE` como mecanismo principal de protección lógica y física de objetos de ClickHouse.
Alcance posible del backup: tablas, bases de datos, diccionarios y restauraciones completas o parciales.
Destinos soportados y su impacto operativo, incluyendo almacenamiento local y object storage.
Monitorización del estado de copias y restauraciones mediante `system.backups`.
Diferencias entre backup moderno y operaciones históricas como `FREEZE PARTITION`, que siguen teniendo valor operativo.
Consideraciones especiales en clústeres y operaciones `ON CLUSTER`, donde coordinación y cancelación importan mucho.
Restauración a ubicaciones alternativas, otras bases o con otra storage policy para pruebas y recuperación selectiva.
Pruebas periódicas de restauración como parte obligatoria del plan de continuidad, no como anexo opcional.
Definición de RPO, RTO y runbooks específicos para error humano, corrupción lógica y caída regional.
Gestión segura de credenciales, buckets y rutas de backup evitando exposición de secretos en SQL o logs.
Tema 13: Monitorización
Uso del dashboard embebido del servidor para una primera observación operativa rápida.
Diferencia entre métricas instantáneas, asíncronas y logs históricos, y por qué las tres son necesarias.
Lectura de `system.metrics`, `system.asynchronous_metrics` y `system.events` como base de cualquier cuadro de mando.
Uso de `query_log`, `part_log`, `text_log`, `trace_log` y otros logs del sistema para diagnóstico profundo.
Monitorización de réplicas, colas de replicación, merges y mutaciones como indicadores clave de salud.
Integración con Prometheus y stacks externos de observabilidad para alertado y visualización persistente.
Particularidades de monitorización en ClickHouse Cloud, donde parte de la observabilidad viene ya recogida por la consola.
Necesidad de agrupar métricas por nodo, shard y réplica para detectar asimetrías reales.
Diseño de alertas accionables sobre backlog, errores, latencia, consumo de memoria y crecimiento de partes.
Separación entre monitorización de capacidad, monitorización de rendimiento y monitorización de seguridad.
Tema 14: Detección de problemas de Performance
Metodología de diagnóstico basada en hechos: consulta lenta, recurso saturado, cambio reciente y evidencia en logs.
Uso de `system.query_log` para identificar consultas costosas por tiempo, bytes, filas y memoria consumida.
Profundización con `system.query_thread_log` para ver qué hilos ejecutaron la consulta y con qué coste.
Análisis por procesadores con `system.processors_profile_log` y `EXPLAIN PIPELINE`.
Uso del analyzer y `EXPLAIN` para entender el plan, las etapas y las optimizaciones aplicadas.
Detección de lecturas excesivas por mal diseño de clave, ausencia de pruning o uso innecesario de `FINAL`.
Identificación de cuellos de botella en `JOIN`, `ORDER BY`, agregaciones, lecturas remotas y object storage.
Correlación entre problemas de consulta y actividad de fondo como merges, mutaciones o fetches de réplica.
Validación del efecto de `PREWHERE`, caches y paralelismo en el comportamiento de una consulta concreta.
Priorización del troubleshooting: primero diseño físico, luego consulta, después settings finos.
Tema 15: Optimizaciones a realizar como DBA
Optimización del esquema a partir de tipos de datos más ajustados y no desde el “caben de sobra”.
Revisión del orden de claves para maximizar pruning y compresión simultáneamente.
Selección y ajuste de codecs como palanca directa de reducción de I/O y mejora de tiempos de consulta.
Introducción de vistas materializadas, rollups y proyecciones cuando el patrón de acceso lo justifica.
Sustitución de algunos `JOIN` por diccionarios cuando el lookup es repetitivo y de baja latencia.
Optimización del patrón de ingestión para reducir partes pequeñas y presión de merges.
Gestión del background processing para equilibrar ingestión, merges, mutaciones y fetches.
Uso inteligente de TTL, particiones y políticas de almacenamiento para contener coste operativo.
Ajuste de caches y límites de memoria según patrón de uso real y no por copia de recetas genéricas.
Separación de workloads con cuotas, perfiles y scheduling cuando conviven usuarios o aplicaciones distintas.
Tema 16: Administración de Shards
Distinción clara entre shard y réplica, y por qué confundir ambos conceptos lleva a malos diseños de clúster.
Diseño de claves de sharding que distribuyan carga sin romper localización útil de datos.
Uso de tablas distribuidas y conocimiento de las diferencias operativas entre entornos self-managed y Cloud.
Impacto del número de shards en paralelismo, coordinación, reequilibrado y coste administrativo.
Gestión de skew entre shards, especialmente cuando un shard concentra demasiada escritura o demasiadas consultas.
Estrategias de crecimiento horizontal y migración de datos cuando hay que rehacer distribución.
Diferencias entre lecturas locales, agregación distribuida y consultas globales sobre múltiples shards.
Buen uso de `remote` y `remoteSecure` frente a la capa `Distributed`, según el objetivo sea puntual o permanente.
Manejo de fallos parciales y de degradación controlada cuando un shard o enlace de red tiene problemas.
Observación continua de la topología con foco en salud de nodos, cola distribuida y comportamiento por shard.
Tema 17: Administración de Cache
Comprensión de los principales tipos de cache de ClickHouse y de su papel en la reducción de I/O.
Administración de `mark_cache`, especialmente relevante en tablas MergeTree y lecturas repetidas.
Uso y límites de `uncompressed_cache`, que no siempre aporta valor en todos los workloads.
Diferencia entre OS page cache, filesystem cache y userspace page cache, que no deben confundirse.
Uso del query cache para repetir `SELECT` costosos cuando hay estabilidad suficiente en resultados.
Uso del query condition cache para reutilizar información de filtros y reducir escaneo innecesario.
Cache específica de índices de salto y su interés creciente en consultas repetidas con skip indexes.
Métodos para observar tamaño, aciertos y presión de cada cache usando tablas `system` y métricas.
Operaciones administrativas de limpieza, invalidación y dimensionado de caches.
Criterios para decidir qué cache activar, ampliar o desactivar según patrón de consulta y tipo de almacenamiento.
Tema 18: Configuraciones, Sistemas de Autenticación y Administración de Seguridad
Endurecimiento del perímetro del servicio mediante TLS, cierre de interfaces innecesarias y control de exposición.
Uso de autenticación por contraseña, certificados TLS de cliente y otros mecanismos soportados según entorno.
Integración con LDAP para autenticación externa y, cuando aplica, como directorio externo de usuarios.
Integración con Kerberos en los escenarios soportados y entendiendo sus limitaciones prácticas.
Uso de autenticación HTTP externa en despliegues donde tenga sentido y esté soportada.
Protección de secretos en ficheros de configuración, named collections y pipelines automatizados.
Seguridad del plano de coordinación con Keeper o ZooKeeper, incluyendo ACL digest y comunicación segura.
Aislamiento de red en Cloud mediante PrivateLink, Private Service Connect o equivalentes según proveedor.
Reducción de fuga de información sensible en logs, errores y salidas administrativas.
Operación diferenciada entre self-managed y Cloud, porque no todas las opciones de seguridad existen o se gestionan igual.
Tema 19: Configuraciones de formato
Alcance de las format settings y cómo pueden definirse por sesión, usuario, perfil o consulta.
Ajuste fino del parsing de CSV, TSV, JSON y otros formatos para evitar errores silenciosos o coerciones indeseadas.
Gestión del schema cache de formatos cuando se trabaja con descriptores externos o inferencia.
Configuración de tolerancia a errores de parsing según sea un entorno de exploración o una carga crítica.
Elección de formatos de salida legibles para operador frente a formatos de salida adecuados para máquinas.
Normalización de exportaciones para integraciones descendentes que dependen de orden, escapado o serialización estable.
Impacto de estas configuraciones en compatibilidad con pipelines ETL, notebooks y conectores de terceros.
Uso de `SYSTEM DROP FORMAT SCHEMA CACHE` y operaciones relacionadas en tareas de mantenimiento.
Revisión periódica de format settings heredadas que pueden romper procesos al cambiar de versión o de driver.
Gobierno de configuraciones de formato para que no cada aplicación “hable un dialecto distinto” al servidor.
Tema 20: Configuración de permisos y restricciones para consultas
Aplicación del principio de mínimo privilegio a nivel de base, tabla, columna y operación.
Uso de row policies para seguridad a nivel de fila cuando los usuarios solo deben ver subconjuntos de datos.
Configuración de perfiles de settings con restricciones para impedir que cada usuario eleve arbitrariamente sus límites.
Definición de quotas para gobernar consultas, lecturas y consumo a lo largo del tiempo.
Aplicación de límites de complejidad de consulta para proteger el sistema frente a lecturas masivas accidentales.
Restricciones específicas para consultas distribuidas, que deben entenderse por servidor hoja y no solo globalmente.
Uso de modos readonly y de settings no modificables como control de estabilidad operativa.
Necesidad de alinear permisos con capacidades reales del motor para no dejar vías de evasión de políticas.
Revisión de privilegios que permiten crear ciertos engines o realizar operaciones potencialmente peligrosas.
Construcción de perfiles diferenciados para BI, analistas avanzados, automatizaciones y administradores.
Tema 21: Administración de memoria
Diferencia entre límites de memoria a nivel de consulta, usuario y servidor, y cómo se combinan.
Uso de memory overcommit para flexibilizar consumo sin perder control general del sistema.
Configuración de external sort, external aggregation y otros mecanismos de spill cuando la RAM no basta.
Impacto real de tipos de datos, columnas `Nullable`, joins grandes y agregaciones pesadas sobre memoria.
Relación entre caches en memoria y memoria disponible para consultas concurrentes.
Observación de memoria del host y del proceso con métricas del sistema y logs de consulta.
Uso de profiling y herramientas de asignación para investigar fugas aparentes o picos no obvios.
Ajuste especial en servidores con poca RAM, donde las defaults pueden no ser apropiadas.
Gestión del consumo de merges, mutaciones y tareas de fondo, que también compiten por memoria.
Estrategias de capacidad para que el sistema siga estable incluso con consultas malas o usuarios poco cuidadosos.
Tema 22: Administración y configuraciones del servidor
Gestión de configuración en XML o YAML y comprensión de la precedencia entre ficheros base e includes.
Distinción entre server settings, session settings y merge-tree settings para no ajustar en el sitio equivocado.
Configuración de listeners, puertos, red interna y endpoints administrativos del servidor.
Ajuste de pools de hilos, background tasks y otros recursos globales del proceso.
Gestión de rutas de datos, temporales, discos y políticas de almacenamiento desde la configuración central.
Organización de macros y definiciones de cluster que luego usarán replicación y DDL distribuido.
Uso de `SYSTEM` statements para recargar, limpiar caches o manejar colas sin reiniciar innecesariamente.
Administración de logs del servidor y su utilidad para auditoría y troubleshooting.
Diferencias entre cambios que se aplican dinámicamente y cambios que exigen reinicio controlado.
Estandarización de configuración como código para evitar deriva entre nodos del clúster.
Tema 23: Integraciones más destacables
Integración con Kafka y motores de cola para ingestión continua de eventos de alto volumen.
Integración con S3 y object storage tanto para intercambio de datos como para arquitecturas de data lake.
Integración con PostgreSQL y MySQL mediante funciones, engines o estrategias de réplica según caso.
Uso de ODBC y JDBC cuando se necesita conectar herramientas o fuentes más heterogéneas.
Integraciones con notebooks y entornos analíticos para exploración y validación rápida.
Conexión con herramientas de BI que aprovechan SQL estándar y conectores conocidos.
Integración con dbt y pipelines de transformación como capa de modelado analítico gobernado.
Uso de tablas y funciones remotas para leer sin copiar datos cuando el escenario lo permite.
Criterios para decidir entre integración batch, streaming o virtualización de datos.
Riesgos operativos de las integraciones: credenciales, timeouts, backpressure, reintentos y compatibilidad de tipos.
Tema 24: Integraciones con plataformas Cloud
Integración con AWS, GCP y Azure desde una perspectiva de conectividad, almacenamiento y operación.
Uso de servicios gestionados de ClickHouse Cloud y diferencias frente al despliegue autogestionado.
Conectividad privada con AWS PrivateLink, GCP Private Service Connect y Azure Private Link.
Gestión de despliegues BYOC para organizaciones que requieren soberanía o control fuerte de red y datos.
Integración con buckets y object storage del proveedor para backup, staging o almacenamiento frío.
Consideraciones de red, DNS privado y control de exposición pública en arquitecturas empresariales.
Diferencias regionales, de servicio y de características soportadas según proveedor y plan.
Uso de Cloud API y consola para gobernar servicios, claves y operaciones recurrentes.
Relación entre topología cloud y latencia de ingestión, coste de egreso y acceso de herramientas externas.
Criterios para seleccionar entre Cloud fully managed, BYOC o self-managed según requisitos de seguridad y operación.
Tema 25: Herramientas para la administración de ClickHouse
`clickhouse-client` como herramienta base de operación y soporte.
`clickhouse-local` para pruebas rápidas, parsing de ficheros y validación sin tocar servidores productivos.
`clickhouse-benchmark` para pruebas controladas de carga y comparación entre cambios.
`clickhouse-format` para normalizar SQL y mejorar revisiones y automatizaciones.
`clickhouse-compressor` para entender y probar compresión fuera del flujo normal del motor.
`clickhouse-disks` para operaciones de bajo nivel sobre discos y rutas gestionadas por ClickHouse.
`clickhouse-keeper-client` para inspeccionar el plano de coordinación en clústeres replicados.
`clickhouse_backupview` para inspeccionar y validar backups sin restaurarlos completos.
La consola y API de ClickHouse Cloud como herramientas administrativas en entornos gestionados.
Las propias tablas `system` como la “caja de herramientas” más poderosa para un DBA de ClickHouse.
Tema 26: Buenas prácticas para el mantenimiento
Revisar de forma rutinaria crecimiento de datos, número de partes y backlog de merges antes de que aparezca el incidente.
Validar periódicamente salud de réplicas, colas distribuidas, mutaciones y tareas de fondo.
Probar restauraciones de backup y no limitarse a comprobar que “la copia terminó”.
Mantener una política clara de versiones soportadas y ventana de upgrade.
Aplicar cambios de esquema mediante playbooks repetibles y con pruebas previas.
Controlar la deriva de configuración entre nodos usando repositorio y despliegue automatizado.
Auditar usuarios, roles, perfiles y secretos como parte del mantenimiento ordinario.
Limpiar con criterio objetos obsoletos, particiones antiguas, tablas temporales y configuraciones heredadas.
Realizar capacity planning sobre CPU, RAM, disco, red y crecimiento del object storage.
Convertir cada incidencia real en mejora de runbooks, alertas y estándares operativos.
Tema 27: Motores de tablas y modelado físico de datos
La familia `MergeTree` debe enseñarse como el núcleo del almacenamiento productivo de ClickHouse.
Diferencias entre engines generales, especializados e integraciones, evitando presentar “tabla” como concepto uniforme.
Criterios de elección entre `MergeTree`, `ReplacingMergeTree`, `SummingMergeTree`, `AggregatingMergeTree`, `Collapsing`, `VersionedCollapsing` o `CoalescingMergeTree`.
Relación entre engine y semántica de negocio: deduplicación, agregación incremental, estados cambiantes o series temporales.
Modelado de hechos y dimensiones pensando en patrones analíticos y no en normalización OLTP tradicional.
Selección de tipos de datos adecuados, porque tipado, ordenación y compresión están íntimamente conectados.
Uso consciente de columnas `DEFAULT`, `MATERIALIZED`, `ALIAS`, `LowCardinality`, `Nullable`, `JSON` y tipos compuestos.
Diferencia entre table engines y database engines, útil para arquitecturas replicadas o federadas.
Cuándo usar funciones de tabla o engines de integración para virtualizar datos externos sin copiarlos.
Cómo un mal modelado físico degrada a la vez inserción, compresión, pruning y latencia de consulta.
Tema 28: Particiones, partes, merges, mutaciones y TTL
Qué es una partición en ClickHouse y por qué debe tener cardinalidad baja y sentido operativo claro.
Qué es una data part y cómo se convierte en la unidad real de trabajo para lectura, merge y mutación.
Ciclo de vida de las partes: creación, activación, fusión, obsolescencia, detach y posible recuperación.
Cómo funcionan los merges en background y por qué no conviene luchar contra ellos con malos hábitos operativos.
Uso de TTL para borrar, mover o agrupar datos históricos de forma automática.
Importancia de alinear la clave de partición con la estrategia de TTL cuando la retención es temporal.
Coste real de las mutaciones `UPDATE` y `DELETE`, que reescriben partes y no son operaciones OLTP baratas.
Diferencia entre delete mutation y lightweight delete, y cuándo una opción es aceptable frente a la otra.
Uso de operaciones sobre particiones y partes para mantenimiento, movimiento, freeze, fetch o reparación.
Observación del sistema con `system.parts`, `system.merges`, `system.mutations` y `part_log` para gobernar el ciclo de vida físico.
Tema 29: Replicación y alta disponibilidad
Funcionamiento de la replicación en la familia `Replicated*` y qué metadatos dependen del plano de coordinación.
Diferencia entre replicación para disponibilidad y sharding para escalado horizontal, que no resuelven el mismo problema.
Topologías típicas de alta disponibilidad y trade-offs entre simplicidad, coste y resiliencia.
Lectura de salud de réplicas mediante `system.replicas`, cola de replicación y fetches pendientes.
Gestión de desfase entre réplicas y criterios para decidir cuándo un retraso ya es incidente.
Buenas prácticas de operación durante fallos de nodo, pérdida parcial de red o reincorporación al clúster.
Coordinación de esquemas y DDL en entornos replicados para evitar deriva de metadatos.
Relación entre backups y replicación, evitando creer que una réplica sustituye a una estrategia de respaldo.
Uso de réplicas en la ejecución paralela de consultas y en la distribución de carga de lectura.
Planes de alta disponibilidad que incluyan no solo datos, sino también coordinación, red y procedimientos de recuperación.
Tema 30: ClickHouse Keeper y coordinación distribuida
Qué papel cumple ClickHouse Keeper en replicación y DDL distribuido dentro de un clúster ClickHouse.
Ventajas operativas de Keeper frente a ZooKeeper en despliegues modernos de ClickHouse.
Diseño básico de un quorum de Keeper y requisitos mínimos para que realmente aporte tolerancia a fallos.
Parámetros y decisiones de configuración que afectan estabilidad, latencia y recuperación del plano de coordinación.
Uso de `clickhouse-keeper-client` y herramientas asociadas para inspección y diagnóstico.
Tablas del sistema útiles para observar conexiones, actividad y problemas de coordinación.
Gestión de seguridad en Keeper o ZooKeeper, incluyendo ACL digest y cifrado cuando aplique.
Procedimientos de mantenimiento, reinicio y recuperación del quorum sin comprometer el clúster de datos.
Diferencias entre entornos autogestionados y Cloud, donde la coordinación puede estar abstraída o automatizada.
Integración de Keeper en el temario como componente crítico y no como apéndice opcional.
Tema 31: Vistas materializadas, refreshables y proyecciones
Diferencia entre vista normal, materialized view incremental y refreshable materialized view.
Cómo las vistas materializadas incrementales desplazan coste desde la consulta hacia el momento de inserción.
Cuándo usar refreshable materialized views para snapshots o recálculos periódicos sobre conjuntos completos.
Qué son las proyecciones y cómo se diferencian de una materialized view tradicional.
Limitaciones operativas de las proyecciones que un DBA debe conocer antes de adoptarlas.
Diseño de rollups y agregados incrementales usando tablas objetivo adecuadas como `AggregatingMergeTree`.
Encadenamiento de vistas materializadas y riesgos de complejidad, latencia y duplicación lógica.
Monitorización de refrescos, estado y comportamiento con tablas del sistema específicas.
Estrategias de rebuild, rematerialización y validación cuando cambian reglas de negocio o esquema.
Criterios de gobierno para decidir entre consulta directa, proyección, MV incremental o MV refreshable.
Tema 32: Políticas de almacenamiento, discos, object storage y compresión
Qué son las storage policies, volúmenes y discos desde la perspectiva de administración física del dato.
Diferencia entre almacenamiento local, discos externos y object storage como S3, GCS o Azure Blob.
Uso de almacenamiento frío y caliente para optimizar coste sin perder accesibilidad analítica.
Relación entre políticas de almacenamiento y TTL `MOVE` para automatizar el tiering de datos.
Uso del filesystem cache y otras capas de cache cuando el almacenamiento real es remoto.
Papel de la compresión como optimización prioritaria tanto de coste como de rendimiento.
Selección de codecs y evaluación de su impacto en CPU, disco y velocidad de lectura.
Observación del estado real con `system.storage_policies`, `system.codecs`, `system.parts` y rutas remotas.
Implicaciones de backup y restore cuando las tablas usan políticas de almacenamiento complejas.
Diseño de una estrategia de almacenamiento que tenga sentido económico, operativo y de recuperación.
Tema 33: Actualizaciones, compatibilidad y gestión de versiones
Diferencia entre ramas `stable` y `lts`, y criterio para elegir una u otra en producción.
Proceso recomendado para upgrades self-managed y por qué nunca deben improvisarse sobre clústeres críticos.
Modelo de upgrades en ClickHouse Cloud y uso de release channels para controlar predictibilidad.
Necesidad de leer cambios incompatibles y notas de versión antes de cualquier actualización relevante.
Riesgo real de downgrade tras ciertos upgrades y por qué debe tratarse como operación no trivial.
Validación previa de drivers, formatos, consultas y automatizaciones frente a una nueva versión.
Estrategias de despliegue gradual, canary y ventanas de mantenimiento para reducir riesgo.
Revisión de cambios en serialización, engines, analyzer o features que puedan alterar comportamiento.
Documentación interna del inventario de versiones y dependencias como parte de la disciplina de plataforma.
Conversión de cada upgrade en proceso repetible, medible y auditado.
Tema 34: Diccionarios y named collections
Qué es un diccionario en ClickHouse y por qué puede acelerar ciertos lookups frente a un `JOIN` clásico.
Casos de uso de diccionarios para enriquecer datos de referencia sin penalizar la ingestión.
Criterios para elegir layout de diccionario según cardinalidad, patrón de acceso y latencia esperada.
Gestión de fuentes externas de diccionarios y su impacto en disponibilidad y consistencia operativa.
Observación del estado de carga y errores mediante `system.dictionaries`.
Diferencia entre crear diccionarios por DDL y por fichero de configuración, y cuándo conviene cada enfoque.
Qué son las named collections y cómo ayudan a centralizar parámetros y ocultar credenciales.
Uso de named collections en integraciones con diccionarios, object storage, funciones y engines externos.
Monitorización y auditoría de named collections mediante tablas del sistema.
Diferencias de soporte entre Cloud y self-managed que deben reflejarse claramente en el curso.
Tema 35: DDL distribuido y automatización operativa
Uso de `ON CLUSTER` para propagar DDL sobre todos los nodos definidos en el clúster.
Comprender que el DDL distribuido depende de coordinación y no es simplemente “ejecutar en paralelo”.
Monitorización de la cola de DDL distribuido con las tablas del sistema adecuadas.
Gestión de errores parciales y reintentos cuando un cambio de esquema no se aplica de forma homogénea.
Diseño de migraciones idempotentes para que la automatización pueda repetirse sin romper el entorno.
Coordinación entre automatización de infraestructura y automatización SQL para evitar estados intermedios peligrosos.
Uso de `SYSTEM` statements para manejar colas distribuidas y flujo de datos entre nodos.
Aprovechamiento de la Cloud API en entornos gestionados para gobernar servicios y tareas repetitivas.
Estandarización de despliegues, smoke tests y validaciones post-DDL como parte del proceso de cambio.
Tratamiento del DDL distribuido como disciplina operativa central en un clúster y no como detalle avanzado.
Perfiles profesionales
Pensado para quienes deben dominar ClickHouse para Administradores en su día a día
Administradores de Sistemas
Optimizan la gestión y configuración de ClickHouse en entornos empresariales, mejorando la eficiencia.
Ingenieros de Bases de Datos
Se especializan en la integración y administración avanzada de ClickHouse para potenciar el análisis de datos.
Profesionales de TI
Actualizan sus competencias en sistemas de bases de datos para implementar soluciones de alta disponibilidad.
Equipos de Infraestructura
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en ClickHouse para Administradores
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
El curso de ClickHouse para Administradores te proporciona una comprensión profunda de la gestión y optimización de ClickHouse, una base de datos poderosa para el procesamiento analítico en línea. Aprenderás a configurar entornos, optimizar consultas, mejorar la seguridad y la escalabilidad de las bases de datos, lo cual es esencial para maximizar el potencial de ClickHouse en un entorno empresarial.
Sí, el curso de ClickHouse para Administradores se puede bonificar a través de FUNDAE. Esto permite a las empresas aprovechar las subvenciones disponibles para la formación de sus empleados, cubriendo hasta el 100% del coste del curso según los créditos disponibles.
El curso se imparte en modalidad de Aula Virtual Personalizada, mediante videoconferencia a través de Zoom. Esta modalidad proporciona flexibilidad a los participantes al combinar las ventajas de la formación en directo con la posibilidad de acceder a las grabaciones para repasar su aprendizaje.
Al completar el curso, desarrollarás habilidades en la administración de bases de datos ClickHouse, optimización de consultas, configuración de seguridad y escalabilidad. Además, aprenderás a integrar ClickHouse con otras aplicaciones y a gestionar situaciones de alta disponibilidad a través de técnicas de replicación y particionamiento.
Puedes inscribirte en el curso rellenando los formularios proporcionados en nuestra página web. Asegúrate de completar toda la información requerida para que podamos procesar tu inscripción y gestionar la bonificación de FUNDAE de manera eficiente.
El curso de ClickHouse para Administradores te proporciona una comprensión profunda de la gestión y optimización de ClickHouse, una base de datos poderosa para el procesamiento analítico en línea. Aprenderás a configurar entornos, optimizar consultas, mejorar la seguridad y la escalabilidad de las bases de datos, lo cual es esencial para maximizar el potencial de ClickHouse en un entorno empresarial.
Sí, el curso de ClickHouse para Administradores se puede bonificar a través de FUNDAE. Esto permite a las empresas aprovechar las subvenciones disponibles para la formación de sus empleados, cubriendo hasta el 100% del coste del curso según los créditos disponibles.
El curso se imparte en modalidad de Aula Virtual Personalizada, mediante videoconferencia a través de Zoom. Esta modalidad proporciona flexibilidad a los participantes al combinar las ventajas de la formación en directo con la posibilidad de acceder a las grabaciones para repasar su aprendizaje.
Al completar el curso, desarrollarás habilidades en la administración de bases de datos ClickHouse, optimización de consultas, configuración de seguridad y escalabilidad. Además, aprenderás a integrar ClickHouse con otras aplicaciones y a gestionar situaciones de alta disponibilidad a través de técnicas de replicación y particionamiento.
Puedes inscribirte en el curso rellenando los formularios proporcionados en nuestra página web. Asegúrate de completar toda la información requerida para que podamos procesar tu inscripción y gestionar la bonificación de FUNDAE de manera eficiente.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
Aumenta la seguridad de tus datos con configuraciones robustas de autenticación, autorización y encriptación, fundamentales para proteger activos empresariales valiosos.
3
Implementa proyectos prácticos que te permitirán aplicar conocimientos en situaciones reales, potenciando tu capacidad para enfrentar retos empresariales actuales.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras