Aterriza CatBoost como producto completo y no solo como librería de boosting
Despliega CatBoost en tu equipo con formación A Medida en tuning, variables categóricas pipelines y despliegue tutorizado y bonificable por FUNDAE. Contáctanos.
Refuerza una de las mayores fortalezas de CatBoost: las variables categóricas Otra gran ventaja es que dedica mucha profundidad al trabajo con variables categóricas, que es precisamente donde CatBoost suele aportar un diferencial muy claro. Esto ayuda a evitar preprocesados innecesarios, errores de codificación y diseños de pipeline que degradan calidad sin necesidad.¡
1
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
Comprensión de CatBoost como algoritmo de gradient boosting sobre árboles orientado a datos tabulares con fuerte presencia de variables categóricas.
Revisión de las diferencias prácticas entre CatBoost y otras familias de boosting cuando el dato real no está perfectamente limpio ni totalmente numérico.
Análisis del tipo de problemas donde CatBoost suele ofrecer un equilibrio muy potente entre calidad predictiva, velocidad y facilidad de uso.
Comprensión de por qué CatBoost resulta especialmente interesante en entornos empresariales con mezcla de variables de negocio, campos categóricos y señal heterogénea.
Revisión de los tres grandes dominios de uso del producto: clasificación, regresión y ranking.
Identificación de los componentes de la librería que el profesional debe conocer desde el principio para trabajar con seguridad técnica.
Trabajo sobre ventajas, límites y decisiones de uso para no convertir CatBoost en una elección dogmática.
Relación entre naturaleza del dato, objetivo de negocio y elección del modelo de boosting adecuado.
Introducción a la filosofía de entrenamiento, validación e interpretación que guiará el resto del curso.
Taller inicial de benchmarking conceptual frente a otros enfoques de boosting tabular.
Comprensión de CatBoost como algoritmo de gradient boosting sobre árboles orientado a datos tabulares con fuerte presencia de variables categóricas.
Revisión de las diferencias prácticas entre CatBoost y otras familias de boosting cuando el dato real no está perfectamente limpio ni totalmente numérico.
Análisis del tipo de problemas donde CatBoost suele ofrecer un equilibrio muy potente entre calidad predictiva, velocidad y facilidad de uso.
Comprensión de por qué CatBoost resulta especialmente interesante en entornos empresariales con mezcla de variables de negocio, campos categóricos y señal heterogénea.
Revisión de los tres grandes dominios de uso del producto: clasificación, regresión y ranking.
Identificación de los componentes de la librería que el profesional debe conocer desde el principio para trabajar con seguridad técnica.
Trabajo sobre ventajas, límites y decisiones de uso para no convertir CatBoost en una elección dogmática.
Relación entre naturaleza del dato, objetivo de negocio y elección del modelo de boosting adecuado.
Introducción a la filosofía de entrenamiento, validación e interpretación que guiará el resto del curso.
Taller inicial de benchmarking conceptual frente a otros enfoques de boosting tabular.
Tema 1: Fundamentos de CatBoost y su lugar dentro del ecosistema de gradient boosting
Comprensión de CatBoost como algoritmo de gradient boosting sobre árboles orientado a datos tabulares con fuerte presencia de variables categóricas.
Revisión de las diferencias prácticas entre CatBoost y otras familias de boosting cuando el dato real no está perfectamente limpio ni totalmente numérico.
Análisis del tipo de problemas donde CatBoost suele ofrecer un equilibrio muy potente entre calidad predictiva, velocidad y facilidad de uso.
Comprensión de por qué CatBoost resulta especialmente interesante en entornos empresariales con mezcla de variables de negocio, campos categóricos y señal heterogénea.
Revisión de los tres grandes dominios de uso del producto: clasificación, regresión y ranking.
Identificación de los componentes de la librería que el profesional debe conocer desde el principio para trabajar con seguridad técnica.
Trabajo sobre ventajas, límites y decisiones de uso para no convertir CatBoost en una elección dogmática.
Relación entre naturaleza del dato, objetivo de negocio y elección del modelo de boosting adecuado.
Introducción a la filosofía de entrenamiento, validación e interpretación que guiará el resto del curso.
Taller inicial de benchmarking conceptual frente a otros enfoques de boosting tabular.
Tema 2: Instalación profesional del entorno y primer stack de trabajo
Preparación de un entorno de desarrollo limpio, reproducible y apto para pruebas, notebooks y scripts productivos.
Revisión de instalación mediante `pip`, `conda` o construcción desde código fuente cuando el contexto lo requiera.
Trabajo sobre dependencias auxiliares para visualización, validación y análisis de experimentos.
Preparación de una estructura de proyecto ordenada para datasets, notebooks, scripts, modelos y resultados.
Revisión de compatibilidades mínimas y de cómo validar que el entorno está listo para entrenar sin fricción.
Preparación de cuadernos de trabajo y scripts base para reducir tiempo muerto en prácticas posteriores.
Revisión de buenas prácticas para separar entorno local, entorno de pruebas y entorno de entrenamiento más intensivo.
Trabajo sobre problemas típicos de instalación y cómo detectarlos antes de arrancar el desarrollo del curso.
Configuración de soporte GPU cuando el caso de uso del alumno lo justifique.
Taller de puesta en marcha completa del stack técnico de CatBoost.
Tema 3: Estructura del dato tabular y por qué CatBoost exige pensar bien antes de entrenar
Comprensión de qué hace que un dataset tabular sea apto o no apto para un flujo de modelado serio con boosting.
Revisión de la diferencia entre columnas numéricas, categóricas, de texto, embeddings y variables derivadas.
Trabajo sobre la calidad del dato como condición previa al éxito del modelo y no como limpieza cosmética posterior.
Análisis del impacto de nulos, cardinalidad, leakage, codificaciones erráticas y columnas mal definidas.
Preparación de una lectura estructural del dataset antes de abrir la fase de modelado.
Detección de variables peligrosas por target leakage, proxy leakage o sesgos del proceso de negocio.
Revisión de cómo la semántica de la columna influye en la forma correcta de representarla ante CatBoost.
Construcción de un checklist de entrada para decidir si un dataset está listo para la fase de entrenamiento.
Trabajo sobre el equilibrio entre feature engineering útil y complejidad innecesaria.
Taller de auditoría inicial de un dataset tabular empresarial.
Tema 4: Pool, FeaturesData y estructuras de entrada eficientes
Uso de `Pool` como estructura central para pasar datos, etiquetas, pesos, grupos y metadatos de forma robusta.
Comprensión de cuándo conviene trabajar con arrays genéricos y cuándo tiene sentido construir `Pool` explícitamente.
Revisión del valor de `FeaturesData` cuando se necesita acelerar la construcción de datasets desde Python.
Preparación de entradas con nombres de columnas, índices de variables categóricas y estructuras compatibles con inferencia posterior.
Detección de errores frecuentes al mezclar orden de columnas, nombres y tipos de datos.
Trabajo sobre cómo diseñar un pipeline de entrada que minimice ambigüedades entre entrenamiento y predicción.
Revisión de casos con sparse matrices, pandas y estructuras híbridas de datos.
Preparación de `Pool` para casos supervisados más avanzados, como ranking, pesos o validación separada.
Comprensión del impacto que tiene una mala representación de entrada sobre la estabilidad del modelo.
Taller de construcción de varios objetos `Pool` para escenarios distintos.
Tema 5: Variables categóricas: el núcleo diferencial de CatBoost
Comprensión profunda de por qué CatBoost trata las variables categóricas de forma distinta a un pipeline de one-hot encoding clásico.
Revisión de la recomendación oficial de no aplicar one-hot encoding durante el preprocesado general cuando se trabaja con CatBoost.
Trabajo sobre cardinalidad, rare categories, combinaciones y señal de negocio contenida en atributos categóricos.
Preparación de datasets con variables categóricas limpias, bien tipadas y coherentes entre entrenamiento e inferencia.
Detección de errores típicos como mezclar IDs, etiquetas nominales y textos semiestructurados sin criterio.
Revisión de cómo CatBoost transforma variables categóricas en nuevas variables numéricas internas.
Construcción de criterios para decidir qué columnas deben entrar realmente como categóricas.
Trabajo sobre problemas de fugas sutiles en variables categóricas con alto poder de identificación.
Preparación de estrategias robustas para datasets con muchas columnas categóricas de negocio.
Taller de diseño correcto de variables categóricas para varios casos empresariales.
Tema 6: Variables de texto en CatBoost y casos de uso reales
Comprensión del soporte nativo de características de texto dentro de CatBoost y de su diferencia respecto a pipelines externos de NLP.
Revisión de qué tipos de campos textuales cortos o medianos tienen sentido dentro de un proyecto tabular.
Trabajo sobre tokenización, diccionarios y feature calcers desde la perspectiva del producto y del dato.
Preparación de esquemas de trabajo donde una columna textual complementa variables numéricas y categóricas.
Detección de situaciones donde el texto aporta señal útil y de otras donde solo añade ruido o coste.
Revisión de cómo CatBoost transforma texto a representaciones numéricas para el entrenamiento.
Construcción de una metodología prudente para evaluar el valor real del texto dentro del problema.
Trabajo sobre limpieza mínima necesaria y sobre el error de preprocesar en exceso campos textuales.
Preparación de experimentos comparativos entre modelo tabular puro y modelo tabular con texto.
Taller de incorporación de text features a un caso de clasificación o scoring.
Tema 7: Embeddings features y enriquecimiento avanzado del modelo
Comprensión del soporte oficial de embeddings dentro de CatBoost y de su papel en arquitecturas tabulares más ricas.
Revisión de cuándo tiene sentido aportar embeddings preexistentes y cuándo complica innecesariamente el pipeline.
Trabajo sobre fuentes habituales de embeddings en empresa: texto, producto, usuario, entidad o contenidos.
Preparación de flujos donde embeddings y variables estructuradas conviven dentro del mismo modelo.
Revisión de la lógica interna descrita por CatBoost para derivar nuevas variables numéricas a partir de embeddings.
Detección de casos donde el embedding mejora señal y de otros donde empeora robustez o interpretabilidad.
Construcción de criterios de evaluación para justificar el coste adicional de esta capa.
Trabajo sobre dimensionalidad, coherencia y gobernanza del embedding en inferencia.
Preparación de una estrategia experimental para medir si los embeddings aportan valor incremental.
Taller de integración de embeddings en un pipeline tabular avanzado.
Tema 8: CatBoostClassifier y problemas de clasificación binaria y multiclase
Uso profesional de `CatBoostClassifier` para clasificación binaria, multiclase y escenarios de negocio con clases desbalanceadas.
Revisión del comportamiento por defecto de la clase y de cómo CatBoost decide el objetivo optimizado según la variable objetivo.
Preparación de pipelines de entrenamiento con validación, métricas, pesos y control de mejor iteración.
Trabajo sobre datasets desbalanceados, decisiones de threshold y evaluación según coste de error.
Detección de errores habituales al confundir probabilidad, score y clase final.
Revisión de cómo estructurar experimentos para clasificación robusta y comparable.
Construcción de una lógica de selección de métricas alineada con el objetivo real del negocio.
Trabajo sobre predicción por nombre de columnas y orden correcto de variables en inferencia.
Preparación de modelos reutilizables para scoring, churn, fraude, riesgo o propensión.
Taller de construcción de un clasificador completo con evaluación seria.
Tema 9: CatBoostRegressor y problemas de regresión empresarial
Uso de `CatBoostRegressor` para predicción de valor continuo en entornos como pricing, demanda, coste, riesgo o forecasting tabular.
Revisión de objetivos y métricas de regresión soportados y de su relación con el error de negocio.
Preparación de pipelines de entrenamiento con pesos, validación, transformaciones y lectura correcta del target.
Trabajo sobre targets con outliers, distribuciones sesgadas o escalas de valor muy distintas.
Detección de errores frecuentes al evaluar regresión solo con una métrica y sin entender el tipo de error predominante.
Revisión de cómo elegir entre RMSE, MAE, quantiles u otros objetivos según el caso real.
Construcción de estrategias de validación para regresión cuando hay dependencia temporal o segmentación por grupos.
Trabajo sobre interpretación del error en unidades de negocio y no solo en términos estadísticos.
Preparación de modelos de regresión listos para consumo analítico o productivo.
Taller de entrenamiento y evaluación completa de un regressor con CatBoost.
Tema 10: CatBoostRanker y sistemas de ranking
Comprensión del caso de uso de ranking y de por qué difiere de clasificación o regresión tradicionales.
Revisión de grupos, queries y orden de objetos como elementos estructurales del dataset de ranking.
Trabajo sobre loss functions de ranking y sobre la importancia de construir bien el problema antes de optimizar.
Preparación de datos agrupados con trazabilidad entre query, candidato y señal de relevancia.
Detección de errores habituales al ignorar la estructura de grupo o al desordenar los datos.
Revisión de métricas y objetivos disponibles para problemas de ordenación.
Construcción de una metodología para ranking en recomendación, búsqueda o priorización operativa.
Trabajo sobre evaluación offline de ranking y sus límites en relación con el uso real.
Preparación de un pipeline de entrenamiento con `CatBoostRanker`.
Taller de modelado de un problema de ranking desde la estructura del dataset hasta la evaluación.
Tema 11: Fit, validación y control de entrenamiento
Uso correcto de `fit` y de los parámetros que condicionan el comportamiento del entrenamiento y la validación.
Comprensión de la relación entre parámetros del constructor y parámetros pasados directamente al método de entrenamiento.
Preparación de conjuntos de validación robustos para observar aprendizaje, generalización y selección de mejor modelo.
Trabajo sobre la importancia de separar entrenamiento, validación y test sin contaminar decisiones.
Revisión de parámetros como `use_best_model`, `eval_set`, `verbose`, `logging_level` y sus implicaciones operativas.
Detección de errores muy comunes en notebooks donde se entrena muchas veces sobre el mismo split sin disciplina.
Construcción de una rutina de entrenamiento trazable y comparable entre experimentos.
Trabajo sobre snapshots, reanudación de entrenamiento y control de sesiones largas.
Revisión de cómo mantener velocidad de entrenamiento sin perder capacidad de inspección.
Taller de diseño de un pipeline estándar de entrenamiento profesional.
Tema 12: Overfitting detector, early stopping y generalización
Comprensión del papel del detector de sobreajuste como mecanismo práctico para detener el entrenamiento cuando deja de mejorar.
Revisión de cómo CatBoost implementa early stopping mediante parámetros como `od_type` y `od_wait`.
Trabajo sobre la diferencia entre parar pronto por prudencia y cortar demasiado pronto una búsqueda útil.
Preparación de validaciones que hagan significativo el mejor punto de parada del entrenamiento.
Detección de síntomas de sobreajuste en curvas, métricas y comportamiento del modelo entre splits.
Construcción de criterios para usar mejor iteración, truncado y selección de mejor modelo.
Trabajo sobre cómo integrar el detector en sesiones de tuning sin perder comparabilidad.
Revisión de la compatibilidad entre detector de sobreajuste y métricas personalizadas.
Preparación de una disciplina para controlar generalización en datasets pequeños o de alta complejidad.
Taller de uso correcto del overfitting detector en varios escenarios de modelado.
Tema 13: Cross-validation, benchmarking y evaluación robusta
Uso de la función oficial `cv` para validar rendimiento medio y variabilidad del modelo de forma mucho más robusta.
Revisión de la diferencia entre validación cruzada y holdout simple cuando se busca comparar configuraciones con seriedad.
Preparación de esquemas de validación alineados con naturaleza temporal, agrupada o estratificada del problema.
Trabajo sobre cómo leer medias y desviaciones estándar de métricas en vez de confiar en un único resultado puntual.
Detección de decisiones de tuning basadas en ruido experimental y no en señal consistente.
Construcción de un marco de benchmarking para comparar CatBoost con otros modelos o con variantes del propio pipeline.
Trabajo sobre la importancia de fijar semillas, procesos y datasets para hacer comparaciones justas.
Revisión de cómo usar validación cruzada para detectar sobreajuste silencioso o fragilidad del modelo.
Preparación de reporting técnico de resultados para equipo, negocio o comité de modelado.
Taller de benchmarking riguroso con `cv` y múltiples configuraciones.
Tema 14: Métricas, objetivos y alineación con negocio
Revisión profunda de loss functions y métricas disponibles en CatBoost para clasificación, multiclase, multilabel, regresión y ranking.
Comprensión de la diferencia entre optimizar una loss durante entrenamiento y monitorizar una métrica de negocio o validación.
Trabajo sobre cómo elegir métrica principal según el coste real del error en el caso de uso.
Preparación de pipelines donde no se optimiza a ciegas una métrica estándar que no representa el impacto operativo.
Detección de escenarios donde varias métricas deben convivir para tomar una decisión responsable.
Construcción de un marco de lectura que traduzca resultados técnicos a lenguaje de negocio.
Trabajo sobre métricas personalizadas y su papel en selección de mejor iteración.
Revisión de cómo el objetivo elegido condiciona el comportamiento del modelo y del tuning.
Preparación de decisiones de evaluación para fraude, churn, riesgo, pricing o ranking.
Taller de alineación entre objetivo estadístico y objetivo de negocio.
Tema 15: Tuning profesional de hiperparámetros
Revisión de los hiperparámetros más influyentes en CatBoost y de cómo interactúan entre sí.
Trabajo sobre `iterations`, `learning_rate`, `depth`, `l2_leaf_reg`, `random_strength`, `bagging_temperature`, `border_count` y `grow_policy`.
Comprensión del efecto de una mala combinación de parámetros sobre sobreajuste, subajuste, tiempo y estabilidad.
Preparación de estrategias de búsqueda incremental en vez de barridos ciegos sin criterio.
Revisión de recomendaciones oficiales de tuning y de aceleración del entrenamiento.
Detección de cuándo el tuning ya no está mejorando señal y solo está sobreajustando al set de validación.
Construcción de una metodología práctica para tuning manual, con Optuna o con utilidades propias del ecosistema.
Trabajo sobre parámetros especiales como golden features o decisiones de crecimiento del árbol.
Preparación de un proceso de tuning reproducible y defendible técnicamente.
Taller de tuning completo sobre un caso realista.
Tema 16: Velocidad, memoria y entrenamiento eficiente
Revisión de los factores que más condicionan el tiempo de entrenamiento y el consumo de memoria en CatBoost.
Trabajo sobre aceleración con GPU, reuse de datasets cuantizados y representación eficiente de datos.
Comprensión del impacto de cardinalidad, número de splits, combinaciones categóricas y otras decisiones sobre el rendimiento.
Preparación de estrategias para acelerar experimentación sin destruir calidad del modelo.
Revisión de recomendaciones oficiales para speeding up training en contextos reales de trabajo.
Detección de cuellos de botella que no vienen del algoritmo sino del pipeline de datos o de la estructura experimental.
Construcción de un enfoque progresivo para datasets medianos y grandes.
Trabajo sobre equilibrio entre rapidez de exploración y precisión del resultado final.
Preparación de experimentos controlados para medir mejoras reales de velocidad.
Taller de optimización de rendimiento de un entrenamiento CatBoost.
Tema 17: Entrenamiento en GPU y consideraciones de hardware
Comprensión de cuándo el entrenamiento en GPU aporta valor real y cuándo no compensa el cambio de entorno.
Revisión de requisitos de hardware y drivers para entrenamiento en GPU dentro de CatBoost.
Preparación de configuraciones `task_type="GPU"` y de criterios para elegir CPU o GPU según volumen y tipo de dato.
Trabajo sobre diferencias prácticas de velocidad, iteración experimental y estabilidad del pipeline.
Revisión de cómo adaptar métricas, verbose y configuración para no perder visibilidad al pasar a GPU.
Detección de escenarios donde la GPU no resuelve un problema de datos mal planteado.
Construcción de buenas prácticas para aprovechar GPU sin aumentar innecesariamente complejidad operativa.
Trabajo sobre entrenamiento multiGPU y límites razonables según caso de uso.
Preparación de un protocolo de pruebas comparativas CPU vs GPU.
Taller de entrenamiento y benchmarking básico en GPU.
Tema 18: Interpretabilidad, feature importance y análisis del modelo
Revisión de las distintas formas de importancia de variables y del valor real que tienen según la pregunta analítica.
Trabajo sobre cómo interpretar contribución de features sin caer en lecturas simplistas o engañosas.
Preparación de análisis de importancia global y de diferencias entre relevancia estadística y relevancia de negocio.
Detección de casos donde una variable domina el modelo por fuga de información y no por capacidad predictiva legítima.
Revisión de límites de interpretabilidad cuando el problema incluye muchas combinaciones o variables derivadas.
Construcción de narrativas explicativas útiles para equipos de negocio y para validación interna.
Trabajo sobre object importances y lectura de aportes a nivel individual cuando el caso lo requiere.
Revisión de restricciones concretas de interpretación cuando se usan ciertas políticas de crecimiento.
Preparación de un marco de interpretabilidad que acompañe al modelo desde la fase de experimentación.
Taller de lectura explicativa de un modelo CatBoost.
Tema 19: Predicción, inferencia y consistencia entre train y serve
Uso correcto de `predict` y comprensión de los distintos tipos de salida que puede necesitar una aplicación o un analista.
Revisión de la importancia del orden de columnas y del valor de los nombres de features para inferencia segura.
Preparación de pipelines donde la representación del dato en predicción sea coherente con la del entrenamiento.
Detección de errores típicos de inferencia cuando el equipo cambia columnas, nombres o tipos sin control.
Construcción de servicios de scoring con garantías mínimas de trazabilidad y consistencia.
Trabajo sobre inferencia batch y online según tipo de caso de uso.
Revisión de cómo devolver probabilidades, scores, clases o valores continuos según necesidad del consumidor.
Preparación de pruebas de regresión para asegurar que el modelo desplegado sigue respondiendo como se espera.
Detección de riesgos al aplicar el modelo a datos fuera del rango observado o con drift evidente.
Taller de diseño de un pipeline de inferencia reproducible.
Tema 20: Exportación, serialización y despliegue
Revisión de formatos de exportación de modelos y de los criterios para elegir uno u otro según entorno de despliegue.
Trabajo sobre exportación a formatos soportados como JSON, Python o C++ cuando el caso lo justifique.
Preparación de una estrategia de serialización alineada con auditoría, portabilidad y mantenimiento.
Detección de limitaciones asociadas a ciertas configuraciones de entrenamiento al exportar modelos.
Construcción de un flujo de empaquetado y versionado de modelos para entornos de prueba y producción.
Revisión de cómo integrar CatBoost en servicios backend, jobs batch o pipelines analíticos.
Trabajo sobre cómo asegurar compatibilidad entre el modelo, sus features y la lógica de inferencia.
Preparación de artefactos auxiliares como diccionarios de columnas, metadatos y checks de validación.
Detección de errores de despliegue por olvidar dependencias del pipeline y no solo del modelo.
Taller de exportación y preparación de despliegue de un modelo CatBoost.
Tema 21: CatBoost en Spark, CLI y entornos de escala
Revisión del papel de CatBoost más allá de Python, incluyendo CLI y soporte para Apache Spark.
Comprensión de cuándo tiene sentido salir del notebook y pasar a flujos de mayor escala o integración corporativa.
Trabajo sobre catboost-spark en contextos donde el volumen o la arquitectura de datos lo justifique.
Preparación de una lectura práctica de capacidades y límites de la integración con Spark.
Detección de cuándo Spark aporta valor real y cuándo solo añade complejidad a un problema que cabe en Python estándar.
Revisión del papel de la CLI para automatizaciones, jobs y entornos más cercanos a plataforma.
Construcción de una visión de CatBoost como componente flexible dentro de ecosistemas de datos más amplios.
Trabajo sobre compatibilidades y evolución del soporte Spark en la línea actual de releases.
Preparación de criterios para elegir superficie de ejecución según tamaño de dato y contexto empresarial.
Taller de diseño arquitectónico para escalar CatBoost fuera del notebook.
Tema 22: Gobierno del experimento, reproducibilidad y MLOps básico
Construcción de una disciplina de experimentación para no perder trazabilidad entre datasets, parámetros, métricas y modelos.
Revisión de cómo fijar semillas, guardar configuraciones y versionar decisiones de modelado.
Preparación de notebooks y scripts que puedan reproducirse sin depender del contexto mental del autor.
Detección de errores frecuentes en experimentación artesanal que luego impiden explicar por qué un modelo quedó seleccionado.
Trabajo sobre naming, almacenamiento y registro de artefactos para poder comparar iteraciones con sentido.
Revisión de cómo integrar CatBoost en pipelines de entrenamiento más amplios con control mínimo de calidad.
Construcción de un marco de revisión técnica antes de promover un modelo a producción.
Trabajo sobre documentación interna útil para modelado y para transferencia a otros perfiles.
Preparación de una base de MLOps ligero para equipos que aún no tienen plataforma muy madura.
Taller de diseño de gobierno mínimo viable para proyectos con CatBoost.
Tema 23: Proyecto final integrador de CatBoost
Selección de un caso real de negocio con suficiente complejidad tabular y mezcla de señales como para justificar CatBoost.
Diagnóstico inicial del dataset, del objetivo de negocio y de los principales riesgos de calidad de dato o fuga de información.
Diseño del pipeline completo con preparación del dato, `Pool`, validación, entrenamiento, tuning y evaluación.
Definición del tratamiento correcto de variables categóricas, de texto o embeddings cuando el caso lo requiera.
Entrenamiento de uno o varios modelos comparables y selección basada en métricas y robustez.
Revisión de interpretabilidad, importancia de variables y coherencia del comportamiento del modelo.
Diseño del flujo de inferencia y de los artefactos necesarios para despliegue o consumo analítico.
Evaluación de coste computacional, rendimiento y decisiones de CPU o GPU.
Presentación del caso con enfoque técnico, de negocio y de mantenibilidad.
Entrega de un blueprint reusable para aplicar CatBoost en otros casos de la organización.
Perfiles profesionales
Pensado para quienes deben dominar CatBoost en su día a día
Data Scientists y Machine Learning Engineers
Este perfil encaja especialmente bien porque necesita ir más allá del uso superficial de librerías de boosting y entender de verdad cómo sacar rendimiento a CatBoost en problemas reales. El curso le ayuda a dominar modelado, tuning, validación, interpretación y despliegue, con foco en decisiones prácticas y no solo en teoría general.
Analistas avanzados y perfiles de analítica predictiva
Quienes ya trabajan con datos y quieren dar el salto hacia modelado más robusto encuentran aquí un encaje muy claro. La formación les permite entender cómo usar CatBoost con datasets tabulares complejos, cómo tratar variables categóricas de forma adecuada y cómo medir correctamente si el modelo está aportando valor real al negocio.
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en CatBoost
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
No necesariamente, pero sí conviene tener ya una base de Python y aprendizaje supervisado. El curso está pensado para perfiles técnicos que quieren usar CatBoost con seriedad profesional, no para empezar desde cero en ciencia de datos. Aun así, la progresión está diseñada para construir desde fundamentos operativos hasta uso avanzado.
No. Esa es una de sus fortalezas más conocidas, pero no la única. La documentación oficial indica que CatBoost soporta features numéricas, categóricas, de texto y embeddings, y cubre tareas de clasificación, regresión y ranking. Precisamente por eso el curso recorre todo el producto y no solo la parte categórica.
En general, no. La documentación oficial advierte expresamente que no conviene usar one-hot encoding durante el preprocesado general cuando se trabaja con las variables categóricas de CatBoost, porque eso puede perjudicar tanto la velocidad de entrenamiento como la calidad final. Este es uno de los puntos que más se trabaja en el curso.
Sí. CatBoost soporta entrenamiento en GPU y la documentación oficial indica que, para usarlo, debe configurarse `task_type` en la clase y contar con drivers NVIDIA 450.xx o superiores. El curso cubre precisamente cuándo compensa usar GPU y cuándo una buena estrategia en CPU puede ser suficiente.
Sí. La formación dedica una parte importante a `cv`, a la lectura correcta de métricas medias y desviaciones, y al uso del overfitting detector y parámetros como `od_wait` para detener el entrenamiento cuando deja de aportar valor. Todo eso está documentado oficialmente y es crítico para usar CatBoost con rigor.
Sí. La documentación oficial incluye CatBoostRanker y una sección específica de objetivos y métricas de ranking. Esto es especialmente útil en problemas de recomendación, priorización, búsqueda o scoring ordenado, y en el curso se trabaja cómo plantear correctamente ese tipo de dataset.
Sí, los cubre. CatBoost documenta soporte de texto y embeddings como tipos de features nativos, y el curso incluye cuándo tiene sentido usarlos, cómo integrarlos en el pipeline y cómo medir si realmente aportan valor frente a un modelo tabular más simple.
Sí. En contexto corporativo, esta formación puede plantearse como bonificable hasta el 100% si la empresa dispone de crédito suficiente y tramita correctamente la acción formativa conforme al marco aplicable.
No necesariamente, pero sí conviene tener ya una base de Python y aprendizaje supervisado. El curso está pensado para perfiles técnicos que quieren usar CatBoost con seriedad profesional, no para empezar desde cero en ciencia de datos. Aun así, la progresión está diseñada para construir desde fundamentos operativos hasta uso avanzado.
No. Esa es una de sus fortalezas más conocidas, pero no la única. La documentación oficial indica que CatBoost soporta features numéricas, categóricas, de texto y embeddings, y cubre tareas de clasificación, regresión y ranking. Precisamente por eso el curso recorre todo el producto y no solo la parte categórica.
En general, no. La documentación oficial advierte expresamente que no conviene usar one-hot encoding durante el preprocesado general cuando se trabaja con las variables categóricas de CatBoost, porque eso puede perjudicar tanto la velocidad de entrenamiento como la calidad final. Este es uno de los puntos que más se trabaja en el curso.
Sí. CatBoost soporta entrenamiento en GPU y la documentación oficial indica que, para usarlo, debe configurarse `task_type` en la clase y contar con drivers NVIDIA 450.xx o superiores. El curso cubre precisamente cuándo compensa usar GPU y cuándo una buena estrategia en CPU puede ser suficiente.
Sí. La formación dedica una parte importante a `cv`, a la lectura correcta de métricas medias y desviaciones, y al uso del overfitting detector y parámetros como `od_wait` para detener el entrenamiento cuando deja de aportar valor. Todo eso está documentado oficialmente y es crítico para usar CatBoost con rigor.
Sí. La documentación oficial incluye CatBoostRanker y una sección específica de objetivos y métricas de ranking. Esto es especialmente útil en problemas de recomendación, priorización, búsqueda o scoring ordenado, y en el curso se trabaja cómo plantear correctamente ese tipo de dataset.
Sí, los cubre. CatBoost documenta soporte de texto y embeddings como tipos de features nativos, y el curso incluye cuándo tiene sentido usarlos, cómo integrarlos en el pipeline y cómo medir si realmente aportan valor frente a un modelo tabular más simple.
Sí. En contexto corporativo, esta formación puede plantearse como bonificable hasta el 100% si la empresa dispone de crédito suficiente y tramita correctamente la acción formativa conforme al marco aplicable.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
Une modelado, evaluación y producción en un mismo recorrido El curso no se queda en el modelado académico. También conecta evaluación rigurosa, interpretabilidad, consistencia de inferencia, exportación y criterios de despliegue, lo que lo hace mucho más útil para empresa que una formación centrada solo en notebooks y métricas finales.
2
Ayuda a decidir con criterio y no por moda de librería Otra ventaja muy importante es que enseña cuándo CatBoost tiene sentido y cuándo no, cómo compararlo con otras opciones y cómo justificar técnicamente su uso. Eso reduce mucho el riesgo de adoptarlo por inercia sin entender bien ni el dato ni el problema.
3
Mejora rendimiento experimental y eficiencia operativa La formación trabaja también la parte que más valor aporta cuando un equipo crece: rapidez de iteración, uso correcto de GPU, representación eficiente del dato, tuning ordenado y control del coste experimental. Eso permite explorar mejor sin convertir el entrenamiento en un cuello de botella.¡
4
Deja una metodología reusable para múltiples casos tabulares El valor del curso no está solo en aprender CatBoost una vez, sino en dejar una forma de trabajo reusable para scoring, riesgo, churn, fraude, pricing, demanda, ranking y otros problemas tabulares comunes en empresa. Esa metodología es lo que permite escalar el uso de la herramienta con menos fricción y más consistencia.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras
Ingenieros de datos y perfiles de plataforma analítica
Este perfil obtiene mucho valor porque a menudo debe preparar datasets, construir pipelines y garantizar que el entrenamiento sea reproducible, eficiente y mantenible. El curso le ayuda a integrar CatBoost dentro de procesos de datos más amplios, evitando errores clásicos de calidad de dato, fuga de información y experimentación desordenada.
Perfiles de MLOps y despliegue de modelos
Quienes trabajan entre experimentación y producción pueden aprovechar muchísimo esta formación porque CatBoost no termina en `fit` y `predict`. El programa cubre serialización, inferencia, rendimiento, exportación y criterios de integración para que el modelo pueda desplegarse con menos fricción y con mayor control operativo.
Equipos de riesgo, pricing, fraude, scoring y operaciones
Este perfil encaja especialmente bien porque muchos de sus casos de uso trabajan con datos tabulares, mezcla de variables numéricas y categóricas y necesidad de decisiones rápidas y trazables. El curso les aporta una metodología muy útil para construir modelos más sólidos y mejor explicados en contextos empresariales exigentes.
Organizaciones que quieren estandarizar boosting tabular con una librería potente
Para empresas que necesitan una base sólida en modelado tabular, esta formación resulta especialmente valiosa porque CatBoost ofrece ventajas muy claras en variables categóricas, soporte de texto y embeddings, clasificación, regresión y ranking, además de APIs y tooling maduros para uso profesional.