¿Hace falta saber programar antes?

Conviene tener nociones básicas de programación o análisis de datos. El curso incluye fundamentos de Python aplicados a Data Science, pero avanza hacia modelado, MLOps y despliegue.

¿Se trabaja pandas actualizado?

Sí. El curso incluye pandas moderno, incluyendo buenas prácticas de asignación, Copy-on-Write, limpieza, joins, agrupaciones, fechas, optimización y pipelines de transformación.

¿Incluye Polars y DuckDB?

Sí. Se incluyen Polars, PyArrow, Parquet y DuckDB para trabajar con datos grandes, análisis rápido, consultas SQL locales y flujos más eficientes que los basados exclusivamente en pandas.

¿Incluye machine learning?

Sí. Incluye machine learning supervisado, no supervisado, evaluación, selección de modelos, ajuste de hiperparámetros, métricas, explicabilidad, fairness y análisis de errores.

¿Incluye deep learning?

Sí. Incluye una introducción práctica a deep learning con PyTorch, TensorFlow o Keras, siempre explicando cuándo aporta valor frente a modelos clásicos.

¿Incluye IA generativa y LLMs?

Sí. Incluye uso de LLMs en Data Science, embeddings, RAG básico, análisis documental, evaluación de respuestas, seguridad de prompts y límites de la IA generativa.

¿Se trabaja con proyectos reales?

Sí. Todo el temario está orientado a casos empresariales y termina con un proyecto final integrador que cubre datos, EDA, modelo, evaluación, despliegue, documentación y presentación.

¿Se incluye despliegue de modelos?

Sí. Se trabaja despliegue con FastAPI, Streamlit o Gradio, empaquetado con Docker, tracking con MLflow y monitorización de rendimiento, errores y drift.

¿Sirve para equipos de negocio?

Sí, especialmente si trabajan con datos y decisiones. Los perfiles no técnicos podrán aprovechar mejor las partes de análisis, visualización, interpretación, métricas, storytelling y casos de uso.

¿Qué diferencia tiene frente a un curso básico de Python?

Este curso no enseña Python de forma aislada. Python se usa como herramienta para resolver problemas de datos: limpieza, análisis, modelos, IA, automatización, despliegue y comunicación de resultados.

¿Puede bonificarse por FUNDAE?

Sí. Al tratarse de una formación corporativa en Python, Data Science, IA, machine learning, analítica, automatización, productividad y competencias digitales, puede plantearse como formación bonificable hasta el 100% a través de FUNDAE, según el crédito disponible y cumpliendo los requisitos administrativos aplicables.

Curso de Data Science con Python para tu equipo de datos

Aprende con el curso de Data Science con Python para empresas hasta 100% bonificado, a medida para tu organización.

Totalmente práctico y aplicable

Formación en Data Science con Python a medida

100% bonificable a través de FUNDAE

Curso TUTORIZADO por expertos

Solicitar precio

Me interesa

Calcula mis créditos de FUNDAE

Solicitar precio

Calcula mis créditos de FUNDAE

Programa formativo

Temario del curso

Encuentra todo el temario del curso aquí.

Temario

¿Qué es Data Science y cómo combina programación, estadística, negocio, visualización, machine learning, ingeniería de datos y comunicación?
¿Para qué sirve Python en Data Science cuando la empresa ya trabaja con Excel, BI, SQL, ERP, CRM, data warehouses o plataformas cloud?
¿Qué diferencia hay entre análisis descriptivo, diagnóstico, predictivo, prescriptivo y generación de soluciones basadas en IA?
¿Cuándo tiene sentido crear un modelo predictivo y cuándo basta con una regla de negocio, un dashboard o una consulta SQL bien diseñada?
¿Qué roles intervienen en un proyecto real: negocio, analista, data scientist, data engineer, IT, seguridad, legal y dirección?
Identificar casos de uso frecuentes: predicción de demanda, churn, segmentación, fraude, clasificación de tickets, mantenimiento predictivo y forecast.
Reconocer riesgos habituales: datos incompletos, sesgos, fuga de información, modelos opacos, métricas mal elegidas y conclusiones sin contexto.
Entender el flujo completo de trabajo: pregunta de negocio, datos, exploración, preparación, modelado, evaluación, despliegue y seguimiento.
Definir criterios de éxito antes de empezar: métrica de negocio, métrica técnica, coste de error, usuario final y decisión que se quiere mejorar.
Crear un mapa inicial de proyecto de Data Science con problema, datos disponibles, hipótesis, limitaciones, entregables y riesgos.

¿Qué es Data Science y cómo combina programación, estadística, negocio, visualización, machine learning, ingeniería de datos y comunicación?
¿Para qué sirve Python en Data Science cuando la empresa ya trabaja con Excel, BI, SQL, ERP, CRM, data warehouses o plataformas cloud?
¿Qué diferencia hay entre análisis descriptivo, diagnóstico, predictivo, prescriptivo y generación de soluciones basadas en IA?
¿Cuándo tiene sentido crear un modelo predictivo y cuándo basta con una regla de negocio, un dashboard o una consulta SQL bien diseñada?
¿Qué roles intervienen en un proyecto real: negocio, analista, data scientist, data engineer, IT, seguridad, legal y dirección?
Identificar casos de uso frecuentes: predicción de demanda, churn, segmentación, fraude, clasificación de tickets, mantenimiento predictivo y forecast.
Reconocer riesgos habituales: datos incompletos, sesgos, fuga de información, modelos opacos, métricas mal elegidas y conclusiones sin contexto.
Entender el flujo completo de trabajo: pregunta de negocio, datos, exploración, preparación, modelado, evaluación, despliegue y seguimiento.
Definir criterios de éxito antes de empezar: métrica de negocio, métrica técnica, coste de error, usuario final y decisión que se quiere mejorar.
Crear un mapa inicial de proyecto de Data Science con problema, datos disponibles, hipótesis, limitaciones, entregables y riesgos.

¿Tienes dudas?

Estamos aquí para ayudarte

Reservar plaza

Tema 1: ¿Qué es Data Science con Python y cuándo aporta valor en la empresa?

¿Qué es Data Science y cómo combina programación, estadística, negocio, visualización, machine learning, ingeniería de datos y comunicación?
¿Para qué sirve Python en Data Science cuando la empresa ya trabaja con Excel, BI, SQL, ERP, CRM, data warehouses o plataformas cloud?
¿Qué diferencia hay entre análisis descriptivo, diagnóstico, predictivo, prescriptivo y generación de soluciones basadas en IA?
¿Cuándo tiene sentido crear un modelo predictivo y cuándo basta con una regla de negocio, un dashboard o una consulta SQL bien diseñada?
¿Qué roles intervienen en un proyecto real: negocio, analista, data scientist, data engineer, IT, seguridad, legal y dirección?
Identificar casos de uso frecuentes: predicción de demanda, churn, segmentación, fraude, clasificación de tickets, mantenimiento predictivo y forecast.
Reconocer riesgos habituales: datos incompletos, sesgos, fuga de información, modelos opacos, métricas mal elegidas y conclusiones sin contexto.
Entender el flujo completo de trabajo: pregunta de negocio, datos, exploración, preparación, modelado, evaluación, despliegue y seguimiento.
Definir criterios de éxito antes de empezar: métrica de negocio, métrica técnica, coste de error, usuario final y decisión que se quiere mejorar.
Crear un mapa inicial de proyecto de Data Science con problema, datos disponibles, hipótesis, limitaciones, entregables y riesgos.

Tema 2: Entorno profesional de trabajo con Python, Jupyter, VS Code y Git

Instalar y configurar Python con entornos aislados para evitar conflictos de dependencias entre proyectos.
Comparar uv, conda, venv y pip como opciones de gestión de entornos, paquetes y reproducibilidad.
Preparar JupyterLab para análisis exploratorio, prototipado, documentación viva y comunicación técnica.
Configurar Visual Studio Code para notebooks, scripts, depuración, linting, formateo, tests y control de versiones.
Crear una estructura de proyecto limpia con carpetas para datos, notebooks, código fuente, modelos, informes, configuración y documentación.
Versionar el proyecto con Git, evitando subir datasets grandes, credenciales, salidas temporales o información sensible.
Gestionar dependencias con `pyproject.toml`, `requirements.txt`, `environment.yml` o herramientas corporativas.
Separar notebooks exploratorios de código reutilizable para que el análisis no dependa de celdas ejecutadas manualmente.
Documentar instalación, ejecución, fuentes de datos, parámetros, resultados y decisiones técnicas del proyecto.
Preparar una plantilla corporativa de proyecto Data Science lista para reutilizar en nuevos análisis.

Tema 3: Python aplicado a Data Science: fundamentos útiles y código mantenible

Trabajar con tipos de datos, listas, tuplas, diccionarios, conjuntos, strings, fechas y estructuras anidadas.
Crear funciones claras, pequeñas y reutilizables para limpieza, transformación, validación, cálculo de métricas y generación de informes.
Usar comprensión de listas, generadores e iteradores cuando aportan legibilidad y eficiencia.
Manejar errores con excepciones controladas, mensajes útiles y validaciones antes de procesar datos.
Leer y escribir archivos CSV, JSON, Excel, Parquet y texto plano con control de codificación, separadores y formatos.
Aplicar expresiones regulares para extraer, normalizar o validar patrones en datos textuales.
Organizar código en módulos, paquetes y scripts ejecutables para evitar notebooks imposibles de mantener.
Usar logging en lugar de prints cuando el análisis pasa a automatización, API o proceso programado.
Incorporar type hints y docstrings para mejorar claridad, revisión y mantenimiento del código.
Crear utilidades reutilizables para carga de datos, limpieza básica, validación de columnas y generación de reportes.

Tema 4: NumPy y computación numérica eficiente

Comprender arrays, dimensiones, shapes, dtypes y operaciones vectorizadas como base del cálculo científico en Python.
Crear arrays desde listas, rangos, distribuciones aleatorias, ficheros y resultados de otros procesos.
Aplicar indexación, slicing, máscaras booleanas y broadcasting para transformar datos sin bucles innecesarios.
Calcular estadísticos, agregaciones, operaciones matemáticas, álgebra lineal y transformaciones numéricas.
Gestionar valores especiales como `NaN`, infinitos, máscaras y conversiones de tipo de dato.
Evitar operaciones ineficientes cuando un cálculo puede resolverse de forma vectorizada.
Medir uso de memoria y rendimiento al trabajar con arrays grandes o simulaciones numéricas.
Conectar NumPy con pandas, scikit-learn, SciPy, Matplotlib y librerías de deep learning.
Generar datos sintéticos para probar modelos, validar funciones y crear escenarios reproducibles.
Construir un módulo de cálculo numérico para métricas, simulaciones, transformaciones y validaciones de datos.

Tema 5: pandas moderno: DataFrames, Copy-on-Write, limpieza y análisis tabular

Trabajar con Series y DataFrames como estructuras centrales para análisis de datos tabulares.
Importar datos desde CSV, Excel, JSON, Parquet, SQL y APIs, controlando tipos, fechas, nulos y codificación.
Aplicar selección, filtrado, ordenación, creación de columnas, asignaciones seguras y transformaciones encadenadas.
Entender el comportamiento moderno de pandas con Copy-on-Write y evitar patrones ambiguos de modificación de datos.
Gestionar valores nulos, duplicados, outliers, formatos inconsistentes, columnas mal tipadas y categorías poco fiables.
Usar `groupby`, agregaciones, ventanas, pivot tables, joins, merges y concatenaciones para análisis de negocio.
Trabajar con fechas, calendarios, periodos, zonas horarias, ventanas temporales y frecuencias.
Optimizar memoria mediante categorías, tipos numéricos adecuados, lectura por chunks y formatos columnares.
Crear pipelines de transformación claros, auditables y repetibles usando funciones y pasos documentados.
Preparar un dataset limpio, validado y enriquecido a partir de fuentes heterogéneas de laboratorio.

Tema 6: Polars, PyArrow y DuckDB para datos grandes y análisis rápido

Identificar cuándo pandas es suficiente y cuándo conviene usar Polars, PyArrow o DuckDB por volumen, rendimiento o consultas SQL.
Trabajar con formatos columnares como Parquet para reducir espacio, acelerar lectura y conservar tipos de datos.
Usar Polars en modo eager y lazy para transformar datos con expresiones eficientes y planes optimizados.
Consultar archivos CSV, Parquet y datasets locales con DuckDB sin cargarlo todo manualmente en memoria.
Combinar SQL y Python para análisis exploratorio, agregaciones, joins, filtros y extracción de subconjuntos.
Diseñar flujos híbridos donde DuckDB filtra y agrega, Polars transforma rápido y pandas se usa para compatibilidad analítica.
Evitar cargar datasets completos si el análisis puede resolverse con proyección de columnas, filtros y particionado.
Gestionar particiones por fecha, cliente, producto o región para mejorar rendimiento y mantenibilidad.
Comparar tiempos, memoria y claridad entre pandas, Polars y DuckDB en un mismo caso de negocio.
Construir un pipeline analítico sobre datos en Parquet con consultas SQL, transformaciones lazy y salida preparada para modelado.

Tema 7: Calidad del dato, limpieza avanzada y validación

Definir reglas de calidad: completitud, unicidad, validez, consistencia, precisión, integridad referencial y actualidad.
Detectar datos faltantes, duplicados, outliers, formatos incorrectos, categorías inconsistentes y relaciones imposibles.
Crear validaciones automáticas para columnas obligatorias, rangos permitidos, claves únicas, fechas coherentes y dominios controlados.
Aplicar imputación de valores nulos según contexto: media, mediana, moda, modelos, reglas de negocio o categoría “desconocido”.
Normalizar nombres, direcciones, teléfonos, emails, códigos, monedas, unidades y textos libres.
Tratar outliers diferenciando error de captura, valor extremo legítimo, evento anómalo y patrón de negocio relevante.
Evitar borrar registros sin documentar impacto, criterio, volumen afectado y posible sesgo introducido.
Crear reportes de calidad para negocio con errores detectados, acciones aplicadas y datos pendientes de validación.
Automatizar limpieza mediante funciones, pipelines y pruebas para que el proceso sea repetible.
Construir una capa de validación que bloquee datasets no aptos antes de entrenar modelos o generar informes.

Tema 8: Estadística aplicada, EDA y pensamiento analítico

Aplicar estadística descriptiva para entender distribución, tendencia central, dispersión, percentiles y variabilidad.
Visualizar histogramas, boxplots, densidades, dispersión, correlaciones, series temporales y relaciones entre variables.
Diferenciar correlación, causalidad, asociación espuria, efecto de segmento y sesgo de selección.
Plantear hipótesis de negocio y contrastarlas con datos, visualizaciones, tests estadísticos y análisis por grupos.
Usar intervalos de confianza, pruebas de hipótesis, p-valores y tamaño del efecto con interpretación prudente.
Analizar variables categóricas, numéricas, temporales y mixtas con técnicas adecuadas a cada tipo.
Detectar patrones ocultos mediante segmentación exploratoria, análisis de cohortes, ranking, variaciones y comparativas.
Evitar conclusiones basadas en muestras pequeñas, datos no representativos o visualizaciones engañosas.
Crear notebooks de EDA que expliquen qué se analiza, qué se observa, qué dudas quedan y qué decisiones se proponen.
Construir un informe exploratorio completo con hallazgos, hipótesis, riesgos de dato y recomendaciones de siguiente paso.

Tema 9: Visualización, storytelling y comunicación de resultados

Elegir gráficos adecuados según objetivo: comparación, evolución, distribución, composición, relación, ranking o anomalía.
Usar Matplotlib y Seaborn para visualizaciones estadísticas, exploratorias y publicables.
Incorporar Plotly, Altair o herramientas interactivas cuando el usuario necesita explorar filtros, detalles y comparativas.
Diseñar gráficos con títulos claros, unidades, escalas legibles, leyendas útiles y foco en la pregunta de negocio.
Evitar visualizaciones decorativas que impresionan pero no ayudan a decidir.
Construir dashboards ligeros con Streamlit o notebooks interactivos para revisar resultados con usuarios no técnicos.
Preparar narrativas ejecutivas que conecten dato, hallazgo, impacto, limitación y acción recomendada.
Adaptar la comunicación al público: equipo técnico, dirección, usuario operativo, área financiera o cliente interno.
Documentar supuestos, filtros, exclusiones, calidad de dato y límites de interpretación en cada entregable.
Crear una presentación final de resultados con visualizaciones, insight principal, riesgos y próximos pasos.

Tema 10: Feature engineering y preparación de datos para modelos

Transformar variables brutas en características útiles para capturar patrones de negocio y mejorar modelos.
Codificar variables categóricas mediante one-hot encoding, ordinal encoding, target encoding o embeddings según caso.
Escalar variables numéricas con standardization, normalization, robust scaling o transformaciones logarítmicas.
Crear variables temporales como día, semana, estacionalidad, antigüedad, recencia, frecuencia y ventanas móviles.
Generar variables agregadas por cliente, producto, tienda, canal, dispositivo, cuenta o periodo temporal.
Tratar datasets desbalanceados con técnicas de muestreo, ponderación de clases, métricas adecuadas y umbrales ajustados.
Separar correctamente train, validation y test para evitar fuga de información, especialmente en datos temporales o por cliente.
Usar pipelines de scikit-learn para encapsular preprocesamiento, imputación, escalado, codificación y modelo.
Evitar transformar datos usando información del conjunto de test o del futuro.
Construir un pipeline de preparación completo con validación, transformación, features y salida lista para modelado.

Tema 11: Machine Learning supervisado: regresión, clasificación y evaluación

Diferenciar problemas de regresión, clasificación binaria, multiclase, multilabel y ranking según objetivo de negocio.
Entrenar modelos base como regresión lineal, regresión logística, árboles de decisión, random forest, gradient boosting, SVM y KNN.
Crear baselines simples antes de usar modelos complejos para comprobar si realmente se aporta valor.
Evaluar regresión con MAE, RMSE, MAPE, R² y análisis de errores por segmento.
Evaluar clasificación con accuracy, precision, recall, F1, ROC-AUC, PR-AUC, matriz de confusión y curvas de calibración.
Ajustar umbrales de decisión según coste de falso positivo, falso negativo, capacidad operativa y prioridad de negocio.
Aplicar validación cruzada, grid search, randomized search y búsqueda bayesiana cuando el caso lo justifica.
Evitar sobreajuste mediante regularización, validación, control de complejidad, reducción de leakage y análisis de estabilidad.
Interpretar resultados por segmentos para detectar sesgos, degradación de rendimiento y casos donde el modelo falla.
Construir un modelo supervisado completo con pipeline, métrica principal, validación, ajuste y explicación de resultados.

Tema 12: Modelos avanzados, ensembles y explicabilidad

Usar modelos ensemble como random forest, gradient boosting, XGBoost, LightGBM o CatBoost cuando aportan mejora real.
Comparar rendimiento, interpretabilidad, coste computacional, facilidad de despliegue y sensibilidad a hiperparámetros.
Analizar importancia de variables con métodos nativos, permutation importance, SHAP o técnicas equivalentes.
Explicar predicciones individuales y comportamiento global del modelo para usuarios de negocio, auditoría y equipos técnicos.
Detectar variables proxy que puedan introducir sesgos, discriminación o decisiones difíciles de justificar.
Evaluar calibración de probabilidades cuando el modelo se usa para scoring, priorización o asignación de recursos.
Crear análisis de errores para entender falsos positivos, falsos negativos, predicciones extremas y segmentos débiles.
Evitar modelos muy complejos si no mejoran de forma significativa frente a alternativas simples y explicables.
Documentar el modelo con dataset, features, métrica, limitaciones, versión, supuestos y uso previsto.
Construir un modelo avanzado con explicabilidad, comparación frente a baseline y recomendación de uso empresarial.

Tema 13: Machine Learning no supervisado, segmentación y anomalías

Aplicar clustering para segmentación de clientes, productos, comportamientos, tickets, tiendas, proveedores o patrones de uso.
Usar K-Means, clustering jerárquico, DBSCAN, Gaussian Mixture Models u otros algoritmos según geometría y objetivo.
Evaluar clusters con silhouette, Davies-Bouldin, estabilidad, interpretabilidad y utilidad de negocio.
Reducir dimensionalidad con PCA, UMAP o t-SNE para exploración, visualización y comprensión de estructuras complejas.
Detectar anomalías con Isolation Forest, Local Outlier Factor, modelos estadísticos o reglas híbridas.
Diferenciar anomalía estadística, fraude, error de dato, evento raro y comportamiento legítimo de alto impacto.
Evitar crear segmentos que son matemáticamente correctos pero imposibles de accionar por negocio.
Crear perfiles de cluster con variables descriptivas, tamaño, valor, riesgo, comportamiento y acciones recomendadas.
Documentar limitaciones de modelos no supervisados, especialmente ausencia de verdad conocida y sensibilidad a escalado.
Construir una segmentación completa con interpretación, visualización, validación y propuesta de actuación.

Tema 14: Series temporales, forecasting y detección de cambios

Preparar datos temporales con frecuencia coherente, fechas limpias, huecos, duplicados, zonas horarias y agregaciones correctas.
Analizar tendencia, estacionalidad, ciclos, festivos, rupturas, outliers y efectos de calendario.
Crear modelos de forecast con métodos estadísticos, machine learning con features temporales y modelos especializados.
Evaluar predicciones temporales con backtesting, ventanas móviles, MAE, RMSE, MAPE, sMAPE y errores por horizonte.
Evitar dividir datos temporales aleatoriamente cuando el objetivo es predecir el futuro.
Incorporar variables exógenas como campañas, precios, festivos, clima, stock, eventos o cambios operativos.
Detectar cambios de tendencia, rupturas, picos anómalos, caídas inesperadas y comportamientos fuera de patrón.
Crear intervalos de predicción y escenarios optimista, esperado y conservador para apoyar planificación.
Documentar límites de forecast cuando hay poco histórico, cambios de negocio, datos inestables o eventos externos.
Construir un sistema de predicción de demanda o volumen operativo con backtesting y visualización de incertidumbre.

Tema 15: NLP, embeddings y análisis de texto con Python

Preparar texto mediante limpieza, normalización, tokenización, lematización, eliminación de ruido y tratamiento de idiomas.
Crear modelos clásicos con Bag of Words, TF-IDF, n-grams, regresión logística, SVM o modelos de clasificación supervisada.
Usar spaCy, scikit-learn y librerías modernas para clasificación, extracción de entidades, similitud y análisis de documentos.
Aplicar embeddings para representar texto en espacios vectoriales útiles para búsqueda, clustering, recomendación y clasificación.
Crear análisis de sentimiento, detección de intención, clasificación de tickets, agrupación de comentarios y resumen de feedback.
Evaluar modelos de texto con métricas adecuadas, revisión manual, matriz de errores y análisis de etiquetas ambiguas.
Evitar entrenar modelos de NLP con datos sensibles sin anonimización, permisos y control de retención.
Diseñar sistemas de búsqueda semántica con embeddings, índices vectoriales y validación de respuestas relevantes.
Comparar enfoque clásico, embeddings y modelos generativos según coste, precisión, privacidad y mantenimiento.
Construir un clasificador de tickets o comentarios con limpieza, embeddings, evaluación y propuesta de integración operativa.

Tema 16: IA generativa, LLMs y Data Science aumentado

Usar LLMs como apoyo al análisis, generación de hipótesis, explicación de código, documentación, resumen y exploración de datasets.
Diseñar prompts seguros para analizar datos sin incluir información personal, credenciales, contratos o datos confidenciales.
Combinar Python con APIs de modelos para clasificación, extracción, resumen, generación de etiquetas o asistencia analítica.
Evaluar resultados generativos con datasets de prueba, revisión humana, criterios de calidad y trazabilidad de prompts.
Construir flujos RAG básicos con documentos, embeddings, recuperación, contexto, respuesta y evaluación.
Evitar usar LLMs como fuente de verdad cuando la respuesta debe estar respaldada por datos, cálculos o fuentes verificables.
Medir coste, latencia, calidad, sesgos, estabilidad y riesgo de depender de proveedores externos.
Crear notebooks asistidos por IA sin perder comprensión del código ni reproducibilidad del análisis.
Documentar prompts, modelos, versiones, parámetros, entradas, salidas y decisiones tomadas a partir de IA generativa.
Construir una solución de análisis documental con embeddings, búsqueda semántica, resumen y evaluación manual.

Tema 17: Deep Learning con PyTorch, TensorFlow y Keras

Comprender redes neuronales, capas, activaciones, pérdida, optimizadores, entrenamiento, validación y regularización.
Diferenciar cuándo tiene sentido usar deep learning frente a modelos clásicos de scikit-learn.
Crear modelos básicos de clasificación y regresión con Keras o PyTorch sobre datasets tabulares, texto o imágenes sencillas.
Usar GPU cuando esté disponible, entendiendo memoria, batches, tiempos de entrenamiento y limitaciones del entorno.
Aplicar técnicas de regularización como dropout, early stopping, weight decay, normalización y data augmentation cuando proceda.
Monitorizar entrenamiento mediante curvas de pérdida, métricas, overfitting, underfitting y comportamiento por época.
Reutilizar modelos preentrenados para transferencia de aprendizaje en visión, texto o embeddings.
Evitar redes neuronales complejas si el dataset es pequeño, poco limpio o no justifica el coste de entrenamiento.
Documentar arquitectura, hiperparámetros, dataset, métricas, hardware y limitaciones del modelo.
Construir un modelo deep learning sencillo con validación, comparación frente a baseline y análisis de errores.

Tema 18: MLOps, experimentación, despliegue y monitorización de modelos

Registrar experimentos con parámetros, métricas, artefactos, datasets, código, modelos y resultados comparables.
Usar MLflow o herramientas equivalentes para tracking, evaluación, empaquetado y gestión del ciclo de vida del modelo.
Versionar datasets, features, modelos, notebooks, scripts y configuraciones para poder reproducir resultados.
Crear APIs con FastAPI para exponer modelos como servicios internos con validación de entrada y respuesta estructurada.
Crear aplicaciones de demostración con Streamlit o Gradio para validar modelos con usuarios de negocio.
Empaquetar soluciones con Docker cuando se necesita portabilidad, despliegue controlado y separación de dependencias.
Monitorizar modelos en producción con métricas de rendimiento, latencia, errores, drift de datos y drift de predicción.
Definir procesos de retraining, rollback, revisión humana, aprobación y retirada de modelos obsoletos.
Evitar desplegar modelos sin alertas, logs, métricas, documentación, owner y plan de soporte.
Construir un flujo MLOps completo con experimento registrado, modelo empaquetado, API, demo, métricas y plan de monitorización.

Tema 19: Proyecto final: solución completa de Data Science con Python

Seleccionar un caso de negocio realista: churn, demanda, fraude, tickets, ventas, inventario, satisfacción, finanzas o mantenimiento.
Definir pregunta de negocio, usuarios finales, decisión a mejorar, coste del error, métrica de éxito y limitaciones.
Preparar fuentes de datos en CSV, Parquet, SQL o API, documentando origen, calidad, cobertura, permisos y riesgos.
Crear EDA completo con análisis estadístico, visualizaciones, hipótesis, anomalías, segmentos y hallazgos principales.
Construir pipeline de limpieza, validación, feature engineering y división de datos sin fuga de información.
Entrenar varios modelos, comparar baseline, seleccionar métrica principal y ajustar hiperparámetros con validación correcta.
Explicar resultados con interpretabilidad, análisis de errores, segmentos débiles, limitaciones y recomendaciones de uso.
Desplegar una demo o API básica que permita probar predicciones, visualizar resultados y revisar casos concretos.
Crear documentación técnica y ejecutiva con arquitectura, datos, modelo, métricas, riesgos, privacidad y próximos pasos.
Presentar el proyecto final con storytelling, impacto de negocio, evidencias, decisiones, plan de despliegue y mejora continua.

Preguntas frecuentes

Resolvemos todas tus dudas sobre nuestra formación en Data Science con Python

Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.

Es un curso corporativo avanzado, pero empieza ordenando conceptos fundamentales. Es adecuado para perfiles con base técnica o analítica que quieran trabajar Data Science con Python de forma profesional.

¿Tienes dudas?
Estamos aqui para ayudarte

Contactar

¿Tienes dudas?
Estamos aqui para ayudarte

Contactar

Curso de Data Science con Python para tu equipo de datos

Aprende con el curso de Data Science con Python para empresas hasta 100% bonificado, a medida para tu organización.

¿Qué es FUNDAE?

¿Cómo funciona FUNDAE?

¿Cómo se bonifica un curso?

¿Qué es FUNDAE?

¿Cómo funciona FUNDAE?

¿Cómo se bonifica un curso?

¿Qué es FUNDAE?

¿Cómo funciona FUNDAE?

¿Cómo se bonifica un curso?

Curso de Data Science con Python hasta 100% Bonificable a través de FUNDAE

Tu bonificación paso a paso

La formación que decides
te devuelve dinero

Actualiza el enfoque clásico de Data Science

Conecta análisis técnico con valor de negocio Cada bloque está orientado a tomar mejores decisiones: definir métricas, entender errores, comunicar resultados, priorizar acciones y evitar modelos que no aportan valor real.

Mejora reproducibilidad y calidad La formación

Personaliza el temario al 100% para tu equipo

Nueva Plataforma
de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Temario del curso

Pensado para quienes deben dominar Data Science con Python en su día a día

Resolvemos todas tus dudas sobre nuestra formación en Data Science con Python

Diseñemos hoy el curso que tu empresa necesita

Prepara para datasets reales y no perfectos Se trabajan nulos, duplicados, outliers, datos grandes, fuentes heterogéneas, texto, fechas, SQL, APIs, Parquet y calidad del dato, porque los proyectos reales rara vez parten de datasets limpios.

Cubre modelos clásicos, avanzados y generativos El programa incluye regresión, clasificación, clustering, anomalías, series temporales, NLP, embeddings, deep learning y LLMs, explicando cuándo conviene cada enfoque.

Incorpora despliegue y operación El curso no termina en el notebook. Incluye MLflow, FastAPI, Streamlit, Docker, monitorización, drift, retraining, trazabilidad y soporte de modelos.

Refuerza ética, privacidad y gobernanza Se trabajan sesgos, explicabilidad, datos sensibles, revisión humana, uso responsable de IA generativa, documentación y límites de los modelos en decisiones empresariales.

Ejercicios prácticos

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Ejercicios prácticos

Practica y mejora con nuestra plataforma

Curso de Data Science con Python para tu equipo de datos

Aprende con el curso de Data Science con Python para empresas hasta 100% bonificado, a medida para tu organización.

Curso de Data Science con Python hasta 100% Bonificable a través de FUNDAE

Tu bonificación paso a paso

La formación que decideste devuelve dinero

Actualiza el enfoque clásico de Data Science

Conecta análisis técnico con valor de negocio Cada bloque está orientado a tomar mejores decisiones: definir métricas, entender errores, comunicar resultados, priorizar acciones y evitar modelos que no aportan valor real.

Mejora reproducibilidad y calidad La formación

Personaliza el temario al 100% para tu equipo

Nueva Plataformade E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Temario del curso

Pensado para quienes deben dominar Data Science con Python en su día a día

Resolvemos todas tus dudas sobre nuestra formación en Data Science con Python

Diseñemos hoy el curso que tu empresa necesita

Prepara para datasets reales y no perfectos Se trabajan nulos, duplicados, outliers, datos grandes, fuentes heterogéneas, texto, fechas, SQL, APIs, Parquet y calidad del dato, porque los proyectos reales rara vez parten de datasets limpios.

Cubre modelos clásicos, avanzados y generativos El programa incluye regresión, clasificación, clustering, anomalías, series temporales, NLP, embeddings, deep learning y LLMs, explicando cuándo conviene cada enfoque.

Incorpora despliegue y operación El curso no termina en el notebook. Incluye MLflow, FastAPI, Streamlit, Docker, monitorización, drift, retraining, trazabilidad y soporte de modelos.

Refuerza ética, privacidad y gobernanza Se trabajan sesgos, explicabilidad, datos sensibles, revisión humana, uso responsable de IA generativa, documentación y límites de los modelos en decisiones empresariales.

Ejercicios prácticos

Acceso a las grabaciones

Recursos formativos

Confirmación de asistencia

Ejercicios prácticos

Practica y mejora con nuestra plataforma

La formación que decides
te devuelve dinero

Nueva Plataforma
de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje