Curso de Data Version Control - DVC hasta 100% Bonificable a través de FUNDAE
Tu bonificación paso a paso
Forma a tu equipo sin costes mediante la bonificación estatal. Este programa de Data Version Control - DVCpara empresas es subvencionable hasta el 100%.
Potencia las habilidades de edición y automatización de tus profesionales.
Accede a una formación avanzada en Data Version Control - DVC práctica y orientada a resultados.
Prepara a tu equipo para los retos documentales del entorno laboral actual.
Gestionamos gratis tu bonificación de este curso corporativo de Data Version Control - DVC ante FUNDAE.
Convierte la reproducibilidad en una práctica real y no en una intención
Profesionaliza tu plantilla con Data Version Control - DVC en formato A Medida, tutorizado y bonificable hasta el 100% por FUNDAE para empresas. Infórmate.
Ordena datos, modelos y scripts dentro del mismo flujo de trabajo Otra gran ventaja es que ayuda a dejar de tratar el dato como un anexo informal del proyecto. DVC permite conectar datasets, modelos, código y métricas dentro de una sola historia técnica, lo que mejora muchísimo la claridad del trabajo y la capacidad de volver atrás o comparar con sentido.
1
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
Comprensión de DVC como respuesta práctica al problema de versionar datasets, modelos y resultados sin romper Git ni llenar el repositorio de archivos pesados.
Revisión de los límites de una gestión manual basada en carpetas, sufijos de archivo, copias locales y convenciones informales de naming.
Construcción de una visión de DVC como extensión natural de Git para proyectos donde el ciclo de vida del dato y del modelo no coincide con el del código.
Análisis de cómo la falta de trazabilidad de datos y artefactos genera errores silenciosos, confusión y pérdida de reproducibilidad.
Diferenciación entre versionado de código, versionado de datos y gestión de experimentos dentro de un mismo proyecto.
Revisión del papel de DVC dentro del ecosistema de MLOps sin convertirlo en una plataforma monolítica.
Comprensión de los conceptos de workspace, cache, remoto, stage, pipeline y experimento como vocabulario base del curso.
Identificación de casos donde DVC aporta valor inmediato y de otros donde una capa más ligera puede ser suficiente.
Relación entre buenas prácticas de ingeniería y necesidad de gobernar datos y artefactos con el mismo rigor que el código.
Taller inicial de diagnóstico de madurez para detectar problemas reales que DVC puede resolver en el equipo.
Comprensión de DVC como respuesta práctica al problema de versionar datasets, modelos y resultados sin romper Git ni llenar el repositorio de archivos pesados.
Revisión de los límites de una gestión manual basada en carpetas, sufijos de archivo, copias locales y convenciones informales de naming.
Construcción de una visión de DVC como extensión natural de Git para proyectos donde el ciclo de vida del dato y del modelo no coincide con el del código.
Análisis de cómo la falta de trazabilidad de datos y artefactos genera errores silenciosos, confusión y pérdida de reproducibilidad.
Diferenciación entre versionado de código, versionado de datos y gestión de experimentos dentro de un mismo proyecto.
Revisión del papel de DVC dentro del ecosistema de MLOps sin convertirlo en una plataforma monolítica.
Comprensión de los conceptos de workspace, cache, remoto, stage, pipeline y experimento como vocabulario base del curso.
Identificación de casos donde DVC aporta valor inmediato y de otros donde una capa más ligera puede ser suficiente.
Relación entre buenas prácticas de ingeniería y necesidad de gobernar datos y artefactos con el mismo rigor que el código.
Taller inicial de diagnóstico de madurez para detectar problemas reales que DVC puede resolver en el equipo.
Tema 1: Fundamentos de DVC y por qué hace falta en proyectos de datos y ML
Comprensión de DVC como respuesta práctica al problema de versionar datasets, modelos y resultados sin romper Git ni llenar el repositorio de archivos pesados.
Revisión de los límites de una gestión manual basada en carpetas, sufijos de archivo, copias locales y convenciones informales de naming.
Construcción de una visión de DVC como extensión natural de Git para proyectos donde el ciclo de vida del dato y del modelo no coincide con el del código.
Análisis de cómo la falta de trazabilidad de datos y artefactos genera errores silenciosos, confusión y pérdida de reproducibilidad.
Diferenciación entre versionado de código, versionado de datos y gestión de experimentos dentro de un mismo proyecto.
Revisión del papel de DVC dentro del ecosistema de MLOps sin convertirlo en una plataforma monolítica.
Comprensión de los conceptos de workspace, cache, remoto, stage, pipeline y experimento como vocabulario base del curso.
Identificación de casos donde DVC aporta valor inmediato y de otros donde una capa más ligera puede ser suficiente.
Relación entre buenas prácticas de ingeniería y necesidad de gobernar datos y artefactos con el mismo rigor que el código.
Taller inicial de diagnóstico de madurez para detectar problemas reales que DVC puede resolver en el equipo.
Tema 2: Instalación del entorno, stack técnico y puesta en marcha profesional
Preparación de un entorno reproducible para trabajar con DVC desde terminal, notebooks, scripts y repositorios reales.
Revisión de instalación por `pip` y de dependencias auxiliares que conviene tener listas antes de empezar a modelar o transformar datos.
Construcción de una estructura base de proyecto con separación clara entre código, datos, artefactos y documentación técnica.
Trabajo sobre la convivencia entre Git y DVC desde el primer día para evitar confusiones de ownership entre ambos.
Revisión de la configuración inicial tras `dvc init` y de lo que aparece en el repositorio desde ese momento.
Preparación de un repositorio de prácticas con scripts simples de transformación o entrenamiento.
Detección de errores habituales de arranque cuando Git, DVC y el entorno Python no están bien alineados.
Revisión de cómo preparar el entorno para trabajo individual, formación o colaboración real por equipo.
Construcción de un checklist técnico de arranque que sirva para cualquier proyecto futuro con DVC.
Taller completo de instalación, inicialización y validación del entorno operativo.
Tema 3: Estructura interna de un proyecto DVC y relación con Git
Comprensión profunda de cómo conviven en un mismo repo el código versionado por Git y los metadatos gestionados por DVC.
Revisión del papel de `.dvc/`, `.dvcignore`, archivos `.dvc`, `dvc.yaml`, `dvc.lock` y otros elementos estructurales del proyecto.
Construcción de una lectura clara del workspace para que el equipo entienda qué ve, qué está cacheado y qué está versionado.
Trabajo sobre la idea de que DVC no sustituye a Git, sino que amplía sus capacidades para proyectos de datos.
Revisión de cómo los metadatos de DVC suelen versionarse con Git mientras los datos grandes viven fuera del árbol normal.
Detección de errores frecuentes al mezclar responsabilidades entre Git y DVC en operaciones cotidianas.
Preparación de una estructura de carpetas limpia y mantenible para que el proyecto siga siendo entendible meses después.
Revisión de cómo DVC mantiene un workspace legible mientras conecta artefactos con cache y remotos.
Construcción de un modelo mental sólido sobre qué ocurre cuando añadimos, cambiamos o recuperamos datos.
Taller de inspección guiada de la estructura interna de un proyecto DVC.
Tema 4: Versionado de datos con `dvc add` y archivos `.dvc`
Uso de `dvc add` como mecanismo base para poner bajo control datasets, modelos u otros artefactos pesados.
Comprensión de qué hace exactamente DVC al añadir un archivo o directorio al proyecto y cómo lo representa en metadatos.
Revisión del papel de los archivos `.dvc` como punteros versionables dentro de Git.
Trabajo sobre cómo DVC mueve el contenido a su cache y lo vuelve a enlazar al workspace.
Detección de errores típicos al añadir datasets demasiado pronto, demasiado tarde o sin una estructura mínima.
Revisión de qué tipos de artefactos conviene añadir con `dvc add` y cuáles conviene gestionar dentro de pipelines.
Preparación de una metodología para versionar datasets grandes sin perder claridad de proyecto.
Comprensión de qué debe commitearse en Git después de un `dvc add` y qué no.
Trabajo sobre actualización de datasets ya trackeados y sobre cómo se refleja el cambio en el repo.
Taller de versionado completo de varios artefactos con `dvc add`.
Tema 5: Cache local, enlaces y funcionamiento interno del almacenamiento
Comprensión de la cache de DVC como base del funcionamiento eficiente del sistema de versionado de datos.
Revisión de cómo DVC evita duplicaciones innecesarias de artefactos mediante cache y enlaces al workspace.
Trabajo sobre las diferencias prácticas entre contenido visible en el proyecto y contenido real persistido en cache.
Detección de problemas comunes cuando el usuario borra, mueve o modifica archivos sin entender cómo enlaza DVC los datos.
Revisión de la relación entre cache local, integridad de artefactos y rapidez de operaciones como `checkout` o `pull`.
Construcción de un criterio técnico para decidir dónde ubicar la cache y cómo cuidarla en entornos de equipo.
Trabajo sobre ventajas y límites de este enfoque en proyectos con muchos datasets o modelos grandes.
Revisión de cómo la cache interactúa con remotos y con el ciclo de vida de los artefactos.
Preparación de una rutina de mantenimiento y comprensión del espacio ocupado por la cache en el proyecto.
Taller de inspección práctica del comportamiento interno de la cache.
Tema 6: Remotos y almacenamiento compartido de datos y modelos
Uso de remotos como ubicaciones de almacenamiento distribuido para compartir o respaldar datasets y modelos.
Revisión de tipos de remote soportados y de su encaje según contexto corporativo, cloud o infraestructura propia.
Construcción de una estrategia para configurar remotos por proyecto, equipo o entorno.
Trabajo sobre criterios para elegir entre S3, Azure, GCS, SSH, almacenamiento local u otras opciones disponibles.
Preparación de una política de naming y configuración que facilite colaboración y no genere ambigüedades.
Detección de errores habituales al trabajar con varios remotos o con un remoto mal definido como predeterminado.
Revisión de seguridad, permisos y acceso al almacenamiento compartido sin entrar aún en automatización pesada.
Trabajo sobre la lógica de backup, colaboración y recuperación que hacen valiosos los remotos.
Construcción de un modelo operativo para compartir datasets y artefactos entre miembros del equipo.
Taller de configuración y prueba de uno o varios remotos.
Tema 7: `dvc push`, `dvc pull`, `dvc fetch` y sincronización correcta del proyecto
Comprensión de cómo sincronizar el estado local con el remoto sin convertir el proceso en una secuencia opaca de comandos.
Revisión de la función específica de `push`, `pull` y `fetch` dentro del ciclo de trabajo del proyecto.
Trabajo sobre cuándo conviene descargar datos al workspace y cuándo basta con traerlos a cache.
Preparación de un flujo habitual de colaboración tras `git clone`, `git pull` o cambio de rama.
Detección de errores frecuentes cuando un usuario espera que Git recupere también los datos grandes.
Revisión de cómo DVC sincroniza contenido entre cache local, workspace y remote según el comando utilizado.
Construcción de un protocolo claro para compartir cambios de datasets o modelos entre miembros del equipo.
Trabajo sobre eficiencia, tiempos y coste de transferencia en proyectos con volúmenes relevantes.
Revisión de problemas operativos cuando el remote no está accesible o el artefacto aún no se ha subido.
Taller de sincronización completa en varios escenarios de trabajo colaborativo.
Tema 8: `dvc checkout`, recuperación de versiones y navegación temporal del dato
Comprensión del valor de `dvc checkout` como mecanismo para alinear el workspace con la versión esperada del proyecto.
Revisión de cómo se combina con `git checkout` para moverse entre ramas, commits y estados históricos de datos y modelos.
Trabajo sobre recuperación de una versión anterior del dataset sin necesidad de duplicar carpetas o rehacer manualmente el entorno.
Preparación de un flujo de navegación temporal coherente para comparar estados del proyecto a lo largo del tiempo.
Detección de errores habituales cuando se cambia el metadato Git pero no se sincroniza el contenido del workspace.
Revisión de cómo volver a una versión concreta de un dataset o modelo de manera reproducible.
Construcción de una disciplina de trabajo donde los cambios de rama y de datos no generen incoherencias locales.
Trabajo sobre la idea de “un solo estado visible a la vez” dentro del workspace.
Revisión de la utilidad de este enfoque para auditoría, debugging y recuperación de experimentos antiguos.
Taller de recuperación de versiones históricas de datos y artefactos.
Tema 9: Importación externa, compartición y reutilización de datos entre repositorios
Uso de DVC para traer datos o artefactos desde fuentes externas o desde otros proyectos sin perder trazabilidad.
Revisión de escenarios donde conviene importar en vez de copiar, descargar manualmente o duplicar datasets.
Construcción de flujos entre repositorios cuando un equipo productor entrega datos a otro equipo consumidor.
Trabajo sobre cómo separar fuentes de verdad de proyectos consumidores de modelos o análisis.
Detección de riesgos de acoplamiento o dependencia excesiva entre repositorios mal diseñados.
Preparación de una estrategia de reutilización de artefactos dentro de un ecosistema corporativo de datos.
Revisión de ventajas de DVC para data registries ligeros y compartición entre proyectos.
Trabajo sobre consistencia y gobernanza cuando la misma fuente alimenta varios pipelines.
Construcción de patrones de dependencia entre repositorios con mínimo caos operativo.
Taller de diseño de un flujo de importación o reutilización interproyecto.
Tema 10: `dvc.yaml` y diseño serio de pipelines reproducibles
Comprensión de `dvc.yaml` como archivo central para capturar y organizar workflows reproducibles.
Revisión de cómo definir stages, dependencias, outputs, métricas, parámetros y plots dentro del proyecto.
Construcción de una forma de pensar los procesos de datos como DAGs claros y no como scripts encadenados informalmente.
Trabajo sobre cómo convertir ETL, entrenamiento, evaluación y generación de artefactos en etapas reproducibles.
Detección de errores habituales al meter demasiada lógica en un solo stage o al fragmentar de forma poco útil.
Revisión de cómo separar responsabilidades entre scripts de negocio y definición declarativa del pipeline.
Preparación de un `dvc.yaml` legible, mantenible y entendible por varios perfiles técnicos.
Trabajo sobre la ventaja de versionar pipelines con Git sin perder trazabilidad del dato asociado.
Revisión de cómo documentar la intención del pipeline a través de una estructura clara.
Taller de diseño de un `dvc.yaml` profesional para un flujo de ML.
Tema 11: Stages, dependencias y outputs bien modelados
Uso de stages como representación de procesos individuales dentro del pipeline de datos o machine learning.
Revisión de cómo elegir correctamente dependencias y outputs para que DVC entienda cuándo debe reejecutar una etapa.
Construcción de stages que reflejen procesos reales de negocio o de modelado, no solo pasos técnicos accidentales.
Trabajo sobre granularidad adecuada: ni etapas gigantes opacas ni atomización absurda que dificulte el mantenimiento.
Detección de errores comunes al declarar outputs temporales, intermedios o finales.
Revisión de cómo capturar de forma explícita el contrato entre una etapa y la siguiente.
Preparación de un pipeline claro para limpieza, featurización, entrenamiento y evaluación.
Trabajo sobre cómo mantener stages comprensibles para quienes no los crearon originalmente.
Revisión de `dvc stage add`, `dvc stage list` y `dvc dag` como herramientas de construcción y lectura del pipeline.
Taller de modelado de un DAG completo a partir de un flujo de trabajo existente.
Tema 12: Reproducibilidad con `dvc repro` y control de cambios en el pipeline
Comprensión del papel de `dvc repro` como motor para volver a ejecutar stages afectados por cambios en dependencias o parámetros.
Revisión de cómo DVC decide qué etapas necesitan reejecución y qué ventajas tiene eso frente a lanzar scripts manuales.
Trabajo sobre cómo garantizar que el pipeline se puede regenerar con consistencia en distintas máquinas.
Preparación de hábitos para usar `repro` como parte del flujo normal de experimentación o actualización de datos.
Detección de errores cuando el proyecto cambia “por fuera” del pipeline y luego se espera reproducibilidad total.
Revisión de cómo usar la reproducción selectiva para acelerar iteración sin comprometer integridad.
Construcción de una lógica clara de causa y efecto dentro del DAG de proyecto.
Trabajo sobre artefactos reproducibles frente a resultados oportunistas generados sin trazabilidad.
Revisión de la diferencia entre reproducir y reversionar dentro del flujo general del proyecto.
Taller de reproducción parcial y completa de un pipeline con DVC.
Tema 13: Parámetros, `params.yaml` y control del espacio experimental
Uso de archivos de parámetros como base para experimentar con cambios de configuración sin editar scripts a mano cada vez.
Revisión de cómo DVC rastrea parámetros y los integra en el ciclo de ejecución y comparación de experimentos.
Construcción de una estrategia de organización de parámetros por bloque funcional o por caso de uso.
Trabajo sobre cómo evitar archivos de configuración caóticos o llenos de parámetros sin ownership claro.
Preparación de un flujo donde los cambios de hiperparámetros, rutas o flags de proceso queden trazados.
Detección de errores habituales al mezclar configuración estable con variables coyunturales de un experimento.
Revisión de cómo los parámetros alimentan tanto reproducción como comparación posterior.
Trabajo sobre claridad, naming y semántica de parámetros para equipos colaborativos.
Construcción de una base de configuración que facilite tuning, benchmarking y auditoría.
Taller de diseño de archivos de parámetros robustos.
Tema 14: Métricas, plots y artefactos de evaluación
Comprensión de cómo DVC permite marcar archivos estructurados como métricas para seguir el rendimiento de experimentos.
Revisión de la gestión de plots y de su valor para comparar evoluciones de entrenamiento y resultados entre ejecuciones.
Construcción de una estrategia de generación y almacenamiento de métricas y gráficos desde scripts o frameworks.
Trabajo sobre qué métricas conviene conservar y cuáles solo añaden ruido al repositorio.
Preparación de visualizaciones útiles para comparar rendimiento, convergencia, error o comportamiento temporal.
Detección de errores comunes al registrar métricas sin consistencia de formato o sin relación clara con el objetivo del proyecto.
Revisión de cómo `dvc metrics show`, plots y dashboards ayudan a revisar el estado del experimento.
Trabajo sobre la diferencia entre visualizar algo útil y acumular ficheros de salida poco accionables.
Construcción de un marco de evaluación que conecte resultados técnicos con interpretación de negocio.
Taller de generación, registro y comparación de métricas y plots.
Tema 15: Experimentos en DVC y gestión de iteraciones sin inflar Git
Comprensión del modelo de experimentos de DVC como variaciones del proyecto ligadas al commit base actual.
Revisión de cómo los experimentos se guardan sin formar parte del árbol Git normal, evitando ruido en ramas y commits.
Trabajo sobre el valor de esta aproximación para proyectos donde se lanzan muchas pruebas al día.
Preparación de un flujo local de experimentación ordenada sin depender de nombres de carpeta o notebooks duplicados.
Detección de errores típicos al mezclar experimentos de exploración con commits definitivos de proyecto.
Revisión de cómo DVC conserva la relación entre código, parámetros, métricas y artefactos de cada experimento.
Construcción de una estrategia para distinguir pruebas rápidas de experimentos que deben consolidarse.
Trabajo sobre el lugar de los experimentos dentro del ciclo de vida del proyecto de ML.
Revisión de cómo recuperar, comparar y promover experimentos útiles.
Taller de ejecución y registro de varios experimentos sobre una misma baseline.
Tema 16: Comparación de experimentos, `exp show` y lectura crítica de resultados
Uso de las capacidades de comparación para revisar cómo cambian métricas, parámetros y plots entre experimentos.
Revisión de cómo construir una lectura crítica de resultados y no solo una tabla de números.
Preparación de comparativas entre ejecuciones locales, variantes de pipeline y cambios de parámetros.
Trabajo sobre cómo priorizar experimentos relevantes cuando el volumen de pruebas crece rápidamente.
Detección de mejoras aparentes que no justifican complejidad adicional o que no se sostienen fuera del split usado.
Revisión de las vistas de terminal, de VS Code y de DVC Studio para navegar resultados.
Construcción de una metodología de comparación orientada a decisión y no solo a observación.
Trabajo sobre filtros, selección de columnas y maneras de hacer las tablas de comparación más legibles.
Revisión de buenas prácticas para cerrar experimentos y no dejar un historial inmanejable.
Taller de comparación rigurosa entre varias ramas experimentales.
Tema 17: DVCLive y registro automático de métricas, parámetros y artefactos
Comprensión del papel de DVCLive como apoyo para loguear métricas, parámetros, plots y artefactos de forma automática.
Revisión de cuándo DVCLive simplifica mucho la integración con frameworks y cuándo conviene una aproximación más manual.
Trabajo sobre cómo conectarlo a bucles de entrenamiento para mejorar trazabilidad de runs.
Preparación de flujos donde el modelo y otros artefactos queden listos para seguimiento y potencial registro.
Detección de casos donde el logging automático puede introducir ruido si no se estructura bien.
Revisión de la ventaja de integrar training loops con el ecosistema de experimentos de DVC.
Construcción de una estrategia de logging coherente entre distintos proyectos o frameworks.
Trabajo sobre cómo usar DVCLive sin perder control sobre la semántica de las métricas registradas.
Revisión de la relación entre DVCLive y comparación posterior en VS Code o Studio.
Taller de integración de DVCLive en un proyecto de entrenamiento.
Tema 18: Extensión de VS Code y trabajo visual con DVC
Uso de la extensión oficial de DVC para acercar experimentación, métricas y plots al IDE del equipo.
Revisión de cómo la extensión permite visualizar métricas, plots y experimentos sin salir del entorno de desarrollo.
Trabajo sobre el valor de esta capa visual para equipos que iteran mucho y necesitan comparación más cómoda.
Preparación de VS Code para reconocer `dvc.yaml`, `dvc.lock` y archivos `.dvc` de forma más amigable.
Detección de cuándo el trabajo visual acelera revisión y cuándo conviene seguir en terminal.
Revisión de dashboards de plots y experimentos dentro del IDE.
Construcción de una rutina donde terminal e IDE se complementan en vez de duplicarse.
Trabajo sobre colaboración y revisión técnica de pipelines con apoyo visual.
Preparación de un entorno VS Code cómodo para usuarios frecuentes de DVC.
Taller de navegación y comparación de experimentos desde la extensión oficial.
Tema 19: DVC Studio y compartición de resultados en equipo
Comprensión del papel de DVC Studio como capa de compartición y visualización para experimentos y proyectos.
Revisión de cómo Studio puede recibir actualizaciones en tiempo real de experimentos en ejecución una vez configurado.
Trabajo sobre el valor de Studio para equipos distribuidos que necesitan ver resultados sin entrar en la máquina del autor.
Preparación de un flujo de login, conexión y compartición de resultados hacia remotos Git y DVC.
Detección de diferencias entre trabajo puramente local, trabajo con VS Code y trabajo apoyado en Studio.
Revisión de casos donde Studio mejora transparencia y revisión de experimentación en equipo.
Construcción de una estrategia de adopción progresiva de Studio sin imponer complejidad desde el inicio.
Trabajo sobre qué información conviene compartir y qué conviene mantener en iteración local hasta madurarla.
Revisión de la relación entre Studio, Git remotes y DVC remotes en un flujo colaborativo.
Taller de diseño de un flujo de compartición experimental con Studio.
Tema 20: Colaboración real en equipo: ramas, remotos y coordinación de artefactos
Construcción de un modelo operativo para que varios perfiles trabajen sobre el mismo proyecto sin pisarse datos, modelos o experimentos.
Revisión de la relación entre ramas Git, metadatos DVC y remotos compartidos en escenarios de colaboración real.
Trabajo sobre cómo incorporar nuevos miembros al proyecto sin duplicar decenas o cientos de gigas innecesariamente.
Preparación de flujos de onboarding, clonación y sincronización que reduzcan fricción para nuevos integrantes.
Detección de errores típicos de colaboración cuando cada persona organiza sus artefactos a su manera.
Revisión de ownership sobre datasets, pipelines y remotos dentro del equipo.
Construcción de un modelo de trabajo donde la reproducibilidad no dependa del conocimiento tácito de una sola persona.
Trabajo sobre documentación mínima necesaria para hacer sostenible la colaboración.
Revisión de cómo decidir qué artefactos se suben siempre y cuáles se mantienen solo localmente.
Taller de simulación de colaboración entre varios roles sobre un proyecto DVC.
Tema 21: CI/CD, automatización y uso de DVC en pipelines corporativos
Integración de DVC dentro de flujos automatizados de validación, entrenamiento o despliegue de artefactos.
Revisión de cómo conectar Git, remotos y ejecución reproducible dentro de pipelines de CI/CD.
Construcción de jobs que traen datos, ejecutan etapas, registran métricas y validan salidas de forma controlada.
Trabajo sobre credenciales, acceso a remotos y seguridad operativa en automatizaciones.
Preparación de una estrategia para ejecutar solo lo necesario y no hacer la CI innecesariamente pesada.
Detección de puntos donde conviene usar DVC en automatización y otros donde basta con una capa más simple.
Revisión de cómo DVC facilita GitOps para proyectos de ML y datos.
Construcción de quality gates basados en reproducibilidad, métricas y artefactos controlados.
Trabajo sobre cómo documentar el uso de DVC en pipelines corporativos para que sea mantenible.
Taller de diseño de un pipeline CI/CD compatible con DVC.
Tema 22: Escalado, rendimiento y operaciones sobre datasets grandes
Comprensión del comportamiento de DVC cuando el tamaño del dato empieza a ser relevante para el equipo o la infraestructura.
Revisión de cómo el uso de cache y remotos permite trabajar con datasets grandes sin almacenarlos en Git.
Construcción de una estrategia para no degradar productividad cuando los artefactos crecen mucho.
Trabajo sobre tiempos de transferencia, ubicación de cache y decisiones de arquitectura de almacenamiento.
Preparación de criterios para elegir remotos más adecuados según coste, latencia y contexto organizativo.
Detección de anti-patrones de escalado como caches inestables, remotos mal elegidos o sincronizaciones indiscriminadas.
Revisión de cómo DVC optimiza el almacenamiento y la transferencia de artefactos grandes.
Trabajo sobre límites prácticos del enfoque y cuándo conviene replantear parte de la arquitectura de datos.
Construcción de hábitos de mantenimiento y limpieza para proyectos voluminosos.
Taller de diseño operativo para proyectos DVC con datasets grandes.
Tema 23: Buenas prácticas de gobierno, trazabilidad y reproducibilidad empresarial
Construcción de una metodología de trabajo que convierta DVC en práctica de equipo y no en herramienta personal del científico de datos.
Revisión de estándares de estructura, nomenclatura, ownership y documentación necesarios para escalar su adopción.
Trabajo sobre cómo decidir qué datasets, modelos y outputs deben vivir bajo DVC y cuáles no.
Preparación de reglas para mantener reproducibilidad sin burocratizar proyectos pequeños o exploratorios.
Detección de señales de desorden cuando un proyecto usa DVC pero sigue operando con lógica artesanal.
Revisión de la trazabilidad entre dato, código, parámetros, métricas y experimento como valor diferencial de la herramienta.
Construcción de un operating model ligero para equipos de datos y ML en empresa.
Trabajo sobre cómo introducir DVC de forma progresiva en proyectos ya existentes.
Preparación de una estrategia de adopción por fases para equipos con madurez heterogénea.
Taller de blueprint de gobierno de DVC para una organización técnica.
Tema 24: Proyecto final integrador de DVC en un proyecto real de datos o ML
Selección de un caso real o anonimizado con datos, scripts, resultados y necesidad clara de reproducibilidad.
Diagnóstico del estado actual del proyecto y de los problemas que hoy existen en versionado, compartición o experimentación.
Diseño de la estructura completa del repo con Git, DVC, cache, remotos y artefactos principales.
Versionado de datasets y modelos relevantes con criterios claros de gobierno.
Construcción de un `dvc.yaml` con stages, dependencias, outputs, parámetros, métricas y plots alineados con el caso.
Ejecución de experimentos comparables sobre la misma baseline y análisis posterior de resultados.
Configuración de remotos y simulación de colaboración entre varios perfiles del equipo.
Diseño de una integración razonable con VS Code, Studio o CI/CD según el contexto del proyecto.
Presentación del caso con enfoque técnico, operativo y de adopción organizativa.
Entrega de un blueprint reusable para implantar DVC en otros proyectos de la organización.
Perfiles profesionales
Pensado para quienes deben dominar Data Version Control - DVC en su día a día
Data Scientists y Machine Learning Engineers
Este perfil encaja especialmente bien porque suele sufrir directamente los problemas que DVC resuelve: datasets que cambian sin trazabilidad, experimentos difíciles de reproducir, modelos que se pierden, notebooks imposibles de comparar y pipelines que dependen demasiado del contexto de quien los construyó. El curso le ayuda a convertir su trabajo en algo mucho más reproducible, auditable y compartible.
Data Engineers y responsables de pipelines de datos
Quienes preparan datos, organizan procesos ETL o construyen flujos de transformación encuentran aquí un encaje muy claro. La formación les permite estructurar mejor dependencias, stages, artefactos y remotos, y usar DVC para dar orden y trazabilidad a procesos que muchas veces viven dispersos entre scripts, carpetas y automatizaciones poco visibles.
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en Data Version Control - DVC
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
No. Esa es una de sus funciones más conocidas, pero no la única. La documentación oficial define DVC como herramienta de data management, ML pipeline automation y experiment management, lo que significa que también cubre pipelines reproducibles, métricas, plots y experimentos ligados al proyecto.
No. DVC trabaja encima de Git, no en lugar de Git. La documentación oficial deja claro que sus metadatos suelen versionarse con Git y que DVC amplía las capacidades del repositorio para manejar datos, modelos y experimentos sin meter los artefactos pesados directamente en Git.
Los remotes son ubicaciones de almacenamiento distribuido para datasets y modelos, equivalentes al papel de un remote de Git pero aplicado a artefactos cacheados. Esto permite compartir, respaldar y recuperar datos o modelos sin tener que copiarlos manualmente entre equipos o entornos. DVC soporta remotos como S3, GCS, Azure Blob, Google Drive, SSH/SFTP, HDFS, HTTP, WebDAV y almacenamiento local.
La documentación oficial explica que los experimentos quedan conectados al último commit de la rama actual como baseline, pero no forman parte del árbol normal de Git. Eso evita inflar el historial del repositorio con ramas o commits temporales de prueba, manteniendo al mismo tiempo la relación con código, parámetros, métricas y artefactos.
Sí. DVC dispone de extensión oficial para VS Code, y la documentación indica que desde ella se pueden visualizar métricas, plots y experimentos. Además, los plots pueden generarse como HTML estático y verse también en navegador.
No. DVC puede usarse perfectamente en local y con terminal. Ahora bien, la documentación oficial indica que, una vez configurado, DVC Studio puede ofrecer actualizaciones en tiempo real de experimentos en ejecución y facilitar la compartición de resultados con el equipo. Es muy útil cuando la colaboración y la visibilidad experimental pesan más.
Sí. DVC documenta pipelines como workflows versionados en Git, definidos como DAGs de stages con dependencias y outputs. El archivo `dvc.yaml` es precisamente la pieza central para capturar stages, métricas, params y plots en el proyecto.
Sí, sigue activo. En GitHub aparece una release 3.67.0 publicada el 30 de marzo de 2026, con mejoras recientes como nuevas opciones en `dvc data status` y ampliaciones en `exp show`.
Sí. En contexto corporativo, esta formación puede plantearse como bonificable hasta el 100% si la empresa dispone de crédito suficiente y tramita correctamente la acción formativa conforme al marco aplicable.
No. Esa es una de sus funciones más conocidas, pero no la única. La documentación oficial define DVC como herramienta de data management, ML pipeline automation y experiment management, lo que significa que también cubre pipelines reproducibles, métricas, plots y experimentos ligados al proyecto.
No. DVC trabaja encima de Git, no en lugar de Git. La documentación oficial deja claro que sus metadatos suelen versionarse con Git y que DVC amplía las capacidades del repositorio para manejar datos, modelos y experimentos sin meter los artefactos pesados directamente en Git.
Los remotes son ubicaciones de almacenamiento distribuido para datasets y modelos, equivalentes al papel de un remote de Git pero aplicado a artefactos cacheados. Esto permite compartir, respaldar y recuperar datos o modelos sin tener que copiarlos manualmente entre equipos o entornos. DVC soporta remotos como S3, GCS, Azure Blob, Google Drive, SSH/SFTP, HDFS, HTTP, WebDAV y almacenamiento local.
La documentación oficial explica que los experimentos quedan conectados al último commit de la rama actual como baseline, pero no forman parte del árbol normal de Git. Eso evita inflar el historial del repositorio con ramas o commits temporales de prueba, manteniendo al mismo tiempo la relación con código, parámetros, métricas y artefactos.
Sí. DVC dispone de extensión oficial para VS Code, y la documentación indica que desde ella se pueden visualizar métricas, plots y experimentos. Además, los plots pueden generarse como HTML estático y verse también en navegador.
No. DVC puede usarse perfectamente en local y con terminal. Ahora bien, la documentación oficial indica que, una vez configurado, DVC Studio puede ofrecer actualizaciones en tiempo real de experimentos en ejecución y facilitar la compartición de resultados con el equipo. Es muy útil cuando la colaboración y la visibilidad experimental pesan más.
Sí. DVC documenta pipelines como workflows versionados en Git, definidos como DAGs de stages con dependencias y outputs. El archivo `dvc.yaml` es precisamente la pieza central para capturar stages, métricas, params y plots en el proyecto.
Sí, sigue activo. En GitHub aparece una release 3.67.0 publicada el 30 de marzo de 2026, con mejoras recientes como nuevas opciones en `dvc data status` y ampliaciones en `exp show`.
Sí. En contexto corporativo, esta formación puede plantearse como bonificable hasta el 100% si la empresa dispone de crédito suficiente y tramita correctamente la acción formativa conforme al marco aplicable.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
Facilita colaboración entre perfiles distintos del equipo Data scientists, data engineers y perfiles de plataforma no siempre trabajan con los mismos ritmos ni con los mismos artefactos. El curso ayuda a usar DVC como punto de encuentro operativo para que el proyecto sea más compartible, más claro y menos dependiente del contexto mental de una sola persona.
2
Reduce errores silenciosos en experimentación y evolución del proyecto Otra ventaja muy importante es que obliga a explicitar stages, dependencias, parámetros, métricas y outputs. Eso reduce bastante la probabilidad de caer en experimentos irreproducibles, modelos sin trazabilidad o datasets cambiados fuera del radar del equipo.
3
Escala bien desde uso local hasta flujos más industrializados El programa resulta útil tanto para uso individual serio como para equipos que quieren integrar DVC con remotos, VS Code, Studio y CI/CD. Esa capacidad de crecer por etapas permite adoptar la herramienta con mucho más realismo y sin imponer una complejidad excesiva desde el primer día.
4
Deja una metodología reusable para proyectos futuros El valor del curso no está solo en aprender DVC una vez, sino en salir con una forma de trabajo reutilizable para futuros proyectos de ML, analítica o ingeniería de datos. Esa metodología es precisamente lo que permite que DVC genere retorno a medio plazo y no se quede en una prueba aislada.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras
Este perfil obtiene mucho valor porque necesita cerrar la distancia entre experimentación local y operación reproducible. El curso le enseña a usar DVC como capa de organización, compartición y control sobre datos, modelos, métricas, plots y pipelines, lo que facilita mucho la integración con CI/CD, repositorios corporativos y trabajo distribuido.
Analistas avanzados que ya trabajan con Python y modelos
Quienes ya construyen modelos o procesos analíticos, pero todavía no tienen una práctica sólida de versionado y reproducibilidad, pueden aprovechar muchísimo esta formación. El programa les ayuda a pasar de un flujo basado en carpetas, sufijos y copias manuales a una metodología mucho más profesional y sostenible.
Equipos de investigación aplicada y experimentación continua
Este perfil encaja especialmente bien cuando se realizan muchas pruebas, benchmarks y ajustes de parámetros sobre un mismo proyecto. DVC aporta una forma muy potente de capturar experimentos, comparar métricas, visualizar plots y mantener la conexión con Git sin llenar el historial del repositorio de commits temporales.
Organizaciones que quieren profesionalizar sus proyectos de datos y ML
Para empresas que necesitan mejorar la trazabilidad de datasets, modelos y pipelines, esta formación resulta especialmente útil porque no se queda en la teoría de MLOps. Aterriza una herramienta concreta y madura para ordenar proyectos reales, mejorar reproducibilidad y facilitar colaboración entre perfiles técnicos distintos.