Mejora la calidad con evaluaciones repetibles El curso enseña a crear datasets, evaluadores, experiments, assertions y feedback humano para medir calidad antes y después de cada cambio.
1
Reduce riesgos en producción Con dashboards, alertas, monitoring, feedback e Insights, los equipos pueden detectar degradaciones, costes inesperados, errores y fallos recurrentes.
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
Comprender qué es LangSmith y qué papel cumple en desarrollo, depuración, evaluación, monitorización y despliegue.
Diferenciar observabilidad LLM, logging tradicional, tracing distribuido, testing de prompts y evaluación de calidad.
Identificar por qué las aplicaciones con LLM necesitan trazabilidad más allá de logs de backend convencionales.
Entender qué problemas resuelve: respuestas incorrectas, alucinaciones, latencia, costes, fallos de herramientas y regresiones.
Situar LangSmith dentro de un flujo LLMOps con desarrollo, experimentación, validación, producción y mejora continua.
Reconocer casos de uso: RAG, agentes, chatbots, asistentes internos, clasificadores, extractores y workflows automatizados.
Crear gráficos por modelo, prompt, versión, endpoint, usuario, feature o metadata.
Identificar tendencias, outliers, degradaciones y patrones de uso.
Separar dashboards técnicos de dashboards ejecutivos.
Evitar interpretar promedios sin revisar ejemplos concretos y distribución.
Preparar informes periódicos para producto, QA, plataforma, seguridad y dirección.
Conectar hallazgos de dashboards con acciones de mejora y backlog.
Realizar ejercicio de dashboard para aplicación RAG en producción simulada.
Tema 18: Alerts, automations y reglas operativas
Configurar alertas por run count, error rate, coste, latencia, feedback negativo o métricas personalizadas.
Definir umbrales razonables por aplicación, entorno y criticidad.
Crear alertas para detectar caídas de trazas, picos de coste o fallos de modelos.
Usar reglas y webhooks para automatizar flujos ante eventos concretos.
Enviar runs problemáticos a annotation queues o sistemas internos.
Integrar alertas con Slack, Teams, correo, incident management o herramientas de soporte.
Evitar alertas demasiado sensibles que generan ruido operativo.
Crear runbooks asociados a cada alerta importante.
Revisar alertas periódicamente para ajustar umbrales y responsables.
Realizar ejercicio de configuración de alertas y automatización de revisión.
Tema 19: Cost tracking, tokens y control económico
Registrar uso de tokens, coste estimado, modelo, proveedor y endpoint.
Analizar coste por proyecto, feature, usuario, prompt, modelo o workflow.
Detectar prompts demasiado largos, retrieval excesivo o agentes con demasiadas llamadas.
Crear dashboards de coste y consumo para responsables técnicos y negocio.
Configurar alertas de coste ante desviaciones o picos inesperados.
Comparar alternativas de modelo según calidad, coste y latencia.
Identificar operaciones candidatas a caching, batching, prompt compression o modelo más barato.
Evitar optimizar coste sacrificando seguridad o calidad crítica sin evidencias.
Documentar decisiones de modelo con métricas económicas y funcionales.
Realizar ejercicio de análisis de coste y reducción controlada sin pérdida de calidad.
Tema 20: Insights, análisis de patrones y fallos recurrentes
Usar Insights para detectar patrones de uso, comportamientos comunes y modos de fallo.
Analizar agrupaciones jerárquicas de errores y casos frecuentes.
Priorizar mejoras según frecuencia, impacto y criticidad.
Detectar categorías de prompts mal respondidos, herramientas fallidas o usuarios bloqueados.
Usar Insights como apoyo, no como sustituto de análisis técnico y revisión humana.
Convertir patrones detectados en datasets, evaluaciones, prompts mejorados o incidencias.
Crear ritual de revisión periódica de Insights con producto y desarrollo.
Evitar revisar miles de trazas manualmente cuando puede agruparse el problema.
Documentar acciones derivadas de Insights y medir su efecto posterior.
Realizar ejercicio de análisis de fallos recurrentes y plan de mejora.
Tema 21: LangSmith Studio y depuración de agentes
Comprender Studio como entorno especializado para visualizar e interactuar con sistemas agentic.
Conectar Studio con agentes que implementan protocolos o servidores compatibles.
Revisar estado, nodos, rutas, mensajes, herramientas y ejecución del agente.
Depurar decisiones del agente antes de promover cambios a producción.
Integrar Studio con trazas, evaluaciones y prompt engineering.
Probar cambios en prompts, herramientas o rutas con feedback inmediato.
Comparar comportamiento local, staging y producción cuando el entorno lo permite.
Evitar depurar agentes solo desde logs lineales difíciles de interpretar.
Crear flujo de trabajo para desarrolladores de agentes con Studio y LangSmith.
Realizar ejercicio de depuración de agente con comportamiento inesperado.
Tema 22: LangSmith Deployment y agentes en producción
Comprender las opciones de deployment para agentes y aplicaciones compatibles.
Revisar despliegue cloud desde UI o CLI cuando el proyecto usa LangGraph.
Configurar repositorio, dependencias, variables, entorno y parámetros de despliegue.
Gestionar versiones, actualizaciones, rollbacks y cambios controlados.
Relacionar deployment con observabilidad, evaluación, trazas y monitoring.
Separar desarrollo local, staging y producción.
Preparar checks antes de desplegar: tests, evals, seguridad, coste y rendimiento.
Evitar despliegues de agentes sin owner, métricas ni plan de soporte.
Documentar configuración productiva y dependencias externas.
Realizar ejercicio de diseño de pipeline de despliegue para agente LangGraph.
Tema 23: Integración con OpenTelemetry y stacks externos
Comprender cómo OpenTelemetry complementa la observabilidad específica de LangSmith.
Evaluar cuándo conviene emitir trazas OTel hacia LangSmith.
Relacionar traces de infraestructura con traces de aplicación LLM.
Integrar LangSmith con stacks corporativos de logs, métricas, tracing y dashboards.
Crear correlation IDs entre backend, frontend, LLM calls, retrievers y herramientas.
Evitar duplicar telemetría sin criterios de filtrado y retención.
Diseñar una estrategia de observabilidad que cubra infraestructura, aplicación y calidad LLM.
Preparar trazabilidad para auditoría, soporte y análisis de incidentes.
Documentar límites entre LangSmith, APM, SIEM, Grafana, Prometheus u observabilidad cloud.
Realizar ejercicio de evaluación usando trazas OpenTelemetry en LangSmith.
Tema 24: Seguridad, privacidad y datos sensibles
Identificar datos personales, secretos, documentos internos, prompts sensibles y outputs confidenciales.
Aplicar minimización de datos en trazas, inputs, outputs, metadata y feedback.
Redactar políticas de redacción, masking o exclusión de campos sensibles.
Definir qué proyectos pueden enviar datos a LangSmith Cloud, hybrid o self-hosted.
Controlar API keys, roles, permisos, workspaces y acceso a datasets.
Revisar riesgos de almacenar prompts estratégicos, conversaciones reales o documentos internos.
Configurar retención, exportación, auditoría y eliminación de datos según política corporativa.
Evitar usar tráfico productivo sensible en evaluaciones sin autorización.
Coordinar LangSmith con seguridad, legal, privacidad, compliance y arquitectura.
Realizar ejercicio de análisis de privacidad de una app RAG instrumentada.
Tema 25: Enterprise: cloud, hybrid, self-hosted y auditoría
Comparar modelos de despliegue: cloud gestionado, hybrid y self-hosted.
Identificar criterios de elección: residencia de datos, regulación, red, seguridad, volumen y operación.
Comprender qué implica operar LangSmith self-hosted en infraestructura propia.
Revisar componentes como Kubernetes, bases de datos, Redis, almacenamiento, red y observabilidad.
Preparar requisitos de plataforma para self-hosted o hybrid.
Configurar usuarios, permisos, roles, SSO, auditoría y control administrativo cuando aplica.
Revisar audit logs para acciones administrativas y cumplimiento.
Diseñar backups, actualizaciones, monitorización y soporte de plataforma.
Evitar elegir self-hosted sin equipo capaz de operar la plataforma.
Realizar ejercicio de arquitectura LangSmith enterprise para entorno regulado.
Tema 26: Integración con CI/CD y quality gates
Ejecutar evaluaciones LangSmith desde pipelines de GitHub Actions, GitLab CI, Azure DevOps o Jenkins.
Bloquear merges si fallan evaluaciones críticas o baja una métrica clave.
Crear datasets de smoke testing para cambios rápidos y datasets completos para releases.
Ejecutar evals al cambiar prompts, modelos, retrievers, tools o código de agente.
Guardar resultados de experimento como evidencia del release.
Crear comentarios automáticos en pull requests con métricas de evaluación.
Gestionar API keys de LangSmith como secrets de CI/CD.
Evitar pipelines inestables por evaluadores mal calibrados o datasets débiles.
Documentar criterios de aprobación por riesgo y criticidad.
Realizar ejercicio de quality gate para un cambio de prompt y modelo.
Tema 27: Comparación con otras herramientas de observabilidad LLM
Situar LangSmith frente a herramientas como Langfuse, Phoenix, Helicone, TruLens, PromptTest u opciones internas.
Diferenciar observabilidad, evaluación, prompt management, feedback, tracing y deployment.
Evaluar cuándo LangSmith encaja mejor por integración con LangChain, LangGraph y flujos agentic.
Comparar ventajas de una plataforma gestionada frente a soluciones open source self-hosted.
Analizar criterios de selección: coste, seguridad, equipo, stack, despliegue, gobierno y madurez.
Evitar seleccionar herramienta solo por popularidad sin revisar requisitos reales.
Diseñar arquitectura donde LangSmith convive con APM, SIEM, métricas cloud y herramientas QA.
Documentar decisión técnica con matriz de pros, contras y riesgos.
Crear estrategia gradual: tracing primero, evaluaciones después, monitorización y gobierno al final.
Realizar ejercicio de selección de stack de observabilidad LLM para tres escenarios.
Tema 28: Gobierno LLMOps y modelo operativo con LangSmith
Crear inventario de aplicaciones LLM, agentes, prompts, datasets, evaluaciones y deployments.
Definir owners de aplicación, prompt, dataset, evaluador, seguridad, plataforma y producto.
Clasificar aplicaciones por criticidad, datos tratados, usuarios, coste y riesgo.
Establecer estándares mínimos de observabilidad antes de producción.
Definir qué métricas deben existir para RAG, chatbots, agentes, extractores y clasificadores.
Crear proceso de cambio para prompts, modelos, tools, retrievers y workflows.
Diseñar revisión periódica de calidad, coste, feedback, errores y patrones de uso.
Mantener documentación de límites conocidos, riesgos aceptados y decisiones de mejora.
Evitar que cada equipo use LangSmith con convenciones distintas e incomparables.
Realizar ejercicio de modelo operativo LLMOps con LangSmith para empresa.
Tema 29: Troubleshooting y errores habituales
Diagnosticar por qué una aplicación no envía trazas a LangSmith.
Resolver problemas de variables de entorno, API keys, proyecto incorrecto o permisos insuficientes.
Detectar trazas incompletas por instrumentación parcial o wrappers mal ubicados.
Corregir metadata inconsistente que impide filtrar y crear dashboards útiles.
Revisar errores de evaluadores por formato, dataset, schema, target function o dependencia externa.
Analizar fallos de coste tracking por modelos no configurados o llamadas no capturadas.
Resolver problemas de latencia provocados por evaluaciones online mal configuradas.
Depurar prompts que funcionan en Playground pero fallan en aplicación real.
Crear checklist de diagnóstico para equipos de soporte y desarrollo.
Realizar ejercicio de reparación de un proyecto LangSmith con fallos provocados.
Tema 30: Proyecto Final
Seleccionar una aplicación LLM empresarial: RAG, chatbot, agente, extractor, clasificador o asistente interno.
Configurar workspace, proyecto, API keys, variables, repositorio y entorno de desarrollo.
Instrumentar la aplicación para registrar trazas completas con inputs, outputs, modelo, prompts, retrieval y tools.
Añadir metadata y tags por entorno, versión, usuario simulado, feature, modelo y experimento.
Crear un dataset inicial con casos manuales, trazas reales filtradas y ejemplos críticos.
Diseñar evaluadores para calidad, formato, groundedness, relevancia, seguridad, coste y latencia.
Ejecutar evaluación offline sobre dos versiones de prompt, modelo o pipeline.
Analizar resultados agregados y fallos individuales para decidir mejoras.
Crear annotation queue para revisión humana con rubrica y criterios claros.
Convertir feedback experto en ejemplos de dataset y assertions reutilizables.
Crear prompt versionado en LangSmith con variables, entorno y configuración documentada.
Probar prompt en Playground con modelos, structured output y dataset de evaluación.
Configurar dashboards para latencia, coste, tokens, errores, feedback y métricas de calidad.
Crear alertas por coste, error rate, feedback negativo, baja calidad o caída de volumen de runs.
Usar Insights o análisis de trazas para detectar patrones de fallo y oportunidades de mejora.
Integrar evaluación en CI/CD como quality gate antes de promover cambios.
Diseñar política de seguridad: datos sensibles, masking, retención, permisos, audit logs y acceso a proyectos.
Preparar arquitectura de despliegue cloud, hybrid o self-hosted según requisitos de la empresa.
Crear documentación técnica con observabilidad, evaluación, prompts, datasets, alertas, roles y runbooks.
Presentar la solución final defendiendo calidad, trazabilidad, seguridad, coste, gobierno y valor empresarial.
Perfiles profesionales
Pensado para quienes deben dominar LangSmith en su día a día
Desarrolladores de aplicaciones LLM y agentes IA
Este curso encaja con desarrolladores que crean asistentes, APIs GenAI, agentes, sistemas RAG, clasificadores, extractores o automatizaciones con modelos de lenguaje. La formación les permite instrumentar su código, depurar trazas, evaluar resultados y mejorar prompts con datos.
Machine Learning Engineers y equipos LLMOps
Los perfiles de ML y LLMOps podrán usar LangSmith para validar calidad, comparar modelos, medir regresiones, preparar datasets, evaluar outputs, versionar experimentos y llevar aplicaciones GenAI a producción con control técnico.
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en LangSmith
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
LangSmith es una plataforma para observar, depurar, evaluar, monitorizar, gestionar prompts y desplegar aplicaciones LLM y agentes IA.
No. Tiene integración muy cómoda con LangChain y LangGraph, pero también puede instrumentar aplicaciones propias y otros stacks mediante SDKs y trazas.
Los logs muestran eventos técnicos. LangSmith permite ver trazas específicas de LLM: prompts, modelos, retrieval, tools, outputs, feedback, coste y calidad.
Sí. Es un curso técnico. Se recomienda experiencia con Python o TypeScript, APIs, prompts, LLMs, RAG, Git y conceptos de backend.
Sí. Se instrumentan sistemas RAG para analizar documentos recuperados, relevancia, groundedness, respuesta final, costes, latencia y errores.
Sí. El curso incluye tracing de agentes, tool calls, trayectorias, LangGraph, evaluación de comportamiento y depuración de rutas complejas.
Son conjuntos de ejemplos usados para evaluar aplicaciones LLM de forma repetible, comparando versiones, prompts, modelos o pipelines.
Son colas de revisión humana donde expertos evalúan runs, comparan respuestas, añaden feedback y ayudan a construir datasets de calidad.
Son funciones o criterios que puntúan outputs. Pueden ser reglas de código, evaluadores LLM-as-judge, comparaciones pairwise o revisión humana.
Sí. El curso cubre creación, versionado, entornos, Playground, herramientas, structured outputs, evaluación y uso programático de prompts.
Sí. Se crean dashboards de calidad, coste, tokens, latencia, errores y feedback, además de alertas por degradación o comportamiento anómalo.
Sí. Se trabaja cost tracking, análisis por modelo, prompt, usuario, feature y estrategia para reducir coste sin perder calidad crítica.
Sí. El curso está orientado a producción: observabilidad, monitorización, evaluaciones online, alertas, seguridad, CI/CD y runbooks.
Sí. Se aborda self-hosted, cloud e hybrid desde la perspectiva de arquitectura, operación, privacidad, requisitos y gobierno enterprise.
Una aplicación LLM/RAG/agente instrumentada con trazas, datasets, evaluaciones, prompts, dashboards, alertas, CI/CD, documentación y gobierno.
Sí. Puede adaptarse a chatbots, RAG, asistentes internos, agentes, extractores, clasificadores, soporte, legal, RRHH, ventas, IT o documentación.
Sí, esta formación puede ser bonificable hasta el 100% a través de FUNDAE, siempre que la empresa disponga de crédito formativo suficiente y se cumplan los requisitos de comunicación, asistencia y documentación exigidos.
No. Tiene integración muy cómoda con LangChain y LangGraph, pero también puede instrumentar aplicaciones propias y otros stacks mediante SDKs y trazas.
Los logs muestran eventos técnicos. LangSmith permite ver trazas específicas de LLM: prompts, modelos, retrieval, tools, outputs, feedback, coste y calidad.
Sí. Es un curso técnico. Se recomienda experiencia con Python o TypeScript, APIs, prompts, LLMs, RAG, Git y conceptos de backend.
Sí. Se instrumentan sistemas RAG para analizar documentos recuperados, relevancia, groundedness, respuesta final, costes, latencia y errores.
Sí. El curso incluye tracing de agentes, tool calls, trayectorias, LangGraph, evaluación de comportamiento y depuración de rutas complejas.
Son conjuntos de ejemplos usados para evaluar aplicaciones LLM de forma repetible, comparando versiones, prompts, modelos o pipelines.
Son colas de revisión humana donde expertos evalúan runs, comparan respuestas, añaden feedback y ayudan a construir datasets de calidad.
Son funciones o criterios que puntúan outputs. Pueden ser reglas de código, evaluadores LLM-as-judge, comparaciones pairwise o revisión humana.
Sí. El curso cubre creación, versionado, entornos, Playground, herramientas, structured outputs, evaluación y uso programático de prompts.
Sí. Se crean dashboards de calidad, coste, tokens, latencia, errores y feedback, además de alertas por degradación o comportamiento anómalo.
Sí. Se trabaja cost tracking, análisis por modelo, prompt, usuario, feature y estrategia para reducir coste sin perder calidad crítica.
Sí. El curso está orientado a producción: observabilidad, monitorización, evaluaciones online, alertas, seguridad, CI/CD y runbooks.
Sí. Se aborda self-hosted, cloud e hybrid desde la perspectiva de arquitectura, operación, privacidad, requisitos y gobierno enterprise.
Una aplicación LLM/RAG/agente instrumentada con trazas, datasets, evaluaciones, prompts, dashboards, alertas, CI/CD, documentación y gobierno.
Sí. Puede adaptarse a chatbots, RAG, asistentes internos, agentes, extractores, clasificadores, soporte, legal, RRHH, ventas, IT o documentación.
Sí, esta formación puede ser bonificable hasta el 100% a través de FUNDAE, siempre que la empresa disponga de crédito formativo suficiente y se cumplan los requisitos de comunicación, asistencia y documentación exigidos.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
Ordena el prompt management La formación cubre prompts versionados, entornos, Playground, herramientas, schemas, evaluación y promoción controlada hacia producción.
3
Conecta desarrollo, QA, producto y negocio LangSmith facilita que perfiles técnicos y expertos de dominio colaboren mediante trazas, annotation queues, datasets y criterios compartidos.
4
Encaja con LangChain, LangGraph y stacks propios El curso trabaja integraciones nativas y también instrumentación manual para aplicaciones Python, TypeScript, APIs propias, RAG y agentes.
5
Prepara gobierno enterprise Incluye permisos, audit logs, self-hosted, cloud, hybrid, seguridad, privacidad, CI/CD, quality gates, métricas y modelo operativo LLMOps.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras
Los arquitectos podrán diseñar una estrategia completa de observabilidad y evaluación para aplicaciones IA, definiendo trazabilidad, métricas, datasets, prompts, despliegues, seguridad, gobierno y operación.
QA Engineers y responsables de calidad
Los equipos de calidad podrán trasladar pruebas, criterios de aceptación, regresión, revisión humana, anotaciones y quality gates al mundo LLM, donde las respuestas no siempre son deterministas.
Equipos DevOps, platform engineering y SRE
Los perfiles de plataforma aprenderán a operar LangSmith, configurar observabilidad, dashboards, alertas, despliegues, self-hosted, métricas, logs, seguridad, usuarios, permisos y flujos productivos.
Consultores de IA, RAG y transformación digital
Los consultores podrán usar LangSmith para auditar aplicaciones LLM, medir calidad, justificar mejoras, crear pilotos, diseñar gobierno, preparar informes y acompañar a clientes desde prototipo hasta producción.