Impulsa la Rentabilidad Empoderando tu Empresa con Apache Kudu, Spark e Impala
Profesionaliza a tu equipo en Big Data con Apache Kudu A Medida, tutorizado por Expertos y bonificable hasta el 100% por FUNDAE para empresas. Pide información.
Optimiza la gestión y análisis de grandes volúmenes de datos estructurados, utilizando Apache Kudu en conjunto con Apache Spark e Impala, mejorando la velocidad de procesamiento y eficiencia en la toma de decisiones empresariales.
1
Obtén ventajas competitivas mediante la implementación
Personaliza el temario al 100% para tu equipo
Diseñamos una formación a medida utilizando los documentos y flujos de trabajo reales de tu empresa.
Nueva Plataforma de E-learningFormación en directo con plataforma de apoyo para reforzar el aprendizaje
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Programa formativo
Temario del curso
Encuentra todo el temario del curso aquí.
Temario
Introducción a los conceptos de Big Data
Utilidades y ventajas reales del Big data
¿Qué es el ecosistema de Apacha Hadoop y qué aplicaciones lo componen?
¿Para qué empleamos Apache Spark?
¿Para qué empleamos Apache Impala?
¿Para qué empleamos Apache Kudu?
Introducción a los conceptos de Big Data
Utilidades y ventajas reales del Big data
¿Qué es el ecosistema de Apacha Hadoop y qué aplicaciones lo componen?
Tema 1: Introducción a los fundamentos de Big data
Introducción a los conceptos de Big Data
Utilidades y ventajas reales del Big data
¿Qué es el ecosistema de Apacha Hadoop y qué aplicaciones lo componen?
¿Para qué empleamos Apache Spark?
¿Para qué empleamos Apache Impala?
¿Para qué empleamos Apache Kudu?
Tema 2: Big Data Warehousing
Introducción a Data Warehousing para empresas (EDW)
¿Qué son los datos estructurados?
La importancia de los datos estructurados
EDW en la actualidad
Modeado dimansional
Big Data Warehousing con Impala y Kudu
Tema 3: Introducción a Apache Kudu
El uso de Apache Kudu con datos estructurados
Casos de uso de Apache Kudu: Mantenimiento y análisis de datos relacionales
Casos de uso de Apache Kudu: Series temporales y datos de IoT
Casos de uso de Apache Kudu: Almacén de plataformas de Machine Learning
Fundamentos esenciales de Apache Kudu
Analizando la arquitectura de Apache Kudu
Introducción al concepto de MVCC (Multi Version Concurrency Control)
¿Cómo las bases de datos con MVCC garantizan la consistencia de lectura?
Instalaciones y y puesta en marcha
Tema 4: Clientes API de Kudu
Cliente API para Java
Cliente API para Python
Cliente API para C++
Tema 5: Copias de seguridad y recuperación de desastres
Copias de seguridad a través de CTAS
Tema 6: Copiando archivos de Apache Parquet a otros clusters
Exportación de resultados desde Impala Shell a directorio local
Exportación de resultados desde Impala Shell a NFS
Exportación de resultados desde Impala Shell a volúmenes SAN
Exportación de resultados desde un Cliente API
Exportación de resultados desde Apache Spark
Replicación con Spark y la API de Kudu Data Source
Introducción a la replicación en tiempo real con StreamSets
Replicación de datos usando soluciones ETL (Talend, Pentaho, etc.)
Tema 7: Python e Impala
Introducción a librería Impyla
Pyodbc
SQLAlchemy
Tema 8: Opciones de alta disponibilidad
Ingesta de datos dual con Kafka y Spark Streaming
Replicación datos Kafka con MirrorMaker
Ingesta de datos dual con Kafka y StreamSets
Ingesta de datos dual con StreamSets
Tema 9: Monitorización y administración
Introducción a Cloudera Manager Kudu Service
Introducción a Kudu Master Web UI
Introducción a Kudu Tablet Server Web UI
Introducción a Kudu Metrics
Introducción a Kudu CLI
Tema 10: Problemas conocidos y limitaciones de Apache Kudu
Problemas más conocidos y soluciones actuales
Principales limitaciones de Apache Kudu a tener en cuenta
Buenas prácticas y recomendaciones
Tema 11: Aplicando Seguridad a Apache Kudu
Mecanismos de seguridad aplicables a Apache Kudu
Buenas práctiacas a la hora de aplicar seguridad
Tema 12: Análisis de datos de alto rendimiento con Impala y Kudu
Introducción a la integración de Impala y Kudu
Claves primarias
Tipos de datos
Tablas internas de Impala
Tablas externas de Impala
Inserción de filas
Actualización de filas
Alteración de filas
Borrado de filas
Esquemas y cómo modificarlos
Introducción al particicionamiento en Impala y Kudu
Particionamiento por hash
Particionamiento por rango
Particionamiento por hash-rango
Particionamiento por hash-hash
Listado de particiones
Usando JDBC con Impala y Kudu
Tema 13: Procesado de alto rendimiento con Spark y Kudu
Introducción a la integración de Spark y Kudu
Diferencias entre versiones Spark
Introducción al contexto de Kudu
Insertando datos
Creación de una Tabla Kudu
Actualizando una tabla de Kudu
Alteración de datos
Borrado de datos
Escogiendo datos
Insertando archivos CSV en Kudu
Insertando archivos CSV en Kudu con Spark-CSV
Insertando archivos CSV en Kudu de manera programática especificando un esquema
Insertando archivos XML en Kudu con Spark-XML
Insertando archivos JSON en Kudu
Insertando datos desde MySQL
Insertando datos SQL Server en Kudu
Insertando datos desde HBase en Kudu
Insertando datos desde SOLR en Kudu
Insertando datos desde AWS S3 en Kudu
Insertando filas de datos de Kudu a Apache Parquet
Insertando Dataframes de Oracle y SQL Server en Kudu
Integrando Spark Streaming y Kudu
Tema 14: Procesado e Ingesta de datos batch y en tiempo real
Introducción a Streamsets Data Collector
Pipelines
Orígenes de datos
Procesadores de datos
Ejecutores
Consola de recolección de datos
Opciones de despliegue
Usando StreamSets Data Collectos
Ingesta de archivos XML en Kudu
Configurando pipelines
Configurando el directorio de origen
Configurando el procesador de tratamiento XML
¿Cómo validar un pipeline?
¿Cómo previsualizar un pipeline?
Iniciando un pipeline
Stream Selector
Evaluación de expresiones
Usando el evaluador de Javascript
Ingesta de datos en múltiples clusters de Kudu
Rest API
Event Framework
Dataflow Performance Manage
Tema 15: Otras integraciones de Big Data destacables (HDFS, Pentaho, Talend, SSIS, Apache NIFI ...)
Ingesta de datos con Kudu
Integración con Pentaho
Ingesta de archivos CSV en HDFS y Kudu
Ingesta de datos en Kudu con transformación
Integración con Talend Open Studio
Integración con SQL Server
Transformación de datos
Integración con SSIS
Integración con Apache NIFI
Integración de Oracle Data Integrator para Big Data
Integración con IBM InfoShere DataStage
Integración con SyncSort
Ingesta de datos con Spark y Kudu Client API
MapReduce y Kudu
Tema 16: Visualizaciones de Big Data y análisis de datos
Introducción a las visualizaciones de Big Data
SAS Visual Analytics
Zoomdata
Self-Service Business Intelligence y analítica para Big Data
Visualización de datos en tiempo real
Arquitectura
Integración con Apache Spark
Zoomdata Fuson
Trabajando con mútiples orígenes de datos
Trabajando con datos en tiempo real de IoT con StreamSets, Kudu y Zoomdata
Analizando datos con Trifacta
Analizando datos con Alteryx
Analizando datos con Datameer
Tema 17: Computación distribuida: Mejora de la eficiencia, escalabilidad optimización de uso de memoria
Introducción a los conceptos de la computación distribuida
Arquitectura
¿Qué es Alluxio y por qué usarlo?
¿Cómo mejorar la eficiencia del procesado de datos y su escalabilidad?
Compartiendo datos a velocidad de memoria entre varias aplicaciones
Proporcionando alta disponibilidad y persistencia ante errores o caidas de una aplicación
Optimizando el uso de memoria
Minimizando la gestión de recolección de basura
Reduciento requisitos de HW
Componentes de Alluxio
Instalación y puesta en marcha de Alluxio
Integración de Apache Spark y Alluxio
Administración y configuraciones recomendadas de Alluxio (master & worker)
Trabajando con Apache Ignite
Trabajando con Apache Geode
Tema 18: Gobernanza de Big Data y mantenimiento
Introducción a los fundamentos de la Gobernanza de datos
Introducción a Cloudera Navigator
Mantenimiento de metadatos
Clasificación de datos
Almacenamiento y análisis de impacto de datos
La importancia del cifrado de datos
Introducción a Clouder Navigator Encrypt
Introducción a Apache Atlas
Introducción a la administración de metadatos de Informatica y Enterprise Data Catalog
Introducción a Collibra
Introducción a Waterline Data
Introducción a Smartlogic
Tema 19: Big Data en el mundo Cloud
AWS
Azure
GCP
Cloudera Enterprise en soluciones en la nube
Soluciones híbridas
Soluciones multi cloud
Transient Clusters
Persistent Clusters con Cloudera Director
Perfiles profesionales
Pensado para quienes deben dominar Big Data con Apache Kudu en su día a día
Científicos de Datos
Pretenden optimizar sus análisis utilizando herramientas avanzadas del ecosistema Hadoop.
Ingenieros de Software
Buscan integrar nuevas tecnologías de Big Data en los sistemas de sus organizaciones.
Administradores de Bases de Datos
Desean mejorar en la gestión de grandes volúmenes de datos estructurados y no estructurados.
Analistas de Negocios
Necesitan transformar datos en insights valiosos para la toma de decisiones estratégicas.
Preguntas frecuentes
Resolvemos todas tus dudas sobre nuestra formación en Big Data con Apache Kudu
Explora las respuestas a las preguntas que guian a nuestra comunidad. Aqui encontraras claridad sobre como funciona todo, desde el acceso hasta los detalles de los cursos. Si buscas respuestas, este es el lugar para comenzar.
El curso se diseña a medida para cada empresa, ajustando el contenido a sus necesidades específicas. Se lleva a cabo en Aula Virtual Personalizada a través de Zoom, ofreciendo un aprendizaje adaptativo y enfocado en soluciones prácticas.
Sí, es ideal para equipos. Además de mejorar el manejo de Big Data, fortalecerá la colaboración entre miembros, multiplicando la eficiencia en proyectos. Los equipos aprenderán a gestionar el data warehousing, aprovechando innovaciones en tiempo real con Apache Kudu.
El curso es 100% bonificable a través de FUNDAE, permitiendo reducir costes de formación. Si gestionamos la bonificación, cobramos un 10% adicional más IVA, el cual también es bonificable. Esto facilita que tu empresa aproveche sin importar el presupuesto.
La inscripción se gestiona a través de nuestra página web. Es necesario completar un formulario detallado para ajustar el curso a las necesidades de la empresa y activar la bonificación. Una vez inscrito, recibirás toda la información adicional para iniciar las sesiones por Zoom.
En la modalidad de Aula Virtual Personalizada, adaptamos tanto los horarios como los proyectos a las necesidades particulares de cada empresa, asegurando una experiencia de formación relevante. Además, las sesiones se graban para acceso posterior.
Basta con disponer de un dispositivo con conexión a internet y acceso a Zoom. Se recomienda un entorno de trabajo equipado con las herramientas necesarias para practicar las habilidades aprendidas, optimizando la experiencia formativa.
El curso admite hasta 20 participantes por sesión, asegurando una atención personalizada y una adecuada interacción entre instructor y alumnos. Este número permite maximizar el impacto del aprendizaje y favorece un ambiente participativo y enriquecedor.
El curso se diseña a medida para cada empresa, ajustando el contenido a sus necesidades específicas. Se lleva a cabo en Aula Virtual Personalizada a través de Zoom, ofreciendo un aprendizaje adaptativo y enfocado en soluciones prácticas.
Sí, es ideal para equipos. Además de mejorar el manejo de Big Data, fortalecerá la colaboración entre miembros, multiplicando la eficiencia en proyectos. Los equipos aprenderán a gestionar el data warehousing, aprovechando innovaciones en tiempo real con Apache Kudu.
El curso es 100% bonificable a través de FUNDAE, permitiendo reducir costes de formación. Si gestionamos la bonificación, cobramos un 10% adicional más IVA, el cual también es bonificable. Esto facilita que tu empresa aproveche sin importar el presupuesto.
La inscripción se gestiona a través de nuestra página web. Es necesario completar un formulario detallado para ajustar el curso a las necesidades de la empresa y activar la bonificación. Una vez inscrito, recibirás toda la información adicional para iniciar las sesiones por Zoom.
En la modalidad de Aula Virtual Personalizada, adaptamos tanto los horarios como los proyectos a las necesidades particulares de cada empresa, asegurando una experiencia de formación relevante. Además, las sesiones se graban para acceso posterior.
Basta con disponer de un dispositivo con conexión a internet y acceso a Zoom. Se recomienda un entorno de trabajo equipado con las herramientas necesarias para practicar las habilidades aprendidas, optimizando la experiencia formativa.
El curso admite hasta 20 participantes por sesión, asegurando una atención personalizada y una adecuada interacción entre instructor y alumnos. Este número permite maximizar el impacto del aprendizaje y favorece un ambiente participativo y enriquecedor.
Diseñemos hoy el curso que tu empresa necesita
Cuéntanos tus objetivos de negocio y prepararemos una propuesta formativa bonificable totalmente ad hoc
de data warehousing adaptado a las necesidades específicas de tu empresa, integrando soluciones líderes del ecosistema Hadoop para un análisis de datos superior y en tiempo real.
2
Capacita a tus equipos en el uso de herramientas avanzadas de Big Data, facilitando el acceso a datos críticos y permitiendo el desarrollo de proyectos estratégicos que fortalezcan la innovación y competitividad de la organización.
3
Asegura la escalabilidad y flexibilidad en las operaciones, adaptando las infraestructuras de manejo de datos a las exigencias cambiantes del mercado, garantizando así un entorno robusto y preparado para el crecimiento futuro.
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Acceso a las grabaciones
Los alumnos podrán revisar las sesiones grabadas para repasar conceptos clave, recuperar explicaciones concretas o reforzar aquellos contenidos que necesiten después de la clase en directo.
Recursos formativos
Materiales, sesiones grabadas y documentación de apoyo quedan centralizados en la plataforma para que el equipo pueda consultarlos durante y después de la formación.
Confirmación de asistencia
La plataforma permite registrar y confirmar la asistencia de los participantes, facilitando el seguimiento de la formación y la gestión documental necesaria para la bonificación FUNDAE.
Ejercicios prácticos
Después de la formación en directo, los alumnos podrán acceder a ejercicios prácticos para aplicar lo trabajado en clase y consolidar el aprendizaje con actividades guiadas.
Practica y mejora con nuestra plataforma
Una plataforma practica, con IA integrada y pensada para que mejores desarrollando. Se adapta a tu ritmo, te corrige al instante y te muestra tu progreso real.
Correccion magica
Feedback inteligente
Aprende de cada acierto y fallo con explicaciones claras