Envíanos tu consulta
Términos y condiciones *
*Si no puedes asistir en directo te facilitaremos un enlace para verlo en diferido
logoImagina
Formación
Modalidades
Próximas Convocatorias
Temario
FAQ
Solicitar información
iconoCurso

Curso de Big Data con Apache Kudu

DISPONIBLE EN MODALIDAD:
aMedidaIcon
Aula Virtual Personalizada
arrowRightDark

Este curso trata sobre cómo utilizar big data para almacenar, procesar y analizar datos estructurados, centrándose en las tres soluciones Apache más populares, dentro del ecosistema Hadoop: Apache Kudu, Apache Spark, Apache Impala. Estos tres productos integrados podrán aportar grandes soluciones en términos de rendimiento y escalabilidad para toda empresa intersada en sacar rendimiento a sus datos.

iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient

Formación en Big Data con Apache Kudu bonificable para empresas

A quién va dirigido nuestro curso de Big Data con Apache Kudu

Analistas de datos y desarrolladores que quieran utilizar Apache Kudu para trabajar el Data Warehousing de su empresas integrándolo con Apache Spark, Apache Impala, AWS y otras soluciones profesionales.

Objetivos de nuestro curso de Big Data con Apache Kudu

  • Obtener unas bases solidas sobre el uso del almacén de datos que es Apache Kudu, orientado en permitir un rápido análisis de los datos
  • Aprender a integrar Apache Impala, Apache Spark y Apache Kafka para garantizar datos en tiempo real y alta disponibilidad
  • Aprender a generar visualizaciones de datos y a administrarlos bajo los fundamentos de la gobernanza de datos y data wharehouse
  • Aprender a securizar soluciones Kudu
  • Trabajar Apache Kudu en la nube con AWS

Qué vas a aprender en nuestro curso de Big Data con Apache Kudu

Este curso trata sobre cómo utilizar big data para almacenar, procesar y analizar datos estructurados, centrándose en las tres soluciones Apache más populares, dentro del ecosistema Hadoop: Apache Kudu, Apache Spark, Apache Impala. Estos tres productos integrados podrán aportar grandes soluciones en términos de rendimiento y escalabilidad para toda empresa intersada en sacar rendimiento a sus datos.

Requisitos de nuestro curso de Big Data con Apache Kudu

  • Tener experiencia desarrollando con Python y realizando consultas SQL
  • Tener experiencia trabajando con Bases de datos relacionales, Apache Spark + Python (Pyspark), Apache Impala y Apache Kafka
  • Se recomienda tener experiencia con los conceptos de Big Data
  • Tener acceso (revisar configuraciones proxy en caso de tenerlas) a una cuenta Community de Azure Databricks para realizar los laboraorios de Spark
  • Son necesarios permisos de instalación en el equipo en el que se realice la formación

Temario del curso de Big Data con Apache Kudu

tema 1

Introducción a los fundamentos de Big data

  • Introducción a los conceptos de Big Data
  • Utilidades y ventajas reales del Big data
  • ¿Qué es el ecosistema de Apacha Hadoop y qué aplicaciones lo componen?
  • ¿Para qué empleamos Apache Spark?
  • ¿Para qué empleamos Apache Impala?
  • ¿Para qué empleamos Apache Kudu?
iconArrowDown
tema 2

Big Data Warehousing

  • Introducción a Data Warehousing para empresas (EDW)
  • ¿Qué son los datos estructurados?
  • La importancia de los datos estructurados
  • EDW en la actualidad
  • Modeado dimansional
  • Big Data Warehousing con Impala y Kudu
iconArrowDown
tema 3

Introducción a Apache Kudu

  • El uso de Apache Kudu con datos estructurados
  • Casos de uso de Apache Kudu: Mantenimiento y análisis de datos relacionales
  • Casos de uso de Apache Kudu: Series temporales y datos de IoT
  • Casos de uso de Apache Kudu: Almacén de plataformas de Machine Learning
  • Fundamentos esenciales de Apache Kudu
  • Analizando la arquitectura de Apache Kudu
  • Introducción al concepto de MVCC (Multi Version Concurrency Control)
  • ¿Cómo las bases de datos con MVCC garantizan la consistencia de lectura?
  • Instalaciones y y puesta en marcha
iconArrowDown
tema 4

Clientes API de Kudu

  • Cliente API para Java
  • Cliente API para Python
  • Cliente API para C++
iconArrowDown
tema 5

Copias de seguridad y recuperación de desastres

  • Copias de seguridad a través de CTAS
iconArrowDown
tema 6

Copiando archivos de Apache Parquet a otros clusters

  • Exportación de resultados desde Impala Shell a directorio local
  • Exportación de resultados desde Impala Shell a NFS
  • Exportación de resultados desde Impala Shell a volúmenes SAN
  • Exportación de resultados desde un Cliente API
  • Exportación de resultados desde Apache Spark
  • Replicación con Spark y la API de Kudu Data Source
  • Introducción a la replicación en tiempo real con StreamSets
  • Replicación de datos usando soluciones ETL (Talend, Pentaho, etc.)
iconArrowDown
tema 7

Python e Impala

  • Introducción a librería Impyla
  • Pyodbc
  • SQLAlchemy
iconArrowDown
tema 8

Opciones de alta disponibilidad

  • Ingesta de datos dual con Kafka y Spark Streaming
  • Replicación datos Kafka con MirrorMaker
  • Ingesta de datos dual con Kafka y StreamSets
  • Ingesta de datos dual con StreamSets
iconArrowDown
tema 9

Monitorización y administración

  • Introducción a Cloudera Manager Kudu Service
  • Introducción a Kudu Master Web UI
  • Introducción a Kudu Tablet Server Web UI
  • Introducción a Kudu Metrics
  • Introducción a Kudu CLI
iconArrowDown
tema 10

Problemas conocidos y limitaciones de Apache Kudu

  • Problemas más conocidos y soluciones actuales
  • Principales limitaciones de Apache Kudu a tener en cuenta
  • Buenas prácticas y recomendaciones
iconArrowDown
tema 11

Aplicando Seguridad a Apache Kudu

  • Mecanismos de seguridad aplicables a Apache Kudu
  • Buenas práctiacas a la hora de aplicar seguridad
iconArrowDown
tema 12

Análisis de datos de alto rendimiento con Impala y Kudu

  • Introducción a la integración de Impala y Kudu
  • Claves primarias
  • Tipos de datos
  • Tablas internas de Impala
  • Tablas externas de Impala
  • Inserción de filas
  • Actualización de filas
  • Alteración de filas
  • Borrado de filas
  • Esquemas y cómo modificarlos
  • Introducción al particicionamiento en Impala y Kudu
  • Particionamiento por hash
  • Particionamiento por rango
  • Particionamiento por hash-rango
  • Particionamiento por hash-hash
  • Listado de particiones
  • Usando JDBC con Impala y Kudu
iconArrowDown
tema 13

Procesado de alto rendimiento con Spark y Kudu

  • Introducción a la integración de Spark y Kudu
  • Diferencias entre versiones Spark
  • Introducción al contexto de Kudu
  • Insertando datos
  • Creación de una Tabla Kudu
  • Actualizando una tabla de Kudu
  • Alteración de datos
  • Borrado de datos
  • Escogiendo datos
  • Insertando archivos CSV en Kudu
  • Insertando archivos CSV en Kudu con Spark-CSV
  • Insertando archivos CSV en Kudu de manera programática especificando un esquema
  • Insertando archivos XML en Kudu con Spark-XML
  • Insertando archivos JSON en Kudu
  • Insertando datos desde MySQL
  • Insertando datos SQL Server en Kudu
  • Insertando datos desde HBase en Kudu
  • Insertando datos desde SOLR en Kudu
  • Insertando datos desde AWS S3 en Kudu
  • Insertando filas de datos de Kudu a Apache Parquet
  • Insertando Dataframes de Oracle y SQL Server en Kudu
  • Integrando Spark Streaming y Kudu
iconArrowDown
tema 14

Procesado e Ingesta de datos batch y en tiempo real

  • Introducción a Streamsets Data Collector
  • Pipelines
  • Orígenes de datos
  • Procesadores de datos
  • Ejecutores
  • Consola de recolección de datos
  • Opciones de despliegue
  • Usando StreamSets Data Collectos
  • Ingesta de archivos XML en Kudu
  • Configurando pipelines
  • Configurando el directorio de origen
  • Configurando el procesador de tratamiento XML
  • ¿Cómo validar un pipeline?
  • ¿Cómo previsualizar un pipeline?
  • Iniciando un pipeline
  • Stream Selector
  • Evaluación de expresiones
  • Usando el evaluador de Javascript
  • Ingesta de datos en múltiples clusters de Kudu
  • Rest API
  • Event Framework
  • Dataflow Performance Manage
iconArrowDown
tema 15

Otras integraciones de Big Data destacables (HDFS, Pentaho, Talend, SSIS, Apache NIFI ...)

  • Ingesta de datos con Kudu
  • Integración con Pentaho
  • Ingesta de archivos CSV en HDFS y Kudu
  • Ingesta de datos en Kudu con transformación
  • Integración con Talend Open Studio
  • Integración con SQL Server
  • Transformación de datos
  • Integración con SSIS
  • Integración con Apache NIFI
  • Integración de Oracle Data Integrator para Big Data
  • Integración con IBM InfoShere DataStage
  • Integración con SyncSort
  • Ingesta de datos con Spark y Kudu Client API
  • MapReduce y Kudu
iconArrowDown
tema 16

Visualizaciones de Big Data y análisis de datos

  • Introducción a las visualizaciones de Big Data
  • SAS Visual Analytics
  • Zoomdata
  • Self-Service Business Intelligence y analítica para Big Data
  • Visualización de datos en tiempo real
  • Arquitectura
  • Integración con Apache Spark
  • Zoomdata Fuson
  • Trabajando con mútiples orígenes de datos
  • Trabajando con datos en tiempo real de IoT con StreamSets, Kudu y Zoomdata
  • Analizando datos con Trifacta
  • Analizando datos con Alteryx
  • Analizando datos con Datameer
iconArrowDown
tema 17

Computación distribuida: Mejora de la eficiencia, escalabilidad optimización de uso de memoria

  • Introducción a los conceptos de la computación distribuida
  • Arquitectura
  • ¿Qué es Alluxio y por qué usarlo?
  • ¿Cómo mejorar la eficiencia del procesado de datos y su escalabilidad?
  • Compartiendo datos a velocidad de memoria entre varias aplicaciones
  • Proporcionando alta disponibilidad y persistencia ante errores o caidas de una aplicación
  • Optimizando el uso de memoria
  • Minimizando la gestión de recolección de basura
  • Reduciento requisitos de HW
  • Componentes de Alluxio
  • Instalación y puesta en marcha de Alluxio
  • Integración de Apache Spark y Alluxio
  • Administración y configuraciones recomendadas de Alluxio (master & worker)
  • Trabajando con Apache Ignite
  • Trabajando con Apache Geode
iconArrowDown
tema 18

Gobernanza de Big Data y mantenimiento

  • Introducción a los fundamentos de la Gobernanza de datos
  • Introducción a Cloudera Navigator
  • Mantenimiento de metadatos
  • Clasificación de datos
  • Almacenamiento y análisis de impacto de datos
  • La importancia del cifrado de datos
  • Introducción a Clouder Navigator Encrypt
  • Introducción a Apache Atlas
  • Introducción a la administración de metadatos de Informatica y Enterprise Data Catalog
  • Introducción a Collibra
  • Introducción a Waterline Data
  • Introducción a Smartlogic
iconArrowDown
tema 19

Big Data en el mundo Cloud

  • AWS
  • Azure
  • GCP
  • Cloudera Enterprise en soluciones en la nube
  • Soluciones híbridas
  • Soluciones multi cloud
  • Transient Clusters
  • Persistent Clusters con Cloudera Director
iconArrowDown

Preguntas Frecuentes de Big Data con Apache Kudu

¿Cuáles son los beneficios del curso Big Data con Apache Kudu?

accordionIcon
Los beneficios de este curso incluyen la adquisición de conocimientos especializados en el manejo de grandes volúmenes de datos con Apache Kudu, la capacidad de integrar Kudu con otros sistemas de Big Data y la mejora de habilidades en análisis y almacenamiento de datos en tiempo real. También permite mejorar la eficiencia y rapidez de los procesos de análisis de datos en tu empresa.

¿El curso de Big Data con Apache Kudu se puede bonificar a través de FUNDAE?

accordionIcon
Sí, este curso es susceptible de bonificación a través de FUNDAE, lo cual permite a las empresas recuperar parte del coste del curso mediante créditos formativos disponibles para formación continua.

¿En qué modalidades se imparte el curso de Big Data con Apache Kudu?

accordionIcon
El curso se imparte en modalidad online o en aula virtual personalizada, lo que permite una mayor flexibilidad y adaptación a las necesidades específicas de cada empresa.

¿Qué habilidades desarrollaré con el curso de Big Data con Apache Kudu?

accordionIcon
Con este curso desarrollarás habilidades para manejar y optimizar el uso de Apache Kudu en entornos de Big Data, realizar análisis de datos en tiempo real, integrar Kudu con otras tecnologías de Big Data como Apache Spark y Hadoop, y mejorar la eficiencia del almacenamiento y recuperación de datos en tu organización.

¿Cómo puedo inscribirme en el curso de Big Data con Apache Kudu?

accordionIcon
Puedes inscribirte en el curso rellenando los formularios que aparecen en la web. Este proceso es sencillo y te permitirá acceder rápidamente a todos los contenidos y recursos del curso.