Introducción a Big Data
- Big Data. Definición, filosofía, las Vs.
- Big Data como marco de trabajo.
- Arquitectura conceptual.
- Componentes tecnológicos disponibles.
- Arquitectura moderna de datos.
Almacenamiento distribuido con Apache Hadoop
- Tecnologías Open-source para Big Data.
- Fundamentos de Apache Hadoop.
- Almacenamiento distribuido en HDFS.
- Taller: Procesamiento de datos con Apache Hive.
- Diferencias de Map Reduce vs Tez vs Apache Spark.
- Datalake. Definición y arquitectura (capas).
- Taller: Poblamiento de un Datalake con Apache Tez, Apache Hive y HDFS.
Procesamiento distribuido con Apache Spark
- Introducción a Spark.
- Funciones con PySpark.
- Extracción y Transformación de datos.
- Dataframes y RDDs.
- Funciones de Apache Spark.
- Tunning en Apache Spark.
Ingeniería de datos con Databricks
- ¿Qué es Databricks?
- Databricks Community vs Azure Databricks.
- Conociendo la interfaz de Databricks.
- Data lakehouse vs Datalake.
- Iceberg vs Delta lake vs Apache Hudi.
- Taller: Creación de una Lakehouse con arquitectura Medallion con Delta Lake.
Real-time Fundamentals
- Real-time en datos. Definición, casos de aplicación, diferencias respecto a Batch.
- Arquitectura Publicador – Suscriptor.
- Tecnología para carga Real-Time en Big Data.
- Taller: Uso y configuración de Apache Kafka para carga de datos Real-Time.
- Apache Spark & Kafka setup enviroments.
- Taller: Integración de Apache Spark con Apache Kafka para procesamiento de datos Real-time.