Introducción a Big Data y Databricks
- Introducción a Big Data. Definición, tecnología asociada: computación distribuida, clusters, Hadoop, Spark.
- Tipos de datos en Big Data: Avro vs. Parquet. Características, ventajas de uso de cada uno.
- Databricks. Definición, uso en la industria, relación con Big Data, descripción del entorno de trabajo.
- Creación de Clusters en Databricks Community.
- Taller: Carga de archivo plano y consultas simples, con filtro, y con agrupamiento empleando lenguaje SQL.
Introducción a Lakehouses
- Conceptos Data Warehouse, Data Lake y Data Lakehouse. Definición, alcance, diferencias, casos de uso.
- Tipo de dato Delta. Comparativo con Parquet.
- Taller: Creación de base de datos y tablas tipo Parquet. Inserción, y consulta de datos. Actualización y borrado de datos.
- Taller: Creación de tablas tipo Delta. Inserción y consulta de datos. Actualización y borrado de datos.
- Taller: Actualización de una tabla Delta basado en datos externos. Uso de Merge Into.
- Taller: Versionado de tablas Delta. Comparación de versiones.
Introducción a Pipelines en Databricks (Live Tables)
- Delta Live Tables. Definición, casos de uso.
- Ejemplos de implementación.
- Ventajas de Delta Live Tables. Documentación, transformación y gobierno de datos.
- Demo: Data Lakehouse básico con arquitectura Medallion y Live Tables.
Introducción a Streaming ETL
- Apache Kafka. Definición, características, casos de uso.
- PySpark y tipos de datos.
- Taller: Implementación de un Notebook para consumo de datos en Streaming (desde servers de prueba Databricks).
- Taller: Implementación de un Notebook para filtrado de datos provenientes de Streaming.
- Taller: Implementación de un Notebook para combinación de dataframes provenientes de Streaming.
- Taller: Implementación de un notebook para descarga de datos provenientes de Streaming en Delta, Parquet y CSV.