fbpx
Productos
Crear una cuenta

CAPACITACIONES

Alianzas que respaldan nuestro trabajo

Diploma Data Engineer

El avance tecnológico ha promovido el crecimiento exponencial de los datos almacenados por las empresas, que es lo que hoy se denomina Big Data, que a su vez ha motivado el surgimiento de nuevas técnicas y herramientas de recolección, organización y almacenamiento para tales volúmenes de información. Ahora, el reto está en proveer soluciones que transporten y democraticen la data en toda la organización, y constituyan un soporte confiable.

30% Dto.

El precio original era: $8,915.00.El precio actual es: $1,684.94.

Hablar con un asesor

Pre-requisitos:

Experiencia en desarrollo de software, y conocimientos de programación y estructura de bases de datos.

Profesor: Oscar Barrientos

Tech Leader en Interbank, previamente ha tenido experiencia en WeIT, Gora y BCTS Consulting. Especialista en Transformación Digital y Big Data por la Universidad Nacional de Ingeniería (UNI) e Ingeniero de Sistemas por la Universidad de Lima.

Profesor: Angel Tintaya

Senior Data Engineer en number8 previamente ha tenido experiencia en BCP.

Profesor: Juan Salinas

Senior Data Engineer en Encora, previamente ha tenido experiencia en Belcorp, Derco, Grupo El Comercio y Tekton Labs. MBA e Ingeniero Industrial por la Universidad Autónoma del Perú.

Profesor: Victor Gutierrez

—-

Profesor: Jenifer Garate

Profesor: Tony Trujillo

Data Architect & Metadata Worker en  previamente ha tenido experiencia en Smart Data Consulting, Bluetab,

Profesor: Grace Oyarce

Consultor en Talento Humano en GO!

Profesor: Miguel Garcia

Especialista en TI en E2E

Inicio: 27/02/2025
Fin:
Online, 100% en vivo
168 hrs. académicas
43 - Sesiones
Certificación
Mar, Jue
19:30 - 22:30
Mar, Jue
20:30 - 23:30
Mar, Jue
20:30 - 23:30
Mar, Jue
21:30 - 00:30

Características

Clases en Vivo
El 100% de las clases que se desarrollan en el curso son en vivo.
Plataforma E-Learning
Accede en cualquier momento a materiales complementarios: lecturas, videos, tutoriales, clases grabadas y más.
Asesoría Académica
Resuelve tus dudas con el asistente académico en línea.
Aprende Haciendo
Desarrolla casos con datos reales, incluso puedes proponer casos de tu propio sector.
Certificación
Con una nota mínima de 14 sobre 20 y una asistencia mínima del 80%
Soporte Técnico
Soporte Técnico Asistencia técnica permanente y acceso a máquinas virtuales de ser necesario.

Lo que vas a obtener con este curso

Objetivos General:

Aprende a diseñar e implementar soluciones ETL desde diversas fuentes hacia repositorios como Data-Warehouses, Data-Lakes, entre otros; empleando lenguajes de programación como Python y Transact-SQL, contemplando en el proceso y las herramientas para datos masivos, y complementos como Web Scraping, Real-Time Data, DataOps, entre otros.

Objetivos Específicos:

  • Fundamentals of Data Engineering: Aprende a utilizar Python y Transact-SQL para para el diseño de soluciones ETL.
  • Big Data Specialization: Aprende sobre los fundamentos de Big Data, su arquitectura, herramientas y los lenguajes disponibles para manipulación de datos para entornos Onpremise como cloud para soluciones de ingeniería de datos.
  • Tools for Data Engineer: Aprende a emplear herramientas y frameworks como Web Scraping para la automatización de extracción de datos, Data Visualization para comprender los ETL desde la vista del usuario final; así como DataOps, Data Integration y Orchestration para la automatización de los flujos de trabajo.
Malla Curricular:

Fundamentos de ETL con Python 

  • ETL. Definición y herramientas. 
  • Herramientas Python para ETL. 
  • Python y sus entornos de ejecución. 

 Introducción a Python 

  • Manejo de excepciones e instrucciones. 
  • Tipos de datos en Python. 
  • Creación de Programas en Python. 
  • Interactuando con el OS. 
  • API. Definición y librerías para extraer datos. 
  • Taller: Consulta de datos desde un API. 

 Object Relational Mapper 

  • ORM. Definición, ventajas de su uso. 
  • Tipos de ORM en Python. 
  • SQLAlchemy. Definición y características. 
  • Taller: Creación de un Engine con SQLAlchemy. 
  • Taller: Conexión a base de datos con SQLAlchemy. 

 Pandas. Series y Dataframes 

  • Pandas. Definición, carga en Python. 
  • Pandas Series. Características y uso de vectores. 
  • Operaciones con Series. Búsquedas, Slicing, operaciones aritméticas, tipos de datos. 
  • Pandas DataFrames. Características y uso de DataFrames. Diferencias respecto a Series. 
  • Operación con DataFrames. Creación, descripción, visualización. 
  • Operaciones de agrupación. Agrupaciones directas y por Agregación simple y múltiple (varios campos). 
  • Guardar DataFrames en archivos planos (Json y CSV) y base de datos (MySQL). 
  • Taller: Carga de datos de un API, procesamiento, y descarga en una base de datos. 
  • Taller: Carga de datos desde un archivo plano, procesamiento y descarga en una base de datos. 

El Lenguaje Transact-SQL 

  • SQL y T-SQL. Definición, diferencias. 
  • Lenguaje de definición de datos (DDL). Definición, alcance y comandos asociados (create, alter, drop). 
  • Lenguaje de manipulación de datos (DML). Definición, alcance y estructura del comando SELECT…FROM… 
  • Consultas básicas, uso de SELECT…FROM… 
  • Consultas condicionales, uso de WHERE y operadores lógicos. 
  • Consultas de agregación, uso de GROUP BY, COUNT, MAX, MIN, SUM, AVG, 
  • Pivoteo de tablas, uso de PIVOT. 
  • Consultas multi-tabla. Uso del comando JOIN y variantes (LEFT, RIGHT, FULL) 
  • Operadores de conjunto, uso de UNION, INTERSECT,EXCEPT. 
  • Taller: Extracción de datos desde una base de datos local con comandos T-SQL. 

 Transact-SQL Avanzado 

  • Transformación y operación de columnas, uso de operadores aritméticos, funciones de fechas, funciones de textos, uso de IIF, ISNULL, NULLIF. 
  • Filtrado avanzado, uso de IN, ANY AND SOME, ALL, EXISTS. 
  • Conversión de tipos de datos, uso de CAST, CONVERT,FORMAT, PARSE. 
  • Encapsulamiento de consultas en Procedimientos almacenados. Uso de estructuras condicionales y bucles. 
  • Carga de datos externos, uso de Linked Servers, OpenQuery y OpenRowSet. 
  • Taller: Transformación de datos externos con comandos T-SQL. 

 Tópicos Avanzados sobre Tablas 

  • Tablas derivadas y tablas temporales como alternativas para pre-procesamiento de datos. 
  • Instrucciones tipo Query jerárquica y correlaciónales.  
  • Manejo de expresiones de tablas (CROSS APPLY, OUTER APPLY). 
  • Uso de cursores para copia y transferencia de datos. 
  • Automatización de scripts con Jobs (schedule). 
  • Taller: Diseño de un script ETL con lenguaje T-SQL (De BD a BD) 

Fundamentos de No-SQL 

  • Bases de datos NoSQL. Definición y tipos. 
  • MongoDB. Definición, métodos y tipos de datos que soporta. 
  • Terminología y Conceptos (comparativo SQL y MongoDB). 

 Operaciones con MongoDB 

  • Operaciones CRUD en MongoDB. 
  • Creación de documentos, uso de INSERTONE() e INSERTMANY(). 
  • Uso de diversas fuentes de datos: documentos definidos previamente, array de documentos, archivos JSON. 
  • Lectura de documentos, uso FIND(). 
  • Actualización de documentos, uso de UPDATEONE(), UPDATEMANY(), REPLACEONE(). 
  • Eliminación de documentos, uso de DELETEONE(), DELETEMANY(), REMOVE(). 
  • Consulta de documentos. 
  • Consultas simples, uso de FIND(), FINDONE(). 
  • Consultas avanzadas, comparación, Cadenas, Existencia. 
  • Consultas con operaciones lógicas, uso de Y ($AND), O ($OR), Negación ($NOT), Dos expresiones ($NOR). 
  • Consulta de arrays, uso de DOT NOTATION 
  • Consultas en subdocumentos. 
  • Uso de Cursores. 

Introducción a Big Data 

  • Big Data. Definición, filosofía, las Vs. 
  • Big Data como marco de trabajo. 
  • Arquitectura conceptual. 
  • Componentes tecnológicos disponibles. 
  • Arquitectura moderna de datos. 

 Almacenamiento distribuido con Apache Hadoop 

  • Tecnologías Open-source para Big Data. 
  • Fundamentos de Apache Hadoop. 
  • Almacenamiento distribuido en HDFS. 
  • Taller: Procesamiento de datos con Apache Hive. 
  • Diferencias de Map Reduce vs Tez vs Apache Spark. 
  • Datalake. Definición y arquitectura (capas). 
  • Taller: Poblamiento de un Datalake con Apache Tez, Apache Hive y HDFS. 

 Procesamiento distribuido con Apache Spark 

  • Introducción a Spark. 
  • Funciones con PySpark. 
  • Extracción y Transformación de datos. 
  • Dataframes y RDDs. 
  • Funciones de Apache Spark. 
  • Tunning en Apache Spark. 

 Ingeniería de datos con Databricks 

  • ¿Qué es Databricks? 
  • Databricks Community vs Azure Databricks. 
  • Conociendo la interfaz de Databricks. 
  • Data lakehouse vs Datalake. 
  • Iceberg vs Delta lake vs Apache Hudi. 
  • Taller: Creación de una Lakehouse con arquitectura Medallion con Delta Lake. 

 Real-time Fundamentals 

  • Real-time en datos. Definición, casos de aplicación, diferencias respecto a Batch. 
  • Arquitectura Publicador – Suscriptor. 
  • Tecnología para carga Real-Time en Big Data. 
  • Taller: Uso y configuración de Apache Kafka para carga de datos Real-Time. 
  • Apache Spark & Kafka setup enviroments. 
  • Taller: Integración de Apache Spark con Apache Kafka para procesamiento de datos Real-time. 

Fundamentos de Cloud Computing 

  • ¿Qué es computación en la nube? 
  • Conceptos de virtualización, Uso bajo demanda, despligue escalable. 
  • Ventajas del cloud computing. 
  • Regiones y zonas de disponibilidad. 
  • Tipos de nubes. 
  • IAAS, PAAS y SAAS. 

 Introducción a la Ingeniería de datos con AWS 

  • Introducción a la Consola de AWS. 
  • Principales servicios de data en AWS. S3, EMR, Cloud Funtions, IAM, Redshift, Athena, entre otros. 
  • Arquitectura de datos en AWS. 
  • Taller: Diseño e implementación de un ETL básico con AWS. 

 Introducción a la Ingeniería de datos con Azure 

  • Introducción a la Consola de Azure. 
  • Principales servicios de data en Azure. Blob Storage, Data factory, Databricks, Synapse, Event Hub, Azure SQL. 
  • Arquitectura de datos en AZURE. 
  • Taller: Diseño e implementación de un ETL básico con Azure. 

 Introducción a la Ingeniería de datos con GCP 

  • Introducción a la Consola de Azure. 
  • Servicios principales servicios de data en GCP. Cloud functions, Cloud Storage, Bigquery, Dataproc, data fusion, composer. 
  • Arquitectura de datos en GCP. 
  • Taller: Diseño e implementación de un ETL básico con GCP. 

Data Visualización fundamentals 

  • Inteligencia de negocios y herramientas de visualización. 
  • Power BI for Big data. Conexión a fuente Cloud. 
  • Transformación de datos con Power Query. 
  • Taller: Conexión y transformación de fuente de datos con Power BI y Power Query. 

Web Scraping Fundamentals 

  • Web Scraping. Definición, debate legal-ético.  
  • Métodos de extracción de datos. 
  • Técnicas de web scraping. Estático, Requests, Dinámico. 
  • Taller: Scraping a un sitio web y almacenamiento de su contenido. 

Fundamentos de DataOps 

  • DataOps. Definición y características. 
  • Devops vs DataOps. 
  • Conceptos asociados: Continuos-delivery y Continuos-integrations. 
  • Servicios de automatización de despliegue: Jenkins, Azure Devops, Github Actions, Gitlab CI). 
  • Fundamentos de Infraestructura como código. Definición y características de Terrraform. 

 

Git and GitHub 

  • El control de versiones. Definición y características. 
  • Git. Definición, principales comandos. 
  • GitHub. Definición. 
  • Configuración de llaves SSH. 
  • Directorio de trabajo. 
  • Commit. 
  • Fusionar y el comando Merge. 
  • Ramas y el comando Branch. 
  • Taller: Creación de un repositorio en GitHub. 

 

Jenkins 

  • Jenkins. Definición, características, configuración e instalación básica. 
  • Configuración de un Job. 
  • Plugin de Jenkins. 
  • Conexión a GitHub. 
  • Taller: Despliegue de código automatizado. 

Apache Airflow 

  • Apache Airflow. Definición. 
  • DAG (Direct-Acyclic-Graph). Definición y casos de uso. 
  • Uso de Scheduler. 
  • Task and Operator. 
  • Taller: Implementado un DAG. 
  • Bash Operator,Python Operator y Apache Spark Operators. 
  • Taller: Procesamiento de datos con Apache Airflow. 
  • Asesoría Proyecto Integrador
  • Refuerzo de conocimientos

Malla Curricular

Taller de marca personal y empleabilidad
Python for Data Engineering.
SQL for Data Engineering.
Workshop Bases de datos No-SQL.
Big Data Processing.
Cloud Data Engineering DE
Data Visualization.
Web Scraping con Python.
DataOps.
Data Integration & Orchestration.
Proyecto integrador.

Preguntas Frecuentes

Talvez su consulta se puede resolver leyendo nuestras preguntas frecuentes
¿Necesito tener una cuenta para poder matricularme en una capacitación?

Lo ideal es crear una cuenta en nuestra web y luego realizar tu compra, pero no es mandatorio. Si desea puede pagar y matricularse en cualquiera de nuestras capacitaciones y después de la compra, automáticamente se le habrá creado un usuario.

Ya me matriculé, ¿cuáles son los siguientes pasos?

Una vez matriculado en una de nuestras capacitaciones, le llegará un correo de confirmación con los accesos. De tener algún inconveniente deberá escribir a: esmeralda.verde@dmc.pe para recibir orientación y pronta solución.

¿Todos los cursos son 100% en vivo y online?

Sí, a menos que hayas comprado alguna membresía de DMC Play; todos nuestras capacitaciones: cursos, bootcamps, especializaciones, diplomas y lo incluido en nuestras Membresías DataPro son completamente online y 100% en vivo.

No puedo ingresar a la plataforma, rechaza mi contraseña y usuario

Para cualquier problema con el usuario y contraseña de la plataforma deberás contactarte al siguiente correo y solicitar la solución: noel.yzaguirre@dmc.pe

Tengo dudas y necesito ayuda con mi Membresía DataPro

Para recibir ayuda sobre el uso, acceso y aprovechamiento de tu Membresía DataPro, podrás escribirle a nuestra asesora: claudia.trujillo@dmc.pe, y ella podrá ayudarte con tus dudas.

Ya me inscribí en una Membresía DataPro, ¿qué sigue?

Deberás armar tu horario de estudios para que puedas aprovechar al máximo la membresía. Los accesos llegarán a tu correo electrónico y podrás así completar tus inscripciones. Recuerda revisar a qué tienen acceso según tu membresía adquirida.

Obtenga una certificación reconocida por las empresas y la industria nacional y extranjera

Utilice su certificación para realizar un cambio de vida hacia la ciencia de la Data y la Analítica o para mantenerse a la vanguardia en su carrera. Su salario se incrementará con sus conocimientos..

Miles de estudiantes satisfechos han logrado sus metas gracias a nuestra metodología de estudio

Abre tu cuenta GRATIS y aprovecha todo el contenido que tenemos para ti y empieza ahora a darle un nuevo impulso a tu carrera profesional.

Crea una cuenta gratis

¿Tienes alguna consulta o inquietud? talvez deseas consultar a uno de nuestros asesores

Hablar con un asesor

CONTINÚA TU CARRERA EN DATOS

Si finalizaste la capacitación en este perfil, te recomendamos algunos cursos para que continues tu carrera en el fascinante mundo de los datos.
Cursos

EXCEL AVANZADO

Aunque Ms. Excel permite realizar una gran cantidad de trabajos y puede emplearse para diversos propósitos en…
Inicio:
16/01/2025
Online, 100% en vivo
5 - Sesiones
Certificación
60% Dto.

El precio original era: $315.00.El precio actual es: $34.02.

Cursos

EXCEL BÁSICO

Ms. Excel es un software indispensable en el trabajo de hoy en día, y aprender el uso…
Inicio:
30/01/2025
Online, 100% en vivo
5 - Sesiones
Certificación
60% Dto.

El precio original era: $315.00.El precio actual es: $34.02.

Cursos

AUTOMATIZACIÓN CON POWER APPS Y POWER AUTOMATE

Los sistemas informáticos, al margen de su tamaño y alcance, son herramientas que permiten automatizar parcial o…
Inicio:
29/01/2025
Online, 100% en vivo
8 - Sesiones
Certificación
60% Dto.

El precio original era: $1,455.00.El precio actual es: $157.14.

Cursos

POWER BI NIVEL 1

Los reportes e informes forman parte del día de día de muchos puestos laborales, ya sea para…
Inicio:
30/01/2025
online
5 - Sesiones
Certificación
60% Dto.

El precio original era: $525.00.El precio actual es: $56.70.