El avance tecnológico ha promovido el crecimiento exponencial de los datos almacenados por las empresas, que es lo que hoy se denomina Big Data, que a su vez ha motivado el surgimiento de nuevas técnicas y herramientas de recolección, organización y almacenamiento para tales volúmenes de información. Ahora, el reto está en proveer soluciones que transporten y democraticen la data en toda la organización, y constituyan un soporte confiable.
CAPACITACIONES
DIPLOMA DATA ENGINEER
El precio original era: $2,403.00.$1,682.10El precio actual es: $1,682.10.
Pre-requisitos:
Profesor: Oscar Barrientos
Tech Leader en Interbank, previamente ha tenido experiencia en WeIT, Gora y BCTS Consulting. Especialista en Transformación Digital y Big Data por la Universidad Nacional de Ingeniería (UNI) e Ingeniero de Sistemas por la Universidad de Lima.
Profesor: Angel Tintaya
Senior Data Engineer en number8 previamente ha tenido experiencia en BCP.
Profesor: Juan Salinas
Senior Data Engineer en Encora, previamente ha tenido experiencia en Belcorp, Derco, Grupo El Comercio y Tekton Labs. MBA e Ingeniero Industrial por la Universidad Autónoma del Perú.
Profesor: Victor Gutierrez
—-
Profesor: Jenifer Garate
Profesor: Tony Trujillo
Data Architect & Metadata Worker en previamente ha tenido experiencia en Smart Data Consulting, Bluetab,
Profesor: Grace Oyarce
Consultor en Talento Humano en GO!
Profesor: Miguel Garcia
Especialista en TI en E2E
19:30 - 22:30
20:30 - 23:30
20:30 - 23:30
21:30 - 00:30
Características
Clases en Vivo
Plataforma E-Learning
Asesoría Académica
Aprende Haciendo
Certificación
Soporte Técnico
Lo que vas a obtener con este curso
Objetivos General:
Aprende a diseñar e implementar soluciones ETL desde diversas fuentes hacia repositorios como Data-Warehouses, Data-Lakes, entre otros; empleando lenguajes de programación como Python y Transact-SQL, contemplando en el proceso y las herramientas para datos masivos, y complementos como Web Scraping, Real-Time Data, DataOps, entre otros.
Objetivos Específicos:
- Fundamentals of Data Engineering: Aprende a utilizar Python y Transact-SQL para para el diseño de soluciones ETL.
- Big Data Specialization: Aprende sobre los fundamentos de Big Data, su arquitectura, herramientas y los lenguajes disponibles para manipulación de datos para entornos Onpremise como cloud para soluciones de ingeniería de datos.
- Tools for Data Engineer: Aprende a emplear herramientas y frameworks como Web Scraping para la automatización de extracción de datos, Data Visualization para comprender los ETL desde la vista del usuario final; así como DataOps, Data Integration y Orchestration para la automatización de los flujos de trabajo.
Malla Curricular:
Taller de marca personal y empleabilidad
Python for Data Engineering.
Fundamentos de ETL con Python
- ETL. Definición y herramientas.
- Herramientas Python para ETL.
- Python y sus entornos de ejecución.
Introducción a Python
- Manejo de excepciones e instrucciones.
- Tipos de datos en Python.
- Creación de Programas en Python.
- Interactuando con el OS.
- API. Definición y librerías para extraer datos.
- Taller: Consulta de datos desde un API.
Object Relational Mapper
- ORM. Definición, ventajas de su uso.
- Tipos de ORM en Python.
- SQLAlchemy. Definición y características.
- Taller: Creación de un Engine con SQLAlchemy.
- Taller: Conexión a base de datos con SQLAlchemy.
Pandas. Series y Dataframes
- Pandas. Definición, carga en Python.
- Pandas Series. Características y uso de vectores.
- Operaciones con Series. Búsquedas, Slicing, operaciones aritméticas, tipos de datos.
- Pandas DataFrames. Características y uso de DataFrames. Diferencias respecto a Series.
- Operación con DataFrames. Creación, descripción, visualización.
- Operaciones de agrupación. Agrupaciones directas y por Agregación simple y múltiple (varios campos).
- Guardar DataFrames en archivos planos (Json y CSV) y base de datos (MySQL).
- Taller: Carga de datos de un API, procesamiento, y descarga en una base de datos.
- Taller: Carga de datos desde un archivo plano, procesamiento y descarga en una base de datos.
SQL for Data Engineering.
El Lenguaje Transact-SQL
- SQL y T-SQL. Definición, diferencias.
- Lenguaje de definición de datos (DDL). Definición, alcance y comandos asociados (create, alter, drop).
- Lenguaje de manipulación de datos (DML). Definición, alcance y estructura del comando SELECT…FROM…
- Consultas básicas, uso de SELECT…FROM…
- Consultas condicionales, uso de WHERE y operadores lógicos.
- Consultas de agregación, uso de GROUP BY, COUNT, MAX, MIN, SUM, AVG,
- Pivoteo de tablas, uso de PIVOT.
- Consultas multi-tabla. Uso del comando JOIN y variantes (LEFT, RIGHT, FULL)
- Operadores de conjunto, uso de UNION, INTERSECT,EXCEPT.
- Taller: Extracción de datos desde una base de datos local con comandos T-SQL.
Transact-SQL Avanzado
- Transformación y operación de columnas, uso de operadores aritméticos, funciones de fechas, funciones de textos, uso de IIF, ISNULL, NULLIF.
- Filtrado avanzado, uso de IN, ANY AND SOME, ALL, EXISTS.
- Conversión de tipos de datos, uso de CAST, CONVERT,FORMAT, PARSE.
- Encapsulamiento de consultas en Procedimientos almacenados. Uso de estructuras condicionales y bucles.
- Carga de datos externos, uso de Linked Servers, OpenQuery y OpenRowSet.
- Taller: Transformación de datos externos con comandos T-SQL.
Tópicos Avanzados sobre Tablas
- Tablas derivadas y tablas temporales como alternativas para pre-procesamiento de datos.
- Instrucciones tipo Query jerárquica y correlaciónales.
- Manejo de expresiones de tablas (CROSS APPLY, OUTER APPLY).
- Uso de cursores para copia y transferencia de datos.
- Automatización de scripts con Jobs (schedule).
- Taller: Diseño de un script ETL con lenguaje T-SQL (De BD a BD)
Workshop Bases de datos No-SQL.
Fundamentos de No-SQL
- Bases de datos NoSQL. Definición y tipos.
- MongoDB. Definición, métodos y tipos de datos que soporta.
- Terminología y Conceptos (comparativo SQL y MongoDB).
Operaciones con MongoDB
- Operaciones CRUD en MongoDB.
- Creación de documentos, uso de INSERTONE() e INSERTMANY().
- Uso de diversas fuentes de datos: documentos definidos previamente, array de documentos, archivos JSON.
- Lectura de documentos, uso FIND().
- Actualización de documentos, uso de UPDATEONE(), UPDATEMANY(), REPLACEONE().
- Eliminación de documentos, uso de DELETEONE(), DELETEMANY(), REMOVE().
- Consulta de documentos.
- Consultas simples, uso de FIND(), FINDONE().
- Consultas avanzadas, comparación, Cadenas, Existencia.
- Consultas con operaciones lógicas, uso de Y ($AND), O ($OR), Negación ($NOT), Dos expresiones ($NOR).
- Consulta de arrays, uso de DOT NOTATION
- Consultas en subdocumentos.
- Uso de Cursores.
Big Data Processing.
Introducción a Big Data
- Big Data. Definición, filosofía, las Vs.
- Big Data como marco de trabajo.
- Arquitectura conceptual.
- Componentes tecnológicos disponibles.
- Arquitectura moderna de datos.
Almacenamiento distribuido con Apache Hadoop
- Tecnologías Open-source para Big Data.
- Fundamentos de Apache Hadoop.
- Almacenamiento distribuido en HDFS.
- Taller: Procesamiento de datos con Apache Hive.
- Diferencias de Map Reduce vs Tez vs Apache Spark.
- Datalake. Definición y arquitectura (capas).
- Taller: Poblamiento de un Datalake con Apache Tez, Apache Hive y HDFS.
Procesamiento distribuido con Apache Spark
- Introducción a Spark.
- Funciones con PySpark.
- Extracción y Transformación de datos.
- Dataframes y RDDs.
- Funciones de Apache Spark.
- Tunning en Apache Spark.
Ingeniería de datos con Databricks
- ¿Qué es Databricks?
- Databricks Community vs Azure Databricks.
- Conociendo la interfaz de Databricks.
- Data lakehouse vs Datalake.
- Iceberg vs Delta lake vs Apache Hudi.
- Taller: Creación de una Lakehouse con arquitectura Medallion con Delta Lake.
Real-time Fundamentals
- Real-time en datos. Definición, casos de aplicación, diferencias respecto a Batch.
- Arquitectura Publicador – Suscriptor.
- Tecnología para carga Real-Time en Big Data.
- Taller: Uso y configuración de Apache Kafka para carga de datos Real-Time.
- Apache Spark & Kafka setup enviroments.
- Taller: Integración de Apache Spark con Apache Kafka para procesamiento de datos Real-time.
Cloud Data Engineering DE
Fundamentos de Cloud Computing
- ¿Qué es computación en la nube?
- Conceptos de virtualización, Uso bajo demanda, despligue escalable.
- Ventajas del cloud computing.
- Regiones y zonas de disponibilidad.
- Tipos de nubes.
- IAAS, PAAS y SAAS.
Introducción a la Ingeniería de datos con AWS
- Introducción a la Consola de AWS.
- Principales servicios de data en AWS. S3, EMR, Cloud Funtions, IAM, Redshift, Athena, entre otros.
- Arquitectura de datos en AWS.
- Taller: Diseño e implementación de un ETL básico con AWS.
Introducción a la Ingeniería de datos con Azure
- Introducción a la Consola de Azure.
- Principales servicios de data en Azure. Blob Storage, Data factory, Databricks, Synapse, Event Hub, Azure SQL.
- Arquitectura de datos en AZURE.
- Taller: Diseño e implementación de un ETL básico con Azure.
Introducción a la Ingeniería de datos con GCP
- Introducción a la Consola de Azure.
- Servicios principales servicios de data en GCP. Cloud functions, Cloud Storage, Bigquery, Dataproc, data fusion, composer.
- Arquitectura de datos en GCP.
- Taller: Diseño e implementación de un ETL básico con GCP.
Data Visualization.
Data Visualización fundamentals
- Inteligencia de negocios y herramientas de visualización.
- Power BI for Big data. Conexión a fuente Cloud.
- Transformación de datos con Power Query.
- Taller: Conexión y transformación de fuente de datos con Power BI y Power Query.
Web Scraping con Python.
Web Scraping Fundamentals
- Web Scraping. Definición, debate legal-ético.
- Métodos de extracción de datos.
- Técnicas de web scraping. Estático, Requests, Dinámico.
- Taller: Scraping a un sitio web y almacenamiento de su contenido.
DataOps.
Fundamentos de DataOps
- DataOps. Definición y características.
- Devops vs DataOps.
- Conceptos asociados: Continuos-delivery y Continuos-integrations.
- Servicios de automatización de despliegue: Jenkins, Azure Devops, Github Actions, Gitlab CI).
- Fundamentos de Infraestructura como código. Definición y características de Terrraform.
Git and GitHub
- El control de versiones. Definición y características.
- Git. Definición, principales comandos.
- GitHub. Definición.
- Configuración de llaves SSH.
- Directorio de trabajo.
- Commit.
- Fusionar y el comando Merge.
- Ramas y el comando Branch.
- Taller: Creación de un repositorio en GitHub.
Jenkins
- Jenkins. Definición, características, configuración e instalación básica.
- Configuración de un Job.
- Plugin de Jenkins.
- Conexión a GitHub.
- Taller: Despliegue de código automatizado.
Data Integration & Orchestration.
Apache Airflow
- Apache Airflow. Definición.
- DAG (Direct-Acyclic-Graph). Definición y casos de uso.
- Uso de Scheduler.
- Task and Operator.
- Taller: Implementado un DAG.
- Bash Operator,Python Operator y Apache Spark Operators.
- Taller: Procesamiento de datos con Apache Airflow.
Proyecto integrador.
- Asesoría Proyecto Integrador
- Refuerzo de conocimientos
Malla Curricular
Preguntas Frecuentes
Primeros pasos en la plataforma
2 artículos
¿Necesito tener una cuenta para poder matricularme en una capacitación?
Lo ideal es crear una cuenta en nuestra web y luego realizar tu compra, pero no es mandatorio. Si desea puede pagar y matricularse en cualquiera de nuestras capacitaciones y después de la compra, automáticamente se le habrá creado un usuario.
Ya me matriculé, ¿cuáles son los siguientes pasos?
Una vez matriculado en una de nuestras capacitaciones, le llegará un correo de confirmación con los accesos. De tener algún inconveniente deberá escribir a: esmeralda.verde@dmc.pe para recibir orientación y pronta solución.
Capacitaciones - Cursos - Especializaciones
1 artículos
¿Todos los cursos son 100% en vivo y online?
Sí, a menos que hayas comprado alguna membresía de DMC Play; todos nuestras capacitaciones: cursos, bootcamps, especializaciones, diplomas y lo incluido en nuestras Membresías DataPro son completamente online y 100% en vivo.
Resolución de problemas
1 artículos
No puedo ingresar a la plataforma, rechaza mi contraseña y usuario
Para cualquier problema con el usuario y contraseña de la plataforma deberás contactarte al siguiente correo y solicitar la solución: noel.yzaguirre@dmc.pe
Inscripciones - pagos - membresías
2 artículos
Tengo dudas y necesito ayuda con mi Membresía DataPro
Para recibir ayuda sobre el uso, acceso y aprovechamiento de tu Membresía DataPro, podrás escribirle a nuestra asesora: claudia.trujillo@dmc.pe, y ella podrá ayudarte con tus dudas.
Ya me inscribí en una Membresía DataPro, ¿qué sigue?
Deberás armar tu horario de estudios para que puedas aprovechar al máximo la membresía. Los accesos llegarán a tu correo electrónico y podrás así completar tus inscripciones. Recuerda revisar a qué tienen acceso según tu membresía adquirida.
Obtenga una certificación reconocida por las empresas y la industria nacional y extranjera
Miles de estudiantes satisfechos han logrado sus metas gracias a nuestra metodología de estudio
Abre tu cuenta GRATIS y aprovecha todo el contenido que tenemos para ti y empieza ahora a darle un nuevo impulso a tu carrera profesional.
¿Tienes alguna consulta o inquietud? talvez deseas consultar a uno de nuestros asesores
Hablar con un asesorCONTINÚA TU CARRERA EN DATOS
EXCEL AVANZADO
02/10/2024
El precio original era: $81.00.$56.70El precio actual es: $56.70.
CYBERSECURITY SPECIALIST
ESPECIALISTAS CALIFICADOS
24/10/2024
$969.30
ESP. MARKETING ANALYTICS OMNICANAL
26/09/2024
$807.30
DIPLOMA ADVANCED DATA SCIENCE
ESPECIALISTAS CALIFICADOS
30/10/2024
El precio original era: $2,025.00.$1,417.50El precio actual es: $1,417.50.