Data Engineering Zoomcamp - Marcos Torregrosa

El próximo día 16 de Enero de 2023 arranca el bootcamp Data Engineering gratuito organizado por Data Talks Club. Organizado a lo largo de 10 semanas, se trata de hacer un proyecto end-to-end de data desde la ingesta (streaming con Kafka y batch con Spark) mediante scripting python, orquestación (el anterior fue Airflow y en esta edición apuestan por Prefect) hasta la generación de un dataset listo para reporting. Todo ello contenerizado con Docker, desplegando infra con Terraform y utilizando la Google Cloud Platform (GCP). Tanto si acabas de llegar nuevo al mundo del dato como si gozas de cierta experiencia, me parece un bootcamp imprescindible para afianzar conocimientos y perder el miedo ciertas chuches o tecnologías (como es mi caso, hello Kafka & GCP!).

En la repo de Github está todo el contenido del bootcamp 2023, y además toda la información de contenido y registro a la nueva edición (desde aquí). Os recomiendo que echéis un ojo a toda la documentación, especialmente a las notas/apuntes que han publicado personas que ya lo han realizado. Por aquí os dejo también las FAQ, muy interesantes.

Cada semana intentaré publicar un post con los stoppers que me he podido ir encontrando mientras practico con todo el ecosistema de tecnologías (muchas de ellas la primera vez que voy a tener la oportunidad y tiempo de trabajarlas).

Introducción Data Engineering

Semana 1

Cargar dataset con Python y Pandas
Docker + Docker-compose para contenerización.
PostgreSQL como base de datos relacional.
Terraform para desplegar la infraestructura en la nube GCP (Google Cloud Platform).

Ver notas

Orquestación de flujos de trabajo

Semana 2

Prefect como orquestador de data pipelines basado en Python.
Prefect CLI y Prefect Cloud.

Ver notas

Almacenamiento Data Warehouse

Semana 3

Ecosistema Google Cloud Platform (GCP) con GCS Bucket de almacenamiento raw y Google BigQuery como Data Warehouse.
Arquitectura y capacidades de Machine learning de BigQuery.
Buenas prácticas y optimización de Data Warehouse (particionamiento, clústers y campos anidadas).

Ver notas

Modelización de bases de datos

Semana 4

Data Modelling con dbt (Data Build Tool)
Gobierno de datos, control de versiones, testing e implentación de CI/CD en proyectos de datos con dbt.
Visualización de datos en reports diseñados en Google Data Studio

Ver notas

Procesamiento por lotes

Semana 5

Batch processing con Apache Spark
Arquitectura y componentes principales de Apache Spark
DataFrames y RDDs con Spark SQL y PySpark
Spark Standalone mode y Dataproc en Google Cloud Platform

Ver notas

Procesamiento en tiempo real

Semana 6

Streaming processing con Apache Kafka
Arquitectura y componentes principales de Apache Kafka
Trabajo con Kafka Streams
Streams de Kafka con Pyspark structured streaming

Ver notas

2 comentarios

casino slots

9 abril 2025 / 17:03 Responder

This website, you can find a wide selection of casino slots from famous studios.
Users can enjoy classic slots as well as new-generation slots with stunning graphics and exciting features.
Whether you’re a beginner or a casino enthusiast, there’s always a slot to match your mood.
play aviator
The games are available anytime and compatible with PCs and mobile devices alike.
All games run in your browser, so you can get started without hassle.
Site navigation is intuitive, making it quick to find your favorite slot.
Register now, and dive into the world of online slots!
casino games

16 abril 2025 / 15:23 Responder

Here, you can discover a great variety of casino slots from top providers.
Users can experience traditional machines as well as new-generation slots with stunning graphics and interactive gameplay.
Whether you’re a beginner or an experienced player, there’s something for everyone.
money casino
All slot machines are available anytime and designed for PCs and mobile devices alike.
All games run in your browser, so you can get started without hassle.
The interface is easy to use, making it simple to explore new games.
Join the fun, and discover the world of online slots!

Introducción Data Engineering

Orquestación de flujos de trabajo

Almacenamiento Data Warehouse

Modelización de bases de datos

Procesamiento por lotes

Procesamiento en tiempo real

Entradas relacionadas

Data Mesh: gestión de datos descentralizada

Data Engineering Zoomcamp – Semana 6

Data Engineering Zoomcamp – Semana 5

Data Engineering Zoomcamp – Semana 4

2 comentarios

Deja un comentarioCancelar respuesta