El próximo día 16 de Enero de 2023 arranca el bootcamp Data Engineering gratuito organizado por Data Talks Club. Organizado a lo largo de 10 semanas, se trata de hacer un proyecto end-to-end de data desde la ingesta (streaming con Kafka y batch con Spark) mediante scripting python, orquestación (el anterior fue Airflow y en esta edición apuestan por Prefect) hasta la generación de un dataset listo para reporting. Todo ello contenerizado con Docker, desplegando infra con Terraform y utilizando la Google Cloud Platform (GCP). Tanto si acabas de llegar nuevo al mundo del dato como si gozas de cierta experiencia, me parece un bootcamp imprescindible para afianzar conocimientos y perder el miedo ciertas chuches o tecnologías (como es mi caso, hello Kafka & GCP!).
En la repo de Github está todo el contenido del bootcamp 2023, y además toda la información de contenido y registro a la nueva edición (desde aquí). Os recomiendo que echéis un ojo a toda la documentación, especialmente a las notas/apuntes que han publicado personas que ya lo han realizado. Por aquí os dejo también las FAQ, muy interesantes.
Cada semana intentaré publicar un post con los stoppers que me he podido ir encontrando mientras practico con todo el ecosistema de tecnologías (muchas de ellas la primera vez que voy a tener la oportunidad y tiempo de trabajarlas).
Introducción Data Engineering
Semana 1
- Cargar dataset con Python y Pandas
- Docker + Docker-compose para contenerización.
- PostgreSQL como base de datos relacional.
- Terraform para desplegar la infraestructura en la nube GCP (Google Cloud Platform).
Orquestación de flujos de trabajo
Semana 2
- Prefect como orquestador de data pipelines basado en Python.
- Prefect CLI y Prefect Cloud.
Almacenamiento Data Warehouse
Semana 3
- Ecosistema Google Cloud Platform (GCP) con GCS Bucket de almacenamiento raw y Google BigQuery como Data Warehouse.
- Arquitectura y capacidades de Machine learning de BigQuery.
- Buenas prácticas y optimización de Data Warehouse (particionamiento, clústers y campos anidadas).
Modelización de bases de datos
Semana 4
- Data Modelling con dbt (Data Build Tool)
- Gobierno de datos, control de versiones, testing e implentación de CI/CD en proyectos de datos con dbt.
- Visualización de datos en reports diseñados en Google Data Studio
Procesamiento por lotes
Semana 5
- Batch processing con Apache Spark
- Arquitectura y componentes principales de Apache Spark
- DataFrames y RDDs con Spark SQL y PySpark
- Spark Standalone mode y Dataproc en Google Cloud Platform
Procesamiento en tiempo real
Semana 6
- Streaming processing con Apache Kafka
- Arquitectura y componentes principales de Apache Kafka
- Trabajo con Kafka Streams
- Streams de Kafka con Pyspark structured streaming
