Bienvenue sur notre site Data Engineering

Informations

  • Binome Projet : Justine Guirauden et Volcy Desmazures
  • Ecole : ESIEE Paris (2025-2026)
  • Cours : Data Engineering 1 (DE1)

Ce site documente nos laboratoires pratiques ainsi que notre projet final sur l’optimisation de pipelines Big Data.


Projet Final : Local Lakehouse & Optimization

Pour valider ce semestre, nous avons construit un Lakehouse local capable de traiter des données réelles et complexes tout en respectant des objectifs de performance stricts (SLOs).

Le Sujet : Analyse Nutritionnelle (Open Food Facts)

Nous avons analysé l’évolution de la qualité nutritionnelle des produits alimentaires mondiaux (Sucre, Gras, Nutriscore).

  • Données : ~1.1 GB de CSV brut (Raw), très dénormalisé (>150 colonnes).
  • Stack : PySpark (Spark 3.x), Parquet, Local Single Node.

Résultats Clés

Nous avons comparé un pipeline “naïf” (Baseline) contre notre pipeline optimisé (Silver/Gold layers).

MetriqueResultat obtenuImpact Technique
Stockage-99.9% (1.1GB 0.34MB)Compression Snappy + Nettoyage drastique
Vitesse (Q3)x3.4 plus rapidePredicate Pushdown & Data Skipping
Latence228 msLecture optimisée via tri (sortWithinPartitions)

Accès au rapport

Ce projet démontre comment une conception physique rigoureuse (Tri, Partitionnement, Projection) peut transformer un jeu de données inutilisable en Datamart performant.

Lire le Rapport Complet du Projet

Voir le Notebook Jupyter (Code Source)


Laboratoires (Labs)

Voici l’ensemble des travaux pratiques réalisés, couvrant les fondamentaux du Data Engineering, de la conteneurisation aux pipelines de données.

  • Lab 1 : Environnement & Docker

  • Lab 2 : SQL & Modélisation de données

  • Lab 3 : Pipelines de Données


À propos de ce site

Ce portfolio est construit selon l’approche “Docs as Code” :

  • Generated with Quartz.
  • Hosted on Cloudflare Pages.
  • Secured by Cloudflare Zero Trust (Access Policies).