Skip to content

rsquaredata/atelier_dataiku

Repository files navigation

Atelier Dataiku – Master 2 SISE

Présentation générale

Ce dépôt constitue le support officiel de l'atelier Dataiku, élaboré dans le cadre du Master 2 Statistique et Informatique pour la Science des donnéEs (SISE) de l'Université Lumière Lyon 2.

L'objectif de cet atelier est d'offrir une mise en pratique concrète de la plateforme Dataiku à travers des études de cas inspirés du secteur financier. Il articule des dimensions techniques (préparation, modélisation, automatisation, API) et méthodologiques (explicabilité, gouvernance, MLOps, IA générative).


Objectifs pédagogiques

  • Comprendre les principes fondamentaux de la plateforme Dataiku et son positionnement dans l'écosystème data.
  • Mettre en œuvre un processus ETL complet : ingestion, préparation, enrichissement et visualisation de données.
  • Expérimenter la modélisation supervisée (scoring de crédit, détection de fraude) via l'interface AutoML et les recettes visuelles.
  • Appliquer les concepts de classification déséquilibrée, d'évaluation de modèles et d'interprétabilité.
  • Initier les participants aux fondements du MLOps, de l'automatisation et des LLM Recipes dans Dataiku Cloud.
  • Développer une réflexion critique sur les apports et les limites de la data science industrialisée.

Prérequis techniques

  • Compte actif sur Dataiku Cloud (essai gratuit) (validité 14 jours).
  • Navigateur web à jour (Chrome, Firefox ou Safari).
  • Connaissances de base en programmation (Python, R, SQL).
  • Accès internet stable et capacité de téléchargement de fichiers CSV.

Organisation de l'atelier

L'atelier est structuré en quatre modules progressifs.

Module Contenu principal
Module 0 – Introduction à Dataiku Cloud Démonstration guidée (taux de change BCE), création de projet et exploration de l'interface.
Module 1 – Scoring clients Modélisation supervisée (classification binaire), exploration, préparation et interprétation.
Module 2 – Détection de fraude Traitement d'un jeu de données déséquilibré, XGBoost, métriques avancées et tableau de bord.
Module 3 – Automatisation, Agents et LLM Introduction au MLOps, automatisation de pipelines, agents de surveillance et explicabilité par LLM.
Module 4 - API Déploiement d'une API de prédiction.

Jeux de données

Fichier Description Hébergement
fx_rates_sample.csv Échantillon réel de taux de change publiés par la Banque centrale européenne (20/10/2025). GitHub
credit_scoring.csv Données anonymisées de scoring client. Google Drive
creditcard.csv Données de transactions pour la détection de fraude. Google Drive

Les fichiers credit_scoring.csv et creditcard.csv proviennent de jeux publics sous licence CC BY-NC-SA, et sont réservés à un usage pédagogique.
Le fichier fx_rates_sample.csv est issu d'un export authentique de la Banque centrale européenne, reproduit ici à des fins démonstratives.


Liens utiles


Équipe

  • Constantin Rey-Coquais
  • Cyrille Pecnik
  • Rina Razafimahefa
  • Yassine Cheniour

Remarques

Certaines fonctionnalités avancées de Dataiku (plugins externes, versioning collaboratif, scénarios complexes, gouvernance multi-projets) ne sont pas couvertes dans cet atelier.
Elles sont néanmoins introduites conceptuellement dans le Module 3 – Automatisation, Agents et LLM en guise d'introduction aux pratiques du MLOps moderne et à l'intégration de l'IA générative dans les chaînes analytiques.


Usage strictement académique et non commercial. Cet atelier a été élaboré dans le cadre de l’UE Ateliers techniques du Master 2 SISE - Université Lumière Lyon 2 (promotion 2025-2026).

About

Workshop Dataiku DSS : pipeline de données, préparation, visualisation, modélisation ML, scoring, fraude, déploiement d’une API REST et bonnes pratiques MLOps.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors