Ce dépôt constitue le support officiel de l'atelier Dataiku, élaboré dans le cadre du Master 2 Statistique et Informatique pour la Science des donnéEs (SISE) de l'Université Lumière Lyon 2.
L'objectif de cet atelier est d'offrir une mise en pratique concrète de la plateforme Dataiku à travers des études de cas inspirés du secteur financier. Il articule des dimensions techniques (préparation, modélisation, automatisation, API) et méthodologiques (explicabilité, gouvernance, MLOps, IA générative).
- Comprendre les principes fondamentaux de la plateforme Dataiku et son positionnement dans l'écosystème data.
- Mettre en œuvre un processus ETL complet : ingestion, préparation, enrichissement et visualisation de données.
- Expérimenter la modélisation supervisée (scoring de crédit, détection de fraude) via l'interface AutoML et les recettes visuelles.
- Appliquer les concepts de classification déséquilibrée, d'évaluation de modèles et d'interprétabilité.
- Initier les participants aux fondements du MLOps, de l'automatisation et des LLM Recipes dans Dataiku Cloud.
- Développer une réflexion critique sur les apports et les limites de la data science industrialisée.
- Compte actif sur Dataiku Cloud (essai gratuit) (validité 14 jours).
- Navigateur web à jour (Chrome, Firefox ou Safari).
- Connaissances de base en programmation (Python, R, SQL).
- Accès internet stable et capacité de téléchargement de fichiers CSV.
L'atelier est structuré en quatre modules progressifs.
| Module | Contenu principal |
|---|---|
| Module 0 – Introduction à Dataiku Cloud | Démonstration guidée (taux de change BCE), création de projet et exploration de l'interface. |
| Module 1 – Scoring clients | Modélisation supervisée (classification binaire), exploration, préparation et interprétation. |
| Module 2 – Détection de fraude | Traitement d'un jeu de données déséquilibré, XGBoost, métriques avancées et tableau de bord. |
| Module 3 – Automatisation, Agents et LLM | Introduction au MLOps, automatisation de pipelines, agents de surveillance et explicabilité par LLM. |
| Module 4 - API | Déploiement d'une API de prédiction. |
| Fichier | Description | Hébergement |
|---|---|---|
fx_rates_sample.csv |
Échantillon réel de taux de change publiés par la Banque centrale européenne (20/10/2025). | GitHub |
credit_scoring.csv |
Données anonymisées de scoring client. | Google Drive |
creditcard.csv |
Données de transactions pour la détection de fraude. | Google Drive |
Les fichiers credit_scoring.csv et creditcard.csv proviennent de jeux publics sous licence CC BY-NC-SA, et sont réservés à un usage pédagogique.
Le fichier fx_rates_sample.csv est issu d'un export authentique de la Banque centrale européenne, reproduit ici à des fins démonstratives.
- Site officiel Dataiku
- Dataiku Academy
- Documentation Dataiku
- Slides de présentation de l'atelier
- Jeu de données démo BCE (fx_rates_sample)
- Jeu de données Scoring - Google Drive
- Jeu de données Fraude - Google Drive
- Corrigé
- Constantin Rey-Coquais
- Cyrille Pecnik
- Rina Razafimahefa
- Yassine Cheniour
Certaines fonctionnalités avancées de Dataiku (plugins externes, versioning collaboratif, scénarios complexes, gouvernance multi-projets) ne sont pas couvertes dans cet atelier.
Elles sont néanmoins introduites conceptuellement dans le Module 3 – Automatisation, Agents et LLM en guise d'introduction aux pratiques du MLOps moderne et à l'intégration de l'IA générative dans les chaînes analytiques.
Usage strictement académique et non commercial. Cet atelier a été élaboré dans le cadre de l’UE Ateliers techniques du Master 2 SISE - Université Lumière Lyon 2 (promotion 2025-2026).