Skip to content

cimadure/ind6212

Repository files navigation

Polytechnique Montréal - IND6212 - H23

Data Mining School Project

dataset located at https://huggingface.co/datasets/cimadure/snow_removal_transactions_in_montreal move those data in data folder.

Problématique

Français:

  • Par Quartiers similaires, quelle est la meilleure stratégie à adopter?
    (si on à du temps, descendre au niveau des secteurs [nettroyage des faux contrats])
  • nombre de trajets, unités utilisées / volume, temps, temps déneigement par fenetre temporelle de neige tombée

Anglais:

  • Per similar neigorhood, what would be the best snow removal strategy?
    (if we have time, go to sector hierarchy )

TO-DO

When possible consider the area to normalize data

  1. table: row:year, columns: #transactions, #transactions/TypeTransaction| #unique secteur, | #depots, #depots/strategy,| #contrats
    {columns level 0: source (transaction|secteur|contract|...)}
  2. table: probably a truncate table of ABBREVIATION and Arrondissement name
  3. graph: database schema (links between data files)
  4. graph: x:week; y1:total volume/area ;y2:total snowfall(cm) {from weather}; hue:strategy {y2 can be made later on}
  5. table: row:year, column: strategy, value: total volume ?! or graph (horizontal stacked bars, with volume value inside the bar)
  6. graph: Scatter plot; xy:clustering space; size=volume/area; label=arrondissement; hue:cluster; marker=strategy with best total volume {will help us choose the best data manifold}
  7. map: arrondissement; color: number of sectors; mark: depot location; annotation=arrondissement {color: heatmap gradiant}
  8. map: arrondissement; color: best strategy over years; annotation=arrondissement
  9. figure: data transformation pipeline

Back-Up Ideas

Français:

  1. Dépendament du débit de chute de neige, quelle est la meilleur stratégie par quartier?
  2. Quels sont les caractéristiques des meilleurs contracteurs selection par strategie et par secteur ?
  3. Les secteurs qui se ressemblent ?
  4. Qu’est ce qui influence le volume?
  5. Les quartiers qui se ressemblent ?
  6. Nombre de strategies de déneigement ?

Anglais:

  1. Depend on the snow 'debit' , what best strategy per neighborhoods ?
  2. What are the attributes of the best contractors per strategy per sector?
  3. Which sectors are similar?
  4. What influences volume?
  5. Neighborhoods that look alike?
  6. Number of snow removal strategies?

Data


Setup

In the Terminal, having installed Anaconda, execute the following lines.
Create the environment:

conda env create --file environment.yml

Use the environment:

conda activate ind6212

Launch the notebook to start working:

jupyter notebook

Knowledge


Evaluation

Par équipe de 3, vous devez vous procurer une base de données industrielle et appliquer judicieusement les méthodes de fouille de données vues en classe.
Pour chaque fouille, vous devrez préciser :

  • le but recherché
  • les transformations éventuellement nécessaires à la mise en œuvre de la méthode
  • le réglage de différents paramètres
  • l’analyse critique des résultats

Le rapport doit faire:

  • 6 pages
  • en français
  • Times new Roman, 12pt
  • interlignes simples
  • simple colonne
  • marges de 2cm tout autour
  • Dépôt en pdf

2 points en moins par jour de retard entamé.
4 points en moins par page supplémentaire entamée.
Remarque : ne rien trouver dans la base de données avec une méthode particulière est un résultat ! Il faut l’expliquer. Parfois le résultat peut être qu’il n’y a pas de relations de tel type entre tel et tel paramètres.

La base de données ET votre analyse devront être déposées avant le 27 avril à 16h.

Grille

  • Nombre de pages
  • respecté format (police, langue, propreté)
  • Problématique
  • description des données (taille, format)
  • source des données
  • préparation des données
  • Choix des outils vs problématique
  • Formatage des données vs outil
  • Choix et justification des paramêtres outil
  • Analyse des résultats
  • Critique des résultats vs outils / paramètres
  • Critique des résultats vs problématique
  • Conclusion

About

Data Mining School Project

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages