Este projeto aplica técnicas de agrupamento (K-Means e Agglomerative Clustering) em um conjunto de dados de clientes atacadistas, utilizando a biblioteca Python e ferramentas como Pandas, Scikit-learn, Seaborn e Matplotlib. O objetivo é identificar grupos de clientes com características semelhantes para uma análise mais aprofundada.
O projeto realiza a análise de clusters de dados relacionados ao consumo de produtos por clientes. Ele abrange todo o fluxo de trabalho de agrupamento, incluindo:
- Carregamento e preparação de dados
- Normalização e padronização dos dados
- Identificação do número ideal de clusters usando o método do cotovelo
- Aplicação de algoritmos de clustering
- Visualização dos clusters em 2D
- Análise dos clusters
O conjunto de dados utilizado contém informações sobre o consumo de seis categorias de produtos:
- Fresh
- Milk
- Grocery
- Frozen
- Detergents_Paper
- Delicassen
Os dados foram padronizados utilizando o StandardScaler para garantir que todas as variáveis tenham a mesma escala antes da aplicação dos algoritmos.
O algoritmo K-Means agrupa os dados em clusters, minimizando a soma dos quadrados das distâncias entre os pontos de dados e seus respectivos centros.
- O número ideal de clusters foi determinado usando o método do cotovelo.
O agrupamento hierárquico cria uma estrutura de clusters baseada em similaridades, usando a métrica euclidiana e o método de ligação Ward.
A técnica de Análise de Componentes Principais (PCA) foi usada para reduzir os dados para 2 dimensões, facilitando a visualização gráfica dos clusters.
-
Gráfico do Cotovelo
Utilizado para identificar o número ideal de clusters no K-Means. -
Clusters em 2D
Representação dos clusters gerados por ambos os algoritmos após redução de dimensionalidade. -
Médias das características por cluster
Gráficos de barras que mostram as médias das variáveis para cada cluster, auxiliando na interpretação e diferenciação dos grupos.