Este projeto tem como objetivo analisar o panorama atual do mercado de trabalho brasileiro na área de Dados. Utilizando os dados da pesquisa State of Data Brazil 2024/2025, o foco principal é extrair insights valiosos que auxiliem profissionais na busca por evolução e reposicionamento profissional.
O estudo explora a base de dados para responder às seguintes questões de negócio:
- Quais são os fatores relacionados à remuneração dos profissionais que estão atuando como funcionários CLT?
- Quais decisões os profissionais de dados podem tomar durante a carreira para aumentar a probabilidade de obter remunerações maiores?
As seguintes bibliotecas estão sendo aplicadas para a extração, limpeza e análise estatística dos dados:
- Linguagem: Python
- Ambiente: Jupyter Notebook
- Manipulação de Dados: Pandas, NumPy
- Visualização de Dados: Matplotlib, Seaborn
O desenvolvimento do projeto está dividido nas seguintes etapas:
- 01. Limpeza e Tratamento de Dados: Leitura da base original, tratamento de dados, separação de variáveis descritivas e exportação do arquivo limpo em formato
.parquet. - [⚙️] 02. Análise Estatística e Exploratória: (Etapa atual) Aplicação de estatística descritiva, criação de visualizações e análise do impacto das variáveis na
faixa_salarialalvo. - 03. Conclusões e Storytelling: Compilação dos achados finais e recomendações focadas no desenvolvimento da carreira em dados.
Os dados brutos e a estrutura do questionário foram disponibilizados pelo Data Hackers através da plataforma Kaggle:
Projeto desenvolvido por Gabriel Duarte de Jesus como parte da construção de portfólio em Análise de Dados.
├── .env <- Arquivo de variáveis de ambiente (não versionar)
├── .gitignore <- Arquivos e diretórios a serem ignorados pelo Git
├── ambiente.yml <- O arquivo de requisitos para reproduzir o ambiente de análise
├── LICENSE <- Licença de código aberto se uma for escolhida
├── README.md <- README principal para desenvolvedores que usam este projeto.
|
├── dados <- Arquivos de dados para o projeto.
|
├── modelos <- Modelos treinados e serializados, previsões de modelos ou resumos de modelos
|
├── notebooks <- Cadernos Jupyter. A convenção de nomenclatura é um número (para ordenação),
│ as iniciais do criador e uma descrição curta separada por `-`, por exemplo
│ `01-fb-exploracao-inicial-de-dados`.
│
| └──src <- Código-fonte para uso neste projeto.
| │
| ├── __init__.py <- Torna um módulo Python
| ├── config.py <- Configurações básicas do projeto
| └── graficos.py <- Scripts para criar visualizações exploratórias e orientadas a resultados
|
├── referencias <- Dicionários de dados, manuais e todos os outros materiais explicativos.
|
├── relatorios <- Análises geradas em HTML, PDF, LaTeX, etc.
│ └── imagens <- Gráficos e figuras gerados para serem usados em relatórios