O datacaged é um pacote R que automatiza todo o fluxo de trabalho
com os microdados do CAGED (Cadastro Geral de Empregados e
Desempregados), desde o download até o armazenamento estruturado em
banco analítico local (DuckDB), permitindo consultas rápidas e
escaláveis com dplyr ou SQL.
-
📥 Download automatizado dos microdados diretamente do FTP do MTE
-
📦 Leitura e normalização de arquivos
.7z(CAGED antigo e Novo CAGED) -
🗄️ Armazenamento eficiente em banco DuckDB
-
🔄 Pipeline completo em uma única função
-
📊 Integração com
dplyrpara análise de dados -
🧩 Suporte a múltiplas bases:
- Novo CAGED (2020+)
- CAGED antigo (1992–2019)
- CAGED Ajustes (correções históricas)
# install.packages("pak")
pak::pkg_install("gecomt/datacaged")# install.packages("remotes")
remotes::install_github("gecomt/datacaged")library(datacaged)
# Pipeline completo
caged_load(
years = 2022:2023,
months = seq_len(12L),
db_path = "caged.duckdb"
)
# Ajustes
caged_adjustments_load(
years = 2018:2019,
db_path = "caged.duckdb"
)
# Baixar os layouts oficiais do CAGED
caged_download_layouts(type = "ambos")
# Conexão
con <- caged_connect("caged.duckdb")
# Análise
library(dplyr)
dplyr::tbl(con, "caged_mov") |>
filter(uf == 35, competenciamov >= 202201L) |>
group_by(competencia) |>
summarise(saldo = sum(saldomovimentacao, na.rm = TRUE)) |>
collect()Download → Extração → Parsing → Normalização → DuckDB → Análise
| Função | Descrição |
|---|---|
caged_load() |
Pipeline completo |
caged_adjustments_load() |
Pipeline de ajustes |
caged_download() |
Download dos arquivos |
caged_download_layouts() |
Download dos layouts oficiais |
caged_parse() |
Leitura de arquivos |
caged_parse_batch() |
Processamento em lote |
caged_to_duckdb() |
Persistência no banco |
caged_connect() |
Conexão |
caged_info() |
Metadados |
caged_status() |
Status do FTP |
caged_ftp_files() |
Lista arquivos |
O pacote também baixa os arquivos de layout oficiais do CAGED e Novo CAGED, úteis para conferência de estrutura, dicionários de variáveis e validação de colunas.
caged_download_layouts()
caged_download_layouts(type = "antigo")
caged_download_layouts(type = "novo")
caged_download_layouts(type = "ajustes")A função salva os arquivos em cache local por padrão e retorna um tibble com o status de cada download.
| Tabela | Conteúdo | Período |
|---|---|---|
caged_mov |
Movimentações | 2020+ |
caged_for |
Informações complementares | 2020+ |
caged_exc |
Exclusões | 2020+ |
caged_antigo |
Histórico | 1992–2019 |
caged_ajustes |
Ajustes | 1992–2019 |
- Análise do mercado de trabalho
- Indicadores econômicos
- Pesquisa acadêmica
- Monitoramento de emprego formal
- Modelagem econométrica
duckdbdplyrarchivereadrcli
- R ≥ 4.1.0
- 7-Zip (opcional, para arquivos PPMd do CAGED antigo)
MIT © Alexsandro Prado
Pull requests são bem-vindos. Para mudanças maiores, abra uma issue primeiro.
Autor: Alexsandro Prado Email: alexsandro.prado@ufersa.edu.br GitHub: https://github.com/gecomt/datacaged
