Este repositorio contiene un ejercicio de limpieza y preprocesamiento de datos utilizando el famoso dataset del Titanic de Kaggle. El objetivo es preparar los datos para un posterior análisis o modelado estadístico.
Cleaning_TITANIC_2024.ipynb: Jupyter Notebook con todo el proceso de limpieza de datos.Titanic/: Carpeta que contiene los datasets originales (train.csv,test.csvygender_submission.csv).
En el notebook se realizan las siguientes tareas:
- Estadística Descriptiva: Exploración inicial de los datos.
- Eliminación de Columnas: Remoción de variables que no aportan valor al modelo inicial (como el nombre).
- Imputación de Valores Faltantes: Uso de
SimpleImputerpara variables categóricas. - Tratamiento de Variables Numéricas: Imputación de la media para la columna 'Age' y conversión a tipo entero.
- Codificación de Variables Categóricas: Aplicación de One-Hot Encoding a las variables 'Sex' y 'Embarked'.
- Exportación de Datos: Generación de archivos CSV con los datos ya limpios.
Para ejecutar el código localmente:
- Clona este repositorio.
- Asegúrate de tener instaladas las librerías necesarias (
pandas,numpy,scikit-learn). - Nota Importante: En el notebook, deberás actualizar las rutas de carga y guardado de los archivos CSV para que coincidan con tu entorno local o de Google Colab.
- Python
- Pandas
- Numpy
- Scikit-learn (SimpleImputer, OneHotEncoder)
- Jupyter Notebook / Google Colab