Проект реализован в рамках курса Дата Аналитик на платформе karpov.courses.
Продакт-менеджер поставил задачу: проанализировать покупки на e-commerce платформе и ответить на бизнес-вопросы — от базовой статистики до когортного анализа и RFM-сегментации аудитории.
| Файл | Описание |
|---|---|
olist_customers_datase.csv |
Пользователи: customer_id, customer_unique_id, город, штат, индекс |
olist_orders_dataset.csv |
Заказы: статус, дата создания, подтверждения, доставки, обещанная дата |
olist_order_items_dataset.csv |
Товарные позиции: product_id, seller_id, цена, дата отгрузки |
1. Разовые покупатели
Определение доли пользователей, совершивших ровно одну покупку. Группировка по customer_unique_id.
2. Недоставленные заказы
Анализ заказов, не дошедших до покупателя, с разбивкой по причинам и месяцам. Фильтрация по order_status.
3. Популярные дни покупок по товарам
Для каждого товара — день недели с максимальным числом заказов. Извлечение dayofweek из order_purchase_timestamp.
4. Среднее число покупок в неделю на пользователя Учёт дробного числа недель внутри каждого месяца (например, ноябрь 2021 = 4.28 недели).
5. Когортный анализ (Retention)
Когорты по месяцу первой покупки (январь–декабрь). Выявление когорты с наибольшим retention на 3-й месяц. Реализовано через pivot_table в Pandas.
6. RFM-сегментация Кластеризация пользователей по трём метрикам:
- R (Recency) - дней с последней покупки
- F (Frequency) — число покупок за всё время
- M (Monetary) — суммарные траты
Границы кластеров подобраны вручную и описаны для интерпретации каждого сегмента. Пример: сегмент RFM-132 — покупал недавно, редко, на среднюю сумму.
Python · Pandas · Jupyter Notebook
e_commerce_project/
├── e_commerce.ipynb # основной ноутбук с решением
└── README.md
└── olist_customers_dataset.csv
└── olist_order_items_dataset.csv
└── olist_orders_dataset.csv