Skip to content
View Roman197619's full-sized avatar

Highlights

  • Pro

Block or report Roman197619

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Roman197619/README.md

👋 Привет! Я Роман

Я специализируюсь на построении масштабируемых ETL/ELT пайплайнов, проектировании хранилищ данных (DWH) и оптимизации высоконагруженных систем обработки данных.

🛠 Технологический стек

  • Languages: Python (Asyncio, Multiprocessing), SQL (Advanced)
  • Data Processing: Apache Spark (Optimization, Skew handling), Pandas, NumPy.
  • Orchestration: Apache Airflow (Dynamic DAGs, Datasets, Custom Operators).
  • Databases & Storage: PostgreSQL, MongoDB, ClickHouse, Snowflake, Delta Lake.
  • Data Modeling: Data Vault 2.0, Star/Snowflake Schema, Medallion Architecture.
  • Tools: dbt (Core/Cloud), Docker & Compose, Kafka (Schema Registry, Idempotency).
  • DevOps: CI/CD, Git, Pre-commit hooks, SQLFluff.

🏛 Избранные проекты

Инфраструктурный шаблон DWH. Реализация современной архитектуры хранилища данных.

  • Стек: Airflow, dbt, Snowflake, Docker.
  • Ключевая особенность: Демонстрация методологии Data Vault 2.0 и медальной архитектуры (Bronze -> Silver -> Gold). Настроены автоматические тесты качества данных (DQ) и CI/CD пайплайны.

Dataset-aware ETL пайплайн. Автоматизированная система обработки отзывов из Google Play.

  • Стек: Airflow, MongoDB, Pandas, Docker.
  • Ключевая особенность: Использование Data-aware scheduling (Airflow Datasets). Реализован сенсор файлов, очистка данных и загрузка в NoSQL хранилище с оптимизированными индексами.

Алгоритмическая задача: Разузлование спецификаций. Решение классической промышленной задачи Bill of Materials (BOM).

  • Стек: Python (Pandas/NumPy), PostgreSQL (Recursive CTE).
  • Ключевая особенность: Сравнение двух подходов к обходу иерархических структур — рекурсивные запросы в БД против итеративной обработки в памяти через Pandas.

ELT пайплайн для ClickHouse.

  • Стек: ClickHouse, dbt, Python.
  • Ключевая особенность: Реализация быстрой загрузки данных в колончатую СУБД с последующей трансформацией через dbt.

📚 Теоретический бэкграунд

Я глубоко понимаю внутреннее устройство используемых технологий:

  • Архитектура: Lakehouse (Delta/Iceberg), выбор между Inmon и Kimball, проектирование OLAP-кубов.
  • Spark Internals: Управление памятью, борьба со Spill и OOM, оптимизация джойнов, понимание планов выполнения (Physical/Logical plans).
  • Database Theory: Уровни изоляции ACID, CAP-теорема, нормализация vs денормализация, стратегии шардирования и партиционирования.
  • Системы обмена сообщениями: Гарантии доставки в Kafka, работа с Dead Letter Queues, Schema Registry.
  • Data Governance: Внедрение RBAC, контроль качества данных (Great Expectations/dbt tests) и обеспечение Usability данных.

📫 Как со мной связаться

Popular repositories Loading

  1. Game_Charniauski_Roman Game_Charniauski_Roman Public

    Jupyter Notebook

  2. Java-BSU-2023 Java-BSU-2023 Public

    Forked from Rrenkens/Java-BSU-2023

  3. computer-graphic computer-graphic Public

    TypeScript

  4. JDF_test JDF_test Public

    Python

  5. oiad-2-2025 oiad-2-2025 Public

    Forked from poluzerovT/oiad-2-2025

    Jupyter Notebook

  6. numpy_pandas numpy_pandas Public

    Jupyter Notebook