SLAVA2.0-бенчмарк содержит около 13 000 вопросов по биологии, математике (профильной и базовой), физике, французскому и испанскому языку, взятых из официальных экзаменационных и государственных тестов Российской Федерации с сайта РешуЕГЭ, с разметкой типов заданий и вариантов ответов. Открытые данные SLAVA2.0_pt включают примеры формата:
| id | subject | type | task | text | outputs | source | comment |
|---|---|---|---|---|---|---|---|
| … | … | … | … | … | … | … | … |
Для SLAVA 2.0 данные были получены путём парсинга официальных заданий через Python‑модуль sdamgia-api. Однако из-за прекращенной поддержки не удалось реализовать поиск по ключевой фразе.
Очистка и нормализация текста
Была произведена очистка и нормализация текста, а именно:
- Удалены артефакты HTML и Markdown-разметки;
- Корректно разбиты на типы задания, выделен текст, ответ, а также ссылка и комментарий о дополнительном файле.
Формирование бенчмарка
- Был составлен итоговый SLAVA2.0_pt.csv, который включает разделы:id, subject, type, task, text, outputs, source, comment.
Интерактивный дашборд
- С помощью Streamlit был создан интерактивный дашборд, включающий выбор предметов для сравнения по диаграммам Общее количество заданий по каждому предмету, Количество заданий с прикрепленными файлами по предметам, Количество вопросов по предмету и типу.
Представление результатов
- По итогам работы была составлена презентация с представлением этапов работ.
Описание файлов Папка EGE_Parsing включает в себя следующие файлы:
- sobiraem_zadachi.ipynb - код для парсинга данных
- data_cleaning.ipynb - код для очистики данных
- Merger.ipynb - код для слияния полученных наборов задач по каждому предмету в один
- prboard.py - код для запуска дашборда
- final_ochka_dirty.json.zip - полученные данные до очистки
- slava2.0_full.csv - данные после первой неудачной очистки
- slava2.0_pt.csv - данные после удачной очистки
- presentation.pptx - презентация готового решения