Skip to content

ILYUTKICK/SLAVA2.0

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 

Repository files navigation

SLAVA2.0

SLAVA2.0-бенчмарк содержит около 13 000 вопросов по биологии, математике (профильной и базовой), физике, французскому и испанскому языку, взятых из официальных экзаменационных и государственных тестов Российской Федерации с сайта РешуЕГЭ, с разметкой типов заданий и вариантов ответов. Открытые данные SLAVA2.0_pt включают примеры формата:

id subject type task text outputs source comment

Для SLAVA 2.0 данные были получены путём парсинга официальных заданий через Python‑модуль sdamgia-api. Однако из-за прекращенной поддержки не удалось реализовать поиск по ключевой фразе.

Очистка и нормализация текста
Была произведена очистка и нормализация текста, а именно:

  • Удалены артефакты HTML и Markdown-разметки;
  • Корректно разбиты на типы задания, выделен текст, ответ, а также ссылка и комментарий о дополнительном файле.

Формирование бенчмарка

  • Был составлен итоговый SLAVA2.0_pt.csv, который включает разделы:id, subject, type, task, text, outputs, source, comment.

Интерактивный дашборд

  • С помощью Streamlit был создан интерактивный дашборд, включающий выбор предметов для сравнения по диаграммам Общее количество заданий по каждому предмету, Количество заданий с прикрепленными файлами по предметам, Количество вопросов по предмету и типу.

Представление результатов

  • По итогам работы была составлена презентация с представлением этапов работ.

Описание файлов Папка EGE_Parsing включает в себя следующие файлы:

  • sobiraem_zadachi.ipynb - код для парсинга данных
  • data_cleaning.ipynb - код для очистики данных
  • Merger.ipynb - код для слияния полученных наборов задач по каждому предмету в один
  • prboard.py - код для запуска дашборда
  • final_ochka_dirty.json.zip - полученные данные до очистки
  • slava2.0_full.csv - данные после первой неудачной очистки
  • slava2.0_pt.csv - данные после удачной очистки
  • presentation.pptx - презентация готового решения

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 95.1%
  • Python 4.9%