Skip to content

[TEST] 실제 링크 분포 기반 보안 평가 테스트셋 재구축 #39

@minsoo0506

Description

@minsoo0506

테스트 코드 추가/수정

설명

기존 보안 평가 테스트셋은 정상 100개, 악성 100개를 임의로 균등 구성해 테스트했으나, 실제 전체 링크 모집단에서 정상/악성 비율이 왜 1:1인지 근거가 부족하다는 피드백이 있었다.

전체 링크 데이터에서 정상 링크와 악성 링크의 실제 분포를 먼저 조사하고, 확인된 비율에 맞춰 평가용 테스트셋을 재구축한다. 이후 새 테스트셋으로 기존 탐지 파이프라인을 재평가하고, 기존 220개 데이터셋 기반 결과와 비교한다.

🗒 체크리스트

  • 전체 링크 모집단 기준 정상/악성 라벨 분포를 산출한다.
  • 정상/악성 비율 산출 기준과 데이터 출처를 문서화한다.
  • 실제 분포 비율을 반영한 평가 테스트셋 생성 로직을 추가/수정한다.
  • 재구축된 테스트셋으로 보안 평가 테스트를 실행한다.
  • 기존 220개 데이터셋 평가 결과와 신규 분포 기반 평가 결과를 비교한다.
  • 테스트셋이 고정 seed 또는 재현 가능한 방식으로 생성되는지 확인한다.
  • 테스트가 독립적으로 실행 가능한가?
  • 테스트 코드의 네이밍이 이해하기 쉬운가?

Metadata

Metadata

Assignees

Labels

test테스트 코드 추가 및 업데이트

Type

No type
No fields configured for issues without a type.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions