Skip to content

(김*연)(강의 노트 17장) 기술통계의 표준화(z_score 기법) 관련 #157

@Kdy0412

Description

@Kdy0412
Image

표준화(Z-score)는 평균을 0 표준편차를 1로 맞추는 기법입니다.

수식의 원리가 궁금하여 코드로 작성해보았습니다.

x = body_df['Height']
x_mean_0 = x - x.mean()  #평균을 0으로  x_mean_0.mean() = 0
z_score = x_mean_0/x.std(ddof = 0) #표준화 z-score, 표준편차 S를 나눔으로써 z_score의 표준편차는 1
print(f"평균으로부터 거리: {x_mean_0[0]}\n표준편차*z_score: {x.std(ddof=0)*z_score[0]}") 

평균으로부터 거리: -3.4656999999999982
표준편차*z_score: -3.465699999999998

데이터값과 평균의 차이는, 해당 데이터가 평균으로부터 표준편차의 Z-score배만큼 떨어진 값이라고 합니다.

이를 이용해 IQR처럼 이상치를 판단할 때 표준화(Z-score) 기법이 사용된다고 합니다.

  • "데이터에서 Z-score의 절대값이 3을 넘어가는 데이터를 이상치라고 부른다."

Q) Z-score기법은 IQR에 비해 이상치에 민감하다고 하는데, 이는 Z-score은 평균과 표준편차를 다룬 수식이고, IQR은 중위수 및 사분위수처럼 순서를 다루기 때문인가요?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions