Skip to content

(김*현) (강의노트 7장) PCA에서 분산과 중요한 정보의 관계 #171

@KimGangHyun0202

Description

@KimGangHyun0202

PCA는 데이터를 가장 잘 설명하는 방향을 차례대로 찾는다. 데이터가 가장 넓게 퍼져 있는 방향을 첫째 주성분으로 잡고, 그 다음으로 많이 퍼져 있는 방향을 둘째 주성분으로 잡는 식이다.

고차원의 데이터를 저차원으로 사영할 때는 기존 고차원 데이터셋의 분산이 최대한 유지되도록 해야 한다.

강의노트에서 PCA는 데이터가 가장 넓게 퍼져 있는 방향을 첫째 주성분으로 잡고, 고차원 데이터를 저차원으로 사영할 때도 분산이 최대한 유지되도록 해야 한다고 설명되어 있었습니다. 이를 보면서 분산이 크다는 것이 항상 중요한 정보라고 볼 수 있는지 궁금해졌습니다.
어떤 경우에서는 분산은 크지만 실제 분류나 예측에는 도움이 되지 않는 방향도 있을 것 같은데, PCA는 이런 부분을 따 구분하지 않고 분산 크기를 기준으로 주성분을 선택하는 건지 궁금합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions