일반적으로는 누적 설명 분산 비율이 95% 이상이 되도록 주성분의 개수를 정하는 방법이 자주 사용된다. 반면 데이터 시각화가 목적이라면 사람이 눈으로 확인할 수 있도록 2개 또는 3개의 주성분만 선택한다.
데이터 시각화를 할 때는 보통 2개 또는 3개의 주성분만 선택한다고 하는데
강의자료에서는 누적 설명 분산 비율을 95%로 설정했을 때 필요한 주성분 수가 154개였습니다.
그런데 시각화를 위해 주성분을 2개나 3개만 사용하면 원래 데이터의 정보를 상당 부분 잃게 되어, 데이터를 제대로 해석하기 어려울 것 같다는 생각이 드는데
그럼에도 불구하고 시각화를 위해 2~3개의 주성분만 사용하는 것이 일반적으로 적절한 방법인지 궁금합니다.
데이터 시각화를 할 때는 보통 2개 또는 3개의 주성분만 선택한다고 하는데
강의자료에서는 누적 설명 분산 비율을 95%로 설정했을 때 필요한 주성분 수가 154개였습니다.
그런데 시각화를 위해 주성분을 2개나 3개만 사용하면 원래 데이터의 정보를 상당 부분 잃게 되어, 데이터를 제대로 해석하기 어려울 것 같다는 생각이 드는데
그럼에도 불구하고 시각화를 위해 2~3개의 주성분만 사용하는 것이 일반적으로 적절한 방법인지 궁금합니다.