상관계수가 1 혹은 -1이면 산점도는 직선 형태가 됩니다.
그리고 상관계수는 기울기와는 무관합니다. 이 부분이 궁금해서 확인해보았습니다.
my_df = pd.DataFrame({'positive' : np.arange(1,201),
'negative': np.arange(200,0,-1),
'new_negative': np.arange(100,0,-0.5)})
my_df
산점도로 시각화하여 확인했습니다.
features = ['negative','new_negative'] #특성
fig, axes = plt.subplots(1,2, figsize=(12,6)) #fig, axes 객체 생성
for ax,feat in zip(axes,features):
ax.scatter(my_df['positive'], my_df[feat], alpha = 0.6) #Axes 격자에다 산점도 생성
plt.yticks(np.arange(0,201,25)) #y축 범위를 0~200으로 통일
plt.show()
두 그래프 다 두 특성에 대한 상관계수는 -1
Q1) 상관계수는 기울기의 크기에 무관한 것을 확인했습니다. 그러면 데이터 분포가 기울기에 상관없이 일정한 방향으로 분포하고, 회귀선에 모일수록 상관계수가 -1, 1에 가까워지는 건가요?
Q2) 기울기가 0인 직선형태의 분포나 이와 비슷한 형태의 데이터는 상관계수를 어떻게 정의해야하나요?
상관계수가 1 혹은 -1이면 산점도는 직선 형태가 됩니다.
그리고 상관계수는 기울기와는 무관합니다. 이 부분이 궁금해서 확인해보았습니다.
산점도로 시각화하여 확인했습니다.
Q1) 상관계수는 기울기의 크기에 무관한 것을 확인했습니다. 그러면 데이터 분포가 기울기에 상관없이 일정한 방향으로 분포하고, 회귀선에 모일수록 상관계수가 -1, 1에 가까워지는 건가요?
Q2) 기울기가 0인 직선형태의 분포나 이와 비슷한 형태의 데이터는 상관계수를 어떻게 정의해야하나요?