Machine learning

correlation coefficient (피어슨 상관계수)

TM 2021. 8. 24. 13:36

소개

상관계수란? 두 확률변수 X, Y 사이의 상관관계의 정도를 나타내는 수치입니다. 즉, 상관계수는 인과성이 아닌 연관성만 확인이 가능합니다. 이전 포스트 공분산에서 다뤘던 공분산의 크기는 상관관계의 절대적인 크기 자체를 의미하는 것이 아닙니다. 공분산은 두 확률변수 X, Y의 scale에 크게 영향을 받기 때문입니다.

 

예를 들어, 공분산의 단위는 X의 단위 * Y의 단위를 곱한 단위로 이루어지기 때문에  단위가 다른 확률변수들의 공분산들은 그 값을 비교하기 어렵습니다. 그렇기에 상관 정도의 절대적인 크기를 측정할 수 있도록 해주는 것이 바로 상관계수입니다. 상관계수는 여러 가지 종류가 있는데 피어슨 상관계수, 스피어만 순위 상관계수, 켄탈의 타우 가 존재합니다. 간단하게 보면,

 

피어슨 상관계수 - 숫자형 - 숫자형 변수의 모수적(정규분포)의 선형 관계

스피어만 순위 상관계수 - 숫자형 - 숫자형 변수의 비모수적(정규분포 X)의 단조 관계

켄탈의 타우 - 숫자형 - 숫자형 변수의 비모수적(정규분포 X)의 단조 관계

 

와 같은 3가지 의 상관계수가 존재하지만, 그중 이번 포스트는 피어슨 상관계수에 대해 설명해보려고 합니다.

 

정의

  • 숫자형 - 숫자형 변수 간의 강도를 수치로 표현하는 방법.
  • 상관계수는 인과성이 아닌 연관성만 확인 가능하다.
  • 상관계수는 두 숫자형 변수 사이의 연관성 중 가장 큰 연관성을 가진 쪽에 직선적인 경향을 가진다.

 

대표적으로 숫자형 변수들의 값이 정규분포를 이루고 있을 때 대부분 아래와 같은 그림을 이룹니다.

 

산점도 그래프

 

 

상관관계 정도

 

상관계수 해석 

 

 

위 공식을 풀어 말하면 확률변수 X, Y에 대한 공분산과 X, Y 두 변수의 표준편차를 나눠주면 상관계수를 얻을 수 있습니다. 즉, 이런 방법을 통해 각 변수의 표준편차로 나눠주므로 어떤 scale 이든 같은 값을 얻을 수 있지요.

 

상관계수는 위 분산과 공분산의 관계를 나타내는 부등식을 이용하여 -1부터 1 사이의 값을 가지는데 1에 가까울수록 두 확률변수가 양의 선형 관계를 갖는다고 하고, -1에 가까울수록 두 확률변수가 음의 선형 관계를 갖는다고 합니다. 그리고 만약 상관계수가 0이면 '두 확률변수는 아무런 선형 상관관계를 갖지 않는다'라고 합니다. (상관계수 기호는 로(rho)라고 발음한다.)

 

 

'Machine learning' 카테고리의 다른 글

Linear Regression  (0) 2021.09.22
Random Forest  (0) 2021.09.20
Decision Tree  (0) 2021.09.19
covariance matrix (공분산 행렬)  (0) 2021.08.21
Linear kalman filter (LKF)  (0) 2021.08.08