소개
상관계수란? 두 확률변수 X, Y 사이의 상관관계의 정도를 나타내는 수치입니다. 즉, 상관계수는 인과성이 아닌 연관성만 확인이 가능합니다. 이전 포스트 공분산에서 다뤘던 공분산의 크기는 상관관계의 절대적인 크기 자체를 의미하는 것이 아닙니다. 공분산은 두 확률변수 X, Y의 scale에 크게 영향을 받기 때문입니다.
예를 들어, 공분산의 단위는 X의 단위 * Y의 단위를 곱한 단위로 이루어지기 때문에 단위가 다른 확률변수들의 공분산들은 그 값을 비교하기 어렵습니다. 그렇기에 상관 정도의 절대적인 크기를 측정할 수 있도록 해주는 것이 바로 상관계수입니다. 상관계수는 여러 가지 종류가 있는데 피어슨 상관계수, 스피어만 순위 상관계수, 켄탈의 타우 가 존재합니다. 간단하게 보면,
피어슨 상관계수 - 숫자형 - 숫자형 변수의 모수적(정규분포)의 선형 관계
스피어만 순위 상관계수 - 숫자형 - 숫자형 변수의 비모수적(정규분포 X)의 단조 관계
켄탈의 타우 - 숫자형 - 숫자형 변수의 비모수적(정규분포 X)의 단조 관계
와 같은 3가지 의 상관계수가 존재하지만, 그중 이번 포스트는 피어슨 상관계수에 대해 설명해보려고 합니다.
정의
- 숫자형 - 숫자형 변수 간의 강도를 수치로 표현하는 방법.
- 상관계수는 인과성이 아닌 연관성만 확인 가능하다.
- 상관계수는 두 숫자형 변수 사이의 연관성 중 가장 큰 연관성을 가진 쪽에 직선적인 경향을 가진다.
대표적으로 숫자형 변수들의 값이 정규분포를 이루고 있을 때 대부분 아래와 같은 그림을 이룹니다.
상관계수 해석
위 공식을 풀어 말하면 확률변수 X, Y에 대한 공분산과 X, Y 두 변수의 표준편차를 나눠주면 상관계수를 얻을 수 있습니다. 즉, 이런 방법을 통해 각 변수의 표준편차로 나눠주므로 어떤 scale 이든 같은 값을 얻을 수 있지요.
상관계수는 위 분산과 공분산의 관계를 나타내는 부등식을 이용하여 -1부터 1 사이의 값을 가지는데 1에 가까울수록 두 확률변수가 양의 선형 관계를 갖는다고 하고, -1에 가까울수록 두 확률변수가 음의 선형 관계를 갖는다고 합니다. 그리고 만약 상관계수가 0이면 '두 확률변수는 아무런 선형 상관관계를 갖지 않는다'라고 합니다. (상관계수 기호는 로(rho)라고 발음한다.)
'Machine learning' 카테고리의 다른 글
Linear Regression (0) | 2021.09.22 |
---|---|
Random Forest (0) | 2021.09.20 |
Decision Tree (0) | 2021.09.19 |
covariance matrix (공분산 행렬) (0) | 2021.08.21 |
Linear kalman filter (LKF) (0) | 2021.08.08 |