상관분석은 연속형 두 변수 간의 선형 관계 정도를 검정하는 통계 분석 방법이다. 연속형 변수란 등간 척도 변수, 비율 척도 변수와 같이 셀 수 있는 숫자를 의미한다. ex)몸무게, 키, 온도 등
주의할 점은 상관분석은 상관관계의 정도를 파악하는 것이지 인과관계를 설명하는 것이 아니다. 인과관계를 파악하기 위해서는 회귀분석이 필요하다.
상관분석의 시작은 공분산 분석이다. 공분산은 두 변수의 개별 관측치 값들이 각 변수의 평균으로부터 얼마나 떨어져있는지를 나타내는 것이다. 다만 변수의 단위가 동일하지 않은 경우에는 비교가 불가능하다는 단점이 있다.
그렇기 때문에 공분산을 표준화한 값이 필요한데 이게 바로 상관계수이다. 상관계수는 측정단위에 영향을 받지 않는다.
1. 피어슨 상관계수
피어슨 상관계수는 두 변수 X, Y 간의 선형 상관 관계를 계량화한 수치로 공분산을 표준편차의 곱으로 나눈 값이다. -1 ~ 1 사이의 값을 갖는다.
+1은 완벽한 양의 선형 상관관계, -1은 완벽한 음의 선형 상관관계, 0은 선형 상관관계 없음을 의미한다. 대체적으로 0.3 이상이면 상관관계가 존재한다고 평가한다.
주의할 점은 피어슨 상관계수가 0이라는 것은 선형 상관관계가 없음을 의미하는 것이지 기타 비선형 관계는 존재할 수도 있음을 의미한다. 0이라고 해서 상관관계가 없는 것이 아니라는 점 꼭 기억!
2. 스피어만 상관계수
스피어만 상관계수는 두 변수의 순위 사이의 통계적 의존성을 측정하는 비모수적 척도이다. 원시데이터가 아닌, 각 변수에 대해 순위를 매긴 값을 기반으로 상관관계를 측정한다. 순위를 이용하기 때문에 연속형 변수가 아닌 순서형 변수인 경우에도 용 가능하다.
피어슨 상관계수와 마찬가지로 -1 ~ 1사이의 값을 가지며 단순 관계만 측정한다. 순위로 변환해서 상관관계를 측정하기 때문에 선형 외에 비선형 관계도 나타낼 수 있다.
'파이썬 > 빅분기' 카테고리의 다른 글
다변량 분석법 & 차원축소법 - 다차원척도법(MDS) (0) | 2021.09.26 |
---|---|
범주형 자료 분석 - t검정, 카이제곱검정, 분산분석 (0) | 2021.09.23 |
가설검정 - 귀무가설과 대립가설, 가설검정 오류 (0) | 2021.09.22 |
점추정과 구간추정 (0) | 2021.09.22 |
연속확률분포(1) - 정규분포, 감마분포, 지수분포, 베타분포 (0) | 2021.09.21 |