본문 바로가기

파이썬/빅분기

공분산(covariance)과 상관계수

공분산

공분산은 변수 여러개로 구한 분산이다. 확률 변수들이 어떻게 퍼져있는지를 나타내는 것으로 X의 편차와 Y의 편차를 곱한 것의 평균이다.

 

 

Cov(X,Y)>0 → X가 증가할 때 Y도 증가

Cov(X,Y)<0 → X가 증가할 때 Y는 감소

Cov(X,Y)=0 → X와 Y 간에 어떠한 상관관계도 없음. 두 변수는 서로 독립

 

단, 주의할 점은 X와 Y가 독립이면 공분산이 0이지만 공분산이 0이라고 해서 항상 독립인 것은 아니다.

 

 

또 주의할 점은 공분산은 정규화가 되지 않은 값이기 때문에 X,Y의 단위의 크기에 크게 영향을 받는다. 단위가 다른 데이터들 사이의 공분산 비교는 의미가 없기 때문에 표준화가 필요하다. 공분산으 표준화한 값이 바로 피어슨 상관계수이다. 즉, 상관계수는 확률변수의 절대적 크기에 영향을 받지 않도록 단위화 시킨 개념이다.

 

상관계수

 

상관계수는 -1 ~ 1사이의 값을 가지며 양의 선형관계이면 1, 음의 선형관계이면 -1, 아무런 관계를 갖지 않으면 0의 값을 갖는다.