다차원척도법은 군집분석처럼 개체들의 특성(변수)를 측정한 후 그 특성을 이용해 개체간 유사성/비유사성을 측정한다. 그 다음 2차원이나 3차원 공간 상에 개체들 간 관계를 상대적 위치로 시각화하는 분석 기법이다.
다만, 군집분석은 개체들 간 비유사성을 이용해 그룹핑하는 것이 목적이라면, 다차원척도법은 개체들 간 비유사성을 이용해 개체들의 집단을 시각적으로 표현하는 것을 목적으로 한다.
데이터가 연속형 변수인 경우 거리 행렬을 이용한 계량적 다차원 척도법을 이용하고, 순서형 척도인 경우에는 순서척도를 거리로 변환하는 비계량적 다차원 척도법을 사용한다.
1. MDS 분석 과정
n개의 개체가 있을 때 n x n 거리행렬 D를 구한다. 거리행렬 D를 이용해 n개의 개체들을 보다 낮은 차원인 k차원에 점으로 표현한다. 일반적으로 k=2를 사용한다.
(1)개체들 간 거리 계산
유클리드 거리행렬을 활용해 개체들 간 유사성을 측정한다. 거리를 측정할 떄는 단위로 인한 영향을 없애기 위해 변수값들을 표준화한 후 측정하는 것이 일반적이다. 이항자료의 경우 측정결과로 분할표를 만들어(1 또는 0) 계산한다.
(2) 2차원 또는 3차원 공간에 개체를 점으로 배열
(3) 스트레스 값을 부적합도로 측정해 스트레스 값이 최소가 되도록 좌표를 조정한다.
dij = 관측대상 i에서 j까지의 실제 거리
d^ij = 추정된 거리
스트레스 값은 차원이 클수록 작아지지만, 차원이 크면 결과 해석이 어려워진다.
스트레스 값 | 적합도 |
0 ~ 0.1 | 매우 좋음 |
0.1 ~ 0.2 | 좋음 |
0.2이상 | 나쁨 |
개체들의 좌표점은 다음 세가지 조건을 만족하도록 변환한다.
①각 차원의 중심은 0
②원점에서 모든 개체점까지 거리의 제곱합은 개체 수x차원과 동일
③k차원 공간으로 표현할 때 축변환을 통해 가장 설명력이 높은 방향을 제1축으로 한다.
2. 다차원척도법의 종류
(1)계량적 MDS (Metric MDS)
데이터가 구간척도나 비율 척도인 경우로 전통적인 MDS이다. N개의 케이스에 대해 p개의 특성변수가 있는 경우 각 개체들 간 유클리드 거리행렬을 계산하고 개체들 간 비유사성 S(거리제곱 행렬의 선형함수)를 공간 상에 표현한다.
ex)유럽의 21개 도시들 사이의 거리를 측정
(2)비계량적 MDS (NonMetric MDS)
데이터가 순서척도인 경우 사용하는 MDS이다. 개체들 간 거리가 순서로 주어진 경우에는순서척돌르 거리 속성과 같도록 변환해서 거리를 생성한 후에 적용해야 한다.
'파이썬 > 빅분기' 카테고리의 다른 글
시계열 데이터 개념과 시계열 분석 모형 (0) | 2021.09.28 |
---|---|
범주형 자료 분석 - t검정, 카이제곱검정, 분산분석 (0) | 2021.09.23 |
피어슨 상관계수와 스피어만 상관계수 (0) | 2021.09.22 |
가설검정 - 귀무가설과 대립가설, 가설검정 오류 (0) | 2021.09.22 |
점추정과 구간추정 (0) | 2021.09.22 |