본문 바로가기

파이썬/빅분기

(10)
시계열 데이터 개념과 시계열 분석 모형 1. 시계열 데이터 시계열 데이터는 시간의 영향을 받는 데이터로 일정한 시간 간격을 두고 관측되므로 시차가 동일하며 이론적으로는 결측값이 없다. 시계열 데이터의 예로는 GDP, 물가지수, 상품 판매량, 종합주가지수, 강수량 등이 있다. (1)정상성과 비정상성 정상성이란 시점과 무관하게 일정한 특성을 의미한다. Zt와 Zt+k의 자기 상관이 시차에만 의존하고 시점에 의존하지 않을 때 정상성을 갖는다고 한다. 다만 대부분의 시계열 데이터는 정상성을 만족하지 않는 비정상 데이터이다. 데이터가 정상성을 갖지 않으면 분석이 어렵기 때문에 정상화를 한 후에 분석을 시행한다. *정상성 -모든 시점의 평균이 동일 -모든 시점의 분산이 동일 -공분산은 시차에만 의존, 시차가 동일하면 모든 시점의 공분산은 동일 *비정상 ..
다변량 분석법 & 차원축소법 - 다차원척도법(MDS) 다차원척도법은 군집분석처럼 개체들의 특성(변수)를 측정한 후 그 특성을 이용해 개체간 유사성/비유사성을 측정한다. 그 다음 2차원이나 3차원 공간 상에 개체들 간 관계를 상대적 위치로 시각화하는 분석 기법이다. 다만, 군집분석은 개체들 간 비유사성을 이용해 그룹핑하는 것이 목적이라면, 다차원척도법은 개체들 간 비유사성을 이용해 개체들의 집단을 시각적으로 표현하는 것을 목적으로 한다. 데이터가 연속형 변수인 경우 거리 행렬을 이용한 계량적 다차원 척도법을 이용하고, 순서형 척도인 경우에는 순서척도를 거리로 변환하는 비계량적 다차원 척도법을 사용한다. 1. MDS 분석 과정 n개의 개체가 있을 때 n x n 거리행렬 D를 구한다. 거리행렬 D를 이용해 n개의 개체들을 보다 낮은 차원인 k차원에 점으로 표현한..
범주형 자료 분석 - t검정, 카이제곱검정, 분산분석 범주형 자료란 범주 또는 집단으로 나누어진 자료로 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 한다. 독립변수와 종속변수 중 어느 것이 범주형 자료인지에 따라 분석 방법이 달라진다. 독립변수 종속변수 분석방법 범주형 연속형 t-검정 / 분산분석(ANOVA) 범주형 범주형 분할표 분석 / 카이제곱 검정 / 피셔의 정확도 검정 연속형 범주형 로지스틱 회귀 분석 1. t-검정 t-test는 두 집단 간 평균(대응표본 t-test는 한 집단)을 비교하는 모수적 통계 방법이다. t분포를 이용해 가설을 검정하고 정규성, 등분산성, 독립성을 가정한다. 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본의 표본분산, 표본표준편차로 검정하는 방식이다. 30개 이하의 비교적 적은 수의 표본에 ..
피어슨 상관계수와 스피어만 상관계수 상관분석은 연속형 두 변수 간의 선형 관계 정도를 검정하는 통계 분석 방법이다. 연속형 변수란 등간 척도 변수, 비율 척도 변수와 같이 셀 수 있는 숫자를 의미한다. ex)몸무게, 키, 온도 등 주의할 점은 상관분석은 상관관계의 정도를 파악하는 것이지 인과관계를 설명하는 것이 아니다. 인과관계를 파악하기 위해서는 회귀분석이 필요하다. 상관분석의 시작은 공분산 분석이다. 공분산은 두 변수의 개별 관측치 값들이 각 변수의 평균으로부터 얼마나 떨어져있는지를 나타내는 것이다. 다만 변수의 단위가 동일하지 않은 경우에는 비교가 불가능하다는 단점이 있다. 그렇기 때문에 공분산을 표준화한 값이 필요한데 이게 바로 상관계수이다. 상관계수는 측정단위에 영향을 받지 않는다. 1. 피어슨 상관계수 피어슨 상관계수는 두 변수..
가설검정 - 귀무가설과 대립가설, 가설검정 오류 가설이란 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론이다. 검정은 세운 가설이 통계적으로 유의한지 알아보는 것이다. 가설에는 귀무가설과 대립가설 두 가지가 있다. 귀무가설(H0) 현재까지 주장되어온 것 혹은 기존과 비교하여 변화가 없음을 나타내는 가설 대립가설(H1) 표본을 통해 확실한 근거를 갖고 입증하고자 하는 가설, 연구가설이라고도 함 귀무가설 -직접 검정 대상이 되는 가설 -일단 옳다는 가정 하에 시작 -기각이 목표 대립가설 -귀무가설에 대립되는 가설 -귀무가설이 기각되면 채택되는 가설 -새로운 주장 또는 입증하고픈 가설 -채택이 목표 표본을 이용해 귀무가설을 통계적으로 확인해보고 귀무가설이 기각되면 대립가설이 채택된다. 다만, 주의할 점은 귀무가설이 기각되었다고 해서 곧바로 대립가..
점추정과 구간추정 추론 통계란 모집단에서 추출된 표본으로부터 통계량(평균, 분산, 표준편차 등)을 구하고 이것을 이용해 모집단의 특성을 알아내는 것이다. 모집단의 일부로부터 모집단을 추론하는 것이기 때문에 100% 정확하다고 할 수는 없다. 그렇기에 통계적인 추론을 할 때는 반드시 결론의 부정확한 정도를 표시해줘야 한다. 모집단: 조사하고자 하는 대상 집단 전체 모수: 표본 관측에 의해 구하고자 하는 모집단 정보 표본: 모집단에서 추출한 일부 대상 통계량: 표본에서 얻은 평균, 표준편차 등 추정량: 모수 추정을 위해 구해진 통계량 모수 추정 방법에는 점추정과 구간추정 두 가지 방법이 있다. 1. 점추정 점추정은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 표본의 평균, 중위수, 최빈값 등을 사용한다...
연속확률분포(1) - 정규분포, 감마분포, 지수분포, 베타분포 확률변수 X가 실수와 같이 연속적인 값을 취할 때 이를 연속확률변수라고 하고, 이러한 X가 가지는 확률 분포를 연속확률분포라고 한다. 연속확률분포에는 대표적으로 정규분포, t-분포, F-분포, 카이제곱분포 등이 있다. 1. 정규분포 통계학에서 가장 중요하게 다루는 확률 분포인 정규분포. 다른 말로는 가우스분포라고 부르기도 한다. 정규분포는 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 많이 사용한다. 정규분포는 평균 μ와 분산 σ2 두 모수만으로 정의된다. 정규분포 중에서도 Z = X-μ/σ를 통해 정규화함으로써 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 한다. 다른 말로 z-분포라고도 한다. 정규분포는 평균 μ에서 최댓값을 갖고, 평균 μ를 기준으로 좌우대칭이다. 따라서 정규분포의..
이산확률분포 - 이항분포와 포아송 분포 이산확률분포란 이산확률 변수가 갖는 확률 분포를 의미한다. 이산확률변수는 확률변수 X가 1,2,3 같이 하나씩 셀 수 있는 값을 취하며 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등이 있다. 이산 확률 분포는 확률질량함수로 표현이 가능하다. *확률질량함수 -셀 수 있는 수의 사건이 존재하는 경우 각 단순 사건에 대한 확률만 정의하는 함수 ex)주사위를 던졌을 때의 확률 분포 P(1) = 1/6 1. 베르누이 분포 베르누이 분포는 이산 확률분포의 가장 기초적인 분포이다. 베르누이 시행은 성공(1)과 실패(0) 두 결과만이 존재하는 시행으로 각 시행은 서로 독립이다. 대표적인 예가 바로 동전던지기이다. 베르누이 시행에서 어떤 확률변수 X의 시행 결과가 성공이면 1, 실패이면 0의 값을 갖는다고 ..