본문 바로가기

분류 전체보기

(66)
가설검정 - 귀무가설과 대립가설, 가설검정 오류 가설이란 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론이다. 검정은 세운 가설이 통계적으로 유의한지 알아보는 것이다. 가설에는 귀무가설과 대립가설 두 가지가 있다. 귀무가설(H0) 현재까지 주장되어온 것 혹은 기존과 비교하여 변화가 없음을 나타내는 가설 대립가설(H1) 표본을 통해 확실한 근거를 갖고 입증하고자 하는 가설, 연구가설이라고도 함 귀무가설 -직접 검정 대상이 되는 가설 -일단 옳다는 가정 하에 시작 -기각이 목표 대립가설 -귀무가설에 대립되는 가설 -귀무가설이 기각되면 채택되는 가설 -새로운 주장 또는 입증하고픈 가설 -채택이 목표 표본을 이용해 귀무가설을 통계적으로 확인해보고 귀무가설이 기각되면 대립가설이 채택된다. 다만, 주의할 점은 귀무가설이 기각되었다고 해서 곧바로 대립가..
점추정과 구간추정 추론 통계란 모집단에서 추출된 표본으로부터 통계량(평균, 분산, 표준편차 등)을 구하고 이것을 이용해 모집단의 특성을 알아내는 것이다. 모집단의 일부로부터 모집단을 추론하는 것이기 때문에 100% 정확하다고 할 수는 없다. 그렇기에 통계적인 추론을 할 때는 반드시 결론의 부정확한 정도를 표시해줘야 한다. 모집단: 조사하고자 하는 대상 집단 전체 모수: 표본 관측에 의해 구하고자 하는 모집단 정보 표본: 모집단에서 추출한 일부 대상 통계량: 표본에서 얻은 평균, 표준편차 등 추정량: 모수 추정을 위해 구해진 통계량 모수 추정 방법에는 점추정과 구간추정 두 가지 방법이 있다. 1. 점추정 점추정은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 표본의 평균, 중위수, 최빈값 등을 사용한다...
연속확률변수(2) - t분포, F분포, 카이제곱분포 t분포, F분포, 카이제곱분포는 모두 정규분포에서 파생된 분포이다. 정규분포에서 생성된 표본 데이터 집합에 수식을 적용해서 값을 변화시키면 데이터 집합의 분포가 달라지는데 적용된 수식에 따라 t분포, F분포, 카이제곱 분포가 생성된다. 이 세 분포들은 모두 통계량 분포라고 불리며 가설 검정에 사용된다. 1. 카이제곱 분포 정규분포를 따르는 확률 변수 X의 k개의 서로 독립적인 표준 정규 확률변수를 제곱해서 더하면 양수값만을 갖는 분포가 된다. 이를 카이제곱 분포 χ2(x;k)라고 하며 카이제곱 분포는 자유도 k에 따라 형태가 달라진다. 범주형 자료 분석에 주로 사용된다. 카이제곱 분포는 감마분포의 특수한 형태이며, E(X)=k, Var(X)=2k이다. 카이제곱분포는 기본적으로 좌측으로 치우친 분포인데 자..
연속확률분포(1) - 정규분포, 감마분포, 지수분포, 베타분포 확률변수 X가 실수와 같이 연속적인 값을 취할 때 이를 연속확률변수라고 하고, 이러한 X가 가지는 확률 분포를 연속확률분포라고 한다. 연속확률분포에는 대표적으로 정규분포, t-분포, F-분포, 카이제곱분포 등이 있다. 1. 정규분포 통계학에서 가장 중요하게 다루는 확률 분포인 정규분포. 다른 말로는 가우스분포라고 부르기도 한다. 정규분포는 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 많이 사용한다. 정규분포는 평균 μ와 분산 σ2 두 모수만으로 정의된다. 정규분포 중에서도 Z = X-μ/σ를 통해 정규화함으로써 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 한다. 다른 말로 z-분포라고도 한다. 정규분포는 평균 μ에서 최댓값을 갖고, 평균 μ를 기준으로 좌우대칭이다. 따라서 정규분포의..
이산확률분포(2) - 초기하분포, 기하분포, 음이항분포, 다항분포 2021.09.21 - [파이썬/빅분기] - 이산확률분포 - 이항분포와 포아송 분포 이산확률분포 - 이항분포와 포아송 분포 이산확률분포란 이산확률 변수가 갖는 확률 분포를 의미한다. 이산확률변수는 확률변수 X가 1,2,3 같이 하나씩 셀 수 있는 값을 취하며 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등 for-my-wealthy-life.tistory.com 지난 포스팅에서는 이산확률분포의 가장 기본이 되는 분포인 베르누이 분포와 이항분포, 포아송 분포에 대해 살펴보았다. 이번 포스팅에서는 초기하분포, 기하분포, 음이항분포, 다항분포를 정리해보려 한다. 1. 초기하분포 초기하분포란 비복원추출에서 크기가 N인 모집단에서 표본을 n번 추출했을 때 원하는 것 k개가 뽑힐 확률의 분포이다. 중고등..
이산확률분포 - 이항분포와 포아송 분포 이산확률분포란 이산확률 변수가 갖는 확률 분포를 의미한다. 이산확률변수는 확률변수 X가 1,2,3 같이 하나씩 셀 수 있는 값을 취하며 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등이 있다. 이산 확률 분포는 확률질량함수로 표현이 가능하다. *확률질량함수 -셀 수 있는 수의 사건이 존재하는 경우 각 단순 사건에 대한 확률만 정의하는 함수 ex)주사위를 던졌을 때의 확률 분포 P(1) = 1/6 1. 베르누이 분포 베르누이 분포는 이산 확률분포의 가장 기초적인 분포이다. 베르누이 시행은 성공(1)과 실패(0) 두 결과만이 존재하는 시행으로 각 시행은 서로 독립이다. 대표적인 예가 바로 동전던지기이다. 베르누이 시행에서 어떤 확률변수 X의 시행 결과가 성공이면 1, 실패이면 0의 값을 갖는다고 ..
공분산(covariance)과 상관계수 공분산은 변수 여러개로 구한 분산이다. 확률 변수들이 어떻게 퍼져있는지를 나타내는 것으로 X의 편차와 Y의 편차를 곱한 것의 평균이다. Cov(X,Y)>0 → X가 증가할 때 Y도 증가 Cov(X,Y)
차원축소 방법 PCA 외 LDA, SVD 등 차원이 커지거나 독립변수 간 강한 상관관계가 있는 경우(다중공산성) 모델의 정확도가 떨어질 수 있다. 차원축소는 여러 변수의 정보를 최대한 유지하면서 데이터 변수의 개수를 줄이는 통계 기법이다. PCA(주성분 분석) 1. LDA(선형 판별 분석) PCA와 유사하게 데이터셋을 저차원 공간으로 투영해 차원을 축소하는 기법이나 PCA와 달리 지도학습의 분류에서 사용된다. LDA는데이터를 최적으로 분류하여 차원을 축소하는 기법이고, PCA는 데이터를 최적으로 표현하는 관점에서 차원을 축소하는 방법이다. 투영 후 클래스 간 분산은 최대한 크게, 클래스 내부 분산은 최대한 작게 만들어 각 클래스 간 중심이 서로 멀어지도록 분류한다. 그렇기 때문에 SVM 같은 분류 알고리즘을 적용하기 전에 사용하면 성능을 높일 수 ..