본문 바로가기

분류 전체보기

(66)
회귀 평가지표 - MAE, MSE, R² 회귀 모형의 예측 결과는 수치로 나타나며, 실제 값과 예측 값의 차이가 작을수록(=편향이 작을수록, 오차가 작을수록) 성능이 좋다고 할 수 있다. 그렇기 때문에 일반적으로 회귀 모형을 평가할 때는 오차를 다양한 방식으로 평균하여 계산한 지표를 사용하며, 결정계수도 중요 지표로 사용한다. 1. 평가 지표 예측 오차를 이용해 회귀 모형의 성능을 평가하는 지표이다. 대표적인 것이 MAE와 MSE인데 MSE는 손실함수로, MAE는 회귀지표로 보통 사용된다. (1) MAE (평균절대오차) 오차 절대값의 평균으로 직관적이고 예측변수와 단위가 같다는 장점이 있다. 다만 에러의 크기를 그대로 반영해서 이게 under estimated인지 over estimated인지 파악하기가 어렵다. (2) MAPE (평균절대비율 ..
합성곱 신경망(CNN) 합성곱 신경망은 이미지 처리에 특화된 딥러닝 알고리즘이다. 이미지의 특징을 추출하는 합성곱(Convolution과 풀링(Pooling) 영역, 분류를 수행하는 완전연결신경망 영역으로 구성된다. CNN 알고리즘에는 AlexNet, VGGNet, GoogLeNet, ResNet, DenseNet 등이 있다. 이미지 처리를 할 때 다층 퍼셉트론을 사용할 수도 있지만 다층 퍼셉트론은 몇 가지 픽셀만 값이 달라져도 민감하게 반응해서 예측에 영향을 받는다. 예를 들어 위 두 그림은 사람이 볼 때는 둘 다 Y로 판단이 가능하지만 다층퍼셉트론은 두 그림의 휘어짐 정도, 방향, 위치 등이 다르기 때문에 다르게 볼 수 있다는 것이다. 1. 합성곱 합성곱은 이미지 데이터에서 특징을 추출하는 과정이다. 필터를 이용해 유사한 ..
딥러닝의 기본이 되는 인공신경망과 딥러닝 기초 딥러닝은 머신러닝의 한 방법으로 대용량 비정형 데이터 분석을 위한 인공신경망 기반 머신러닝 알고리즘이다. 연속된 층(layer)에서 점진적으로 의미 있는 표현을 배우는데 강점이 있다. 딥러닝의 딥(deep)이라는 단어 때문에 다소 혼란이 올 수 있지만 이 '딥'은 모델을 만드는데 얼마나 많은 층을 사용했는지를 의미한다. 최근의 딥러닝 모델은 표현 학습을 위해 수 십, 수 백개의 연속된 층을 사용한다. 현재 딥러닝은 이미지 인식, 음성인식, 자연어처리 등 인공지능 분야의 핵심 기술로 자리잡았다. 1. 인공신경망(RNN) 인공신경망은 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 머신러닝 모델이다. 입력값을 받아서 출력값을 만들기 위해 활성화 함수를 사용한다. 뉴런은 간단한 계산 능력을 가..
나이브베이즈 가장 기초적인 지도학습 모델 나이브베이즈는 가장 기초적이고 간단한 지도학습 모델입니다. 텍스트 분류를 위해 전통적으로 사용되는 분류기이기도 하며 속도가 빠르고 정확도도 높은 편입니다. 나이브베이즈를 알기 위해서는 우선 베이즈 정리를 알아야 합니다. 베이즈 정리는 어떤 사건이 서로 배반하는 두 원인에 의해 일어난다고 가정할 때, 실제 사건이 일어났을 시 두 원인 중 하나일 확률을 구하는 것입니다. 쉽게 이야기 해서 조건부 확률입니다. 기본적으로 나이브베이즈는 모든 feature가 서로 독립이고 동등하게 중요하다고 가정합니다. 즉, 나이브베이즈가 잘 작동하기 위해서는 기본적으로 특성들 사이에 연관성이 없어야 하고 특별히 중요하거나 특별히 중요하지 않은 특성이 있으면 안됩니다. 현실적으로 feature가 많은 데이터셋에서는 사용되기 어려..
시계열 데이터 개념과 시계열 분석 모형 1. 시계열 데이터 시계열 데이터는 시간의 영향을 받는 데이터로 일정한 시간 간격을 두고 관측되므로 시차가 동일하며 이론적으로는 결측값이 없다. 시계열 데이터의 예로는 GDP, 물가지수, 상품 판매량, 종합주가지수, 강수량 등이 있다. (1)정상성과 비정상성 정상성이란 시점과 무관하게 일정한 특성을 의미한다. Zt와 Zt+k의 자기 상관이 시차에만 의존하고 시점에 의존하지 않을 때 정상성을 갖는다고 한다. 다만 대부분의 시계열 데이터는 정상성을 만족하지 않는 비정상 데이터이다. 데이터가 정상성을 갖지 않으면 분석이 어렵기 때문에 정상화를 한 후에 분석을 시행한다. *정상성 -모든 시점의 평균이 동일 -모든 시점의 분산이 동일 -공분산은 시차에만 의존, 시차가 동일하면 모든 시점의 공분산은 동일 *비정상 ..
다변량 분석법 & 차원축소법 - 다차원척도법(MDS) 다차원척도법은 군집분석처럼 개체들의 특성(변수)를 측정한 후 그 특성을 이용해 개체간 유사성/비유사성을 측정한다. 그 다음 2차원이나 3차원 공간 상에 개체들 간 관계를 상대적 위치로 시각화하는 분석 기법이다. 다만, 군집분석은 개체들 간 비유사성을 이용해 그룹핑하는 것이 목적이라면, 다차원척도법은 개체들 간 비유사성을 이용해 개체들의 집단을 시각적으로 표현하는 것을 목적으로 한다. 데이터가 연속형 변수인 경우 거리 행렬을 이용한 계량적 다차원 척도법을 이용하고, 순서형 척도인 경우에는 순서척도를 거리로 변환하는 비계량적 다차원 척도법을 사용한다. 1. MDS 분석 과정 n개의 개체가 있을 때 n x n 거리행렬 D를 구한다. 거리행렬 D를 이용해 n개의 개체들을 보다 낮은 차원인 k차원에 점으로 표현한..
범주형 자료 분석 - t검정, 카이제곱검정, 분산분석 범주형 자료란 범주 또는 집단으로 나누어진 자료로 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 한다. 독립변수와 종속변수 중 어느 것이 범주형 자료인지에 따라 분석 방법이 달라진다. 독립변수 종속변수 분석방법 범주형 연속형 t-검정 / 분산분석(ANOVA) 범주형 범주형 분할표 분석 / 카이제곱 검정 / 피셔의 정확도 검정 연속형 범주형 로지스틱 회귀 분석 1. t-검정 t-test는 두 집단 간 평균(대응표본 t-test는 한 집단)을 비교하는 모수적 통계 방법이다. t분포를 이용해 가설을 검정하고 정규성, 등분산성, 독립성을 가정한다. 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본의 표본분산, 표본표준편차로 검정하는 방식이다. 30개 이하의 비교적 적은 수의 표본에 ..
피어슨 상관계수와 스피어만 상관계수 상관분석은 연속형 두 변수 간의 선형 관계 정도를 검정하는 통계 분석 방법이다. 연속형 변수란 등간 척도 변수, 비율 척도 변수와 같이 셀 수 있는 숫자를 의미한다. ex)몸무게, 키, 온도 등 주의할 점은 상관분석은 상관관계의 정도를 파악하는 것이지 인과관계를 설명하는 것이 아니다. 인과관계를 파악하기 위해서는 회귀분석이 필요하다. 상관분석의 시작은 공분산 분석이다. 공분산은 두 변수의 개별 관측치 값들이 각 변수의 평균으로부터 얼마나 떨어져있는지를 나타내는 것이다. 다만 변수의 단위가 동일하지 않은 경우에는 비교가 불가능하다는 단점이 있다. 그렇기 때문에 공분산을 표준화한 값이 필요한데 이게 바로 상관계수이다. 상관계수는 측정단위에 영향을 받지 않는다. 1. 피어슨 상관계수 피어슨 상관계수는 두 변수..