본문 바로가기

파이썬/머신러닝

나이브베이즈 가장 기초적인 지도학습 모델

나이브베이즈는 가장 기초적이고 간단한 지도학습 모델입니다. 텍스트 분류를 위해 전통적으로 사용되는 분류기이기도 하며 속도가 빠르고 정확도도 높은 편입니다.

 

 

나이브베이즈를 알기 위해서는 우선 베이즈 정리를 알아야 합니다. 베이즈 정리는 어떤 사건이 서로 배반하는 두 원인에 의해 일어난다고 가정할 때, 실제 사건이 일어났을 시 두 원인 중 하나일 확률을 구하는 것입니다. 쉽게 이야기 해서 조건부 확률입니다.

 

 

기본적으로 나이브베이즈는 모든 feature가 서로 독립이고 동등하게 중요하다고 가정합니다. 즉, 나이브베이즈가 잘 작동하기 위해서는 기본적으로 특성들 사이에 연관성이 없어야 하고 특별히 중요하거나 특별히 중요하지 않은 특성이 있으면 안됩니다. 현실적으로 feature가 많은 데이터셋에서는 사용되기 어려울 것입니다.

 

 

 

나이브베이즈 분류 모델은 스팸필터링, 비정상 행위 탐지, 질병 진단, 문서 분류와 같은 이진분류 모델에 주로 사용됩니다. 단순하면서 빠르고 정확하다는 것이 장점입니다.