파이썬/빅분기 (10) 썸네일형 리스트형 공분산(covariance)과 상관계수 공분산은 변수 여러개로 구한 분산이다. 확률 변수들이 어떻게 퍼져있는지를 나타내는 것으로 X의 편차와 Y의 편차를 곱한 것의 평균이다. Cov(X,Y)>0 → X가 증가할 때 Y도 증가 Cov(X,Y) 변수 선택 방법(Feature selection) - 필터 기법, 래퍼 기법, 임베디드 기법 모델을 만들 때 정확도 향상과 속도 및 성능 향상을 위해 변수 선택을 한다. 보통 데이터 셋은 여러개의 독립변수를 갖고 있는데, 독립 변수 전체를 다 모델링에 사용하지 않고 종속변수와 유의미한 연관성을 가진 독립변수만을 채택해서 모델링을 하는 것이다. 이렇게 하면 모델을 단순화할 수 있고 모델링 시간도 단축시킬 수 있으며 정확도도 높일 수 있다. 1. 필터 기법 데이터의 통계적 특성을 확인하고 변수를 선택하는 기법으로 말 그대로 무의미한 변수들을 필터링하는 작업이다. 통계적 측정 방법을 이용해 피쳐들 간 상관관계를 확인하고 적합한 피쳐만 뽑아서 모델링에 사용한다. 2. 래퍼 기법 예측 정확도 측면에서 가장 높은 성능을 보이는 변수들을 뽑아내는 기법이다. 변수의 일부만을 모델링에 사용하고 성능을 측정하는 .. 이전 1 2 다음