본문 바로가기

전체 글

(66)

빅데이터 분석 기사 자격증 파헤치기! 필기, 실기 시험 유형과 응시자격 현재 퇴근 후나 주말을 이용해서 머신러닝 공부를 하고는 있지만 현재 실무에서 파이썬을 사용하고 있지 않아 단순히 개인적인 공부만 하는 것에 한계를 느끼고 있었다. 그래서 자격증을 취득하면 목표도 생기고 좀 더 몰입해서 할 수 있지 않을까해서 취득하기로 결정한 빅데이터 분석 기사 자격증. 국가공인자격증이며 한국데이터산업진흥원에서 실시한다. 원래 2020년 12월 19일에 최초 시행되기로 했었으나 코로나 확산으로 시험이 취소되어 2021년에 최초 시행되었다. 물론 이 자격증이 있다고 해서 빅데이터 분석을 자유자재로 할 수 있고 데이터분석 직무로 지원할 때 프리패스인건 너무나도 당연히 아니겠지만 최소한 내가 이 분야에 관심이 있고 이론적 베이스도 탄탄하다는 걸 증명할 수는 있다. 응시자격 응시 자격이 꽤 까다..

ROC 곡선(ROC curve)과 AUC란? 직접 그려보기 ROC곡선은 이진분류기의 성능을 측정하는 도구이다. ROC곡선의 생김새는 언뜻보면 recall-precision 곡선과 비슷해보이지만 FPR에 대한 TPR의 곡선이다. (X축이 FPR, Y축이 TPR) FPR(False Positive Rate): 거짓 양성 비율 (실제로는 음성인데 양성으로 잘못 분류) TPR(True Positive Rate): 진짜 양성 비율 (실제로도 양성이고 양성으로 잘 분류) 일단 ROC 커브에 대해 알아보기 전에 그 기본이 되는 오차행렬과 재현율, 정밀도에 대해서 먼저 짚고 넘어가자. 정확도와 F1 점수 개념 짚고 넘어가기 위 그림은 오차행렬이다. 오차행렬에서 TN, TP는 실제 음성/실제 양성 클래스를 각각 음성, 양성으로 정확하게 분류한 것이다. FP는 실제로는 음성인데 ..

베이지안 최적화(optimization) 개념 Auto Ml로 하이퍼파라미터 튜닝하기 모델 성능 향상을 위해서 필요한 하이퍼파라미터 튜닝, Auto ML로 Hyperparameter Optimization이 가능하다. Hyperparameter Optimization은 크게 그리드서치, 랜덤서치, 베이지안 옵티마이제이션 3가지가 있다. ※참고 하이퍼파라미터 튜닝 방법1. - 그리드 서치 그리드 서치는 파라미터 값을 직접 지정해줘야 한다는 번거로움이 있어 실제로는 베이지안 최적화 방식을 많이 사용한다. 물론 베이지안 옵티마이제이션이 무조건 최고다! 라는건 아니지만 Auto ML 영역에서 소요 시간이나 성능 등을 고려하면 다른 하이퍼파라미터 튜닝 방법에 비해서 좋다고 할 수 있다. 베이지안 옵티마이제이션 개념 사실 파이썬 초보인 나에게 이 개념은 너무너무 어렵고 헷갈린다.. 그래서 틀린 부분..

light GBM이란? 파라미터 설명과 코드 실습 LightGBM은 XGBoost에 비해 훈련 시간이 짧고 성능도 좋아 부스팅 알고리즘에서 가장 많은 주목을 받고 있다. GradientBoosting을 발전시킨 것이 XGBoost, 여기서 속도를 더 높인 것이 LightGBM이다. ※참고 부스팅과 배깅의 차이점과 AdaBoosting / GradientBoosting 개념 LightGBM이란? LightGBM은 트리 기준 분할이 아닌 리프 기준 분할 방식을 사용한다. 트리의 균형을 맞추지 않고 최대 손실 값을 갖는 리프 노드를 지속적으로 분할하면서 깊고 비대칭적인 트리를 생성한다. 이렇게 하면 트리 기준 분할 방식에 비해 예측 오류 손실을 최소화할 수 있다. LightGBM 파라미터 파라미터 default 설명 num_iterations 100 반복 수..

원핫인코딩 파이썬 get_dummies 함수로 범주형 변수 전처리 원핫인코딩, 가변수(dummy variable)은 성별, 학력과 같은 범주형 변수를 0 또는 1값을 가진 하나 이상의 새로운 특성으로 바꾼 것이다. 이 때 변수의 특성 개수는 상관없다. 예를 들어 학력이라는 특성에 '학사', '석사', '박사' 3개 값이 있다고 가정해보자. 그러면 어떤 사람의 학력 값에 해당하는 특성은 1이 되고 나머지는 0이 된다. 즉 데이터 포인트마다 정확히 3개의 특성 중 하나는 1이 되고 나머지 2개는 0이 된다. 원핫 인코딩은 왜 하는걸까? 컴퓨터는 문자를 이해할 수 없기 때문에 컴퓨터가 알아들을 수 있는 숫자로 변환시켜주는 작업이 필요한 것이다. 많은 데이터에 문자값이 포함되어 있기 때문에 원핫인코딩은 전처리 과정에서 아주 흔하게 사용되며 머신러닝, 딥러닝뿐만 아니라 자연어처..

사이킷런 분류기의 예측 불확실성 추정 함수 - decision_functon과 predict_proba *이 글은 파이썬 라이브러리를 활용한 머신러닝 책을 기반으로 작성되었습니다. 분류기에서 예측의 불확실성을 추정하는 함수는 decision_function과 predict_proba 크게 두가지가 있다. 대부분의 분류 클래스가 두 함수(최소 한개)를 제공한다. 이진분류뿐만 아니라 다중 분류에도 사용할 수 있다. 예측을 만들어내는 것은 decision_function과 predict_proba 출력의 임계값을 검증하는 것인데, 이진탐색에서 임계값은 각각 0과 0.5이다. 이진 분류에서 decision_function 결과값은 n_samples이며 각 샘플이 하나의 실수 값을 반환한다. decision_function 값의 범위는 데이터와 모델 파라미터에 따라 달라진다. 반면, predict_proba는 각 ..

그리드 서치로 최적화 하이퍼파라미터 찾기 (GridSearchCV) 머신러닝에서 모델의 성능을 높이기 위해서는 하이퍼파라미터를 적절하게 튜닝하는 것이 중요하다. 이 때 파라미터를 직접 하나하나 조정해가면서 최적의 성능을 찾을 수도 있겠지만 다소 무식한 방법이고 어떤 것이 최적화된 매개변수 값인지 알 수 없다. 그래서 사용하는 것이 그리드 서치나 랜덤서치, 베이지안 최적화와 같은 방법이다. 이번 포스팅에서는 가장 기초인 그리드 서치에 대해서 알아보자. 우선 데이터 셋은 단순히 훈련/테스트 셋으로만 나누면 새로운 데이터를 모델에 넣었을 때 맞지 않을 수 있기 때문에 중간에 모델의 성능을 평가하는 검증 셋도 반드시 필요하다. 보통 6:2:2의 비율로 훈련/검증/테스트 셋을 나눈다. 자세한 내용은 아래 포스팅을 참고 validation set이란 무엇일까? 그리드 서치란? 그리..

axis=1 뜻, 판다스 drop함수로 간단하게 알아보기 판다스에서 평균을 계산하거나 drop 함수 등을 사용할 때 파라미터에 axis=1을 넣는 경우가 많다. 습관적으로, 혹은 남들이 쓰는 코드에 그렇게 되어 있어서 똑같이 따라 쓰는 경우가 많았는데 이번 기회에 제대로 axis=1의 뜻을 알아보자. drop함수의 파라미터 중 하나인 axis에 대한 설명이다. 보면 index를 drop하려면 axis=0으로 설정하고, 컬럼을 drop하려면 axis=1로 설정하라고 써있다. 즉, aix=0은 행을 기준으로 동작하는 것이고 axis=1은 열을 기준으로 동작하는 것이다. heart.csv파일에서 타겟 변수는 output이고 나머지 변수들은 모두 X변수이다. train, test 분리를 위해서 X,y를 지정해줘야 하는데 이 때 X는 heart 데이터에서 output ..

이전 1 ··· 3 4 5 6 7 8 9 다음

티스토리툴바