회귀
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 회귀 통계학에서 회귀는 여러 개의 독립변수와 한 개의 종속 변수 간의 상관관계를 모델링하는 기법을 통칭한다. 회귀는 회귀계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수있다. 회귀에서 가장 중요한 것은 바로 회귀 계수인데, 이 회귀 계수가 선형이냐 아니냐에 따라 선형 회귀와 비선형 회귀로 나눌 수 있다. 그리고 독립변수가 한 개인지 여러 개 인지에 따라 단일 회귀, 다중회귀로 나뉜다. 여러 가지 회귀 중에서는 선형 회귀가 가장 많이 사용 된다. 선형 회귀는 실제 값과 예측값의 차이(오류의 제곱값)를 최소화 하는 직선형 회귀선을 최적화하는 방식이다. 선형 회귀 모델은 규제방법에 따라 다시 별도의 유..
스태킹 앙상블
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 스태킹 앙상블 스태킹은 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 점에서 배깅 및 부스팅과 공통점을 가지고 있다. 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것이다. 즉, 개별 알고리즘의 예측 결과 데이터 셋을 최종적인 메타 데이터 셋으로 만들어 별도의 ML알고리즘으로 최종학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행하는 방식이다. 스태킹 모델은 두 종류의 모델이 필요한데, 첫 번째는 개별적인 기반 모델이고, 두 번째는 이 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델 이다. 스태킹을 적용할 때는 많은 개별 모델이 필요하다. 2~3개..
LightGBM
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. LightGBM LightGBM은 XGBoost 보다 학습에 걸리는 시간도 훨씬 짧고, 메모리 사용량도 적은 모델이다. LightGBM의 Light는 이러한 장점 때문에 붙여졌다. LightGBM은 리프 중심 트리 분할 방식으로 트리의 균형을 맞추지 않고, 최대 손실값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가 깊어지고, 비대칭적인 규칙 트리가 생성 된다. 이렇게 최대 손실값을 가지는 리프 노드를 지속적으로 분할해 생성된 규칙 트리는 학습을 반복할수록 결국은 균형 트리 분할 방식보다 예측 오류 손실을 최소화 할 수 있다는 것이 LightGBM의 구현 사상이다. LightGBM의 XGBoost 대비 장점 XGBoost 대비 더 빠..
XGBoost
·
카테고리 없음
XGBoost(eXtra Gradient Boost) XGBoost는 트리 기반의 앙상블 학습에서 가장 각광을 받는 알고리즘중 하나이다. 분류에 있어서 일반적으로 다른 머신러닝보다 뛰어난 예측 성능을 나타낸다. XGBoost는 GBM에 기반하지만 , GBM의 단점인 느린 수행시간 및 과적합 규제 부재 등의 문제를 해결해서 매우 각곽 받고 있다. 특히 XGBoost는 병렬 CPU 환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습을 완료할 수 있다. XGBoost의 장점 항목 설명 뛰어난 예측 성능 일반적으로 분류의 회귀 영억에서 뛰어난 예측 성능을 발휘합니다. GBM 대비 빠른 수행 시간 XGBoost 는 병령 수행 및 다양한 기능으로 GBM에 비해 빠른 수행 성능을 보장한다. 과적합 규제 XGBo..
결정 트리
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 결정트리 결정 트리는 ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘이다. 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것이다. 일반적으로 규칙을 가장 쉽게 표현하는 방법은 if/else 기반으로 나타내는 것이다. 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘 성능을 크게 좌우 한다. 1. 결정트리의 구조 다음 그림은 결정 트리의 구조를 간략하게 나타낸 것이다. 규칙 노드는 규칙 조건이고,리프 노드는 결정된 클래스 값이다. 그리고 새로운 규칙 조건마다 서브 트리(Sub Tree)가 생성된다. 데이터 셋에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들 때 ..
머신러닝 성능 평가
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 성능 평가 머신러닝의 파이프라인을 살펴보면 데이터 가공 -> 데이터 변환 -> 모델 학습 -> 모델 예측 -> 평가 순으로 구성된다. 일반적으로 회귀는 실제 값과 예측값의 오차 평균 값으로 성능 평가를 한다. 분류에 사용되는 성능 지표는 다음과 같다. 자세히 한 번 알아보자. 정확도(Accuracy) 오차 행렬 (Confusion Matrix) 정밀도 ( Precision ) 재현율 ( Recall ) F1 스코어 ROC AUC 1. 정확도(Accuracy) 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표이다. $정확도(Accuracy) = \frac {예측 결과가 동일한 데이터 건수} {전체 예측 데이터 건수}$ 정확도는..
ariz1623
'머신러닝' 태그의 글 목록 (4 Page)