XGBoost
·
카테고리 없음
XGBoost(eXtra Gradient Boost) XGBoost는 트리 기반의 앙상블 학습에서 가장 각광을 받는 알고리즘중 하나이다. 분류에 있어서 일반적으로 다른 머신러닝보다 뛰어난 예측 성능을 나타낸다. XGBoost는 GBM에 기반하지만 , GBM의 단점인 느린 수행시간 및 과적합 규제 부재 등의 문제를 해결해서 매우 각곽 받고 있다. 특히 XGBoost는 병렬 CPU 환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습을 완료할 수 있다. XGBoost의 장점 항목 설명 뛰어난 예측 성능 일반적으로 분류의 회귀 영억에서 뛰어난 예측 성능을 발휘합니다. GBM 대비 빠른 수행 시간 XGBoost 는 병령 수행 및 다양한 기능으로 GBM에 비해 빠른 수행 성능을 보장한다. 과적합 규제 XGBo..
앙상블 학습 개요
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 앙상블 학습 앙상블 학습을 통한 분류는 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측 결과를 도출 하는 기법을 말한다. 앙상블 학습의 유형은 보팅,배깅, 부스팅 세 가지로 나눌 수 있으며, 이외에도 스태킹을 포함한 다양한 앙상블 기법이 있다. 보팅과 배깅 보팅과 배깅의 다른점은 보팅의 경우 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합한 것이고 배깅의 경우 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅 하는 것이다. 대표적인 배깅 방식이 바로 랜덤 포레스트 알고리즘 이다. 부스팅 부스팅은 여러 개의 분류기가 순차적으로 학습을 수행하 되, 분류기..
코딩야학 - 보스턴 집값 예측
·
데이터 분석/코딩야학
실습을 진행하기전에 데이터를 먼저 살펴 보자. 각각의 행은 타운을 의미하고 각 열은 특성들을 의미한다. 이중에서 제일 중요한 열은 14번째 열인데, 해당 타운에있는 집값의 중앙 값이다. 일반적으로 평균값이 집단을 대표하기 좋은 지표이다. 하지만 어떤 경우에는 집단을 대표하기에는 매우취약하다. 단적으로 평균연봉을 보면 연봉이 매우높은사람의 금액이 너무 높아서 전체 평균연봉에 영향을 주고 그 때문에 전체를 대표하는 연봉으로 하기에는 괴리가 생긴다. 전체 집단의 수치와 비교하여 상이하고 높거나 낮아서 평균의 대표성을 무너트리는 값들을 이상치 라고 한다. 이러한 이상치 때문에 평균값이 대표성을 띄지 못할 때 중앙값을 쓴다. 이제 코드를 살펴보자 .. 위 코드에서 #2. 모델의 구조를 만듭니다 이부분에 대해 알아..
코딩야학-레모네이드 판매 예측 실습
·
데이터 분석/코딩야학
위 그림은 학습을 10번 하는 코드의 출력 값이다. 출력 부분을 자세히 살펴 보자. 먼저 파랑색 부분은 학습이 얼마나 진행 되었는지 진행 상황을 알려준다. 가운데 주황색 부분은 각 학습마다 소요된 시간을 알려주고, 마지막에 loss 부분은 각 학습이 정답을 얼마나 맞추고 있는지 나타내고 있는 것이다. 독립 변수와 종속 변수를 모델에 넣으면 모델은 각 학습 과정에서 예측을 진행하고 종속 변수와 예측 결과의 차이. 즉, 오차 제곱의 평균을 loss 라고 한다. loss는 0에 가까울 수록 좋다 레모네이드 판매 예측 실습 # 라이브러리 사용 import tensorflow as tf import pandas as pd # 데이터를 준비합니다. 파일경로 = 'https://raw.githubusercon..
결정 트리
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 결정트리 결정 트리는 ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘이다. 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것이다. 일반적으로 규칙을 가장 쉽게 표현하는 방법은 if/else 기반으로 나타내는 것이다. 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘 성능을 크게 좌우 한다. 1. 결정트리의 구조 다음 그림은 결정 트리의 구조를 간략하게 나타낸 것이다. 규칙 노드는 규칙 조건이고,리프 노드는 결정된 클래스 값이다. 그리고 새로운 규칙 조건마다 서브 트리(Sub Tree)가 생성된다. 데이터 셋에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들 때 ..
머신러닝 성능 평가
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 성능 평가 머신러닝의 파이프라인을 살펴보면 데이터 가공 -> 데이터 변환 -> 모델 학습 -> 모델 예측 -> 평가 순으로 구성된다. 일반적으로 회귀는 실제 값과 예측값의 오차 평균 값으로 성능 평가를 한다. 분류에 사용되는 성능 지표는 다음과 같다. 자세히 한 번 알아보자. 정확도(Accuracy) 오차 행렬 (Confusion Matrix) 정밀도 ( Precision ) 재현율 ( Recall ) F1 스코어 ROC AUC 1. 정확도(Accuracy) 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표이다. $정확도(Accuracy) = \frac {예측 결과가 동일한 데이터 건수} {전체 예측 데이터 건수}$ 정확도는..
ariz1623
코딩의 숲