스태킹 앙상블
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 스태킹 앙상블 스태킹은 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 점에서 배깅 및 부스팅과 공통점을 가지고 있다. 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것이다. 즉, 개별 알고리즘의 예측 결과 데이터 셋을 최종적인 메타 데이터 셋으로 만들어 별도의 ML알고리즘으로 최종학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행하는 방식이다. 스태킹 모델은 두 종류의 모델이 필요한데, 첫 번째는 개별적인 기반 모델이고, 두 번째는 이 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델 이다. 스태킹을 적용할 때는 많은 개별 모델이 필요하다. 2~3개..
LightGBM
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. LightGBM LightGBM은 XGBoost 보다 학습에 걸리는 시간도 훨씬 짧고, 메모리 사용량도 적은 모델이다. LightGBM의 Light는 이러한 장점 때문에 붙여졌다. LightGBM은 리프 중심 트리 분할 방식으로 트리의 균형을 맞추지 않고, 최대 손실값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가 깊어지고, 비대칭적인 규칙 트리가 생성 된다. 이렇게 최대 손실값을 가지는 리프 노드를 지속적으로 분할해 생성된 규칙 트리는 학습을 반복할수록 결국은 균형 트리 분할 방식보다 예측 오류 손실을 최소화 할 수 있다는 것이 LightGBM의 구현 사상이다. LightGBM의 XGBoost 대비 장점 XGBoost 대비 더 빠..
XGBoost
·
카테고리 없음
XGBoost(eXtra Gradient Boost) XGBoost는 트리 기반의 앙상블 학습에서 가장 각광을 받는 알고리즘중 하나이다. 분류에 있어서 일반적으로 다른 머신러닝보다 뛰어난 예측 성능을 나타낸다. XGBoost는 GBM에 기반하지만 , GBM의 단점인 느린 수행시간 및 과적합 규제 부재 등의 문제를 해결해서 매우 각곽 받고 있다. 특히 XGBoost는 병렬 CPU 환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습을 완료할 수 있다. XGBoost의 장점 항목 설명 뛰어난 예측 성능 일반적으로 분류의 회귀 영억에서 뛰어난 예측 성능을 발휘합니다. GBM 대비 빠른 수행 시간 XGBoost 는 병령 수행 및 다양한 기능으로 GBM에 비해 빠른 수행 성능을 보장한다. 과적합 규제 XGBo..
코딩야학 - 보스턴 집값 예측
·
데이터 분석/코딩야학
실습을 진행하기전에 데이터를 먼저 살펴 보자. 각각의 행은 타운을 의미하고 각 열은 특성들을 의미한다. 이중에서 제일 중요한 열은 14번째 열인데, 해당 타운에있는 집값의 중앙 값이다. 일반적으로 평균값이 집단을 대표하기 좋은 지표이다. 하지만 어떤 경우에는 집단을 대표하기에는 매우취약하다. 단적으로 평균연봉을 보면 연봉이 매우높은사람의 금액이 너무 높아서 전체 평균연봉에 영향을 주고 그 때문에 전체를 대표하는 연봉으로 하기에는 괴리가 생긴다. 전체 집단의 수치와 비교하여 상이하고 높거나 낮아서 평균의 대표성을 무너트리는 값들을 이상치 라고 한다. 이러한 이상치 때문에 평균값이 대표성을 띄지 못할 때 중앙값을 쓴다. 이제 코드를 살펴보자 .. 위 코드에서 #2. 모델의 구조를 만듭니다 이부분에 대해 알아..
코딩야학-레모네이드 판매 예측 실습
·
데이터 분석/코딩야학
위 그림은 학습을 10번 하는 코드의 출력 값이다. 출력 부분을 자세히 살펴 보자. 먼저 파랑색 부분은 학습이 얼마나 진행 되었는지 진행 상황을 알려준다. 가운데 주황색 부분은 각 학습마다 소요된 시간을 알려주고, 마지막에 loss 부분은 각 학습이 정답을 얼마나 맞추고 있는지 나타내고 있는 것이다. 독립 변수와 종속 변수를 모델에 넣으면 모델은 각 학습 과정에서 예측을 진행하고 종속 변수와 예측 결과의 차이. 즉, 오차 제곱의 평균을 loss 라고 한다. loss는 0에 가까울 수록 좋다 레모네이드 판매 예측 실습 # 라이브러리 사용 import tensorflow as tf import pandas as pd # 데이터를 준비합니다. 파일경로 = 'https://raw.githubusercon..
결정 트리
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 결정트리 결정 트리는 ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘이다. 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것이다. 일반적으로 규칙을 가장 쉽게 표현하는 방법은 if/else 기반으로 나타내는 것이다. 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘 성능을 크게 좌우 한다. 1. 결정트리의 구조 다음 그림은 결정 트리의 구조를 간략하게 나타낸 것이다. 규칙 노드는 규칙 조건이고,리프 노드는 결정된 클래스 값이다. 그리고 새로운 규칙 조건마다 서브 트리(Sub Tree)가 생성된다. 데이터 셋에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들 때 ..
ariz1623
'파이썬' 태그의 글 목록 (10 Page)