스태킹 앙상블
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 스태킹 앙상블 스태킹은 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 점에서 배깅 및 부스팅과 공통점을 가지고 있다. 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것이다. 즉, 개별 알고리즘의 예측 결과 데이터 셋을 최종적인 메타 데이터 셋으로 만들어 별도의 ML알고리즘으로 최종학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행하는 방식이다. 스태킹 모델은 두 종류의 모델이 필요한데, 첫 번째는 개별적인 기반 모델이고, 두 번째는 이 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델 이다. 스태킹을 적용할 때는 많은 개별 모델이 필요하다. 2~3개..
LightGBM
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. LightGBM LightGBM은 XGBoost 보다 학습에 걸리는 시간도 훨씬 짧고, 메모리 사용량도 적은 모델이다. LightGBM의 Light는 이러한 장점 때문에 붙여졌다. LightGBM은 리프 중심 트리 분할 방식으로 트리의 균형을 맞추지 않고, 최대 손실값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가 깊어지고, 비대칭적인 규칙 트리가 생성 된다. 이렇게 최대 손실값을 가지는 리프 노드를 지속적으로 분할해 생성된 규칙 트리는 학습을 반복할수록 결국은 균형 트리 분할 방식보다 예측 오류 손실을 최소화 할 수 있다는 것이 LightGBM의 구현 사상이다. LightGBM의 XGBoost 대비 장점 XGBoost 대비 더 빠..
앙상블 학습 개요
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 앙상블 학습 앙상블 학습을 통한 분류는 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측 결과를 도출 하는 기법을 말한다. 앙상블 학습의 유형은 보팅,배깅, 부스팅 세 가지로 나눌 수 있으며, 이외에도 스태킹을 포함한 다양한 앙상블 기법이 있다. 보팅과 배깅 보팅과 배깅의 다른점은 보팅의 경우 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합한 것이고 배깅의 경우 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅 하는 것이다. 대표적인 배깅 방식이 바로 랜덤 포레스트 알고리즘 이다. 부스팅 부스팅은 여러 개의 분류기가 순차적으로 학습을 수행하 되, 분류기..
결정 트리
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 결정트리 결정 트리는 ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘이다. 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것이다. 일반적으로 규칙을 가장 쉽게 표현하는 방법은 if/else 기반으로 나타내는 것이다. 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘 성능을 크게 좌우 한다. 1. 결정트리의 구조 다음 그림은 결정 트리의 구조를 간략하게 나타낸 것이다. 규칙 노드는 규칙 조건이고,리프 노드는 결정된 클래스 값이다. 그리고 새로운 규칙 조건마다 서브 트리(Sub Tree)가 생성된다. 데이터 셋에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들 때 ..
머신러닝 성능 평가
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 성능 평가 머신러닝의 파이프라인을 살펴보면 데이터 가공 -> 데이터 변환 -> 모델 학습 -> 모델 예측 -> 평가 순으로 구성된다. 일반적으로 회귀는 실제 값과 예측값의 오차 평균 값으로 성능 평가를 한다. 분류에 사용되는 성능 지표는 다음과 같다. 자세히 한 번 알아보자. 정확도(Accuracy) 오차 행렬 (Confusion Matrix) 정밀도 ( Precision ) 재현율 ( Recall ) F1 스코어 ROC AUC 1. 정확도(Accuracy) 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표이다. $정확도(Accuracy) = \frac {예측 결과가 동일한 데이터 건수} {전체 예측 데이터 건수}$ 정확도는..
numpy, pandas 기초
·
머신러닝
넘파이 ndarray ,파이썬 리스트, 딕셔너리 - > DataFrame 생성 1차원 형태의 데이터를 기반으로 DataFrame 생성 1차원 형태의 데이터를 기반으로 DataFrame을 생성하므로 칼럼명이 한개 필요. import numpy as np import pandas as pd col_name1=['col1'] list1=[1, 2, 3] array1= np.array(list1) print('array1 shape:', array1.shape) #리스트를 이용해 DataFrame 생성. df_list1 = pd.DataFrame(list1, columns = col_name1) print('\n',list1,'\n') print('1차원 리스트로 만든 DataFrame:\n', df_list1..
ariz1623
'머신러닝' 카테고리의 글 목록 (4 Page)