회귀
·
머신러닝
파이썬 머신러닝 완벽 가이드 (권철민 저)을 요약정리했습니다. 회귀 통계학에서 회귀는 여러 개의 독립변수와 한 개의 종속 변수 간의 상관관계를 모델링하는 기법을 통칭한다. 회귀는 회귀계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수있다. 회귀에서 가장 중요한 것은 바로 회귀 계수인데, 이 회귀 계수가 선형이냐 아니냐에 따라 선형 회귀와 비선형 회귀로 나눌 수 있다. 그리고 독립변수가 한 개인지 여러 개 인지에 따라 단일 회귀, 다중회귀로 나뉜다. 여러 가지 회귀 중에서는 선형 회귀가 가장 많이 사용 된다. 선형 회귀는 실제 값과 예측값의 차이(오류의 제곱값)를 최소화 하는 직선형 회귀선을 최적화하는 방식이다. 선형 회귀 모델은 규제방법에 따라 다시 별도의 유..
XGBoost
·
카테고리 없음
XGBoost(eXtra Gradient Boost) XGBoost는 트리 기반의 앙상블 학습에서 가장 각광을 받는 알고리즘중 하나이다. 분류에 있어서 일반적으로 다른 머신러닝보다 뛰어난 예측 성능을 나타낸다. XGBoost는 GBM에 기반하지만 , GBM의 단점인 느린 수행시간 및 과적합 규제 부재 등의 문제를 해결해서 매우 각곽 받고 있다. 특히 XGBoost는 병렬 CPU 환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습을 완료할 수 있다. XGBoost의 장점 항목 설명 뛰어난 예측 성능 일반적으로 분류의 회귀 영억에서 뛰어난 예측 성능을 발휘합니다. GBM 대비 빠른 수행 시간 XGBoost 는 병령 수행 및 다양한 기능으로 GBM에 비해 빠른 수행 성능을 보장한다. 과적합 규제 XGBo..
타이타닉 생존자 예측 -사이킷런
·
머신러닝
사이킷런으로 수행하는 타이타닉 생존자 예측 캐글에서 제공하는 타이타닉 탑승자 데이터를 기반으로 생존자 예측을 사이킷런으로 수행행 보겠습니다. 1. 타이타닉 데이터 전처리 이번 예제에서는 파이썬의 대표적인 시각화 패키지인 맷플롯립과 시본을 이용해 차트와 그래프도 함께 시각화하면서 데이터 분석을 진행 해보자 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns titanic_df = pd.read_csv('./excel/titanic_train.csv') titanic_df.head(3) PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket F..
데이터 전처리
·
머신러닝
데이터 전처리 ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력하느냐에 따라 결과는 천차만별이다. 그래서 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다. 예를 들어 결측치의 경우 고정된 다른 값으로 변환해야 한다. 만약 결측치가 대부분을 이루는 변수라면 사용하지 않는 것이 바람직하다. NULL값이 애매하게 존재하는 경우가 가끔 존재 하는데, 해당 변수의 변수 중요도가 높고 결측치를 평균이나 중간값으로 대체 하였을 때, 결과 왜곡될 가능성이 높다면 다른 대체 데이터를 선정해야 한다. 그리고 머신러닝 알고리즘은 문자열 값을 그대로 입력값으로 받을 수 없다. 그래서 모든 문자열은 인코딩 시켜 주어야 한다. 문자열 변수는 보통 카테고리형 변수와 텍스트형 변수로 ..
사이킷런의 Model Selection 모듈
·
머신러닝
Model Selection 모듈 소개 사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 셋을 분리하거나 교차 검증 분할 및 평가,그리고 하이퍼 파라미터 튜닝을위한 다양한 함수와클래스르 제공한다. 1. 학습/테스트 데이터 셋 분리 - train_test_split 먼저 테스트 데이터 셋을 이용하지 않고 학습 데이터 셋으로만 학습하고 예측하면 무엇이 문제인지 살펴보자 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score iris = load_iris() dt_clf = DecisionTreeClassifi..
사이킷런 기반의 프레임 워크
·
머신러닝
사이킷런기반 프레임워크 익히기 1. Estimator 이해 fit(), predict() 메서드 사이킷런은 ML 모델 학습을 위해서 fit()을 , 학습된 모델의 예측을 위해 predict() 메서드를 제공. 지도학습의 주요 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit()와 predict() 만을 이용해 간단하게 학습과 예측 결과를 반환 사이킷런에선느 분류 알고리즘을 구현한 클래스를 Classifier, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭 Classifier 와 Regressor을 합쳐서 Estimator 클래스라고 부른다. 즉 ,지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator 라고 부른다. corss_val_score() 와 ..
ariz1623
'사이킷런' 태그의 글 목록