numpy, pandas 기초
·
머신러닝
넘파이 ndarray ,파이썬 리스트, 딕셔너리 - > DataFrame 생성 1차원 형태의 데이터를 기반으로 DataFrame 생성 1차원 형태의 데이터를 기반으로 DataFrame을 생성하므로 칼럼명이 한개 필요. import numpy as np import pandas as pd col_name1=['col1'] list1=[1, 2, 3] array1= np.array(list1) print('array1 shape:', array1.shape) #리스트를 이용해 DataFrame 생성. df_list1 = pd.DataFrame(list1, columns = col_name1) print('\n',list1,'\n') print('1차원 리스트로 만든 DataFrame:\n', df_list1..
타이타닉 생존자 예측 -사이킷런
·
머신러닝
사이킷런으로 수행하는 타이타닉 생존자 예측 캐글에서 제공하는 타이타닉 탑승자 데이터를 기반으로 생존자 예측을 사이킷런으로 수행행 보겠습니다. 1. 타이타닉 데이터 전처리 이번 예제에서는 파이썬의 대표적인 시각화 패키지인 맷플롯립과 시본을 이용해 차트와 그래프도 함께 시각화하면서 데이터 분석을 진행 해보자 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns titanic_df = pd.read_csv('./excel/titanic_train.csv') titanic_df.head(3) PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket F..
데이터 전처리
·
머신러닝
데이터 전처리 ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력하느냐에 따라 결과는 천차만별이다. 그래서 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다. 예를 들어 결측치의 경우 고정된 다른 값으로 변환해야 한다. 만약 결측치가 대부분을 이루는 변수라면 사용하지 않는 것이 바람직하다. NULL값이 애매하게 존재하는 경우가 가끔 존재 하는데, 해당 변수의 변수 중요도가 높고 결측치를 평균이나 중간값으로 대체 하였을 때, 결과 왜곡될 가능성이 높다면 다른 대체 데이터를 선정해야 한다. 그리고 머신러닝 알고리즘은 문자열 값을 그대로 입력값으로 받을 수 없다. 그래서 모든 문자열은 인코딩 시켜 주어야 한다. 문자열 변수는 보통 카테고리형 변수와 텍스트형 변수로 ..
사이킷런의 Model Selection 모듈
·
머신러닝
Model Selection 모듈 소개 사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 셋을 분리하거나 교차 검증 분할 및 평가,그리고 하이퍼 파라미터 튜닝을위한 다양한 함수와클래스르 제공한다. 1. 학습/테스트 데이터 셋 분리 - train_test_split 먼저 테스트 데이터 셋을 이용하지 않고 학습 데이터 셋으로만 학습하고 예측하면 무엇이 문제인지 살펴보자 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score iris = load_iris() dt_clf = DecisionTreeClassifi..
사이킷런 기반의 프레임 워크
·
머신러닝
사이킷런기반 프레임워크 익히기 1. Estimator 이해 fit(), predict() 메서드 사이킷런은 ML 모델 학습을 위해서 fit()을 , 학습된 모델의 예측을 위해 predict() 메서드를 제공. 지도학습의 주요 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit()와 predict() 만을 이용해 간단하게 학습과 예측 결과를 반환 사이킷런에선느 분류 알고리즘을 구현한 클래스를 Classifier, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭 Classifier 와 Regressor을 합쳐서 Estimator 클래스라고 부른다. 즉 ,지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator 라고 부른다. corss_val_score() 와 ..
사이킷런을 이용한 머신러닝
·
머신러닝
사이킷런 사이킷런은 파이썬 머신러닝 라이브러리중 가장 많이 사용 되는 라이브러리이다. 첫 번째 머신러닝 만들어보기 - 붓꽃 품종 예측하기 붓꽃 데이터셋은 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피쳐를 기반으로 꽃의 품종을 예측하기 위한 것입니다. 분류는 대표적인 지도학승방법의 하나이고, 지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블 데이터로 모델을 학습한뒤, 별도의 테스트 데이터 셋의 미지의 레이블을 예측합니다. 학습을 위해 주어진 데이터 셋을 학습 데이터 셋, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 셋을 테스트 데이터 셋으로 지칭함. 1. 사이킷런 패키지내의 모듈명 명명 규칙 모든모듈명은 sklearn으로 시작 sklearn.datasets 내의 모듈은 사이킷런..
ariz1623
코딩의 숲