코딩야학 - 데이터 전처리, 효율높은 모델링
·
데이터 분석/코딩야학
판다스를 이용한 간단한 데이터 전처리 변수(칼럼) 데이터 확인 : 데이터.dtypes 변수를 범주형으로 변경 데이터['칼럼명'].astype('category') 변수를 수치형으로 변경 데이터['칼럼명'].astype('int') 데이터['칼럼명'].asfloat('float') NA 값의 처리 NA 갯수 체크 : 데이터.isna().sum() na 값 채우기 : 데이터['칼럼명'].fillna(특정숫자) # 라이브러리 사용 import pandas as pd # 파일 읽어오기 파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/maste..
데이터 전처리
·
머신러닝
데이터 전처리 ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력하느냐에 따라 결과는 천차만별이다. 그래서 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다. 예를 들어 결측치의 경우 고정된 다른 값으로 변환해야 한다. 만약 결측치가 대부분을 이루는 변수라면 사용하지 않는 것이 바람직하다. NULL값이 애매하게 존재하는 경우가 가끔 존재 하는데, 해당 변수의 변수 중요도가 높고 결측치를 평균이나 중간값으로 대체 하였을 때, 결과 왜곡될 가능성이 높다면 다른 대체 데이터를 선정해야 한다. 그리고 머신러닝 알고리즘은 문자열 값을 그대로 입력값으로 받을 수 없다. 그래서 모든 문자열은 인코딩 시켜 주어야 한다. 문자열 변수는 보통 카테고리형 변수와 텍스트형 변수로 ..
ariz1623
'데이터 전처리' 태그의 글 목록