코딩야학 - 데이터 전처리, 효율높은 모델링
·
데이터 분석/코딩야학
판다스를 이용한 간단한 데이터 전처리 변수(칼럼) 데이터 확인 : 데이터.dtypes 변수를 범주형으로 변경 데이터['칼럼명'].astype('category') 변수를 수치형으로 변경 데이터['칼럼명'].astype('int') 데이터['칼럼명'].asfloat('float') NA 값의 처리 NA 갯수 체크 : 데이터.isna().sum() na 값 채우기 : 데이터['칼럼명'].fillna(특정숫자) # 라이브러리 사용 import pandas as pd # 파일 읽어오기 파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/maste..
코딩야학 - 히든레이어
·
데이터 분석/코딩야학
히든 레이어 기존의 입력 부분과 출력 부분사이에 퍼셉트론을 이어주면 딥러닝이 깊어진다고 하는데, 그 추가된 퍼셉트론을 숨겨진 층 , 즉 히든 레이어 라고 한다 . 처음 인풋 데이터에서 총 5개의 퍼셉트론을 통해 히든레이어를 구성한다. 히든레이어 에서는 하나의 퍼셉트론으로 output Layer를 도출 할 수 있다. 히든레이어 구조를 생성하는 코드는 다음과 같다. 3개의 히든레이어를 만들고 싶으면 다음과 같이 코딩할 수 있다. 이렇게 하면 그전의 모델보다 더 똑똑한 모델을 학습할 수 있다. 보스턴 집값 예측 ########################## # 라이브러리 사용 import tensorflow as tf import pandas as pd # 1.과거의 데이터를 준비합니다. 파일경로 = &#3..
코딩야학 - 아이리스 품종 분류
·
데이터 분석/코딩야학
아이리스 데이터를 살펴보면 꽃잎과 꽃받침의 데이터를 가지고 품종을 예측하는 것이다. 이전에 예측했던 예제의 종속변수는 양적 데이터 였지만 아이리스 데이터의 종속 변수는 범주형 데이터 타입이다. 앞의 회귀와 어떤 차이가 있는지 코드로 살펴 보자. #1.과거의 데이터를 준비합니다. 부분에서는 회귀에서 못보던 get_dummies 코드가 추가된 것을 알 수있다. #2. 모델의 구조를 만듭니다. 부분에서는 종속변수의 갯수가 3개이고 activation 부분과 loss 부분이 달라진것을 알 수 있습니다 . 코드에 대해 알아 보기 전에 원-핫 인코딩에 대해 알아 봅시다. 원핫인코딩 범주형 자료는 수식으로 표현 할 수 없기 때문에 딥러닝 모델을 사용할 수없다. 원핫인코딩은 범주형 데이터를 1과 0의 데이터 바꿔주는 ..
코딩야학 - 보스턴 집값 예측
·
데이터 분석/코딩야학
실습을 진행하기전에 데이터를 먼저 살펴 보자. 각각의 행은 타운을 의미하고 각 열은 특성들을 의미한다. 이중에서 제일 중요한 열은 14번째 열인데, 해당 타운에있는 집값의 중앙 값이다. 일반적으로 평균값이 집단을 대표하기 좋은 지표이다. 하지만 어떤 경우에는 집단을 대표하기에는 매우취약하다. 단적으로 평균연봉을 보면 연봉이 매우높은사람의 금액이 너무 높아서 전체 평균연봉에 영향을 주고 그 때문에 전체를 대표하는 연봉으로 하기에는 괴리가 생긴다. 전체 집단의 수치와 비교하여 상이하고 높거나 낮아서 평균의 대표성을 무너트리는 값들을 이상치 라고 한다. 이러한 이상치 때문에 평균값이 대표성을 띄지 못할 때 중앙값을 쓴다. 이제 코드를 살펴보자 .. 위 코드에서 #2. 모델의 구조를 만듭니다 이부분에 대해 알아..
코딩야학-레모네이드 판매 예측 실습
·
데이터 분석/코딩야학
위 그림은 학습을 10번 하는 코드의 출력 값이다. 출력 부분을 자세히 살펴 보자. 먼저 파랑색 부분은 학습이 얼마나 진행 되었는지 진행 상황을 알려준다. 가운데 주황색 부분은 각 학습마다 소요된 시간을 알려주고, 마지막에 loss 부분은 각 학습이 정답을 얼마나 맞추고 있는지 나타내고 있는 것이다. 독립 변수와 종속 변수를 모델에 넣으면 모델은 각 학습 과정에서 예측을 진행하고 종속 변수와 예측 결과의 차이. 즉, 오차 제곱의 평균을 loss 라고 한다. loss는 0에 가까울 수록 좋다 레모네이드 판매 예측 실습 # 라이브러리 사용 import tensorflow as tf import pandas as pd # 데이터를 준비합니다. 파일경로 = 'https://raw.githubusercon..
코딩야학-지도 학습
·
데이터 분석/코딩야학
지도학습의 순서 과거의 데이터 준비. 원인-결과 데이터를 준비한다. 데이터과학과 머신러닝 분야에서는 원인데이터를 독립 변수라고 하고 결과 데이터를 종속 변수라고 한다. 모델의 구조를 만듦 온도를 알려주면 판매량을 예측해주는 기계를 만듦 머신러닝에서는 모델이라고한다. 과거의 데이터가 독립변수가 1개 종속변수가 1개이므로 그에 맞는 모델을 설계한다. 데이터로 모델을 학습 모델을 데이터에 맞게 fitting 시킨다. 머신러닝에서는 모델을 학습 한다고 한다. 모델을 이용 원하는 독립변수를 입력하고 학습된 모델을 바탕으로 그에 맞는 종속 변수를 도출한다.
ariz1623
'데이터 분석/코딩야학' 카테고리의 글 목록