chipotle 주문 데이터 분석(3) - 데이터 분석 기초
·
데이터 분석/데이터 분석 기초
데이터 전처리 item_price 피처 itme_price 피처를 살펴보면 가격앞에 $ 문자가 잇다. 수치형 데이터로 변환하기 위해서는 $ 문자를 제거해야 한다. chipo['item_price'].head() 0 $2.39 1 $3.39 2 $3.39 3 $2.39 4 $16.98 Name: item_price, dtype: object chipo['item_price']=chipo['item_price'].apply(lambda x : float(x[1:])) chipo['item_price'].head() 0 2.39 1 3.39 2 3.39 3 2.39 4 16.98 Name: item_price, dtype: float64 탐색적 분석 주문당 평균 계산 금액 출력하기 order_id로 그룹 생성..
chipotle 주문 데이터 분석(2) - 데이터 분석 기초
·
데이터 분석/데이터 분석 기초
데이터 탐색과 시각화 가장 많이 주문한 아이템 top 10 value_counts() 함수는 컬럼내 데이터의 빈도수를 반환한다(내림차순) item_count = chipo['item_name'].value_counts()[:10] print(item_count) Chicken Bowl 726 Chicken Burrito 553 Chips and Guacamole 479 Steak Burrito 368 Canned Soft Drink 301 Chips 211 Steak Bowl 211 Bottled Water 162 Chicken Soft Tacos 115 Chicken Salad Bowl 110 Name: item_name, dtype: int64 아이템 주문 개수와 총량 group by() 함수를 이용..
chipotle 주문 데이터 분석(1) - 데이터 분석 기초
·
데이터 분석/데이터 분석 기초
데이터 불러오기 import pandas as pd chipo = pd.read_csv('C:/Users/ariz/Desktop/슬기로운 방학생활/이것이 데이터 분석이다/data/chipotle.tsv',sep='\t') print(chipo.shape) print('---------------------------------') print(chipo.info()) chipo.head() (4622, 5) --------------------------------- RangeIndex: 4622 entries, 0 to 4621 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ord..
데이터 시각화 기초
·
데이터 분석/데이터 분석 기초
기본 그래프 그리기 import matplotlib.pyplot as plt plt.plot([1,5,10,15,20]) plt.show() # y축 / x축 plt.plot([1,5,10,15,20],[1,4,8,10,30]) plt.show() 그래프에 제목 넣기 - title() #title() 함수를 통해 제목을 넣을 수 있다. plt.title("Title") plt.plot([1,5,10,15,20]) plt.show() 그래프에 범례 넣기 #범례 plt.title('cross') plt.plot([10,20,30,40],label ='asc') #증가를 의미하는 asc 범례 plt.plot([40,30,20,10],label='desc') #감소를 의미하는 desc 범례 plt.legend(..
매년 새해 첫날의 기온 그래프 - 데이터 분석 기초
·
데이터 분석/데이터 분석 기초
새해 첫날의 기온 그래프 그리기 # 데이터 읽어오기 import csv f = open('./excel/seoul.csv') data = csv.reader(f) next(data) # 헤더 부분을 next() 함수를 사용해 제외 result = [] for row in data: if row[-1] != '': #최고 기온의 값이 존대한다면 result.append(float(row[-1])) # result 리스트에 최고 기온의 값 추가 print(len(result)) import pandas as pd data =pd.read_csv('./excel/seoul.csv',encoding='cp949') print(data.info()) data.head() RangeIndex: 40221 entri..
pandas 기초 (2)
·
데이터 분석/데이터 분석 기초
데이터 누락 다루기 pandas는 결측치를 numpy.nan 을 사용해서 표기하는데 이는 숫자와 달라 혼동을 피할 수 있다. 또 pandas는 결측치를 탐지하고 보정하는 함수를 제공한다. 결측치는 반드시 삭제하거나 맥락에 맞는 다른 값으로 교체해서 보정해야한다. 결측치 삭제 dropna() 함수는 결측치를 가진 열(axis=0,기본값) 이나 행(axis=1)의 일부 (how="any",기본값) 또는 전체 (how="all")를 삭제하고, '정제된' 데이터 프레임 복사본dmf 반환 한다. 데이터 프레임의 구조자체를 파괴하지 않는 한 결측치만 제거할 수는 없다.. nan_alco Beer Wine Spirits Water State South Carolina 1.36 0.24 0.77 NaN South Da..
ariz1623
'판다스' 태그의 글 목록