텍스트 마이닝 첫걸음 - (2)
·
데이터 분석/데이터 분석 기초
워드 클라우드 시각화 #워드클라우드 라이브러리 불러오기 import matplotlib.pyplot as plt from wordcloud import WordCloud import platform #폰트 경로 설정 font_path = "c:/Windows/Fonts/malgun.ttf" WordCloud함수의 주요 파라미터 font_path : 사용될 폰트의 경로 max_words : 허용되는 최대 단어 ( 기본값 200 ) backgroud_color : 워드클라우드 이미지의 배경색 ( 기본값 black) wc = WordCloud(font_path=font_path, background_color="white", relative_scaling=1, stopwords=stopwords) genera..
텍스트 마이닝 첫걸음 -(1)
·
데이터 분석/데이터 분석 기초
# 데이터 프레임을 출력합니다. df.head(5) title category content_text 0 연고전 고려대학교연세대학교라이벌전대학교 정기전 로그인 후 편집 가능한 문서입니다.이 문서는이 문단은 토론을 통해 표제어를 연... 1 Kurzgesagt – In a Nutshell 유튜버/K 은(는) 여기로 연결됩니다. EZ2DJ 3rdTRAX ~Absolute Pit... 2 전기요금 세금 로그인 후 편집 가능한 문서입니다.1. 개요1.1. 명칭2. 요금체계2.1. ... 3 LG 트윈스/2020년/10월 LG 트윈스 상위 문서: LG 트윈스/2020년 LG 트윈스 2020 시즌 페넌트레이스 ... 4 차량 번호판 차량 번호판 1. 개요2. 국가별 차량 번호판2.1. 아시아2.1.1. 대한민국2...
chipotle 주문 데이터 분석(3) - 데이터 분석 기초
·
데이터 분석/데이터 분석 기초
데이터 전처리 item_price 피처 itme_price 피처를 살펴보면 가격앞에 $ 문자가 잇다. 수치형 데이터로 변환하기 위해서는 $ 문자를 제거해야 한다. chipo['item_price'].head() 0 $2.39 1 $3.39 2 $3.39 3 $2.39 4 $16.98 Name: item_price, dtype: object chipo['item_price']=chipo['item_price'].apply(lambda x : float(x[1:])) chipo['item_price'].head() 0 2.39 1 3.39 2 3.39 3 2.39 4 16.98 Name: item_price, dtype: float64 탐색적 분석 주문당 평균 계산 금액 출력하기 order_id로 그룹 생성..
chipotle 주문 데이터 분석(2) - 데이터 분석 기초
·
데이터 분석/데이터 분석 기초
데이터 탐색과 시각화 가장 많이 주문한 아이템 top 10 value_counts() 함수는 컬럼내 데이터의 빈도수를 반환한다(내림차순) item_count = chipo['item_name'].value_counts()[:10] print(item_count) Chicken Bowl 726 Chicken Burrito 553 Chips and Guacamole 479 Steak Burrito 368 Canned Soft Drink 301 Chips 211 Steak Bowl 211 Bottled Water 162 Chicken Soft Tacos 115 Chicken Salad Bowl 110 Name: item_name, dtype: int64 아이템 주문 개수와 총량 group by() 함수를 이용..
chipotle 주문 데이터 분석(1) - 데이터 분석 기초
·
데이터 분석/데이터 분석 기초
데이터 불러오기 import pandas as pd chipo = pd.read_csv('C:/Users/ariz/Desktop/슬기로운 방학생활/이것이 데이터 분석이다/data/chipotle.tsv',sep='\t') print(chipo.shape) print('---------------------------------') print(chipo.info()) chipo.head() (4622, 5) --------------------------------- RangeIndex: 4622 entries, 0 to 4621 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ord..
데이터 시각화 기초
·
데이터 분석/데이터 분석 기초
기본 그래프 그리기 import matplotlib.pyplot as plt plt.plot([1,5,10,15,20]) plt.show() # y축 / x축 plt.plot([1,5,10,15,20],[1,4,8,10,30]) plt.show() 그래프에 제목 넣기 - title() #title() 함수를 통해 제목을 넣을 수 있다. plt.title("Title") plt.plot([1,5,10,15,20]) plt.show() 그래프에 범례 넣기 #범례 plt.title('cross') plt.plot([10,20,30,40],label ='asc') #증가를 의미하는 asc 범례 plt.plot([40,30,20,10],label='desc') #감소를 의미하는 desc 범례 plt.legend(..
ariz1623
'데이터 분석/데이터 분석 기초' 카테고리의 글 목록