토이프로젝트 - 인스타그램 크롤링
·
데이터 분석/토이프로젝트
인스타그램 크롤링 인스타그램 URL을 만들어서 접속 제일 처음 게시물을 클릭하여 내용을 가져온다. 그다음 차례대로 옆으로 이동하며 내용을 가져온다. 인스타그램 접속하기 chorme driver를 통해 인스타그램에 접속 해보자. from selenium import webdriver driver = webdriver.Chrome('chromedriver.exe') import time # 인스타그램 접속하기 driver.get('https://www.instargram.com') #로딩하는데 시간이 걸릴 수 있으므로 3초간 대기 time.sleep(3) 인스타그램은 계정을 로그인하여야 원활한 크롤링을 진행 할 수 있다. # 인스타계정으로 로그인 insta_id = '인스..
토이프로젝트 - 인스타그램
·
데이터 분석/토이프로젝트
프로젝트 개요 인스타그램에 키워드를 검색 (나는 부산맛집, 부산데이트, 부산여행 검색) 검색해서 나오는 게시글들의 본문, 좋아요 수, 해쉬태그,위치 등등을 크롤링 해쉬태그 빈도수를 이용하여 워드 클라우드 크롤링 내용중 위치 정보를 기반으로 하여 지도 시각화(foilum 라이브러리를 이용)
코딩야학 - 데이터 전처리, 효율높은 모델링
·
데이터 분석/코딩야학
판다스를 이용한 간단한 데이터 전처리 변수(칼럼) 데이터 확인 : 데이터.dtypes 변수를 범주형으로 변경 데이터['칼럼명'].astype('category') 변수를 수치형으로 변경 데이터['칼럼명'].astype('int') 데이터['칼럼명'].asfloat('float') NA 값의 처리 NA 갯수 체크 : 데이터.isna().sum() na 값 채우기 : 데이터['칼럼명'].fillna(특정숫자) # 라이브러리 사용 import pandas as pd # 파일 읽어오기 파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/maste..
코딩야학 - 히든레이어
·
데이터 분석/코딩야학
히든 레이어 기존의 입력 부분과 출력 부분사이에 퍼셉트론을 이어주면 딥러닝이 깊어진다고 하는데, 그 추가된 퍼셉트론을 숨겨진 층 , 즉 히든 레이어 라고 한다 . 처음 인풋 데이터에서 총 5개의 퍼셉트론을 통해 히든레이어를 구성한다. 히든레이어 에서는 하나의 퍼셉트론으로 output Layer를 도출 할 수 있다. 히든레이어 구조를 생성하는 코드는 다음과 같다. 3개의 히든레이어를 만들고 싶으면 다음과 같이 코딩할 수 있다. 이렇게 하면 그전의 모델보다 더 똑똑한 모델을 학습할 수 있다. 보스턴 집값 예측 ########################## # 라이브러리 사용 import tensorflow as tf import pandas as pd # 1.과거의 데이터를 준비합니다. 파일경로 = &#3..
코딩야학 - 아이리스 품종 분류
·
데이터 분석/코딩야학
아이리스 데이터를 살펴보면 꽃잎과 꽃받침의 데이터를 가지고 품종을 예측하는 것이다. 이전에 예측했던 예제의 종속변수는 양적 데이터 였지만 아이리스 데이터의 종속 변수는 범주형 데이터 타입이다. 앞의 회귀와 어떤 차이가 있는지 코드로 살펴 보자. #1.과거의 데이터를 준비합니다. 부분에서는 회귀에서 못보던 get_dummies 코드가 추가된 것을 알 수있다. #2. 모델의 구조를 만듭니다. 부분에서는 종속변수의 갯수가 3개이고 activation 부분과 loss 부분이 달라진것을 알 수 있습니다 . 코드에 대해 알아 보기 전에 원-핫 인코딩에 대해 알아 봅시다. 원핫인코딩 범주형 자료는 수식으로 표현 할 수 없기 때문에 딥러닝 모델을 사용할 수없다. 원핫인코딩은 범주형 데이터를 1과 0의 데이터 바꿔주는 ..
코딩야학 - 보스턴 집값 예측
·
데이터 분석/코딩야학
실습을 진행하기전에 데이터를 먼저 살펴 보자. 각각의 행은 타운을 의미하고 각 열은 특성들을 의미한다. 이중에서 제일 중요한 열은 14번째 열인데, 해당 타운에있는 집값의 중앙 값이다. 일반적으로 평균값이 집단을 대표하기 좋은 지표이다. 하지만 어떤 경우에는 집단을 대표하기에는 매우취약하다. 단적으로 평균연봉을 보면 연봉이 매우높은사람의 금액이 너무 높아서 전체 평균연봉에 영향을 주고 그 때문에 전체를 대표하는 연봉으로 하기에는 괴리가 생긴다. 전체 집단의 수치와 비교하여 상이하고 높거나 낮아서 평균의 대표성을 무너트리는 값들을 이상치 라고 한다. 이러한 이상치 때문에 평균값이 대표성을 띄지 못할 때 중앙값을 쓴다. 이제 코드를 살펴보자 .. 위 코드에서 #2. 모델의 구조를 만듭니다 이부분에 대해 알아..
ariz1623
'데이터 분석' 카테고리의 글 목록 (3 Page)