kt 에이블스쿨

교육을 듣기 시작하고 처음으로 미니프로젝트를 했다. 그냥 그동안 배운 내용들을 바탕으로 강사님께서 제공해주신 데이터를 불러와서 각자의 방식으로 가설을 세워서 분석해보고 가설을 검증해보는 것 등을 해보았다. 대부분 내용에 가이드라인을 제시해주셨고, 데이터도 어려운 구성이 아니었던 편인 것 같다. '서울시 버스 수요 분석'과 '서울시 따릉이 수요 분석'의 총 2개의 주제를 가지고 진행되었는데, 처음 3일동안은 서울시 버스 수요 분석, 마지막 4일차는 하룻동안 서울시 따릉이 수요 분석을 주제로 프로젝트를 진행했다. 1일차에는 강사님의 설명을 듣고 강사님의 가이드에 따라 각자 데이터의 단변량 분석 및 가설을 세우고 이변량 분석을 통해 검증해보는 시간을 가져보았다. 2일차에는 조별토론방법론에 대해 두시간 정도 배..
[ 오늘 배운 내용 ] 1. 이변량 분석 - 범주 vs 숫자 - 시각화 - 평균비교 - 수치화 - 평균비교 (t-test, 분산분석) 2. 이변량 분석 - 범주 vs 범주 - 시각화 - 100% Stacked Bar chart - Mosaic plot (모자익 플롯) - 수치화 - x^2(카이제곱)검정 3. 이변량 분석 - 숫자 vs 범주 - 시각화 - 히스토그램, 밀도함수그래프 - 수치화 - (로지스틱 회귀) 오늘은 지난 시간에 했던 숫자형->숫자형 변수의 시각화, 수치화 도구에 이어서 범주형->숫자형, 범주형->범주형, 숫자형->범주형 변수의 여러 시각화, 수치화 도구도 다루어 보았다. 정리하기에 앞서 X->Y에서 X와Y변수의 종류에 따른 시각화, 수치화 도구들을 정리한 표를 먼저 확인해보자. [ 이..
[ 오늘 배운 내용 ] 1. 실전 단변량 분석 종합 실습 2. Seaborn 라이브러리 3. 이변량 분석 - 숫자 vs 숫자 - 시각화 - 산점도 plt.scatter() - 수치화 - 상관분석 (상관계수, p-value) 오늘은 지난 시간에 했던 실전 단변량 분석을 카시트 판매량 데이터에 적용해서 종합적으로 실습해보는 시간을 가졌다. 그 다음 matplotlib 말고도 파이썬의 시각화 라이브러리로 많이 사용되는 seaborn 패키지를 사용하여 다양한 차트를 그려보았고, 이번에는 탐색적 데이터 분포 단계에서 feature -> target의 관계가 성립이 되는지를 살펴보는 가설 검증 과정을 위한 다변량 분석을 위한 여러 도구를 배워보았다. Seaborn 라이브러리 matplotlib을 기반으로 다양한 색..
[ 오늘 배운 내용 ] 1. Feature Engineering 2. NaN 조치 3. Dummy Variable 4. Scaling 5. 모델링 오늘은 전날 배웠던 데이터 전처리 메서드를 다시 한번 훑어본 뒤 feature와 target으로 데이터프레임을 분리해주고 NaN값을 제거하거나 다른 값으로 채워주는 처리 및 범주형 데이터를 수치화 시켜주는 dummy variable(가변수화) 작업을 했다. 그 다음 Min-Max Scale과 Standardization의 두 가지 feature Scaling도 해 본 뒤 간단한 모델링도 해보며 머신러닝의 기본적인 스텝을 전반적으로 밟아보았다. NaN값이란? NA(Not Available) 혹은 NaN(Not a Number)라고 하며 사용할 수 없는 값 잘못 ..
[ 오늘 배운 내용 ] 1. Python 라이브러리 리뷰 2. merge, concat 3. rolling, shift 4. date, pivot, crosstab, diff 등 데이터 처리 수업을 본격적으로 시작하기에 앞서서 이전에 배웠던 pandas 라이브러리 사용법을 상기시키기 위해 강사님과 함께 여러 실습을 진행했다. .loc와 iloc일 때의 행조건과 열조건의 차이를 확실하게 알게 되었고, 그 밖에 groupby, between, cut, drop 등 배웠던 내용들을 다시 한 번 복습해볼 수 있었다. 그 뒤에 pandas의 Merge와 Concat, Rolling과 Shift, 그리고 추가적으로 crosstab, heatmap, pivot 등 추가적인 개념도 배우며 실습해보았다. 지난 파이썬 라..
[ 오늘 배운 내용 ] 1. G마켓 이미지 데이터 수집 실습 2. 셀레니움(Selenium) - 간단한 머신러닝 실습 - TED talks 영상들의 한국어 제목 데이터 수집 - Headless하게 셀레니움 사용하기 3. 네이버 중고나라 게시글 데이터 수집 (iframe태그) 4. xpath - 네이버 연관검색어 수집 (scrapy프레임워크 사용) 5. iterator와 generator (yield 사용) 6. scrapy 프레임워크 - G마켓 베스트셀러 상품 데이터 수집 동적페이지와 정적페이지의 차이에 대해서는 강사님께서 매일 몇번씩 설명해주셨기 때문에 완벽하게 이해가 된 것 같다. 데이터 크롤링에 있어서 상당히 중요한 개념이라는 생각이 들었다. 먼저 G마켓의 상품 데이터가 들어있는 csv파일을 불러와..
[ 오늘 배운 내용 ] 01 네이버 검색어 트렌드 크롤링 (동적페이지) 02 직방 원룸 데이터 크롤링 (동적페이지) 03 다음 금융 사이트 환율 데이터 크롤링 (동적페이지) [정적페이지 크롤링] 04 html 05 css selector 06 네이버 연관검색어 키워드 크롤링 (정적페이지) 07 지마켓 베스트셀러 데이터 크롤링 (정적페이지) 실습을 시작하기 전에 robots.txt를 확인해서 TED 사이트의 크롤링 정책을 확인해보았다. 크롤링을 잘못 하게 되면 나중에 문제가 될 수 있으니 되도록이면 크롤링 하기 전 해당 사이트의 크롤링 정책을 확인하는 것이 좋을 것 같다. 오늘은 지난 시간에 발급받은 네이버에 등록한 내 앱 key로 네이버 데이터랩의 API를 사용해서 트위터,페이스북,인스타그램 각 키워드의..
[ 오늘 배운 내용 ] 1. 웹(Web) 관련 지식 간단 정리 - 웹페이지 종류 - 웹크롤링 절차 2. 네이버 증권 데이터 크롤링 (동적페이지) - 최근 60일치의 KOSPI, KOSDAQ 데이터 + 원-달러 환율 데이터 크롤링 - copy(), apply, lambda 함수 - 데이터의 상관관계 분석 3. 네이버 파파고 API 사용 실습 오늘부터 3일동안 웹크롤링 수업을 진행하시는 강사님께서 웹 크롤링을 시작하기 전에 웹에 대한 여러 내용들을 알려 주셨다. 서버-클라이언트의 웹 서비스 구조와 URL의 구성요소, 서버와 클라이언트가 Get 또는 Post 방식으로 데이터를 요청하여 주고받는 과정을 그림을 그려가며 설명해주셨다. 그 밖에 인터넷과 OSI 7계층, 쿠키,세션,캐시, HTTP status cod..
[ 오늘 배운 내용 ] 1. 분석할 수 있는 데이터의 종류 & 분석을 위한 데이터의 구조 2. Numpy - 넘파이 배열 만들기 - 넘파이 배열 데이터 조회 - 넘파이 배열 연산 3. Pandas - 데이터프레임 - 데이터프레임 정보 확인 - 데이터프레임 조회 - 데이터프레임 집계 - 데이터프레임 변경 4. matploilib 지난 수업 내용을 간단하게 리뷰하면서 시작했는데 데이터프레임과 시리즈의 차이에 대해 더 자세히 설명을 해 주셨고, 데이터프레임에서 특정 열을 조회하는 방법을 실습해보았다. 특히 칼럼을 지정할 때 ['column']과 [['column']]과 같이 리스트로 한번 더 감싸주냐 마느냐에 따라 조회되는 데이터의 형식이 시리즈와 데이터프레임으로 갈린다는 부분이 신기했다. 그리고 학교에서 인..
[ 오늘 배운 내용 ] 1. 분석할 수 있는 데이터의 종류 & 분석을 위한 데이터의 구조 2. Numpy - 넘파이 배열 만들기 - 넘파이 배열 데이터 조회 - 넘파이 배열 연산 3. Pandas - 데이터프레임 - 데이터프레임 정보 확인 - 데이터프레임 조회 - 데이터프레임 집계 - 데이터프레임 변경 4. matploilib 되게 친숙하게 수업해주시는 강사님이 이번 강의를 진행해주셨다. 덕분에 편한 분위기에서 수업을 들을 수 있었던 것 같다. 이번 수업에서는 데이터 분석에서 가장 많이 쓰이는 파이썬 라이브러리인 Numpy와 pandas, 그리고 matplotlib 라이브러리에 대해 배웠다. 시작하기에 앞서 데이터 분석 프로세스의 가장 기본적인 그림이라고 하시는 CRISP-DM 구조를 보고 나서 범주형과..
kybeen
'kt 에이블스쿨' 태그의 글 목록 (3 Page)