KT

[ 오늘 배운 내용 ] 1. 회귀, 분류 알고리즘 : KNN (K-Nearest Neighbors) - Scaling (스케일링) - knn의 거리 계산법 2. 분류 알고리즘 : Logistic Regression (로지스틱 회귀) - 회귀계수 해석 3. 분류 모델의 평가 방법 - 교차표 (Confusion Matrix) - 성능지표 - 전체 관점 : Accuracy (정분류율) - 특정 class 관점 : Recall (재현율), Precision (정밀도), F1_Score 1. KNN (K-Nearest Neighbor) KNN 알고리즘은 분류와 회귀 문제에서 모두 사용 가능한 알고리즘으로 거리를 계산하여 예측하는 기본적인 알고리즘이다. [ KNN 알고리즘의 과정 ] 예측해야 할 데이터(x_val)..
[ 오늘 배운 내용 ] 1. 모델링 개요 2. 선형회귀 (Linear Regression) - 단순회귀 - 회귀 모델의 평가 방법 - 오차 비 : R-squared - 오차의 양 : MSE, RMSE, MAE - 오차의 율 : MAPE - 다중회귀 교육을 시작하고 드디어 머신러닝 수업이 시작됐다. 그동안 배운 내용 데이터 분석과 데이터 처리는 모델링을 위한 준비작업이었다고 볼 수 있겠다. 주로 데이터를 불러와서 모델을 생성하고 학습시킨 다음 예측을 하는 연습을 코드로 여러번 작성해보았다. 강사님께서 모델링 과정의 코드는 되도록이면 외우라고 하셨는데 오늘 수업을 들으면서 여러 번 직접 입력해보다 보니 손에 익은 것 같다. 코드도 데이터 분석, 처리에 비하면 굉장히 짧은 길이라서 금방 외워졌다. 오늘은 회귀..
교육을 듣기 시작하고 처음으로 미니프로젝트를 했다. 그냥 그동안 배운 내용들을 바탕으로 강사님께서 제공해주신 데이터를 불러와서 각자의 방식으로 가설을 세워서 분석해보고 가설을 검증해보는 것 등을 해보았다. 대부분 내용에 가이드라인을 제시해주셨고, 데이터도 어려운 구성이 아니었던 편인 것 같다. '서울시 버스 수요 분석'과 '서울시 따릉이 수요 분석'의 총 2개의 주제를 가지고 진행되었는데, 처음 3일동안은 서울시 버스 수요 분석, 마지막 4일차는 하룻동안 서울시 따릉이 수요 분석을 주제로 프로젝트를 진행했다. 1일차에는 강사님의 설명을 듣고 강사님의 가이드에 따라 각자 데이터의 단변량 분석 및 가설을 세우고 이변량 분석을 통해 검증해보는 시간을 가져보았다. 2일차에는 조별토론방법론에 대해 두시간 정도 배..
[ 오늘 배운 내용 ] 1. 실전 단변량 분석 종합 실습 2. Seaborn 라이브러리 3. 이변량 분석 - 숫자 vs 숫자 - 시각화 - 산점도 plt.scatter() - 수치화 - 상관분석 (상관계수, p-value) 오늘은 지난 시간에 했던 실전 단변량 분석을 카시트 판매량 데이터에 적용해서 종합적으로 실습해보는 시간을 가졌다. 그 다음 matplotlib 말고도 파이썬의 시각화 라이브러리로 많이 사용되는 seaborn 패키지를 사용하여 다양한 차트를 그려보았고, 이번에는 탐색적 데이터 분포 단계에서 feature -> target의 관계가 성립이 되는지를 살펴보는 가설 검증 과정을 위한 다변량 분석을 위한 여러 도구를 배워보았다. Seaborn 라이브러리 matplotlib을 기반으로 다양한 색..
[ 오늘 배운 내용 ] 1. matplotlib 2. CRISP-DM 데이터 분석 방법론 (EDA & CDA) 3. 단변량 분석 - 숫자형 변수 - 기초통계량 분석 : mean, mode, 4분위수 - 그래프 : 히스토그램, 밀도함수 그래프 (KDE plot), 박스플롯 4. 단변량 분석 - 범주형 변수 - 기초통계량 분석 : 범주별 빈도수, 범주별 비율 - 그래프 : barplot, piechart 지난 데이터 분석 시간에 조금 배워보았던 matplotlib을 제대로 사용해서 많은 그래프를 그려보았고, CRISP-DM 모델의 그림을 보며 각 절차의 세부내용을 배웠다. 그다음 CRISP-DM의 데이터 이해 단계의 EDA 단계와 CDA 단계 중 EDA 단계의 단변량 분석을 직접 코드를 실행해가며 연습해보았..
[ 오늘 배운 내용 ] 1. Feature Engineering 2. NaN 조치 3. Dummy Variable 4. Scaling 5. 모델링 오늘은 전날 배웠던 데이터 전처리 메서드를 다시 한번 훑어본 뒤 feature와 target으로 데이터프레임을 분리해주고 NaN값을 제거하거나 다른 값으로 채워주는 처리 및 범주형 데이터를 수치화 시켜주는 dummy variable(가변수화) 작업을 했다. 그 다음 Min-Max Scale과 Standardization의 두 가지 feature Scaling도 해 본 뒤 간단한 모델링도 해보며 머신러닝의 기본적인 스텝을 전반적으로 밟아보았다. NaN값이란? NA(Not Available) 혹은 NaN(Not a Number)라고 하며 사용할 수 없는 값 잘못 ..
[ 오늘 배운 내용 ] 1. Python 라이브러리 리뷰 2. merge, concat 3. rolling, shift 4. date, pivot, crosstab, diff 등 데이터 처리 수업을 본격적으로 시작하기에 앞서서 이전에 배웠던 pandas 라이브러리 사용법을 상기시키기 위해 강사님과 함께 여러 실습을 진행했다. .loc와 iloc일 때의 행조건과 열조건의 차이를 확실하게 알게 되었고, 그 밖에 groupby, between, cut, drop 등 배웠던 내용들을 다시 한 번 복습해볼 수 있었다. 그 뒤에 pandas의 Merge와 Concat, Rolling과 Shift, 그리고 추가적으로 crosstab, heatmap, pivot 등 추가적인 개념도 배우며 실습해보았다. 지난 파이썬 라..
[ 오늘 배운 내용 ] 1. G마켓 이미지 데이터 수집 실습 2. 셀레니움(Selenium) - 간단한 머신러닝 실습 - TED talks 영상들의 한국어 제목 데이터 수집 - Headless하게 셀레니움 사용하기 3. 네이버 중고나라 게시글 데이터 수집 (iframe태그) 4. xpath - 네이버 연관검색어 수집 (scrapy프레임워크 사용) 5. iterator와 generator (yield 사용) 6. scrapy 프레임워크 - G마켓 베스트셀러 상품 데이터 수집 동적페이지와 정적페이지의 차이에 대해서는 강사님께서 매일 몇번씩 설명해주셨기 때문에 완벽하게 이해가 된 것 같다. 데이터 크롤링에 있어서 상당히 중요한 개념이라는 생각이 들었다. 먼저 G마켓의 상품 데이터가 들어있는 csv파일을 불러와..
[ 오늘 배운 내용 ] 01 네이버 검색어 트렌드 크롤링 (동적페이지) 02 직방 원룸 데이터 크롤링 (동적페이지) 03 다음 금융 사이트 환율 데이터 크롤링 (동적페이지) [정적페이지 크롤링] 04 html 05 css selector 06 네이버 연관검색어 키워드 크롤링 (정적페이지) 07 지마켓 베스트셀러 데이터 크롤링 (정적페이지) 실습을 시작하기 전에 robots.txt를 확인해서 TED 사이트의 크롤링 정책을 확인해보았다. 크롤링을 잘못 하게 되면 나중에 문제가 될 수 있으니 되도록이면 크롤링 하기 전 해당 사이트의 크롤링 정책을 확인하는 것이 좋을 것 같다. 오늘은 지난 시간에 발급받은 네이버에 등록한 내 앱 key로 네이버 데이터랩의 API를 사용해서 트위터,페이스북,인스타그램 각 키워드의..
[ 오늘 배운 내용 ] 1. 웹(Web) 관련 지식 간단 정리 - 웹페이지 종류 - 웹크롤링 절차 2. 네이버 증권 데이터 크롤링 (동적페이지) - 최근 60일치의 KOSPI, KOSDAQ 데이터 + 원-달러 환율 데이터 크롤링 - copy(), apply, lambda 함수 - 데이터의 상관관계 분석 3. 네이버 파파고 API 사용 실습 오늘부터 3일동안 웹크롤링 수업을 진행하시는 강사님께서 웹 크롤링을 시작하기 전에 웹에 대한 여러 내용들을 알려 주셨다. 서버-클라이언트의 웹 서비스 구조와 URL의 구성요소, 서버와 클라이언트가 Get 또는 Post 방식으로 데이터를 요청하여 주고받는 과정을 그림을 그려가며 설명해주셨다. 그 밖에 인터넷과 OSI 7계층, 쿠키,세션,캐시, HTTP status cod..
kybeen
'KT' 태그의 글 목록 (3 Page)