에이블스쿨

[ 오늘 배운 내용 ] 1. 일반화 성능 - 성능 향상을 위한 노력 a. 성능의 평균으로 계산 : 무작위 샘플링, K-Fold Cross Validation (계획적 방식) b. 데이터 늘리기 (variance, bias 감소) : Learning Curves, Elbow Method c. 튜닝하기 (bias 감소, 과적합 피하기) 2. 모델 복잡도와 과적합 - Underfitting(과소적합), Overfitting(과대적합) - 단순한 모델, 복잡한 모델 - 적절한 모델 찾기 : 모델의 복잡도 3. 앙상블 (Ensemble) - Bagging (Bootstrap + Aggregating) - Random Forest : Row random, Feature random - Boosting - Gradi..
[ 오늘 배운 내용 ] 1. Decision Tree (결정 트리) - 트리 알고리즘이란 - 지니 불순도, 정보 증가량 - 모델링 - 하이퍼파라미터 : max_depth, min_samples_leaf - 의사결정나무 모델 시각화 2. Support Vector Machine (SVM) - SVM이란 - 결정 경계, 서포트 벡터, 마진 - 하이퍼파라미터 : Cost(비용), Gamma 3. 성능 튜닝 방법 - 선형 모델 : 변수 선택법 - 전진선택법 (후진선택법) - AIC (아카이케 통계량) - 하이퍼파라미터 튜닝 - Random Search - Grid Search 1. Decision Tree (결정 트리) Tree 기반 알고리즘은 특정 항목(변수)에 대한 의사 결정(분류) 규칙을 나무의 가지가 뻗..
[ 오늘 배운 내용 ] 1. 회귀, 분류 알고리즘 : KNN (K-Nearest Neighbors) - Scaling (스케일링) - knn의 거리 계산법 2. 분류 알고리즘 : Logistic Regression (로지스틱 회귀) - 회귀계수 해석 3. 분류 모델의 평가 방법 - 교차표 (Confusion Matrix) - 성능지표 - 전체 관점 : Accuracy (정분류율) - 특정 class 관점 : Recall (재현율), Precision (정밀도), F1_Score 1. KNN (K-Nearest Neighbor) KNN 알고리즘은 분류와 회귀 문제에서 모두 사용 가능한 알고리즘으로 거리를 계산하여 예측하는 기본적인 알고리즘이다. [ KNN 알고리즘의 과정 ] 예측해야 할 데이터(x_val)..
[ 오늘 배운 내용 ] 1. 모델링 개요 2. 선형회귀 (Linear Regression) - 단순회귀 - 회귀 모델의 평가 방법 - 오차 비 : R-squared - 오차의 양 : MSE, RMSE, MAE - 오차의 율 : MAPE - 다중회귀 교육을 시작하고 드디어 머신러닝 수업이 시작됐다. 그동안 배운 내용 데이터 분석과 데이터 처리는 모델링을 위한 준비작업이었다고 볼 수 있겠다. 주로 데이터를 불러와서 모델을 생성하고 학습시킨 다음 예측을 하는 연습을 코드로 여러번 작성해보았다. 강사님께서 모델링 과정의 코드는 되도록이면 외우라고 하셨는데 오늘 수업을 들으면서 여러 번 직접 입력해보다 보니 손에 익은 것 같다. 코드도 데이터 분석, 처리에 비하면 굉장히 짧은 길이라서 금방 외워졌다. 오늘은 회귀..
교육을 듣기 시작하고 처음으로 미니프로젝트를 했다. 그냥 그동안 배운 내용들을 바탕으로 강사님께서 제공해주신 데이터를 불러와서 각자의 방식으로 가설을 세워서 분석해보고 가설을 검증해보는 것 등을 해보았다. 대부분 내용에 가이드라인을 제시해주셨고, 데이터도 어려운 구성이 아니었던 편인 것 같다. '서울시 버스 수요 분석'과 '서울시 따릉이 수요 분석'의 총 2개의 주제를 가지고 진행되었는데, 처음 3일동안은 서울시 버스 수요 분석, 마지막 4일차는 하룻동안 서울시 따릉이 수요 분석을 주제로 프로젝트를 진행했다. 1일차에는 강사님의 설명을 듣고 강사님의 가이드에 따라 각자 데이터의 단변량 분석 및 가설을 세우고 이변량 분석을 통해 검증해보는 시간을 가져보았다. 2일차에는 조별토론방법론에 대해 두시간 정도 배..
[ 오늘 배운 내용 ] 1. 이변량 분석 - 범주 vs 숫자 - 시각화 - 평균비교 - 수치화 - 평균비교 (t-test, 분산분석) 2. 이변량 분석 - 범주 vs 범주 - 시각화 - 100% Stacked Bar chart - Mosaic plot (모자익 플롯) - 수치화 - x^2(카이제곱)검정 3. 이변량 분석 - 숫자 vs 범주 - 시각화 - 히스토그램, 밀도함수그래프 - 수치화 - (로지스틱 회귀) 오늘은 지난 시간에 했던 숫자형->숫자형 변수의 시각화, 수치화 도구에 이어서 범주형->숫자형, 범주형->범주형, 숫자형->범주형 변수의 여러 시각화, 수치화 도구도 다루어 보았다. 정리하기에 앞서 X->Y에서 X와Y변수의 종류에 따른 시각화, 수치화 도구들을 정리한 표를 먼저 확인해보자. [ 이..
[ 오늘 배운 내용 ] 1. 실전 단변량 분석 종합 실습 2. Seaborn 라이브러리 3. 이변량 분석 - 숫자 vs 숫자 - 시각화 - 산점도 plt.scatter() - 수치화 - 상관분석 (상관계수, p-value) 오늘은 지난 시간에 했던 실전 단변량 분석을 카시트 판매량 데이터에 적용해서 종합적으로 실습해보는 시간을 가졌다. 그 다음 matplotlib 말고도 파이썬의 시각화 라이브러리로 많이 사용되는 seaborn 패키지를 사용하여 다양한 차트를 그려보았고, 이번에는 탐색적 데이터 분포 단계에서 feature -> target의 관계가 성립이 되는지를 살펴보는 가설 검증 과정을 위한 다변량 분석을 위한 여러 도구를 배워보았다. Seaborn 라이브러리 matplotlib을 기반으로 다양한 색..
[ 오늘 배운 내용 ] 1. matplotlib 2. CRISP-DM 데이터 분석 방법론 (EDA & CDA) 3. 단변량 분석 - 숫자형 변수 - 기초통계량 분석 : mean, mode, 4분위수 - 그래프 : 히스토그램, 밀도함수 그래프 (KDE plot), 박스플롯 4. 단변량 분석 - 범주형 변수 - 기초통계량 분석 : 범주별 빈도수, 범주별 비율 - 그래프 : barplot, piechart 지난 데이터 분석 시간에 조금 배워보았던 matplotlib을 제대로 사용해서 많은 그래프를 그려보았고, CRISP-DM 모델의 그림을 보며 각 절차의 세부내용을 배웠다. 그다음 CRISP-DM의 데이터 이해 단계의 EDA 단계와 CDA 단계 중 EDA 단계의 단변량 분석을 직접 코드를 실행해가며 연습해보았..
[ 오늘 배운 내용 ] 1. Feature Engineering 2. NaN 조치 3. Dummy Variable 4. Scaling 5. 모델링 오늘은 전날 배웠던 데이터 전처리 메서드를 다시 한번 훑어본 뒤 feature와 target으로 데이터프레임을 분리해주고 NaN값을 제거하거나 다른 값으로 채워주는 처리 및 범주형 데이터를 수치화 시켜주는 dummy variable(가변수화) 작업을 했다. 그 다음 Min-Max Scale과 Standardization의 두 가지 feature Scaling도 해 본 뒤 간단한 모델링도 해보며 머신러닝의 기본적인 스텝을 전반적으로 밟아보았다. NaN값이란? NA(Not Available) 혹은 NaN(Not a Number)라고 하며 사용할 수 없는 값 잘못 ..
[ 오늘 배운 내용 ] 1. Python 라이브러리 리뷰 2. merge, concat 3. rolling, shift 4. date, pivot, crosstab, diff 등 데이터 처리 수업을 본격적으로 시작하기에 앞서서 이전에 배웠던 pandas 라이브러리 사용법을 상기시키기 위해 강사님과 함께 여러 실습을 진행했다. .loc와 iloc일 때의 행조건과 열조건의 차이를 확실하게 알게 되었고, 그 밖에 groupby, between, cut, drop 등 배웠던 내용들을 다시 한 번 복습해볼 수 있었다. 그 뒤에 pandas의 Merge와 Concat, Rolling과 Shift, 그리고 추가적으로 crosstab, heatmap, pivot 등 추가적인 개념도 배우며 실습해보았다. 지난 파이썬 라..
kybeen
'에이블스쿨' 태그의 글 목록 (3 Page)