KT AIVLE School

[ 오늘 배운 내용 ] 1. 비지도학습 - K-means - DBSCAN 1. 비지도학습 비지도학습은 지도학습과 다르게 답이 주어지지 않은 문제를 학습하는 것이다. 비지도학습 알고리즘 K-maens DBSCAN [ K-means ] K개의 평균으로부터 거리를 계산하고, 가까운 평균으로 묶어서 클러스터(Cluster)를 나누는 방식 클러스터링의 기본이 되는 알고리즘이다. 거리기반 알고리즘이라 스케일링 필요 K-means 절차 클러스터의 개수를 지정한다. (구별되는 그룹의 수로 지정하는 것을 권장) 그룹의 중심점이 무작위로 선택된다. 임의로 선택된 중심점과 각 점 간의 거리를 계산해서 가장 가까운 중심점의 그룹으로 선택된다. 선택된 그룹의 점들을 기준으로 중심점을 계산해서 찾는다. 3~4를 반복하여 중심점의..
[ 오늘 배운 내용 ] 1. 일반화 성능 - 성능 향상을 위한 노력 a. 성능의 평균으로 계산 : 무작위 샘플링, K-Fold Cross Validation (계획적 방식) b. 데이터 늘리기 (variance, bias 감소) : Learning Curves, Elbow Method c. 튜닝하기 (bias 감소, 과적합 피하기) 2. 모델 복잡도와 과적합 - Underfitting(과소적합), Overfitting(과대적합) - 단순한 모델, 복잡한 모델 - 적절한 모델 찾기 : 모델의 복잡도 3. 앙상블 (Ensemble) - Bagging (Bootstrap + Aggregating) - Random Forest : Row random, Feature random - Boosting - Gradi..
[ 오늘 배운 내용 ] 1. Decision Tree (결정 트리) - 트리 알고리즘이란 - 지니 불순도, 정보 증가량 - 모델링 - 하이퍼파라미터 : max_depth, min_samples_leaf - 의사결정나무 모델 시각화 2. Support Vector Machine (SVM) - SVM이란 - 결정 경계, 서포트 벡터, 마진 - 하이퍼파라미터 : Cost(비용), Gamma 3. 성능 튜닝 방법 - 선형 모델 : 변수 선택법 - 전진선택법 (후진선택법) - AIC (아카이케 통계량) - 하이퍼파라미터 튜닝 - Random Search - Grid Search 1. Decision Tree (결정 트리) Tree 기반 알고리즘은 특정 항목(변수)에 대한 의사 결정(분류) 규칙을 나무의 가지가 뻗..
[ 오늘 배운 내용 ] 1. 회귀, 분류 알고리즘 : KNN (K-Nearest Neighbors) - Scaling (스케일링) - knn의 거리 계산법 2. 분류 알고리즘 : Logistic Regression (로지스틱 회귀) - 회귀계수 해석 3. 분류 모델의 평가 방법 - 교차표 (Confusion Matrix) - 성능지표 - 전체 관점 : Accuracy (정분류율) - 특정 class 관점 : Recall (재현율), Precision (정밀도), F1_Score 1. KNN (K-Nearest Neighbor) KNN 알고리즘은 분류와 회귀 문제에서 모두 사용 가능한 알고리즘으로 거리를 계산하여 예측하는 기본적인 알고리즘이다. [ KNN 알고리즘의 과정 ] 예측해야 할 데이터(x_val)..
[ 오늘 배운 내용 ] 1. 모델링 개요 2. 선형회귀 (Linear Regression) - 단순회귀 - 회귀 모델의 평가 방법 - 오차 비 : R-squared - 오차의 양 : MSE, RMSE, MAE - 오차의 율 : MAPE - 다중회귀 교육을 시작하고 드디어 머신러닝 수업이 시작됐다. 그동안 배운 내용 데이터 분석과 데이터 처리는 모델링을 위한 준비작업이었다고 볼 수 있겠다. 주로 데이터를 불러와서 모델을 생성하고 학습시킨 다음 예측을 하는 연습을 코드로 여러번 작성해보았다. 강사님께서 모델링 과정의 코드는 되도록이면 외우라고 하셨는데 오늘 수업을 들으면서 여러 번 직접 입력해보다 보니 손에 익은 것 같다. 코드도 데이터 분석, 처리에 비하면 굉장히 짧은 길이라서 금방 외워졌다. 오늘은 회귀..
교육을 듣기 시작하고 처음으로 미니프로젝트를 했다. 그냥 그동안 배운 내용들을 바탕으로 강사님께서 제공해주신 데이터를 불러와서 각자의 방식으로 가설을 세워서 분석해보고 가설을 검증해보는 것 등을 해보았다. 대부분 내용에 가이드라인을 제시해주셨고, 데이터도 어려운 구성이 아니었던 편인 것 같다. '서울시 버스 수요 분석'과 '서울시 따릉이 수요 분석'의 총 2개의 주제를 가지고 진행되었는데, 처음 3일동안은 서울시 버스 수요 분석, 마지막 4일차는 하룻동안 서울시 따릉이 수요 분석을 주제로 프로젝트를 진행했다. 1일차에는 강사님의 설명을 듣고 강사님의 가이드에 따라 각자 데이터의 단변량 분석 및 가설을 세우고 이변량 분석을 통해 검증해보는 시간을 가져보았다. 2일차에는 조별토론방법론에 대해 두시간 정도 배..
[ 오늘 배운 내용 ] 1. 이변량 분석 - 범주 vs 숫자 - 시각화 - 평균비교 - 수치화 - 평균비교 (t-test, 분산분석) 2. 이변량 분석 - 범주 vs 범주 - 시각화 - 100% Stacked Bar chart - Mosaic plot (모자익 플롯) - 수치화 - x^2(카이제곱)검정 3. 이변량 분석 - 숫자 vs 범주 - 시각화 - 히스토그램, 밀도함수그래프 - 수치화 - (로지스틱 회귀) 오늘은 지난 시간에 했던 숫자형->숫자형 변수의 시각화, 수치화 도구에 이어서 범주형->숫자형, 범주형->범주형, 숫자형->범주형 변수의 여러 시각화, 수치화 도구도 다루어 보았다. 정리하기에 앞서 X->Y에서 X와Y변수의 종류에 따른 시각화, 수치화 도구들을 정리한 표를 먼저 확인해보자. [ 이..
[ 오늘 배운 내용 ] 1. 실전 단변량 분석 종합 실습 2. Seaborn 라이브러리 3. 이변량 분석 - 숫자 vs 숫자 - 시각화 - 산점도 plt.scatter() - 수치화 - 상관분석 (상관계수, p-value) 오늘은 지난 시간에 했던 실전 단변량 분석을 카시트 판매량 데이터에 적용해서 종합적으로 실습해보는 시간을 가졌다. 그 다음 matplotlib 말고도 파이썬의 시각화 라이브러리로 많이 사용되는 seaborn 패키지를 사용하여 다양한 차트를 그려보았고, 이번에는 탐색적 데이터 분포 단계에서 feature -> target의 관계가 성립이 되는지를 살펴보는 가설 검증 과정을 위한 다변량 분석을 위한 여러 도구를 배워보았다. Seaborn 라이브러리 matplotlib을 기반으로 다양한 색..
[ 오늘 배운 내용 ] 1. matplotlib 2. CRISP-DM 데이터 분석 방법론 (EDA & CDA) 3. 단변량 분석 - 숫자형 변수 - 기초통계량 분석 : mean, mode, 4분위수 - 그래프 : 히스토그램, 밀도함수 그래프 (KDE plot), 박스플롯 4. 단변량 분석 - 범주형 변수 - 기초통계량 분석 : 범주별 빈도수, 범주별 비율 - 그래프 : barplot, piechart 지난 데이터 분석 시간에 조금 배워보았던 matplotlib을 제대로 사용해서 많은 그래프를 그려보았고, CRISP-DM 모델의 그림을 보며 각 절차의 세부내용을 배웠다. 그다음 CRISP-DM의 데이터 이해 단계의 EDA 단계와 CDA 단계 중 EDA 단계의 단변량 분석을 직접 코드를 실행해가며 연습해보았..
[ 오늘 배운 내용 ] 1. Feature Engineering 2. NaN 조치 3. Dummy Variable 4. Scaling 5. 모델링 오늘은 전날 배웠던 데이터 전처리 메서드를 다시 한번 훑어본 뒤 feature와 target으로 데이터프레임을 분리해주고 NaN값을 제거하거나 다른 값으로 채워주는 처리 및 범주형 데이터를 수치화 시켜주는 dummy variable(가변수화) 작업을 했다. 그 다음 Min-Max Scale과 Standardization의 두 가지 feature Scaling도 해 본 뒤 간단한 모델링도 해보며 머신러닝의 기본적인 스텝을 전반적으로 밟아보았다. NaN값이란? NA(Not Available) 혹은 NaN(Not a Number)라고 하며 사용할 수 없는 값 잘못 ..
kybeen
'KT AIVLE School' 카테고리의 글 목록 (3 Page)