목록Data Analysis (4)
Gaegul's devlog
라벨의 불균형을 확인하고 불균형을 처리하는 방법은 다음과 같습니다! print(train['Class'].value_counts()) print(train['Class'].value_counts() / train['Class'].value_counts().sum() * 100) 방법은 크게 두가지가 있는데요! 샘플링 방법과 StratifiedKFold를 통해 라벨을 균일하게 한 뒤 학습을 시키는 방법입니다. 1. Sampling 방법 그중에 Oversampling 방법인 SMOTE 와 hybrid 방법인 SMOTE+ENN 방법이 있습니다. 저는 SMOTE+ENN 방법을 택하였습니다. 선택 이유: 데이터 클래스 비율이 너무 차이가 나면(highly-imbalanced data) 단순히 우세한 클래스를 택하..
이상치 처리 방법은 다양하지만 이번 시간에는 3sigma 기준으로 이상치를 처리해볼껍니당! (IQR로 구할 수 도 있지만 이번 시간에는 3sigma 방법을 볼꺼예요 ☺️) 3sigma 란? 일변량 자료들 중 평균 ± 3*표준편차를 벗어나는 것들을 비정상이라 규정(정규분포 기반) #이상치 처리 def outlier(data): threshold = 3 outlier = [] for i in range(len(data)): if (data[i]>data.mean()+3*data.std())|(data[i]
모델 성능 향상에는 다음과 같은 방법들이 존재합니다! 저같은 경우는 빠르게 분석하기 위해 3개의 방법을 이용하는데요! 1. 모델 하이퍼 파라미터 튜닝 2. Coef를 통해 영향이 큰 피처 이상치 제거 3. 모델 앙상블 (보팅/스태킹) 1. Hyper Params Tuning Gridsearch 를 이용해 최적의 하이퍼파라미터를 찾는다. 엔지니어링하는 것 보다 최적의 파라미터를 구할 수 있는 장점이 있지만 찾는 데 오래걸리는 단점이 있다. gb_reg = GradientBoostingRegressor() gb_reg.get_params().keys() # 모델 파라미터 확인 #Regressor : Gradient Boosting Regressor params = {'n_estimators': [200,40..
요번 포스팅에서는 BOSTON Dataset으로 선형회귀와 다항회귀 분석을 해보겠습니당! ☺️ 1. 선형회귀 선형회귀 부터 해볼껀데 우선 쉽게 pandas 에 기본으로 내장되어 있는 boston dataset 을 불러옵니다. 0. Library #preprocess import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline #visualization import seaborn as sns from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.linear_model im..