[Python] 데이터 스케일링 :: 표준화(Standardization)
반응형
데이터의 모든 특성의 범위를 같게 만들어주는 방법
교차검증을 위해 Train-Test로 분리하였을 경우 전체 데이터가 아닌 훈련 데이터에 대해서만 fit()을 적용해야한다.
1. StandardScaler
- 평균 = 0 / 표준편차 = 1
- 표준화 Standardization
from sklearn.preprocessing import StandardScaler
# Standardization 평균 0 / 분산 1
scaler = StandardScaler()
scaler = scaler.fit_transform(data)
# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
2. MinMaxScaler
- 최대값 = 1 / 최소값 = 0
- 최소-최대 정규화 Min-Max Normalization
- 이상치에 취약하다.
from sklearn.preprocessing import MinMaxScaler
# Normalization 최소값 0 / 최대값 1
scaler = MinMaxScaler()
scaler = scaler.fit_transform(data)
# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
3. RobustScaler
- 중앙값 = 0 / IQR(1분위(25%) ~ 3분위(75%)) = 1
- 이상치(outlier) 영향 최소화
- 더 넓게 분포
from sklearn.preprocessing import RobusterScaler
# 중앙값 0 / IQR 1
scaler = RobusterScaler()
scaler = scaler.fit_transform(data)
# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
4. MaxAbsScaler
- 0을 기준으로 절대값이 가장 큰 수가 1또는 -1이 되도록 변환
from sklearn.preprocessing import MaxAbsScaler
# 절대값
scaler = MaxAbsScaler()
scaler = scaler.fit_transform(data)
# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
728x90
'Python > Scikit-learn' 카테고리의 다른 글
[Python] 성능 측정 지표 :: MAE, MSE, RMSE, MAPE, MPE, MSLE (3) | 2020.12.12 |
---|---|
[Python] 홀드아웃 :: train_test_split (0) | 2020.09.25 |
[Python] 오분류표 Confusion Matrix :: 분류(Classification) 모형 평가 (0) | 2020.09.14 |
[Scikit-learn] LabelEncoder() :: Labelling (0) | 2019.11.20 |
[Scikit-learn] ImportError: cannot import name 'CategoricalEncoder' (0) | 2019.11.20 |
Comments