본문 바로가기

[Python] 데이터 스케일링 :: 표준화(Standardization)

Python/Scikit-learn 2020. 12. 7.

반응형

데이터의 모든 특성의 범위를 같게 만들어주는 방법

교차검증을 위해 Train-Test로 분리하였을 경우 전체 데이터가 아닌 훈련 데이터에 대해서만 fit()을 적용해야한다.

 

1. StandardScaler

   - 평균 = 0 / 표준편차 = 1

   - 표준화 Standardization

from sklearn.preprocessing import StandardScaler

# Standardization 평균 0 / 분산 1
scaler = StandardScaler()   

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

 

 

2. MinMaxScaler

   - 최대값 = 1 / 최소값 = 0

   - 최소-최대 정규화 Min-Max Normalization

   - 이상치에 취약하다.

from sklearn.preprocessing import MinMaxScaler

# Normalization 최소값 0 / 최대값 1
scaler = MinMaxScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

 

 

3. RobustScaler

   - 중앙값 = 0 / IQR(1분위(25%) ~ 3분위(75%)) = 1

   - 이상치(outlier) 영향 최소화

   - 더 넓게 분포

from sklearn.preprocessing import RobusterScaler

# 중앙값 0 / IQR 1
scaler = RobusterScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

 

 

4. MaxAbsScaler

   - 0을 기준으로 절대값이 가장 큰 수가 1또는 -1이 되도록 변환

from sklearn.preprocessing import MaxAbsScaler

# 절대값
scaler = MaxAbsScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

 

 

 

728x90

Comments