본문 바로가기

[ML] 앙상블(Ensemble) :: 배깅(Bagging) & 부스팅(Boosting)

정보수집 2020. 4. 24.

반응형

앙상블 : 하나의 모델이 아닌 여러 개의 모델을 학습시켜 그 결과들을 이용하여 예측

 

1. 배깅(Bagging : Bootstrap aggregation)

- 주어진 데이터에서 여러 개의 부트스트랩(bootstrap : 단순복원임의추출(random sampling))을 생성하고 각 부트스트랩을 모델링한 후 종합(aggregation)하여 최종 예측 모형을 산출하는 방법이다.

- 배깅은 예측 모형의 변동성이 큰 경우 예측모형의 변동성을 감소시키기 위해 사용된다. 여러 번의 복원 샘플링을 통해 예측 모형의 분산을 줄여 줌으로써 예측력을 향상 시키는 방법이며 일반적으로 과대 적합 된 모형, 편향이(Bias) 작고 분산(Variance)이 큰 모형에 사용하는 것이 적합하다.

- 각 샘플에서 나타난 결과를 집계한 것이기 때문에 과적합(Overfitting)을 피해준다.

- Random Forest : 여러개의 트리를 결합한 모델

 

 

2. 부스팅(Bootsting)

- 약한 예측모형들을 결합하여 강한 예측모형을 만드는 것이다.

- 예측모형의 정확도를 향상시키기 위한 방법으로, 처음에는 동일한 가중치에서 시작하지만 모델링을 통한 예측변수에 의해 오분류된 개체들에는 높은 가중치를 부여하고 올바르게 분류된 객체들에는 낮은 가중치를 부여하여 오분류된 객체들이 더 잘 분류되도록 하는 방법이다.

- 오답에는 높은 가중치를 부여하고 정답에는 낮은 가중치를 부여하여 오답에 더욱 집중하게 한다. 정확도는 높게나오지만 이상치(Outlier)에 약하다.

- AdaBoost, XGBoost, GradientBoost

 

 

- High Variance → Overfitting = Bagging

- High Bias → Underfitting = Boosting

 

 

 

728x90

Comments