[ML] 앙상블(Ensemble) :: 배깅(Bagging) & 부스팅(Boosting)
앙상블 : 하나의 모델이 아닌 여러 개의 모델을 학습시켜 그 결과들을 이용하여 예측
1. 배깅(Bagging : Bootstrap aggregation)
- 주어진 데이터에서 여러 개의 부트스트랩(bootstrap : 단순복원임의추출(random sampling))을 생성하고 각 부트스트랩을 모델링한 후 종합(aggregation)하여 최종 예측 모형을 산출하는 방법이다.
- 배깅은 예측 모형의 변동성이 큰 경우 예측모형의 변동성을 감소시키기 위해 사용된다. 여러 번의 복원 샘플링을 통해 예측 모형의 분산을 줄여 줌으로써 예측력을 향상 시키는 방법이며 일반적으로 과대 적합 된 모형, 편향이(Bias) 작고 분산(Variance)이 큰 모형에 사용하는 것이 적합하다.
- 각 샘플에서 나타난 결과를 집계한 것이기 때문에 과적합(Overfitting)을 피해준다.
- Random Forest : 여러개의 트리를 결합한 모델
2. 부스팅(Bootsting)
- 약한 예측모형들을 결합하여 강한 예측모형을 만드는 것이다.
- 예측모형의 정확도를 향상시키기 위한 방법으로, 처음에는 동일한 가중치에서 시작하지만 모델링을 통한 예측변수에 의해 오분류된 개체들에는 높은 가중치를 부여하고 올바르게 분류된 객체들에는 낮은 가중치를 부여하여 오분류된 객체들이 더 잘 분류되도록 하는 방법이다.
- 오답에는 높은 가중치를 부여하고 정답에는 낮은 가중치를 부여하여 오답에 더욱 집중하게 한다. 정확도는 높게나오지만 이상치(Outlier)에 약하다.
- AdaBoost, XGBoost, GradientBoost
- High Variance → Overfitting = Bagging
- High Bias → Underfitting = Boosting
'정보수집' 카테고리의 다른 글
[Hadoop] HDP 설치하기 & 실행하기 :: Hortonworks Data Platform (1) | 2021.01.15 |
---|---|
[R] 데이터 csv파일로 내보내기 / 저장하기 :: write.csv (0) | 2020.12.03 |
[R] 내장 데이터 & 패키지 데이터 모음 (0) | 2020.09.06 |
[R] 데이터 구조와 기본 (0) | 2020.07.21 |
[plotly] 티스토리/웹페이지에 반응형 그래프 올리기 (5) | 2020.04.19 |
Comments