앙상블 기법 Ensemble Learning 이란 여러 개의 개별 모델을 조합하여 최적의 모델을 구성하는 방법입니다. 약한 모델을 여러개 결합하여 강력한 모델을 제작하는 방법으로 주로 모델에서 생기는 문제를 해결하기 위해 많이 사용합니다.
앙상블 기법에는 보팅(voting), 배깅(bagging), 부스팅(boosting), 스태킹(stacking)이 있습니다.
보팅(voting)
보팅이란 한 데이터세트에 대해 서로 다른 알고리즘을 가진 분류기의 결합을 의미합니다.
보팅에는 하드 보팅과 소프트 보팅으로 나뉘어 있습니다.
하드 보팅
각 분류기가 최종 결과를 정하면 더 많이 지정한 결과를 최종 결과로 결정
소프트 보팅
각 분류기마다 각 결과의 확률을 정하고 그 확률들의 평균값이 가장 큰 값을 최종 결과로 결정
배깅(bagging)
배깅이란 한 데이터세트에 서로 같은 알고리즘을 이용한 분류기가 데이터를 다르게 샘플링을 하여 가져가면서 학습을 수행하는 방식입니다. 대표적으로 Random Forest 모델이 있습니다.
부스팅(boosting)
부스팅이란 여러 모델이 순차적으로 학습합니다. 이전 모델이 학습한 결과가 다음 모델의 학습에 영향을 미칩니다. 이전 모델의 학습 결과에 따라 오답에 대해서는 높은 가중치를 부여하고 정답에 대해서는 낮은 가중치를 부여하여 부여된 가중치가 다음 모델에 영향을 미치는 것입니다. 대표적으로 Gradient Boost, XGBoost, LightGBM 등이 있습니다.
스태킹(stacking)
스태킹이란 교차 검증(cross validation)을 기반으로 개별 모델이 예측한 데이터를 다시 메타 데이터셋으로 사용하여 최종 모델에서 학습하는 방식입니다. 기본 모델에서 동일한 데이터 원본을 가지고 학습하게 되면 오버피팅의 문제가 발생합니다.
'공부 > 데이터분석' 카테고리의 다른 글
데이터 전처리 (0) | 2025.01.27 |
---|---|
머신 러닝 주요 알고리즘 4가지 (0) | 2025.01.26 |
지도학습, 비지도학습 (0) | 2025.01.23 |