본문 바로가기

공부/데이터분석

데이터 전처리

인공지능 모델을 학습시키기 위해서는 데이터가 중요합니다. 데이터가 잘 정제되어있는지, 데이터의 양은 얼마나 많은지에 따라서 인공지능 모델의 성능은 크게 좌우되기 때문입니다. 따라서 이 데이터를 인공지능이 학습하기 원활하도록 전처리하는 것을 데이터 전처리라고 합니다.

 

1. 결측치 제거

데이터 전처리에 가장 기초적인 단계로 데이터의 결측값을 제거하는 단계입니다. 결측값이란 비어있는 데이터란 뜻으로 이 결측값을 제거하거나 특정 값으로 채워 넣을 수 있습니다. 결측치가 있는 데이터를 제거하는 경우 데이터의 양이 줄어들고 데이터를 특정 값으로 대체하는 경우 어떠한 데이터로 채워 넣을지 잘 선택해야합니다.

결측치를 대체하는 경우 수치형 데이터는 평균, 중앙값, 보간법 등으로 데이터를 대체하는 경우가 많다. 여기서 보간법이란 쉽게 생각해서 앞뒤 데이터의 평균으로 결측값을 채우는 방법입니다.

이렇게 다양한 방법으로 결측치를 제거할 수 있습니다.

2. 이상치 제거

결측값을 제거하고 다음으로 이상치를 제거해야합니다. 이상치란 데이터의 범위에서 극단적으로 높거나 낮은 값을 말합니다. 주로 이 이상치를 판단하는 기준은 IQR(사분위수 범위)를 사용하여 판단합니다. 이 IQR은 Q3 - Q1으로 정의할 수 있습니다.

이 Q3와 Q1은 사분위수로 Q3는 3사분위수로 전체 데이터의 75% 값을 의미하며, Q1은 1사분위수로 전체 데이터의 25% 값입니다. 이 IQR로 상한과 하한을 구할 수 있습니다. 하한은 Q1 - (IQR * 1.5)로 구할 수 있고 상한은 Q3 - (IQR * 1.5)로 구할 수 있습니다. 이 상한과 하한을 벗어난 값을 이상치라고 판단할 수 있습니다.

데이터의 이상치를 제거하여 데이터의 품질을 향상시킬 수 있습니다.

3. 정규화

데이터 정규화는 데이터의 스케일을 조정하는 방법입니다. 정규화는 데이터를 특정 범위로 변환하여 범위를 일치시키는 작업을 의미합니다. 이 정규화를 이용하여 이상치를 처리할 수 있습니다. 이 정규화를 실시하면 데이터의 범위를 변환시키기 때문에 모델의 학습 속도에 영향을 줄 수 있다.

4. 인코딩

인코딩이란 범주형 데이터를 수치형 데이터로 변환하는 방법이다. 주로 라벨 인코딩(Label Encoding), 원-핫 인코딩(One-Hot Encoding)이 있다. 라벨 인코딩은 범주형 데이터를 특정 숫자로 변환하여 모델이 이해할 수 있도록 한다. 하지만 수치형 데이터의 대소관계로 잘못 인식하는 경우가 생긴다. 이를 해결하기 위해 나온 방법이 원-핫 인코딩이다. 범주형 데이터의 유형에 따라 새로운 feature를 추가하여 데이터의 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하여 원래 데이터의 의미를 유지하고 데이터의 대소관계 문제도 해결한 인코딩 방식이다.

 

이러한 데이터 전처리 방식 외에도 다양한 방식의 전처리 방식이 있다. 데이터 전처리를 통해 모델의 학습 효율을 높이고 나아가 모델의 성능을 높이는 방법이다.

'공부 > 데이터분석' 카테고리의 다른 글

앙상블 기법  (0) 2025.01.28
머신 러닝 주요 알고리즘 4가지  (0) 2025.01.26
지도학습, 비지도학습  (0) 2025.01.23