본문 바로가기

공부/데이터분석

머신 러닝 주요 알고리즘 4가지

이번에는 머신 러닝 주요 알고리즘 4가지를 소개하고자 합니다.

 

1. 선형 회귀(Linear Regression)

선형 회귀는 가장 기초적인 머신러닝 모델입니다. 데이터의 선형 관계를 기반으로 예측을 수행하는 모델로, 독립 변수와 종속 변수 사이의 선형 관계를 설명합니다. 선형 회귀는 데이터와 예측 데이터 사이의 오차 평균을 최소화할 수 있는 최적의 기울기와 절편을 찾는 것을 목적으로 진행됩니다. 선형 회귀에서 최적의 기울기와 절편을 찾는 방식에는 여러 가지가 있습니다. 대표적인 방법으로는 경사하강법이 있습니다.

 

2. 로지스틱 회귀(Logistic Regression)

로지스틱 회귀는 회귀를 사용하여 데이터가 어떠한 범주에 속할지 확률을 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘입니다.

대표적인 사용 예시로 스팸 메일 분류기가 있습니다. 어떠한 메일을 받았을 시 그 메일이 스팸일 확률을 계산하고 그 확률이 적정 확률을 넘어섰을 경우 스팸으로 처리하는 방식입니다. 이런식으로 데이터가 2개의 범주 중 하나에 속하도록 분류하는 것을 2진 분류라고 합니다.

 

3. K-최근접 이웃(KNN)

KNN 알고리즘은 데이터로부터 거리가 가까운 k개의 다른 데이터를 참조하여 분류하는 알고리즘으로 거리를 측정할 때 '유클리디안 거리' 계산법을 사용합니다. 거리를 계산하여 가장 가까운 k개의 종류를 참조하여 그 종류를 분류하는 방법입니다. 예를들면 분류하고 싶은 데이터의 근처 3가지의 데이터의 레이블을 확인하여 더 많은 데이터로 데이터를 분류하는 방법입니다. 이 k개의 값은 홀수로 지정하는 것이 바람직합니다. 짝수로 지정한 경우를 예로 들면 k의 값을 4로 지정하고 분류를 진행할 시 가장 근접한 4개의 데이터의 레이블이 2 : 2로 갈리는 경우 그 데이터를 분류할 수 없기 때문입니다. 따라서 k의 값은 홀수로 지정하는 것이 바람직합니다.

 

4. 의사결정 트리(Decision Tree)

의사결정 트리 알고리즘은 데이터에 있는 규칙을 학습을 통해 자동적으로 찾아내 트리 기반의 규칙을 만드는 것입니다. 알고리즘의 성능을 크게 좌우하는 것은 규칙을 얼마나 만드는가 입니다. 결정 트리는 루트 노드, 규칙 노드, 리프 노드로 이루어져 있고 새로운 규칙 조건마다 서브 트리가 생성됩니다. 학습 과정에서 규칙이 너무 많으면 분류 방식이 매우 복잡해진다는 사실이고 이는 과적합으로 이어지기 쉽습니다. 학습 데이터를 너무 완벽하게 분류하게 되면 학습 데이터에 과적합 될 수 있고 예측 성능이 저하될 수 있습니다. 트리의 깊이가 너무 깊으면 학습 속도가 저하됩니다. 따라서 모델의 복잡도와 트리의 깊이를 적잘하게 구성해줘야 합니다.

'공부 > 데이터분석' 카테고리의 다른 글

앙상블 기법  (0) 2025.01.28
데이터 전처리  (0) 2025.01.27
지도학습, 비지도학습  (0) 2025.01.23