공부 (12) 썸네일형 리스트형 Apache Airflow Apache Airflow란?Apache Airflow는 데이터 공학 파이프라인을 위한 오픈 소스 워크플로 관리 플랫폼이다. 2014년 10월 에어비엔비에서 기업의 점차 복잡해지는 워크플로를 관리하기 위한 해결책으로서 시작하였다. Airflow는 파이썬으로 작성되어 있으며 워크플로는 파이썬 스크립트를 통해 만들어진다. Apache Airflow의 장점복잡한 워크플로 관리 및 시각화Airflow는 DAG(Directed Acyclic Graph)를 사용하여 워크플로를 시각적으로 표현하고 관리할 수 있습니다.DAG를 통해 작업 간의 종속성을 명확하게 정의하고, 복잡한 데이터 파이프라인을 쉽게 이해하고 관리할 수 있습니다.직관적인 UI를 통해 작업들의 상태를 모니터링하고, 로그를 확인할 수 있습니다.다양한 데.. Apache Kafka Apache Kafka란?Apache Kafka는 실시간 데이터를 처리하는 오픈소스 분산형 이벤트 스트리밍 플랫폼입니다. Kafka는 이벤트 기반 애플리케이션을 지원하고 신뢰할 수 있는 데이터 파이프라인을 구축하는 데 탁월하며, 지연 시간이 짧고 처리량이 높은 데이터 전송을 제공합니다. Apache Kafka의 장점Apache Kafka의 주요 장점은 대규모 데이터 스트리밍 처리, 고성능 및 확장성, 내구성과 신뢰성, 다중 컨슈머 기능 지원, 실시간 데이터 처리 등이 있습니다.대규모 데이터 스트리밍 처리 : KafKa는 대용량 실시간 데이터 스트리밍을 안정적이고 빠르게 처리하는 데 최적화된 분산 메시징 시스템입니다.고성능 및 확장성 : Kafka는 높은 처리량을 유지하면서 수평 확장이 가능하므로 대규모 .. Hadoop Hadoop이란?Apache Hadoop은 여러 컴퓨터 클러스터에서 대용량 데이터 세트를 분산 처리할 수 있는 프레임워크입니다. 단일 서버에서 수천 대의 머신까지 확장 가능하도록 설계되었으며, 각 머신은 로컬 연산 및 스토리지를 제공합니다. 고가용성을 제공하기 위해 하드웨어에 의존하는 대신, 라이브러리 자체가 애플리케이션 계층에서 장애를 감지하고 처리하도록 설계되어 장애 발생 가능성이 높은 여러 컴퓨터 클러스터를 기반으로 고가용성 서비스를 제공합니다. Hadoop 사용 이유Hadoop을 사용하는 이유는 크게 3가지 장점 때문입니다.1. 확장성 - 기존 시스템은 데이터 스토리지를 제한하지만, 하둡은 분산형 환경에서 작동하기 때문에 확장할 수 있습니다. 이 때문에 데이터 설계자가 하둡에서 일찍부터 데이터 .. 선형대수학 기초4 단위벡터단위벡터를 정의하기 이전에 $ \overrightarrow{v} $를 먼저 정의해봅시다. $ \overrightarrow{v} $ = $ \begin{bmatrix}2\\3\end{bmatrix} $로 정의를 했을 때 이는 수직으로 2만큼 수평으로 3만큼의 크기를 가진 벡터라고 할 수 있습니다. 이제 단위벡터를 정의해봅시다.단위벡터 i를 정의해봅시다. $ \widehat{i} $ = $ \begin{bmatrix}1\\0\end{bmatrix} $으로 정의할 수 있습니다. 수평방향으로 1만큼 이동하고 수직방향으로는 전혀 움직이지 않습니다.따라서 위 그림처럼 생겼습니다.단위벡터 j를 정의해볼까요? $\widehat{j} $ = $ \begin{bmatrix}0\\1\end{bmatrix} $로 정의.. 앙상블 기법 앙상블 기법 Ensemble Learning 이란 여러 개의 개별 모델을 조합하여 최적의 모델을 구성하는 방법입니다. 약한 모델을 여러개 결합하여 강력한 모델을 제작하는 방법으로 주로 모델에서 생기는 문제를 해결하기 위해 많이 사용합니다. 앙상블 기법에는 보팅(voting), 배깅(bagging), 부스팅(boosting), 스태킹(stacking)이 있습니다. 보팅(voting)보팅이란 한 데이터세트에 대해 서로 다른 알고리즘을 가진 분류기의 결합을 의미합니다.보팅에는 하드 보팅과 소프트 보팅으로 나뉘어 있습니다. 하드 보팅각 분류기가 최종 결과를 정하면 더 많이 지정한 결과를 최종 결과로 결정 소프트 보팅각 분류기마다 각 결과의 확률을 정하고 그 확률들의 평균값이 가장 큰 값을 최종 결과로 결정 배깅.. 데이터 전처리 인공지능 모델을 학습시키기 위해서는 데이터가 중요합니다. 데이터가 잘 정제되어있는지, 데이터의 양은 얼마나 많은지에 따라서 인공지능 모델의 성능은 크게 좌우되기 때문입니다. 따라서 이 데이터를 인공지능이 학습하기 원활하도록 전처리하는 것을 데이터 전처리라고 합니다. 1. 결측치 제거데이터 전처리에 가장 기초적인 단계로 데이터의 결측값을 제거하는 단계입니다. 결측값이란 비어있는 데이터란 뜻으로 이 결측값을 제거하거나 특정 값으로 채워 넣을 수 있습니다. 결측치가 있는 데이터를 제거하는 경우 데이터의 양이 줄어들고 데이터를 특정 값으로 대체하는 경우 어떠한 데이터로 채워 넣을지 잘 선택해야합니다.결측치를 대체하는 경우 수치형 데이터는 평균, 중앙값, 보간법 등으로 데이터를 대체하는 경우가 많다. 여기서 보간.. 머신 러닝 주요 알고리즘 4가지 이번에는 머신 러닝 주요 알고리즘 4가지를 소개하고자 합니다. 1. 선형 회귀(Linear Regression)선형 회귀는 가장 기초적인 머신러닝 모델입니다. 데이터의 선형 관계를 기반으로 예측을 수행하는 모델로, 독립 변수와 종속 변수 사이의 선형 관계를 설명합니다. 선형 회귀는 데이터와 예측 데이터 사이의 오차 평균을 최소화할 수 있는 최적의 기울기와 절편을 찾는 것을 목적으로 진행됩니다. 선형 회귀에서 최적의 기울기와 절편을 찾는 방식에는 여러 가지가 있습니다. 대표적인 방법으로는 경사하강법이 있습니다. 2. 로지스틱 회귀(Logistic Regression)로지스틱 회귀는 회귀를 사용하여 데이터가 어떠한 범주에 속할지 확률을 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주.. 지도학습, 비지도학습 지도학습과 비지도학습은 기계 학습(Machine Learning; ML)에 속한 2가지 기본적인 원리이다. 지도학습이란?지도학습은 label이 지정된 데이터를 학습 데이터로 사용하는 머신러닝 접근 방식이다. label이 지정된 데이터 세트를 이용하여 데이터를 분류하거나 결과를 정확하게 예측하도록 알고리즘을 설계한다. 지도학습은 크게 회귀(Regression)와 분류(Classification)으로 나눌 수 있다. 회귀 (Regression)회귀는 알고리즘을 사용하여 종속(feature) 변수와 독립(target) 변수 간의 관계를 이해하는 지도 학습의 방법 중 하나이다. 회귀 모델은 보통 숫자를 기반으로 하는 데이터 요소를 예측할 때 사용한다. 대표적인 회귀 알고리즘에는 선형 회귀 (Linear Regr.. 이전 1 2 다음