티스토리 뷰

cs

스트림 처리, 맵리듀스

짱쭈니어 2022. 8. 22. 23:55

스트림 처리

 

스트림 처리는 unbounded data(무한할 수 있는데이터) 로부터 정보를 추출하는데 사용한다

 

우리는 무한한 데이터셋을 가질 수 없기에, 시간 경과에 따라 이벤트 흐름 형태로 수신되는 데이터 관찰하며,

이것을   데이터 스트림이라고 한다. 

 

이러한 스트림을 처리하기 위한것이 맵리듀스 라는 프레임워크를 사용한다

 

 

 

 

 

 

맵리듀스 (Map+Reduce)

 

대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작된 것이 맵리듀스이다. 

 

대표적으로 Hadoop, MongoDB 등에서 사용하고 있다.

 

 

 

맵리듀스 단계

 

1. Map 단계 -분산되고 많은 데이터를 key, value 의 리스트로 모으는 단계

 

2. Shuffle and Sort 단계 - Map단계에서 나온 중간 결과를 Reduce 함수에 전달 

 

3. Reduce 단계 - 리스트에서 원하는 데이터를 찾아서 집계 

 

 

 

맵리듀스를 사용하는 이유

 

1. 대용량 처리를 가능하게 한다

 

2. 특정 데이터 모델에 의존적이지 않은 유연성을 가지고 있다. 

 

3. 저장구조를 독립적으로 가져갈 수 있다. 

 

 

 

맵리듀스를 사용하기 적합한 경우

 

일괄처리 같은 데이터셋을 분석할 경우 적합하다 

 

 

 

 

참고 자료 

 

https://medium.com/monday-9-pm/spark-1%ED%8E%B8-mapreduce-7ecf6fc6c989

 

Spark 1편— MapReduce

스트림 처리는 unbounded data(한정되지 않은 데이터, 즉 이론상 무한할 수 있는 데이터) 로부터 정보를 추출하는데 사용합니다. 우리의 리소스는 유한하기에 무한한 데이터셋을 가질 수 없어, 대신

medium.com

 

 

 

'cs' 카테고리의 다른 글

DB Replication 에 대해  (0) 2025.03.13
암호화에 대해서  (1) 2022.06.16
Greedy algorithm 탐욕 알고리즘  (0) 2022.02.14
AWS, 클라우드 컴퓨팅, 네트워크 장비  (0) 2022.01.26
Spring IOC , DI , AOP 주요 개념  (0) 2022.01.15
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함