스트림 처리, 맵리듀스

티스토리 뷰

스트림 처리, 맵리듀스

짱쭈니어 2022. 8. 22. 23:55

스트림 처리

스트림 처리는 unbounded data(무한할 수 있는데이터) 로부터 정보를 추출하는데 사용한다

우리는 무한한 데이터셋을 가질 수 없기에, 시간 경과에 따라 이벤트 흐름 형태로 수신되는 데이터 관찰하며,

이것을 데이터 스트림이라고 한다.

이러한 스트림을 처리하기 위한것이 맵리듀스 라는 프레임워크를 사용한다

맵리듀스 (Map+Reduce)

대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작된 것이 맵리듀스이다.

대표적으로 Hadoop, MongoDB 등에서 사용하고 있다.

맵리듀스 단계

1. Map 단계 -분산되고 많은 데이터를 key, value 의 리스트로 모으는 단계

2. Shuffle and Sort 단계 - Map단계에서 나온 중간 결과를 Reduce 함수에 전달

3. Reduce 단계 - 리스트에서 원하는 데이터를 찾아서 집계

맵리듀스를 사용하는 이유

1. 대용량 처리를 가능하게 한다

2. 특정 데이터 모델에 의존적이지 않은 유연성을 가지고 있다.

3. 저장구조를 독립적으로 가져갈 수 있다.

맵리듀스를 사용하기 적합한 경우

일괄처리 같은 데이터셋을 분석할 경우 적합하다

참고 자료

https://medium.com/monday-9-pm/spark-1%ED%8E%B8-mapreduce-7ecf6fc6c989

Spark 1편— MapReduce

스트림 처리는 unbounded data(한정되지 않은 데이터, 즉 이론상 무한할 수 있는 데이터) 로부터 정보를 추출하는데 사용합니다. 우리의 리소스는 유한하기에 무한한 데이터셋을 가질 수 없어, 대신

medium.com

'cs' 카테고리의 다른 글

DB Replication 에 대해 (0)	2025.03.13
암호화에 대해서 (1)	2022.06.16
Greedy algorithm 탐욕 알고리즘 (0)	2022.02.14
AWS, 클라우드 컴퓨팅, 네트워크 장비 (0)	2022.01.26
Spring IOC , DI , AOP 주요 개념 (0)	2022.01.15

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

출근하느라 바쁜 쭈니어

티스토리 뷰

스트림 처리, 맵리듀스

스트림 처리

맵리듀스 (Map+Reduce)

맵리듀스 단계

맵리듀스를 사용하는 이유

맵리듀스를 사용하기 적합한 경우

참고 자료

'cs' 카테고리의 다른 글

티스토리툴바