티스토리 뷰
스트림 처리
스트림 처리는 unbounded data(무한할 수 있는데이터) 로부터 정보를 추출하는데 사용한다
우리는 무한한 데이터셋을 가질 수 없기에, 시간 경과에 따라 이벤트 흐름 형태로 수신되는 데이터 관찰하며,
이것을 데이터 스트림이라고 한다.
이러한 스트림을 처리하기 위한것이 맵리듀스 라는 프레임워크를 사용한다
맵리듀스 (Map+Reduce)
대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작된 것이 맵리듀스이다.
대표적으로 Hadoop, MongoDB 등에서 사용하고 있다.
맵리듀스 단계
1. Map 단계 -분산되고 많은 데이터를 key, value 의 리스트로 모으는 단계
2. Shuffle and Sort 단계 - Map단계에서 나온 중간 결과를 Reduce 함수에 전달
3. Reduce 단계 - 리스트에서 원하는 데이터를 찾아서 집계
맵리듀스를 사용하는 이유
1. 대용량 처리를 가능하게 한다
2. 특정 데이터 모델에 의존적이지 않은 유연성을 가지고 있다.
3. 저장구조를 독립적으로 가져갈 수 있다.
맵리듀스를 사용하기 적합한 경우
일괄처리 같은 데이터셋을 분석할 경우 적합하다
참고 자료
https://medium.com/monday-9-pm/spark-1%ED%8E%B8-mapreduce-7ecf6fc6c989
Spark 1편— MapReduce
스트림 처리는 unbounded data(한정되지 않은 데이터, 즉 이론상 무한할 수 있는 데이터) 로부터 정보를 추출하는데 사용합니다. 우리의 리소스는 유한하기에 무한한 데이터셋을 가질 수 없어, 대신
medium.com
'cs' 카테고리의 다른 글
DB Replication 에 대해 (0) | 2025.03.13 |
---|---|
암호화에 대해서 (1) | 2022.06.16 |
Greedy algorithm 탐욕 알고리즘 (0) | 2022.02.14 |
AWS, 클라우드 컴퓨팅, 네트워크 장비 (0) | 2022.01.26 |
Spring IOC , DI , AOP 주요 개념 (0) | 2022.01.15 |
- Total
- Today
- Yesterday
- UML
- 유스케이스
- 모델링
- 깃
- web
- 코딩
- 레이아웃
- java
- sql
- 백엔드
- 이클립스
- JPA
- 자바
- sourcetree
- 코드업
- set
- laravel
- 개인프로젝트
- eclipse
- 자바기초
- 기초100제
- 객체지향모델링
- 파이썬
- 파이썬기초
- 코드업기초
- 스프링
- Spring
- 안드로이드
- 다이어그램
- 객체지향
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |