민서네집

하둡(Hadoop), HDFS, MapReduce 본문

IT

하둡(Hadoop), HDFS, MapReduce

브라이언7 2014. 1. 20. 10:49

[출처] http://hbiedu.co.kr/sme/small_detail.jsp?seq=901&flag=5

하둡(Hadoop)이란 무엇인가?? 
대용량 데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임 워크.
?구글 파일 시스템(GFS)를 벤치 마킹하여 하둡 분산 파일 시스템(HDFS:Hadoop Distributed File System)과 맵리듀스(MapReduce)를 구현한 기술.

HDFS란 무엇인가?
- Block 단위(기본 64MB)로 대량의 데이터 저장(GB, TB → PB, EB, ZB)
?- Block 복제(Fault-tolerant → 각 Block은Datanode에 3개 이상의 복제)
?- 단일 Master(확장성 용이 → 4000+ node,balancing)
?- No Caching(대량 데이터의 순차읽기를 통한 Processing)
?- Customizing API(기본적으로 JAVA, C++, Python 제공)

MapReduce Programming
- 구글에서 발표한 병렬 처리 모델 
- 대용량 데이터로부터 Key-Value Mapping을 통해 Reduction을 하는 프로그래밍 모델
?- K-V에 대한 커스터마이징을 지원함으로써 유연한 프로그래밍 제공
?- Binary 탐색, Hash 알고리즘 적용 등을 통한 빠른 데이터 처리 가능
?- 기존의 병렬 처리 모델은 프로세스가 있는 곳으로 데이터를 모아서 처리
?- MapReduce는 데이터가 있는 곳으로 프로그램을 배포하여 처리

하둡이 빅데이터에 적합한 이유
- 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공
- 클러스터 구성을 통해 멀티 노드로 부하를 분산시켜 처리
- 장비를 증가시킬수록 성능이 Linear에 가깝게 향상
- 오픈 소스, Intel Core 머신과 리눅스는 저렴




'IT' 카테고리의 다른 글

통계패키지 R  (0) 2014.01.20
Comments