Apache Hadoop의 간단 정리Apache Hadoop이란 무엇인가?Apache Hadoop은 빅 데이터 산업 발전의 원동력이 되어왔습니다. Hive나 Pig같은 관련된 기술들에 대해서도 종종 들어보셨을 것입니다. 하지만 이것이 무엇이고, 왜 여러분들은 Oozie나 Zookeeper, Flume처럼 이상한 이름을 가진 것들을 써야 하는 것일까요?Hadoop은 데이터의 구조에 상관없이, 저렴한 비용으로 큰 데이터를 처리할 수 있게 해줍니다. 여기서 우리가 말하는 ‘크다’는 의미는, 10-100 기가바이트, 그 이상을 말합니다. Hadoop을 사용하는 방법은 우리가 전부터 행해오던 방식들과 어떻게 다를까요?비용의 문제가 있지만, 기존에 존재하는 엔터프라이즈 데이터 웨어하우스와 관계형 데이터베이스는 구조..
[먼저 맵리듀스(mapreduce) 알아보기] Mapreduce vs RDBMS Mapreduce는 간단히 애드혹 분석을 위해 일괄 처리 방식으로 전체 데이터셋을 분석할 필요가 있는 문제에 적합하다.RDBMS(관계형 데이터베이스 관리 시스템)은 포인터 쿼리와 업데이트에 적합한데, 상대적으로 적은 양의 데이터를 낮은 지연 시간에 검색하고 업데이트하기 위해 데이터셋을 색인한다. Mapreduce는 데이터를 한 번 쓰면 여러 번 읽는 응용프로그램에 적합하고 반면에 RDBMS는 지속적으로 업데이트되는 데이터셋에 적합하다. 다음 표는 RDBMS와 Mapreduce 비교를 나타내는 표이다. Mapreduce와 RDBMS의 또 다른 차이는 연산하는 데이터셋 구조의 개수다. RDBMS구조화된 데이터(structured..
1. 맵리듀스 개념맵리듀스 프로그래밍은 맵(Map)과 리듀스(Reduce)라는 두 가지 단계로 데이터를 처리한다.맵(Map)은 입력 파일을 한 줄씩 읽어서 데이터를 변형(transformation)하며, 리듀스(Reduce)는 맵의 결과 데이터를 집계(aggregation)한다.특별히 애드혹 분석을 위해 일괄 처리 방식으로 전체 데이터 셋을 분석할 필요가 있는 문제에 적합하다. [출처: http://www.slideshare.net/kwnam4u/hadoop-38481079] 2. 맵리듀스 아키텍처 1) 시스템 구성- 맵리듀스 시스템은 클라이언트, 잡트래커, 태스크트래커로 구성된다. [출처: http://zetawiki.com/] - 클라이언트 : 클라이언트는 사용자가 실행한 맵리듀스 프로그램과 하둡에서..