1. 하둡이란?하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 하둡은 구글이 논문으로 발표한 GFS(Google File System)과 맵리듀스(MapReduce)를 2005년 더그커팅이 구현한 결과물이다. 하둡은 분산시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 맵리듀스를 이용해 데이터를 처리한다.하둡은 여러 대의 서버에 데이터를 저장하고, 저장된 각 서버에서 동시에 데이터를 처리하는 방식이다. 하둡은 기존의 RDBMS(Oracle,MS-SQL, MySQL등)을 대치하는 것이 아니다. 즉 트랜젝션이나 무결성을 보장해야하는 데이터처리에는 적합하지 않다. 하둡은 배치성으로 데이터를 저장하고 처리하는데 적합한 시스템이다...
그리드 컴퓨팅은 모든 컴퓨팅 기기를 하나의 초고속 네트워크로 연결하여, 컴퓨터의 계산능력을 극대화시키는 차세대 디지털 신경망 서비스를 말한다. 쉽게 말해 수많은 컴퓨터를 하나로 묶어 같은 작업을 공동으로 수행하게 하는 것인데, 다른 말로 ‘분산 컴퓨팅’이라고도 불린다. 분산된 컴퓨터 자원을 광통신 등 초고속 네트워크로 연결한 뒤 프로세서(중앙처리장치, CPU)에 유휴자원(사용되지 않는 능력)이 발생할 경우 이를 한데 모아 특정 작업에 집중시켜 작업 속도를 무한정 향상시킬 수 있는 것이다. 따라서 이를 사용하면 1대의 컴퓨터를 이용하는 것보다 연산처리 능력과 회선 속도가 향상되기 때문에 슈퍼컴퓨터의 능력을 발휘할 수 있게 된다.그리드 컴퓨팅은 '네 것도 내 것, 내 것도 네 것'이라는 개념 아래 탄생한 기..
Apache Hadoop의 간단 정리Apache Hadoop이란 무엇인가?Apache Hadoop은 빅 데이터 산업 발전의 원동력이 되어왔습니다. Hive나 Pig같은 관련된 기술들에 대해서도 종종 들어보셨을 것입니다. 하지만 이것이 무엇이고, 왜 여러분들은 Oozie나 Zookeeper, Flume처럼 이상한 이름을 가진 것들을 써야 하는 것일까요?Hadoop은 데이터의 구조에 상관없이, 저렴한 비용으로 큰 데이터를 처리할 수 있게 해줍니다. 여기서 우리가 말하는 ‘크다’는 의미는, 10-100 기가바이트, 그 이상을 말합니다. Hadoop을 사용하는 방법은 우리가 전부터 행해오던 방식들과 어떻게 다를까요?비용의 문제가 있지만, 기존에 존재하는 엔터프라이즈 데이터 웨어하우스와 관계형 데이터베이스는 구조..
[먼저 맵리듀스(mapreduce) 알아보기] Mapreduce vs RDBMS Mapreduce는 간단히 애드혹 분석을 위해 일괄 처리 방식으로 전체 데이터셋을 분석할 필요가 있는 문제에 적합하다.RDBMS(관계형 데이터베이스 관리 시스템)은 포인터 쿼리와 업데이트에 적합한데, 상대적으로 적은 양의 데이터를 낮은 지연 시간에 검색하고 업데이트하기 위해 데이터셋을 색인한다. Mapreduce는 데이터를 한 번 쓰면 여러 번 읽는 응용프로그램에 적합하고 반면에 RDBMS는 지속적으로 업데이트되는 데이터셋에 적합하다. 다음 표는 RDBMS와 Mapreduce 비교를 나타내는 표이다. Mapreduce와 RDBMS의 또 다른 차이는 연산하는 데이터셋 구조의 개수다. RDBMS구조화된 데이터(structured..
1. 맵리듀스 개념맵리듀스 프로그래밍은 맵(Map)과 리듀스(Reduce)라는 두 가지 단계로 데이터를 처리한다.맵(Map)은 입력 파일을 한 줄씩 읽어서 데이터를 변형(transformation)하며, 리듀스(Reduce)는 맵의 결과 데이터를 집계(aggregation)한다.특별히 애드혹 분석을 위해 일괄 처리 방식으로 전체 데이터 셋을 분석할 필요가 있는 문제에 적합하다. [출처: http://www.slideshare.net/kwnam4u/hadoop-38481079] 2. 맵리듀스 아키텍처 1) 시스템 구성- 맵리듀스 시스템은 클라이언트, 잡트래커, 태스크트래커로 구성된다. [출처: http://zetawiki.com/] - 클라이언트 : 클라이언트는 사용자가 실행한 맵리듀스 프로그램과 하둡에서..
Apache Hadoop 3.0.0-alpha2는 이전 주요 릴리스 라인 (hadoop-2.x)에 비해 여러 가지 중요한 개선 사항을 포함하고 있습니다.Java Version하둡 3.0 에서 요구하는 최소 자바 버전은 기존 Java 7 에서 Java 8 로 변경 되었습니다. Support Erasure Coding in HDFSErasure Coding 은 안정성을 보장하는 데이터 저장 방식의 하나로, 일반적으로 3배의 오버헤드를 갖는 HDFS 의 복제 방식(replica 3)과 비교하여 약 1.4배의 오버헤드 만으로 데이터를 저장하는 것이 가능합니다. 데이터 저장을 위해 원천 데이터의 3배 크기 저장 공간이 필요하다는 것은 하둡을 통하여 비용 효율적인 인프라 구성을 하는 부분에 있어 가장 공격을 당하는..
보통은 hadoop.apache.org 에 있는 문서나 튜토리얼을 잘 찾아 보는게 기본입니다. 궁금해 하시는 부분들은 Architecture 문서들을 잘 읽어보는게 중요합니다.특히 아래의 3가지는 꼭 읽어보시기 바랍니다. HDFS: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html MapReduce: http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Yarn: http://hadoop.apache.org/docs/current/hadoop-yarn/h..
가장 흔해빠진 7가지 하둡 및 스파크 프로젝트Andrew C. Oliver | InfoWorld뭔가 색다르고 혁신적인 것을 하는 이에게 필요한 모든 지원과 자금을 제공하면 결국 그 사람은 다른 사람과 똑같은 것을 하게 된다는 격언이 있다. 이 격언은 하둡, 스파크, 스톰에도 적용된다. 모두가 자신은 새로운 빅데이터 기술을 사용해 뭔가 특별한 것을 한다고 생각하지만 사실은 똑같은 패턴의 끊임없는 반복일 수 있다. 구체적인 구현은 다소 다를 수 있지만 다음은 필자의 경험을 바탕으로 간추린 가장 흔한 7가지 프로젝트다. 프로젝트 No. 1: 데이터 통합(Data consolidation) '엔터프라이즈 데이터 허브(enterprise data hub)' 또는 '데이터 레이크(Data lake)'라고 한다. 이..
인력 채용 전문기업 ‘로버트 하프 테크놀로지(Robert Half Technology)’는 기술·고용 동향 예측 보고서 ’2017년 기술과 IT 급여 가이드(2017 Technology & IT Salary Guide)’를 최근 발표했다.보고서에 따르면 특히 미국 내 모든 분야의 초봉이 3.6%가량 늘어날 것으로 예상되고 있는 가운데 기술직 초봉은 이보다 조금 더 높은 3.8%의 상승률을 보일 것으로 전망했다. 기술직 급여 인상을 이끌고 있는 것은 IT 분야다.최근 인기가 올라가고 있는 데이터 사이언티스트(Data Scienctist)의 경우 2017년 연봉이 11만6000달러(한화 1억3606만8000원)~ 16만3500달러(한화 1억9178만5500원)에 이를 것으로 예상됐는데 이는 2016년과 비교..