간편결제, 신용카드 청구할인
삼성카드 6% (30,460원)
(삼성카드 6% 청구할인)
인터파크 롯데카드 5% (30,780원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (22,680원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (25,920원)
(최대할인 4만원 / 2만원 이상 결제)
Close

빅 데이터 시대의 하둡 완벽 입문 : 오픈 소스 분산 처리 환경 구축 가이드[2판]

원제 : Hadoop徹底入門
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 69
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

36,000원

  • 32,400 (10%할인)

    1,800P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
추가혜택
배송정보
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(11)

  • 사은품(1)

출판사 서평

Hadoop의 다양한 애플리케이션 개발 환경을 상세히 설명하고 구축과 운영에 관한 자세한 정보 수록!
A부터 Z까지 Hadoop에 관한 거의 모든 것!


IT 시스템 세계에서 ‘Hadoop’이라는 소프트웨어 사용이 늘어나고 있다. 이 책을 가지고 있다는 것은 적어도 Hadoop에 관심이 있다는 것이다. 아직 Hadoop에 관해 잘 몰라도 소프트웨어 이름이라는 것 정도는 알고 있겠지만, ‘도대체 용도가 뭐야?’, ‘뭐 하는 거지?’ 등과 같은 초보적인 질문을 하는 사람도 적지 않을 것이다. 또한, 어떤 데이터를 취급하기 위한 미들웨어라는 것은 알고 있더라도 ‘관계형 데이터베이스랑은 어떻게 달라?’, ‘파일시스템이랑 달라?’, ‘처리를 위한 새로운 개념인가?’ 등 다양한 의문이 많을 거라고 생각된다.

Hadoop은 다수의 컴퓨터를 연결하여 대용량 처리를 가능케 하는 오픈 소스 소프트웨어이며, MapReduce라는 자바 프레임워크를 사용해 프로그래밍이 가능하다. 또한, 표준 입출력을 사용할 수 있는 HadoopStreaming, 플로(flow) 기술 환경 Pig, SQL 방식 인터페이스인 Hive 등 다양한 개발 환경을 제공하고 있다. 뿐만 아니라 행 지향 데이터베이스인 HBase나 로그 수집기 Fluentd의 기반 시스템으로도 사용할 수 있어서 높은 범용성을 자랑한다.

이 책은 1판에 비해 Hadoop에 관해 전혀 모르는 사람들도 이해하는 데 좀 더 도움이 되도록 개요 부분을 더욱 쉽게 구성했으며, MapReduce 애플리케이션 개발 내용을 추가하고 초보자부터 고급 사용자까지 모두 활용할 수 있도록 했다. 운용성, 가용성 측면도 보강하고 새로운 기술 이슈에 대해서도 추가하였다. 또한, 실제 시스템에서 많이 사용되고 있는 클라우데라(Cloudera)의 CDH 4를 기준으로 시스템 확장, 감시, 운영 방법 등 현장에서 바로 적용할 수 있는 최신 노하우까지 담았다.

목차

PART 1 Hadoop 기초
Chapter 1 Hadoop 기초 지식
1.1 Hadoop이란?
1.2 Hadoop 개요
1.3 Hadoop 적용 분야
1.4 Hadoop 시스템 구성과 아키텍처
1.5 Hadoop 적용 사례

Chapter 2 MapReduce 애플리케이션 활용 예
2.1 블로그 접속 수 집계
2.2 비슷한 사람을 찾아내자
2.3 검색 엔진 인덱스 작성
2.4 이미지 데이터 분산 처리
2.5 MapReduce로 구현할 수 있는 처리 특성과 활용 포인트

Chapter 3 Hadoop 도입
3.1 구축 환경 조건
3.2 실행 환경 구축
3.3 동작 확인
3.4 샘플 애플리케이션 실행

Chapter 4 HDFS
4.1 Hadoop의 파일 시스템
4.2 HDFS의 구조
4.3 HDFS의 파일 I/O 흐름
4.4 파일 시스템의 메타데이터
4.5 HDFS 설정과 시작/중지
4.6 SecondaryNameNode
4.7 CLI 기반 파일 조작

Chapter 5 MapReduce 프레임워크
5.1 MapReduce 처리
5.2 MapReduce 아키텍처
5.3 MapReduce와 HDFS의 관계
5.4 MapReduce 프레임워크 설정
5.5 MapReduce 프레임워크 시작과 정지
5.6 CLI 기반 MapReduce 관리

Chapter 6 Hadoop 애플리케이션 실행
6.1 테스트 애플리케이션
6.2 MapReduce 애플리케이션(자바)
6.3 HadoopStreaming 애플리케이션
6.4 Pig 애플리케이션
6.5 Hive 애플리케이션

Chapter 7 Hadoop 클러스터 구축
7.1 완전 분산 클러스터
7.2 환경 구축의 전제 조건
7.3 Hadoop 클러스터 환경 구축
7.4 웹 인터페이스를 통한 동작 확인
7.5 샘플 애플리케이션 실행

PART 2 MapReduce 애플리케이션 개발
Chapter 8 MapReduce 프로그래밍 기초 - 자바를 사용한 개발(1) -
8.1 자바를 사용한 MapReduce 개발
8.2 소스 코드 단계에서 프로그램 실행
8.3 Mapper
8.4 Reducer
8.5 Writable
8.6 InputFormat/OutputFormat
8.7 main 프로그램

Chapter 9 MapReduce 프로그래밍 응용 - 자바를 사용한 개발(2) -
9.1 MapReduce 프로그램 커스터마이즈
9.2 입력 데이터 조작을 제어한다
9.3 출력 데이터 제어
9.4 독자 데이터형을 정의한다
9.5 Shuffle 단계 동작 제어
9.6 MapReduce 애플리케이션 테스트 및 디버깅

Chapter 10 MapReduce 개발 팁 -자바를 사용한 개발(3) -
10.1 이 장에서 소개할 내용
10.2 압축 데이터 다루기
10.3 MapReduce 처리에 적합한 파일 포맷
10.4 한 번에 복수의 파일 포맷 처리
10.5 분산 캐시 이용
10.6 Map 태스크/Reduce 태스크 실행 Context 처리
10.7 처리 중에 발생한 이벤트를 집계
10.8 MapReduce 애플리케이션 설정을 제어

Chapter 11 HadoopStreaming
11.1 HadoopStreaming이란?
11.2 HadoopStreaming 애플리케이션 구성
11.3 HadoopStreaming 활용 예
11.4 HadoopStreaming 명령어 옵션

Chapter 12 데이터 흐름형 처리 언어 Pig
12.1 Pig란?
12.2 Pig 실행 방법
12.3 Pig의 데이터 관리
12.4 Pig에서의 처리 방법
12.5 함수
12.6 애플리케이션 개발
12.7 Pig Latin 처리 구현
12.8 사용자 정의 함수 구현
12.9 Pig 디버그
12.10 Pig를 활용하기 위한 포인트

Chapter 13 SQL 유사 인터페이스 Hive
13.1 Hive 개요
13.2 Hadoop과 Hive
13.3 HiveQL
13.4 효율적인 Hive 활용법

PART 3 Hadoop 클러스터 구축과 운영
Chapter 14 환경 구축 효율화
14.1 환경 구축과 설정 자동화
14.2 환경 구축 서버 설치
14.3 OS 자동 설치
14.4 Puppet을 사용한 환경 설정
14.5 PSSH를 이용한 운영
14.6 Hadoop 설정의 베스트 환경

Chapter 15 가용성 향상
15.1 고가용성의 기본
15.2 HDFS 고가용성
15.3 MapReduce 고가용화

Chapter 16 클러스터 모니터링
16.1 Hadoop 모니터링
16.2 Ganglia를 통한 Hadoop 클러스터 메트릭스 취득
16.3 Hadoop 클러스터 감시

Chapter 17 클러스터 운영
17.1 Hadoop 운영이란?
17.2 운영 시 구체적인 작업
17.3 정기적으로 실시해야 할 작업
17.4 Hadoop 클러스터 확장
17.5 클러스터 장애 대응

Chapter 18 복수 사용자에 의한 리소스 제어
18.1 리소스 제어 도입
18.2 기본 설정
18.3 스케줄러를 사용한 리소스 분배 제어

PART 4 Hadoop 활용 기술
Chapter 19 Hadoop 튜닝
19.1 튜닝이 필요한 케이스
19.2 MapReduce 잡 동작에 영향을 주는 설정
19.3 Map 태스크 튜닝
19.4 Reduce 태스크 튜닝
19.5 자바 VM 튜닝
19.6 OS 튜닝

Chapter 20 분산형 데이터베이스 HBase
20.1 HBase란?
20.2 HBase 데이터 모델
20.3 아키텍처
20.4 설치 방법
20.5 HBase Shell
20.6 MapReduce 잡 활용
20.7 HBase 테이블 설계

Chapter 21 Fluentd 로그 수집기
21.1 로그 수집기 등장 배경
21.2 Fluentd란?
21.3 모든 로그를 JSON으로
21.4 Fluentd 설치
21.5 Fluentd 기본
21.6 HDFS에 기록하기 위한 설정 예
21.7 Fluentd 내부 구조
21.8 Fluentd HA 구성
21.9 Fluentd 튜닝
21.10 Fluentd 모니터링
21.11 Fluentd와 유사한 소프트웨어

Chapter 22 YARN
22.1 YARN 기초 지식
22.2 YARN 아키텍처
22.3 Hadoop/MapReduce/YARN과 기존 Hadoop/MapReduce의 차이
22.4 YARN을 이용한 MapReduce 실행

찾아보기

본문중에서

그래서 이번 [빅 데이터 시대의 하둡 완벽 입문(제2판)]을 출판하면서 Hadoop을 전혀 모르는 사람들이 이해하는 데 좀 더 도움이 될 수 있도록 1장과 2장 내용을 보강하여 Hadoop에 대한 개요 부분을 좀 더 쉽게 구성했다. 또한, MapReduce 애플리케이션 개발 내용을 추가하여 초보자부터 고급 사용자까지 활용할 수 있도록 했다. 이 책의 특색인 운용성과 가용성 측면도 1판에 비해 보강했으며, 새로운 기술 이슈에 대해서도 추가하였다. (/ 'XIV' 중에서)

따라서 대용량 데이터를 효율적으로 읽어 들이기 위해서는 복수의 디스크에 데이터를 기록해 두고 각 디스크에서 병행하여 읽을 수밖에 없다. 예를 들어, 한 대의 SATA 디스크라면 70MB/초 처리량밖에 안 되지만, 40대로 동시에 읽어 들이면 2,800MB/초 처리량을 구현할 수 있다. 1TB 데이터도 약 350초면 된다. 만약 1,000대의 디스크를 사용한다면 14초 만에 읽을 수가 있다.
(/ p.12)

HDFS는 여러 대의 노드로 구성된다. 수백 대 규모가 되면 노드의 고장은 특별한 문제가 아닌 일상적으로 발생할 수 있는 문제가 된다. 예를 들어, 노드 한 대가 고장 날 확률이 1,000일에 1회라고 하면 HDFS 구성 노드 수가 1,000일 경우, 매일 한 대의 서버가 고장 나게 된다. 특정 데이터를 특정 노드에만 저장해 두면 해당 노드의 고장으로 데이터를 잃어버릴 수 있지만, HDFS에서는 복수의 노드를 사용해 데이터 복제를 유지하기 때문에 손실을 방지할 수 있다.
(/ p.68)

Hadoop은 자바 이외의 언어로 MapReduce 애플리케이션을 작성할 수 있도록 프로그램 인터페이스를 제공하고 있다. 이 인터페이스가 HadoopStreaming이다. Hadoop Streaming을 사용해서 애플리케이션을 작성한 경우도 map 함수/reduce 함수 처리를 작성해 주어야 한다. 그러나 HadoopStreaming에서는 Map 처리/Reduce 처리를 위한 데이터 입출력을 위해 표준 입출력을 사용한다는 것이 큰 차이다. 이것은 표준 입출력을 사용할 수 있다면, 어떤 프로그램 언어든 MapReduce 애플리케이션을 만들 수 있다는 것을 의미한다. 앞서 말한 것과 같이 HadoopStreaming을 사용하는 경우도 Map 처리/Reduce 처리가 필요하다. 단, Map 처리/Reduce 처리는 다음 조건을 고려한 후 작성해야 한다. (/ p.150)

MapReduce 애플리케이션 설계에 있어서 중요한 것은 ‘MapReduce 사양’을 따르는 것이다. MapReduce는 병렬 분산 처리를 위한 프레임워크로, 슬레이브 노드 상에서 실행되는 각 Map 태스크나 Reduce 태스크가 상호 통신 없이 독립된 처리를 한다. 그리고 이를 통해 확장성과 안정성을 확보하고 있다. 그러나 범용 언어인 자바로 프로그램을 기술하면 다음과 같은 처리도 간단히 만들 수 있다.
(/ p.236)

Hive는 HiveQL이라 불리는 SQL 유사 언어를 이용해서 MapReduce를 실행하는 것이다. SQL을 익힌 엔지니어가 MapReduce를 쉽게 이용할 수 있도록 한 처리 인터페이스로, Apache 프로젝트 중 하나다. 주로 페이스북 멤버를 중심으로 개발이 진행되고 있다. SQL과 비슷하지만, SQL 표준을 따르고 있지는 않아서 ‘SQL 유사’라고 한다. HiveQL이 취급하는 데이터는 논리적 행과 열로 이루어진 테이블 구조로, HDFS 상에 파일로 존재한다. HiveQL로 기술한 처리(쿼리)는 MapReduce 같은 일련의 처리로 변환되어 테이블을 조작한다.
(/ p.320)

최근에는 Cassandra(또는 NoSQL) 등 다른 분산 데이터베이스가 등장하고 있는데, HBase는 이들과 비교해서 ‘일관성을 중시한다’는 것이 특징이다. 다른 데이터베이스들은 저장한 값이 바로 반영되지 않아 저장 시점보다 앞서 존재하던 예전 데이터가 보일 수도 있다. 하지만 HBase에서는 저장된 데이터에 바로 접근해도 반드시 최신 값이 보인다는 것이 특징이다. HBase는 이미 많은 기업이나 서비스가 사용하고 있으며, 최근에는 페이스북 메시지에서 사용해 화제가 되었다. 이 외에도 웹 브라우저 Mozilla의 충돌 리포트 수집, 미국 스텀블어폰(StumbleUpon)의 단축 URL 서비스 등에서 사용되고 있다.
(/ p.553)

관련이미지

저자소개

오오타 카스기(太田一樹) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

2008년에 동경대학 이학부 정보공학과를 졸업하였고, 2010년에 동대학 정보공학연구소 컴퓨터과학 석사를 수료하였다. 대규모 데이터 처리를 위한 분산 시스템 등에 흥미를 가지고 있으며, 현재는 rTeasure Data, Inc.에서 최고기술책임자로 재직 중이다.

이와사키 마사타케(岩崎正剛) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

주식회사 NTT의 데이터 기반 시스템 사업본부에서 근무하고 있다. Hadoop을 시작으로 OSS와 관련된 다양한 기술을 담당한다. 빵이 없으면 밥을 먹으면 된다고 주장하고 있으며, 면 종류를 좋아한다.

사루타 코우스케(猿田浩輔) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

주식회사 NTT의 데이터 기반 시스템 사업본부에서 근무하고 있다. 입사 이후 Hadoop을 시작으로 OSS 도입 기술과 기술 검증 및 개발을 담당하였다. 지금까지 수백 대 규모의 Hadoop 클러스터를 구축하였고, 애플리케이션 설계 지원도 실시하였다. 프로그래밍, OS, 네트워크, DB 등에도 흥미가 있어서 자기계발을 위해 다양한 책을 구입하는 편이나, 책을 읽는 속도보다 책이 늘어나는 속도가 빠른 것이 걱정이다. 단것이 삶의 원동력이라 믿고 있으며, ‘이론보다 일단 실행이 우선’을 인생 좌우명으로 삼고 있다.

시모가키 토오루(下垣徹) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

주식회사 NTT의 데이터 기반 시스템 사업본부에서 주임으로 근무하고 있으며, PostgreSQL을 중심으로 한 오픈 소스 DBMS에 몰두하고 있다. 오라클 데이터 베이스를 PostgreSQL로 변환하는 프로젝트를 담당하며, 상용 시스템 이행 작업을 구현해 왔다. 최근 대규모 데이터 처리에 대한 필요가 늘어나면서 Hadoop을 도입하기 시작, DBMS와 Hadoop 양쪽의 특성을 활용한 효율적인 시스템 구축에 주력하고 있는 중이다.

후지이 타츠로우(藤井達朗) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

약 2년이 지나 직함에서 인턴을 떼고 정식 엔지니어가 되었고, 다지 2년이 지나서야 집에다 전기밥솥을 들일 수 있었다. ‘빵도 밥도 없으면 안 먹으면 되지.’라는 생활에서 간신히 탈출한 상태다. 참고로, 면 종류(특히 라면)를 몹시 좋아하는 또 한 사람이다.

야마시타 신이치 [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

주식회사 NTT의 데이터 기반 시스템 사업본부에서 주임으로 근무하고 있으며, 오픈 소스 소프트웨어에 관련된 미들웨어A(pache/Tomcat/PostgreSQL) 평가나 검증, 기술 개발 및 지원을 담당하고 있다. 최근에는 Hadoop을 중심으로 한 에코(ECO) 시스템 도입 업무에 참여 중이다. 개인적으로는 새로운 기술이 나오면 소스 코드부터 건드려 본다거나, 수많은 데이터와 정보를 사용해서 개인의 특성을 추출하여 무언가 재미있는 것을 고안하려고 사투를 벌이곤 한다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

네덜란드 ITC에서 Geoinformation for Disaster Risk Management 석사 학위를 취득했다. 약 9년간 일본과 한국의 기업에서 IT 및 GIS/LBS 분야 업무를 담당했으며, 일본에서는 세콤(SECOM) 계열사인 파스코(PASCO)에서 일본 외무부, 국토지리정보원 같은 정부기관을 대상으로 한 시스템 통합(SI) 업무를 담당했다. 이후 야후 재팬으로 직장을 옮겨 야후맵 개발 담당 시니어 엔지니어로 근무했으며, 한국으로 돌아와 SK에서 내비게이션 지도 데이터 담당 매니저로 근무했다. 현재는 싱가포르에 있는 일본계 회사에서 은행 관련 IT 프로젝트를 담당하고 있다. 저서로는 [나

펼쳐보기

역자의 다른책

전체보기
펼쳐보기
하마노 켄이치로(濱野賢一朗) [감수]
생년월일 -
출생지 -
출간도서 0종
판매수 0권

주식회사 NTT의 데이터 기반 시스템 사업본부에서 시니어 엑스퍼트로 근무하고 있다. 주식회사 비기네트 부사장이기도 하며, 리눅스 아카데미 학교장을 거쳐 2008년부터 NTT에서 재직 중이다. 1998년부터 줄곧 리눅스/OSS 분야에 종사했지만, 최근에는 Hadoop 도입 지원과 보급 추진 활동에 주력하고 있다. 분산 처리 아키텍처가 이후 TI 시스템에 어떻게 접근할 수 있을지 고민하고 있다.

이 상품의 시리즈

(총 19권 / 현재구매 가능도서 12권)

펼쳐보기

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

    리뷰쓰기

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    0.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용