간편결제, 신용카드 청구할인
네이버페이 1%
(네이버페이 결제 시 적립)
NH(올원페이)카드 12% (27,720원)
(3만원 이상 결제/최대 1만원 할인)
북피니언 롯데카드 30% (22,050원)
(최대할인 3만원 / 3만원 이상 결제)
하나SK 북&카드 30% (22,050원)
(최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (25,200원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (28,350원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (29,300원)
(최대할인 3만원 / 3만원 이상 결제)
Close

Hadoop 에코시스템 : 맵리듀스 프로그래밍과 하둡 클러스터 운영 실습

원제 : Hadoop Beginner's Guide

2013년 9월 9일 이후 누적수치입니다.

판매지수 230
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

35,000원

  • 31,500 (10%할인)

    1,750P (5%적립)

할인혜택
적립혜택자동적립
배송정보
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(321)

  • 사은품(2)

출판사 서평

하둡을 어떻게 활용할 수 있는지 학습하고, 자세한 하둡 동작방식을 자연스럽게 습득할 수 있는 책이다. 만약 하둡 기술 서적을 정독했는데, 막상 읽고 보니 내가 필요한 기술이 아니면 얼마나 억울하겠는가? 이런 면에서 이 책은 하둡을 직접 설치하는 방법부터 시작해, 다양한 데이터 처리 방법 및 실습, 심지어 저자의 비밀 노하우까지 알려주며 활용 사례 위주로 읽기 쉽게 작성됐다. 하둡 에코시스템을 직접 몸으로 부딪혀 가며 익힐 수 있는 쉽고 유용한 입문서이자 자습서이다.

이 책에서 다루는 내용

하둡과 클라우드 서비스가 있기까지의 트렌드와 배경을 학습하여 하둡의 적절한 적용 방안을 알아본다.
하둡의 설치와 설정 최적화를 연구하여 부딪힌 환경에 가장 적합한 시스템을 구축하게 된다.
하둡에서 실행할 자바와 루비 애플리케이션 개발 실습을 수행한다.
아마존 웹 서비스를 활용한 하둡 호스팅 솔루션을 경험해보고 직접 관리하는 하둡 환경과 어떤 차이점이 있는지 알아본다.
SQL 접근을 위해 하이브(Hive)를 이용한 관계형 데이터베이스와의 연동방식을 알아보고, 스쿱(Scoop)을 이용한 데이터 전송 방식을 살펴보게 된다.
관련 프로젝트와 툴이 하둡의 에코시스템에 어떻게 구성되는지 연구하고, 다음 선행지를 경험해본다.


이 책의 대상 독자

여러분은 하둡을 자유자재로 다루기 위해 이 책을 선택했을 것이다. 이 책은 소프트웨어 개발 경험은 있지만 하둡 및 빅데이터 기술을 접해보지 못한 개발자와 운영자를 대상으로 하고 있다.
먼저 맵리듀스 애플리케이션을 개발하고자 하는 개발자는 자바와 유닉스 계열 운영체제의 명령어에 익숙해야 한다. 가끔 루비 예제도 볼 수 있지만 하둡의 개발 언어 독립성을 보여주기 위해 사용됐으므로 루비 전문가일 필요는 없다.
하둡 아키텍트와 시스템 운영자가 되고자 하는 독자에게는 하둡 작동원리와 전체적인 아키텍처, 운영 측면에서 많은 도움을 얻을 수 있다. 아키텍트와 운영자에게 4장 '맵리듀스 프로그램 개발하기'와 5장 '고급 맵리듀스 기술'은 꼭 필요하지 않을 수도 있다.

이 책의 구성

1장, '무엇을 이야기할 것인가'에서는 하둡과 클라우드 컴퓨팅이 어떻게 최신 코어 기술 중 하나로 자리매김했는지 설명한다.
2장, '하둡의 설정과 실행'에서는 기본 로컬 하둡 클러스터 설정과 데모 잡(job)의 실행에 대해 설명한다. 비교 차원에서, 같은 잡을 아마존 하둡 서비스에서 시행해본다.
3장, '맵리듀스의 이해'에서는 하둡 내부를 조금 더 파헤치며 맵리듀스(MapReudce) 잡이 어떤 방식으로 실행되는지 설명한다. 또한 자바 API를 사용한 맵리듀스 애플리케이션 작성법을 설명한다.
4장, '맵리듀스 프로그램 개발'에서는 새로운 데이터 소스를 분석 처리시 빠른 의사결정을 돕기 위해 중간 크기의 데이터를 사용한 사례연구를 설명한다.
5장, '고급 맵리듀스 기술'에서는 쉽게 다가가기 힘든 하둡 처리 모델에 맵리듀스를 응용하는 몇 가지 예제를 살펴 본다.
6장, '하둡의 내구성'에서는 하둡의 장점으로 알려진 고가용성(high availability)과 내고장성(fault tolerance)을 자세히 알아보며, 임의적으로 데이터를 더럽히거나 프로세스를 죽이는 등의 테스트를 통해 하둡의 두 장점을 얼마나 신뢰할 수 있는지 알아 본다.
7장, '클러스터 운영'에서는 운영측면에서의 하둡을 살펴보는 시간을 가지며 하둡 클러스터 운영 및 관리자에게 가장 중요한 단원이 될 것이다. 몇 가지 핵심 사례를 통해 최악의 운영순간에도 대처하고 준비할 수 있도록 도움으로써 담당자가 마음 편히 잠자리에 들 수 있게 해준다.
8장, '하이브를 써서 관계형 관점으로 데이터 바라보기'에서는 SQL 류의 언어를 사용해 하둡에 내장되어 있는 데이터를 쿼리할 수 있게 해주는 아파치 하이브(Apache Hive)를 소개 한다.
9장, '관계형 데이터베이스와 연동'에서는 데이터베이스에 하둡이 어떻게 접목되는지 살펴보며, 어떻게 데이터를 대상으로 상호관계를 이루는지 살펴본다.
10장, '플룸을 이용한 데이터 수집'에서는 아파치 플룸(Apache Flume)을 이용해 다수의 소스로부터 데이터를 취합해 하둡과 같은 특정 목적지에 전달하는지 살펴본다.
11장, '다음 선행지'에서는 하둡을 정리하며, 하둡과 관련된 미래 잠재적인 다른 제품과 기술을 다루는 하둡 에코시스템을 살펴본다. 마지막으로 하둡 커뮤니티에 참여하고 도움을 받는 법을 설명한다.

지은이의 말

이 책은 하둡에 빠르게 익숙해지는 데 도움을 주며, 이를 바탕으로 빅데이터 문제 해결을 가능하게 해줄 것이다. 오늘날은 하둡과 같은 데이터 처리 업무를 하기에 매우 흥미진진한 시기가 아닐까 한다. 한때는 대기업이나 국가 기관에서만 가능했던 다차원 분석과 대규모 데이터의 접목이 오픈소스 소프트웨어를 통해 가능해졌기 때문이다.
하지만 종잡을 수 없는 기술의 복잡성과 트렌드의 빠른 변화로, 어디서부터 시작해야 할지 망설이는 사람이 많으리라 생각한다. 이 책은 현재 어려움을 겪고 있는 입문자에게 하둡의 시작부터, 작동 원리, 실제 운영 상황에서의 활용 방법까지 친절하게 설명하도록 작성됐다.
전체적인 하둡의 핵심 사항에 대한 리뷰와 더불어, 하둡을 활용하거나 접목된 부가 기술에는 무엇이 있는지 살펴본다. 즉 단순한 하둡에 대한 이해뿐만 아니라, 여러분이 구상하고자 하는 기술에 어떻게 활용하게 될지 실질적인 팁을 주고자 한다.
빅데이터 하둡에 있어 필요한 부가 기술은 아마존 웹 서비스와 같은 클라우드 컴퓨팅이다. 클라우드 컴퓨팅과 같은 서비스를 통해 하둡 워크로드를 보관하면서 대규모 데이터 처리뿐만 아니라 물리적 장비를 추가로 구입할 필요가 없음을 시연할 계획이다.

옮긴이의 말

프로그래머들 사이에서는 '백문이 불여일견' 을 살짝 바꾼 '백문이 불여일타'라는 말이 유명하다. '백 번 보는 것보다 한번 쳐 보는 것이 낫다'라는 의미이다. 특히 언어나 프레임워크를 익힐 때에 마음에 와 닿는 말이다. 깊이 있게 활용하려면 물론 기반이 되는 이론이나 내부 구조를 도구를 잘 알아야 한다. 하지만, 도구를 처음 익힐 땐 직접 몸으로 부딪혀 보고 손으로 실습하며 문제를 풀어 보아야 이 도구가 어떤 문제를 푸는 데 유용하고, 어떤 식으로 활용하는가 하는 점을 배울 수 있다. 그런 점에서 이 책은 굉장히 실용적인 접근을 한다. 각 장마다 제일 먼저 필수적인 개념을 설명하고, 이해하기 쉬운 예제, 실습을 통해 설명한 개념을 활용하는 방법을 익힐 수 있게 한다. 그 이후에 예제와 실습에 관한 내용을 상세하게 설명해 주고, 도전 과제를 제시한다. 얇고 쉬운 책이지만, 빅데이터의 개념과 하둡 파일 시스템, 맵리듀스 프로그래밍, 하둡 클러스터 설치와 운용에 관한 내용이 모두 담겨 있다.
그 뿐만이 아니라, 데이터 수집이나 기존 시스템과의 연계를 위한 하둡 생태계의 주요 오픈소스에 관한 설명도 빠뜨리지 않았다. 아마존의 클라우드 서비스를 이용하는 실습도 있으니, 클라우드에 관심 있는 독자들은 더 재미있게 공부할 수 있다.
이 책은 혼자 공부하는 자습서로 쓸 수도 있고, 분산 시스템 수업의 실습 교재로 활용해도 좋다고 생각된다. 막연하게 이름만 들어봤던 빅데이터 분석 시스템이 무엇인지 궁금하다면 이 책으로 직접 몸으로 부딪혀가며 익혀보기를 추천한다.
- 송영탁

이따금 팀에 신입사원이 들어오면 5~600페이지의 자동차 매뉴얼과 같이 두꺼운 이론 위주 하둡 기술 서적을 읽으며 끙끙 앓는다. 심지어 두꺼운 책이 부담스러운지 책의 중간 중간 깊은 내용부터 읽기 시작하며 서서히 길을 잃기 시작한다. 자동차를 운전하는 데는 자동차 매뉴얼을 정독할 필요는 없다. 첫 운전 경험을 기억해보자, 일단 핸들부터 잡고 악셀을 서서히 밟기 시작하면 차는 자연스럽게 앞으로 나간다. 나는 이러한 신입사원들에게 항상 이렇게 권한다. "이론 위주의 기술서적은 쳐다보지도 말고, 실습 위주의 실용서적을 따라가며 하둡을 설치해보고 맵리듀스 구현부터 해보세요."
이 책을 따라가다 보면 하둡을 어떻게 활용할 수 있는지 학습할 수 있으며, 자세한 하둡 동작방식은 자연스럽게 습득하게 된다. 그다음에 기술 서적을 읽어도 늦지 않다. 만약 하둡 기술서적을 정독했는데, 막상 읽고 보니 내가 필요한 기술이 아니면 얼마나 억울하겠는가? 이런 면에서 이 책은 하둡을 직접 설치하는 방법부터 시작해, 다양한 데이터 처리 방법 및 실습, 심지어 저자의 비밀 노하우까지 활용사례 위주로 읽기 쉽게 작성됐다.
하둡의 활용사례는 사그라들 줄을 모른다. 앞으로 세계의 데이터 량이 줄어들지 않는 한, 빅데이터 기술은 하둡을 위주로 공전할 것이다. 많은 빅데이터 소프트웨어와 기술, 프로젝트가 하둡을 기준으로 진화 또는 변화를 거듭하고 있다. 하둡을 막 시작하여 빠르게 빅데이터 활용 궤도에 오르거나 활용범위를 더욱 넓히고자 하는 이들에게 반드시 추천하고 싶은 도서다.
- 김현준

목차

1장 무엇을 이야기할 것인가
빅데이터 처리
아마존 웹 서비스를 이용한 클라우드 컴퓨팅
정리

2장 하둡의 설정과 실행
로컬 우분투 호스트의 하둡
일래스틱 맵리듀스 사용하기
로컬 하둡과 EMR 하둡의 비교
정리

3장 맵리듀스의 이해
키/값 쌍
맵리듀스를 위한 하둡 자바 API
맵리듀스 프로그램 만들기
WordCount 동작과정을 살펴보기
하둡 특화된 데이터 타입들
입력/출력
정리

4장 맵리듀스 프로그램 개발
하둡에서 자바 이외의 언어 활용
대규모 데이터 분석
카운터와 상태정보, 그 외 출력
정리
쉬운, 고급, 그리고 그 사이

5장 고급 맵리듀스 기술
조인
그래프 알고리즘
언어 독립적인 자료 구조
정리

6장 하둡의 내구성
장애
정리

7장 클러스터 운영
EMR 사용자를 위한 참고 사항
하둡 설정 속성
클러스터 셋업
클러스터 접근 제어
네임노드 관리
HDFS 관리
맵리듀스 관리
확장
정리

8장 하이브를 써서 관계형 관점으로 데이터 바라보기
하이브 개요
하이브 셋업
하이브 사용
아마존 웹 서비스상의 하이브
정리

9장 관계형 데이터베이스와 연동
주요 데이터 흐름
MySQL 구성
하둡으로 데이터 불러오기
하둡에서 데이터 내보내기
AWS
정리

10장 플룸을 이용한 데이터 수집
AWS에 관한 노트
데이터, 데이터, 온 세상에 데이터.....
아파치 플룸 소개
더 큰 그림
정리

11장 다음 선행지
책에서 다룬 내용과 다루지 않은 내용
다가오는 하둡의 변화
다양한 하둡 배포판
다른 아파치 프로젝트
다양한 하둡 프로그래밍 방식
AWS 자원
정보의 원천
정리

저자소개

게리 터킹튼(Garry Turkington) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

14년의 경험 대부분을 대규모 분산 시스템 설계와 개발에 몰두했다. 임프로브 디지털(Improve Digital) 사의 데이터 엔지니어 총괄 책임자와 리드 아키텍트로서 회사에서 생산되는 대규모 데이터를 보관, 처리, 추출하는 시스템 개발의 책임자이다. 임프로브 디지털 사에 오기 전엔 영국 아마존(Amazon.co.uk)에서 아마존의 전세계 모든 제품 카탈로그 정보를 처리하는 시스템을 개발하는 대다수의 소프트웨어 개발팀을 이끌었다. 이전에는 영국과 미국의 공공 기관에서 종사했다. 북아일랜드의 벨페스트 퀸즈 대학에서 자연과학 학사 학위와 박사 학위를 받았고, 미국

펼쳐보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

일리노이 공대에서 컴퓨터 과학 석사 학위를 받고, 클라우드 컴퓨팅과 대용량 데이터 처리/분석 관련 업무를 해 왔다. 지금은 다음카카오에서 대용량 데이터 분석 업무를 하고 있다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

텍사스 오스틴 주립대학교 컴퓨터과학 학사학위를 이수했으며, 오스틴의 브랜딩 및 마케팅 업체에서 SEO와 웹 분석가로 활동했다. Rackspace의 클라우드 서비스를 처음 접하면서 클라우드와 분산 시스템에 관심을 가지게 됐다. 이후 한국 SK C&C 클라우드 컴퓨팅 팀에서 3년간 클라우드와 빅데이터 기술을 경험했으며, 현재는 쿠팡에서 빅데이터 기반 웹 분석, 고객 및 소비자 분석 업무를 맡고 있다. 주요 관심분야는 고객관리 및 분석과 빅데이터 기술의 접목이다.

이 상품의 시리즈

acorn+PACKT 시리즈(총 351권 / 현재구매 가능도서 322권)

펼쳐보기

이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

    리뷰

    0.0 (총 0건)

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    0.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용