간편결제, 신용카드 청구할인
네이버페이 1%
(네이버페이 결제 시 적립)
NH(올원페이)카드 12% (27,720원)
(3만원 이상 결제/최대 1만원 할인)
북피니언 롯데카드 30% (22,050원)
(최대할인 3만원 / 3만원 이상 결제)
하나SK 북&카드 30% (22,050원)
(최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (25,200원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (28,350원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (29,300원)
(최대할인 3만원 / 3만원 이상 결제)
Close

하둡 맵리듀스 프로그래밍 : 빅데이터 처리와 분석을 위한

원제 : Hadoop MapReduce Cookbook

2013년 9월 9일 이후 누적수치입니다.

판매지수 25
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

35,000원

  • 31,500 (10%할인)

    1,750P (5%적립)

할인혜택
적립혜택자동적립
배송정보
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(38)

  • 사은품(1)

출판사 서평

하둡 에코시스템을 사용해 크고 복잡한 데이터셋을 처리하는 원스톱 가이드로서, 간단한 예제를 소개하고 빅데이터 처리 분석 사례를 자세히 살펴본다. 이 책에서는 HBase와 하이브(Hive), 피그(Pig), 머하웃(Mahout) 등 하둡 에코시스템의 구성 요소를 다루는 방법을 설명한다. 그런 다음 하둡 맵리듀스 연산을 수행하기 위한 클라우드 환경을 설정하는 방법을 배우고, 실제 사례를 들어 크고 복잡한 데이터셋을 처리하는 방법을 설명한다.

-예제를 실행하기 위해 하둡 맵리듀스와 HDFS를 설치하는 방법
-하둡과 HDFS를 안전하게 구성하고 관리하는 방법
-하둡 내부와 하둡이 요구 사항을 어떻게 적절히 확장하는지 이해
-쉽고 효율적으로 처리하기 위한 HBase와 하이브, 피그(Pig), 머하웃(Mahout), 너치(Nutch)의 사용 방법
-분석 문제의 다양한 유형을 해결하기 위한 맵리듀스 사용 방법
-분류와 관계 발견, 온라인 마케팅, 추천 같은 복잡한 문제 해결
-하둡 연산을 실행하기 위한 클라우드 환경 사용 방법

이 책의 대상 독자

빅데이터에 관심이 있는 사람과 하둡 프로그래머를 위한 책이다. 이 책은 하둡 기반에서 전혀 개발 경험이 없거나, 하둡과 맵리듀스에 대해 알고는 있지만 하둡과 관련해 뭔가를 시도하고 자세한 내용을 알기 원하는 자바 개발자를 위한 책이다. 또한 대부분의 하둡 작업을 원스톱으로 참조할 수 있다.

이 책의 구성

1장, '하둡 시작과 클러스터'에서 실행에서는 클러스터와 싱글 노드에서 하둡을 설치하고 실행하는 방법을 설명한다.

2장, '고급 HDFS'에서는 하둡 맵리듀스로 대규모 데이터를 처리할 때뿐만 아니라 맵리듀스를 사용하지 않는 사례에도 유용한 고급 HDFS 작업을 소개한다.

3장, '고급 하둡 맵리듀스 관리'에서는 하둡 설치 시 하둡의 구성과 보안 변경, 디버깅 방법을 설명한다.

4장, '복잡한 하둡 맵리듀스 애플리케이션 개발'에서는 사용자 정의의 효율적인 맵리듀스 애플리케이션을 개발하기 위한 고급 하둡 맵리듀스 기능 몇 가지를 소개한다.

5장, '하둡 에코시스템'에서는 HBase, 하이브, 피그 등 하둡과 관련된 다른 프로젝트를 소개한다.

6장, '분석'에서는 하둡을 사용해 기본적인 분석을 하는 방법을 설명한다.

7장, '검색과 색인'에서는 대규모 검색과 색인을 수행하는 아파치 하둡에서 사용할 수 있는 몇 가지 도구와 기술을 소개한다.

8장, '분류, 추천, 관계 분석'에서는 하둡을 사용해 분류와 추천, 관계 분석 등과 같은 복잡한 알고리즘을 구현하는 방법을 알아본다.

9장, '대용량 텍스트 데이터 처리'에서는 하둡과 머하웃(Mahout)를 사용해 대용량 텍스트 데이터셋을 처리하는 방법과 하둡을 사용해 데이터를 전처리하고 로딩하는 방법을 알아본다.

10장, '클라우드 환경에서 하둡 배포'에서는 아마존 일래스틱 맵리듀스(Elastic MapReduce, EMR)와 아파치 Whirr로 클라우드 인프라 환경에서 하둡 맵리듀스와 피그, 하이브, HBase 연산을 실행하는 방법을 알아본다.

목차

1 하둡 시작과 클러스터에서 실행
소개
하둡 설치
WordCount MapReduce 예제 작성, 패키징, 하둡 실행
WordCount 맵리듀스에 컴바이너 추가
HDFS 설정
HDFS 모니터링 UI
HDFS 커맨드라인 명령
분산 클러스터 환경에서 하둡 설정
분산 클러스터에서 WordCount 실행
맵리듀스 모니터링 UI

2 고급 HDFS
소개
HDFS 벤치마크
새로운 데이터 노드 추가
데이터 노드의 해지
다중 디스크/볼륨 사용과 HDFS 디스크 사용량 제한
HDFS 블록 크기 설정
파일 복제 계수 설정
HDFS 자바 API 사용
HDFS C API 사용(libhdfs)
HDFS 퓨즈 마운트(Fuse-DFS)
HDFS에서 파일 병합

3 고급 하둡 맵리듀스 관리
소개
클러스터 배포를 위한 하둡 구성 튜닝
하둡 설치를 확인하기 위한 벤치마크 수행
성능 향상을 위한 Java VM 재사용
장애 허용과 투기적 실행
디버깅 스크립트: 태스크 실패 분석
실패율 설정과 잘못된 레코드 건너뛰기
공유 사용자를 위한 하둡 클러스터: 페어 스케줄러와 캐패시터 스케줄러 사용
하둡 보안: 커버로스와 통합
하둡 Tool 인터페이스 사용

4 복잡한 하둡 맵리듀스 애플리케이션 개발
소개
하둡 데이터 타입 선택
사용자 정의 Writable 데이터 타입 구현
사용자 정의 키 타입 구현
매퍼에서 다양한 값 타입 내보내기
입력 데이터 포맷에 따른 하둡 InputFormat 선택
새로운 입력 데이터 포맷 추가: 사용자 정의 InputFormat 구현
맵리듀스 결과 포맷팅: 하둡 OutputFormats 사용
맵과 리듀스 중간 데이터 파티셔닝
맵리듀스 잡의 공유 자원 배포와 분산: 하둡 DistributedCache
하둡 레거시 애플리케이션 사용: 하둡 스트리밍
맵리듀스 잡 사이의 의존성 추가
사용자 정의 통계를 리포팅하기 위한 하둡 카운터

5 하둡 에코시스템
소개
HBase 설치
자바 클라이언트 API로 데이터 랜덤 액세스
HBase에서 맵리듀스 실행
피그 설치
피그 명령어 실행
피그 조인(join), 유니온, 정렬 작업
하이브 설치
하이브로 SQL 스타일 쿼리 실행
하이브 조인 수행
머하웃 설치
머하웃 K-means 실행
K-means 결과 시각화

6 분석
소개
맵리듀스를 이용한 간단한 분석
맵리듀스를 이용한 Group-By 수행
맵리듀스를 이용한 빈도 분포 계산과 정렬
GNU Plot을 사용한 하둡 결과 도식
맵리듀스를 이용한 히스토그램 계산
맵리듀스를 이용한 산점도 계산
하둡으로 복잡한 데이터셋 구문 분석
맵리듀스를 이용한 두 데이터셋 조인

7 검색과 색인
소개
하둡 맵리듀스를 사용해 역색인 생성
아파치 너치를 사용해 인트라 도메인의 웹 크롤링
아파치 솔라를 이용한 웹 문서 색인과 검색
아파치 너치에서 백엔드 데이터 저장소로 아파치 HBase 설정
하둡 클러스터에서 아파치 HBase 배포
하둡/HBase 클러스터를 이용해 아파치 너치로 전체 웹 크롤링
색인과 검색을 위한 일래스틱서치
크롤링 웹 페이지의 in-link 생성

8 분류, 추천, 관계 분석
소개
콘텐트 기반 추천
계층적 클러스터링
아마존 세일즈 데이터셋 클러스터링
협업 필터링 기반 추천
나이브 베이즈 분류
애드워즈 균형 알고리즘을 사용한 키워드 광고

9 대용량 텍스트 데이터 처리
소개
하둡 스트리밍과 파이썬을 이용한 데이터 전처리(추출, 정제, 형식 변환)
하둡 스트리밍을 이용한 데이터 중복 제거
Importtsv와 bulkload 도구를 사용해 아파치 HBase 데이터 저장소에 대용량 데이터셋 로드
텍스트 데이터의 TF와 TF-IDF 벡터 생성
텍스트 데이터 클러스터링
잠재 디리클레 할당(LDA)을 사용한 주제 검색
머하웃 나이브 베이스 분류기를 이용한 문서 분류

10 클라우드 환경에서 하둡 배포
소개
아마존 일래스틱 맵리듀스(EMR)를 사용해 하둡 맵리듀스 실행
EMR 잡 플로우를 실행하기 위해 아마존 EC2 스팟 인스턴스를 사용해 비용 절약
EMR을 사용해 피그 스크립트 실행
EMR을 사용해 하이브 스크립트 실행
커맨드라인 인터페이스를 사용해 아마존 EMR 잡 플로우 생성
EMR을 사용해 아마존 EC2 클라우드에 아파치 HBase 설치
아마존 EMR 잡의 VM 설정을 위한 EMR의 부트스트랩 사용
클라우드 환경에서 아파치 하둡 클러스터를 배포하기 위한 아파치 Whirr 사용
클라우드 환경에서의 아파치 HBase 클러스터를 배포하기 위한 아파치 Whirr 사용

본문중에서

[하둡 맵리듀스 프로그래밍]은 크고 복잡한 데이터셋을 처리하는 개발자를 위한 책이다. 이 책은 간단한 방법으로 시작하지만, 하둡에 대한 깊이 있는 지식을 제공한다. 하둡을 사용해 잡을 달성하는 방법에 대한 간략한 원스톱 가이드다. 이 책에는 단계별 절차와 실제 사례, 단순하고 이해하기 쉬운 방식으로 제시한 90가지의 예제가 있으며, 아파치 소프트웨어 재단(Apache Software Foundation, http://www.apache.org)에서 개발한 소프트웨어가 이 책에 포함된 예제에 사용됐다.
(/ 서문 중에서)

저자소개

스리나스 페레라 [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

WSO2 사의 수석 소프트웨어 아키텍트이자 CTO로서, WSO2 플랫폼의 아키텍처 작업을 했다. 또한 스리랑카 소프트웨어 재단의 연구원으로 모라투와 대학의 컴퓨터공학과 객원 교수로 재직 중이다. 아파치 Axis2 오픈소스 프로젝트의 공동 설립자이며, 2002년부터 아파치 웹 서비스 프로젝트에 참여했다. 아파치 소프트웨어 재단과 아파치 웹 서비스 프로젝트 PMC의 멤버다. 또한 아파치의 오픈소스 프로젝트 Axis와 Axis2, Geronimo의 커미터다.
미국 인디애나 대학교 블루밍턴에서 컴퓨터과학으로 박사학위와 석사학위를 받았고, 스리랑카 모라투와 대학에서 컴퓨터과학과

펼쳐보기
실리나 기나라스네 [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

인디애나 대학의 Informatics and Computing의 박사학위 예정자다. 대규모 데이터의 집약적인 연산 기술과 아파치 하둡 사용의 풍부한 경험이 있다. 현재 업무는 클라우드 환경에서 확장 가능하고 효율적인 대규모 데이터의 집약적인 연산을 하기 위한 기술 개발에 초점을 맞추고 있다. 클라우드 환경에서 효율적인 데이터 마이닝과 데이터 분석을 수행하기 위한 확장 가능한 맵리듀스 모델의 여러 가지 논문을 포함해 분산 병렬 컴퓨팅 분야에서 많은 논문과 심사 연구 논문을 발표하는데, 학계와 산업계의 단골 발표자다. 2005년부터 PMC 회원이고 커미터로 아파치 소

펼쳐보기

이 상품의 시리즈

에이콘 데이터 과학 시리즈(총 43권 / 현재구매 가능도서 39권)

펼쳐보기

acorn+PACKT 시리즈(총 351권 / 현재구매 가능도서 322권)

펼쳐보기

이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

    리뷰

    10.0 (총 0건)

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    0.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용