간편결제, 신용카드 청구할인
네이버페이 1%
(네이버페이 결제 시 적립)
NH(올원페이)카드 12% (14,260원)
(3만원 이상 결제/최대 1만원 할인)
북피니언 롯데카드 30% (11,340원)
(최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (12,960원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (14,580원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (15,070원)
(최대할인 3만원 / 3만원 이상 결제)
Close

Hadoop과 Solr를 이용한 기업용 검색 시스템 구축 : 빅데이터 처리 능력을 높이는

원제 : Scaling Big Data with Hadoop and Solr

2013년 9월 9일 이후 누적수치입니다.

판매지수 289
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

18,000원

  • 16,200 (10%할인)

    900P (5%적립)

할인혜택
적립혜택자동적립
배송정보
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(319)

  • 사은품(2)

출판사 서평

솔라(Solr)를 사용해 빅데이터 검색을 할 수 있는 시스템을 구축하는 법을 알려준다. 검색 시스템이 다루는 데이터가 커짐에 따라 솔라만을 단독으로 사용했을 때 부족한 점을 하둡(Hadoop)이나 다른 솔루션으로 보완하는 다양한 방법도 설명한다. 검색 엔진의 핵심 요소인 색인이 빅데이터에서 어떻게 다뤄지는지를 이해하게 해주고, 실사용 시스템 구축 시 이슈가 되는 최적화 기술을 알려준다. 마지막으로 실사용 시스템을 구축하려는 독자에게 도움이 되도록 실제 구축 사례를 소개한다.

이 책에서 다루는 내용
- 아파치 하둡(Hadoop)과 하둡의 에코시스템, 아파치 솔라(Solr) 설명
- 기업용 빅데이터 검색을 설계하고 적용과 장점을 이해하면서 여러 산업 기반의 아키텍처를 학습
- 데이터를 확장하면서 빅데이터 검색을 세부 설정해 성능을 최대화
- 솔라를 NOSQL 데이터베이스로 사용
- 빅데이터 인스턴스를 설정해 실세계에 적용
- 사용 사례를 통해 실제 하둡과 솔라를 연동해 업무에 적용
- 데이터를 색인하는 맵리듀스(MapReduce) 태스크를 작성
- 오늘날 시장에서 사용할 수 있는 하둡과 솔라를 응용하는 기술에 대한 이해

이 책의 대상 독자
하둡과 솔라를 사용해 기업용 고속 검색 엔진 플랫폼을 구축하기 원하는 개발자를 위한 안내서다. 하둡과 솔라에 대한 경험은 없지만 하둡 플랫폼을 확장해 기업용 검색으로 사용하려는 자바 프로그래머를 대상으로 한다.

이 책의 구성
1장, '하둡과 맵리듀스를 이용한 데이터 처리'는 아파치 하둡과 하둡의 에코 시스템인 HDFS, 맵리듀스를 소개한다. 또한, 맵리듀스 프로그램 작성법, 하둡 클러스터 설정 방법, 설정파일, 클러스터 관리를 배운다.

2장, '솔라 이해'는 아파치 솔라를 소개한다. 솔라 인스턴스를 설정하는 법을 설명한다. 솔라 저장소에 데이터를 적재하고 색인(index)을 만드는 법과 솔라로 효율적으로 검색하는 법을 설명한다. 아파치 솔라의 흥미로운 기능을 논의한다.

3장, '하둡과 솔라를 사용한 빅데이터 처리'는 두 분야를 합쳐 빅데이터를 다루는 여러 접근방법을 보여주고 이 둘의 장점과 사용성을 논할 것이다.

4장, '빅데이터 기반 대형 색인 생성'은 NoSQL과 분산 검색의 개념을 설명한다. 빅데이터 검색을 다루는 알고리즘인 샤드(shard)와 색인 사용을 알아본다. 또한, 솔라클라우드(SolrCloud) 설정과 릴리(Lily)를 논의한다.

5장, '빅데이터 확장으로 검색 성능 향상'은 데이터가 증가함에 따라 빅데이터 검색 인스턴스 성능을 여러 단계에서 최적화하는 법을 다룬다. 배포한 인스턴스에 사용자가 구현하는 여러 성능 향상 기술을 다룬다.

부록 A, '빅데이터 검색 사용 사례'는 업계의 사용 사례와 하둡과 솔라를 사용한 빅데이터 연구 사례를 살펴본다.

부록 B, '아파치 솔라를 사용한 기업용 검색 구현'은 사용자가 아파치 솔라를 시험해 보도록 솔라 스키마(schema) 예제를 제공한다.

부록 C, '솔라 색인을 만드는 맵리듀스 프로그램 예제'는 솔라 색인를 생성하는 방식 중 한 방식인 분산 생성하는 맵리듀스 예제를 보여준다.

목차

1장 하둡과 맵리듀스를 이용한 데이터 처리
아파치 하둡과 하둡 에코 시스템 이해
아파치 하둡 에코 시스템
아파치 HBase
아파치 피그
아파치 하이브
아파치 주키퍼
아파치 머하웃
아파치 HCatalog
아파치 암바리
아파치 에이브로
아파치 스쿱
아파치 플룸
대량 데이터를 HDFS에 저장
HDFS 아키텍처
네임노드
데이터노드
세컨더리네임노드
데이터 조직화
HDFS 접근
하둡데이터를 분석하는 맵리듀스 생성
맵리듀스 아키텍처
잡트래커
태스크트래커
하둡 설치 및 구동
사전 요구 조건
암호 입력 없는 SSH 설정
장비에 하둡 설치
하둡 설정
하둡에서 프로그램 구동
하둡 클러스터 관리
요약

2장 솔라 이해
솔라 설치
아파치 솔라 아키텍처
저장소
솔라 엔진
질의 구문 해석기
상호작용
클라이언트 API와 SolrJ 클라이언트
다른 인터페이스
아파치 솔라 검색 설정
인스턴스의 스키마 정의
솔라 인스턴스 설정
설정 파일
요청 취급자와 검색 구성요소
파싯
MoreLikeThis
Highlight
SpellCheck
메타데이터 관리
검색을 위한 데이터 적재
ExtractingRequestHandler/솔라 셀
SolrJ
요약

3장 하둡과 솔라를 사용한 빅데이터 처리
문제
데이터 처리 작업 흐름 이해
독립 장비 구성
분산 구성
복제 모드
샤드 모드
솔라 1045 패치 사용 - 맵 쪽 색인
장점과 단점
장점
단점
solr-1301 패치 사용: 리듀스 쪽 색인
장점과 단점
장점
단점
분산 검색에서 솔라클라우드 사용
솔라클라우드 아키텍처
솔라클라우드 설정
솔라클라우드에 다중 코어 솔라 검색 사용
장단점
장점
단점
카타를 사용한 빅데이터 검색 (Solr-1395 패치)
카타 아키텍처
카타 클러스터 설정
카타 색인 생성
장점과 단점
장점
단점
요약

4장 빅데이터 기반 대형 색인 생성
NOSQL 개념 이해
CAP 이론
NOSQL 데이터베이스란 무엇인가?
키/값 저장소 또는 칼럼 기반 저장소
문서 기반 저장소
그래프 데이터베이스
왜 빅데이터엔 NOSQL 데이터베이스인가?
빅데이터 저장소로 솔라를 사용하는 법
분산 검색 개념 이해
분산 검색 아키텍처
분산 검색 시나리오
릴리: 솔라 하둡 동시 운용
아키텍처
쓰기 전 기록(Write-ahead Logging,WAL)
메시지 큐
릴리를 사용한 질의
릴리를 사용한 레코드 갱신
릴리 설치 및 구동
파고 들기: 아파치 솔라의 샤드와 색인 데이터
샤딩 알고리즘
분산 샤드에 문서 추가
대형 색인을 다루기 위한 솔라클라우드 설정
주키퍼 앙상블 설정
아파치 솔라 인스턴스 설정
샤드, 컬렉션, 복제본을 솔라클라우드에 생성
요약

5장 빅데이터 확장에 따른 검색 성능 향상
제약사항 이해
검색 스키마 최적화
기본 검색 필드 지정
검색 스키마 필드 설정
스톱 워드
스테밍
색인 최적화
색인 버퍼 크기 제한
언제 변경 사항을 커밋하는가?
색인 병합 최적화
색인 병합의 선택사항 최적화
컨테이너 최적화
병렬 클라이언트 최적화
자바 가상 메모리 최적화
검색 실행시간 최적화
검색 질의를 통한 최적화
필더 쿼리
솔라 캐시 최적화
필터 캐시
질의 결과 캐시
문서 캐시
필드 값 캐시
지연 필드 로딩
하둡 검색 최적화
솔라 인스턴스 모니터링
솔라미터 사용
요약

부록 A 빅데이터 검색 사용사례
B 아파치 솔라를 사용한 기업용 검색 구현
C 솔라 색인을 만드는 맵리듀스 프로그램 예제

본문중에서

이 책은 데이터를 확장하면서 고성능 기업 검색 엔진을 구축하는 단계별 안내서다. 아파치 하둡과 솔라 기초를 시작으로 검색을 최적화하는 고급 주제와 함께 흥미로운 실사용 사례와 자바 예제 코드를 깊이 있게 다룬다.

이 책에서는 솔라와 하둡 그리고 하둡 에코 시스템을 비롯한 빅데이터 기술의 기본을 알려주고 하둡과 솔라로 빅데이터를 확장하는 여러 접근방식을 설명한다. 샤드와 색인이 빅데이터에 어떻게 작용하는지를 다룬 후 빅데이터 검색 성능 최적화를 설명한다. 마지막으로 빅데이터를 확장하는 실제 사례를 알아본다.

기업용 분산 검색 플랫폼 구축법과 제한된 자원을 최대한 활용해 검색 결과를 극대화하는 최적화 방식을 배울 수 있는 책이다.
(/ 저자 서문 중에서)

수년 전에 대용량 검색 요건을 해결하는 솔루션 개발팀에 속하면서 솔라를 처음 접하게 되었다. 이때 솔루션으로 고려한 오픈소스는 루씬 기반의 검색 플랫폼으로 아파치 솔라와 일래스틱서치(ElasticSearch)가 있었다. 두 오픈소스를 면밀히 검토 끝에 당시 요구 조건에 더 부합했던 새로 태어난 지 얼마 안 된 일래스틱서치를 선택했다. 그렇지만 당시에 솔라는 일래스틱서치에 비해 오랜 역사와 많은 사용자를 가지고 예측대로 동작한다는 점과 신뢰성을 지닌 장점이 있어서 엔터프라이즈 환경에 적합한 검색 플랫폼이란 것을 알게 되었다.

일래스틱서치가 나온 이후 솔라와 일래스틱서치는 서로의 장단점을 보완해 가며 많이 발전해왔고, 특히 솔라 4(일명 솔라클라우드)에서 대량의 데이터 처리를 위한 근실시간 분산검색, 고가용성 부분에 많은 향상이 있었다. 이처럼 솔라는 계속 발전 중이고, 앞으로도 다양한 대용량 검색 서비스의 검색 플랫폼으로 솔라를 사용할 것으로 예상된다.

이 책에서는 대용량 검색 엔진의 양대 산맥인 솔라와 일래스틱서치 중 솔라로 대용량 검색 시스템을 구축하는 방법을 알려준다. 또한, 하둡을 이용해 사용 영역을 넓히고 최적화하는 방법을 알려준다. 검색 플랫폼만을 프로젝트에 적용하다 보면 대량의 데이터를 단시간 안에 서비스에 올려야 하는 일에 직면하게 되는데, 이를 하둡으로 해결하는 방식은 주목할 만하다. 이 책이 솔라와 하둡을 연동해 응용하는 일을 주로 다루고 있으므로, 솔라 자체를 더 자세히 알고 싶다면 에이콘출판사에서 출간된 [아파치 Solr 4 구축과 관리]를 참고하길 바란다.

마지막으로 오픈소스로 대용량 검색을 처리하기 위해 같이 씨름했던 실시간 검색팀 여러분과, 번역을 하느라 약속에 많이 불참한 것을 이해해준 친구들, 말없이 지원해 주신 부모님께 감사의 말씀을 전한다.
(/ 옮긴이의 말 중에서)

저자소개

리쉬케쉬 카람벨카(Hrishikesh Karambelkar) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

전문 기술과 다양한 사업 경험이 있는 소프트웨어 아키텍트다. 아파치 하둡, 솔라 같은 기술을 다루고 다음 세대 솔루션 제품군을 설계하는 데 전문가다. 국제 회의에 데이터베이스, 그래프, 검색 분야에 다양한 논문을 냈다. 자신의 기술 노트에서 아파치 하둡과 솔라에 관련된, 쉽지 않은 문제를 많이 다뤘다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

빅데이터 솔루션 전문업체인 KT NexR에서 데이터 플랫폼을 개발했고, 현재 SK 테크엑스 플랫폼 개발 본부의 데이터 엔지니어다. 머신 러닝 기반 추천 서비스 외 사내 하둡 Eco 관련 업무를 담당하고 있다.

이 상품의 시리즈

acorn+PACKT 시리즈(총 351권 / 현재구매 가능도서 320권)

펼쳐보기

이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

    리뷰

    0.0 (총 0건)

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    10.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용