간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (20,520원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (15,120원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (17,280원)
(최대할인 4만원 / 2만원 이상 결제)
Close

러닝 스파크 : 번개같이 빠른 데이터 분석

원제 : Learning Spark: Lightning-Fast Big Data Analysis
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 140
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

24,000원

  • 21,600 (10%할인)

    1,200P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
추가혜택
배송정보
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(11)

  • 사은품(4)

책소개

창시자와 커미터가 직접 저술한 스파크 입문서 !

스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 코드 몇 라인으로만 실행하는 방법과 단순한 배치 프로그램부터 스트림 처리나 머신 러닝까지 다루는 프로그램의 제작 방법을 배울 수 있다.

출판사 서평

창시자와 커미터가 직접 저술한 스파크 입문서 !

모든 분야에서 데이터는 점점 많아지고 있다. 어떻게 그 엄청난 데이터를 효과적으로 다룰 것인가? 이 책은 데이터 분석 작업을 빠르게 작성하고 실행하게 해 주는 오픈 소스 클러스터 컴퓨팅 시스템인 스파크를 소개한다. 스파크에서 파이썬, 자바, 스칼라로 제공되는 간단한 API들을 써서 방대한 데이터세트를 가볍게 처리할 수 있다.

스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 코드 몇 라인으로만 실행하는 방법과 단순한 배치 프로그램부터 스트림 처리나 머신 러닝까지 다루는 프로그램의 제작 방법을 배울 수 있다.

- 분산 데이터세트, 메모리 기반 캐싱, 대화형 셸 같은 스파크의 특징들을 빠르게 파고든다
- 스파크 SQL, 스파크 스트리밍, MLlib 같은 스파크의 강력한 내장 라이브러리를 효과적으로 쓸 수 있다
- 하이브, 하둡, 머하웃, 스톰 등 여러 도구를 혼용하고 연동하는 대신, 일관된 프로그래밍 개념을 사용한다
- 대화형, 배치, 스트리밍 애플리케이션들을 서버에 올리는 방법을 배운다
- HDFS, 하이브, JSON, S3 같은 데이터 소스에 연결할 수 있다
- 데이터 파티셔닝이나 공유 변수 같은 고급 개념들을 익힌다

추천사

[러닝 스파크]는 빅데이터 애플리케이션을 구축해 주는 가장 인기 있는 프레임워크 입문서를 찾는 사람들에게 내가 가장 추천하는 책이다.
- 벤 로리카(Ben Lorica) / 오라일리 미디어 수석 데이터 과학자

목차

Chapter 1 스파크를 이용한 데이터 분석 소개
아파치 스파크란 무엇인가?
통합된 구성
스파크는 누가, 무엇을 위해 사용할까?
스파크의 간략한 역사
스파크의 버전과 릴리스
스파크의 저장소 계층

Chapter 2 스파크 맛보기
스파크 다운로드하기
스파크의 파이썬 셸과 스칼라 셸 소개
스파크의 핵심 개념 소개
단독 애플리케이션
요약

Chapter 3 RDD로 프로그래밍하기
RDD 기초
RDD 생성하기
RDD의 연산
스파크에 함수 전달하기
많이 쓰이는 트랜스포메이션과 액션
영속화(캐싱)
요약

Chapter 4 키/값 페어로 작업하기
배경
페어 RDD 생성
페어 RDD의 트랜스포메이션
페어 RDD에서 쓸 수 있는 액션
데이터 파티셔닝(고급)
요약

Chapter 5 데이터 불러오기/저장하기
배경
파일 포맷
파일 시스템
스파크 SQL로 구조화 데이터 다루기
데이터베이스
요약

Chapter 6 고급 스파크 프로그래밍
소개
어큐뮬레이터
브로드캐스트 변수
파티션별로 작업하기
외부 프로그램과 파이프로 연결하기
수치 RDD 연산들
요약

Chapter 7 클러스터에서 운영하기
소개
스파크 실행 구조
spark-submit을 써서 애플리케이션 배포하기
사용자 코드와 의존성 라이브러리 패키징하기
스파크 애플리케이션 간의 스케줄링
클러스터 매니저
어떤 클러스터 매니저를 써야 할까?
요약

Chapter 8 스파크 최적화 및 디버깅
SparkConf로 스파크 설정하기
실행을 구성하는 것: 작업, 태스크, 작업 단계
정보 찾기
성능에 관한 핵심 고려 사항
요약

Chapter 9 스파크 SQL
스파크 SQL 라이브러리 링크
애플리케이션에서 스파크 SQL 사용하기
데이터 불러오고 저장하기
JDBC/ODBC 서버
사용자 정의 함수
스파크 SQL 성능
요약

Chapter 10 스파크 스트리밍
간단한 예제
아키텍처와 추상 개념
트랜스포메이션
출력 연산
입력 소스
24/7 운영
스트리밍 UI
성능 고려 사항
요약

Chapter 11 MLlib로 해 보는 머신 러닝
개요
시스템 요구 사항
머신 러닝의 기초
데이터 타입
알고리즘
팁과 성능 고려 사항
파이프라인 API
요약

찾아보기

본문중에서

이 입문서는 스파크를 빠르게 익히고 실행할 수 있도록 쓰였다. 이 책을 통해서 자신의 PC에 스파크를 다운로드하여 실행하고, API를 배우기 위해 명령어들을 입력하고 그 결과를 볼 수 있을 것이다. 그리고 일단 그 정도 시점이 되면 가능한 작업의 세부 사항과 분산 실행에 대해 다루고, 최종적으로는 스파크에 내장된 머신 러닝, 스트림 처리, SQL 등의 고수준 라이브러리를 둘러보게 될 것이다. 한 대의 컴퓨터든 수백 대로 구성된 클러스터든 데이터 분석에 관한 문제를 맞닥뜨렸을 때, 우리는 이 책이 그 문제를 빠르게 해결할 수 있는 도구가 되기를 바란다.
(/ p.XV)

스파크는 작업 노드에서는 데이터를 메모리에 올려 처리할 수 있어서 많은 분산 작업들, 심지어 십수 대의 머신에서 테라바이트(terabyte) 단위의 데이터를 처리하는 것도 몇 초 만에 끝낼 수 있다. 이런 높은 성능 덕분에 일반적으로 셸에서 수행하게 되는 반복적인 일회성, 탐색적 분석 같은 종류의 작업을 스파크에서 수행하는 것도 적절하다. 스파크는 클러스터 연결을 잘 지원하는 기능을 가진 파이썬과 스칼라 셸을 지원한다.
(/ p.14)

이번 장에서는 스파크에서 가장 흔하게 쓰이는 트랜스포메이션과 액션들에 대해 알아본다. 특별한 데이터 타입을 취급하는 RDD를 위한 추가적인 연산들도 존재한다. 예를 들면, 통계 함수들이나 키/값 페어(key/value pair)를 다루는 RDD에서 키를 기준으로 데이터를 집계하는 키/값 연산 같은 것들이 있다. RDD 타입에 따라 변환하는 방법과 이런 특별한 연산들은 후반부에 다룬다.
(/ p.43)

오브젝트 파일이 자바 직렬화를 사용한다는 것에는 몇 가지 주의가 필요하다. 일반적인 시퀀스 파일과는 달리 결과 파일이 하둡에서 동일 객체를 출력한 것과는 다르다. 다른 포맷들과는 다르게 오브젝트 파일은 거의 스파크 내에서 스파크 작업들끼리 통신하기 위한 용도로 많이 쓰인다. 게다가 자바 직렬화는 느리다.
(/ p.102)

스파크를 최적화하고 디버깅하기 위한 첫 번째 단계는 스파크 시스템의 내부 설계를 좀 더 깊이 이해하는 것이다. 이전 장들에서 RDD와 파티션 등에 대한 "논리적인" 관점에서의 표현들을 보아 왔다. 실행하면서 스파크는 이 논리적 표현들을 여러 개의 연산들을 태스크로 합쳐서 물리적인 실행 계획으로 바꾼다. 스파크 실행의 전체적인 형태를 이해하는 것은 이 책의 범위를 벗어나지만, 관련된 개념들이 엮이는 단계들에 대해 올바른 이해를 가지는 것은 작업을 최적화하고 디버깅하는 데에 도움이 된다.
(/ p.174)

저자소개

홀든 카로(Holden Karau) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

트랜스젠더 캐나다인이면서 IBM 스파크 기술 센터의 소프트웨어 개발 엔지니어다. 그녀는 스파크 커미터이면서 파이 스파크와 머신러닝에 많은 기여를 하고 있다. 또한, 다양한 국제 콘퍼런스에서 스파크 발표자로 활동하고 있다.

앤디 콘빈스키(Andy Konwinski) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

데이터브릭스의 공동 창업자이다. 박사과정으로 재학하다가 UC 버클리(Berkeley)의 AMPLab에서 박사 후 과정을 수행하며 대용량 분산 컴퓨팅과 클러스터 스케줄링에 대해 연구했다. 그는 아파치 메소스(Apache Mesos) 프로젝트의 공동 창시자이며 커미터이다. 또한, 구글에서 차세대 클러스터 스케줄링 시스템인 오메가(Omega)를 설계하며 시스템 엔지니어들 및 연구원들과 일하였다. 최근에는 AMP 캠프 빅데이터 부트캠프와 스파크 서밋을 주최하고 이끌고 있으며, 스파크 프로젝트에도 공헌하고 있다.

패트릭 웬델(Patrick Wendell) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

데이터브릭스의 공동 창업자이며 스파크 커미터이자 PMC 멤버이다. 스파크 프로젝트에서 스파크 1.0을 포함해 여러 버전의 릴리스 관리자로 활동해 왔다. 패트릭은 또 스파크 코어 엔진의 여러 하부 시스템을 유지 관리하고 있다. 데이터브릭스 창업 이전에 UC 버클리에서 컴퓨터 과학 석사학위를 취득하였다. 그의 연구 분야는 대용량 분석의 워크로드에 대해 빠른 응답성을 보이는 스케줄링에 대한 것이었다. 프린스턴 대학(Princeton University)에서 컴퓨터 과학 교육 학사학위를 받기도 했다.

마테이 자하리아(Matei Zaharia) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

아파치 스파크의 창시자이자 데이터브릭스의 최고기술경영자(CTO)이다. UC 버클리에서 박사학위를 받았으며, 이때 연구 프로젝트로 스파크를 시작했다. 현재는 아파치의 부사장이기도 하다. 스파크 외에도 클러스터 컴퓨팅 분야에서의 연구와 다른 프로젝트들에서 오픈 소스 공헌을 하였는데, 그중에는 아파치 하둡(커미터로 활동)이나 아파치 메소스(프로젝트 시작에 관여) 등이 있다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

한국 오라클, 세븐 네트웍스 코리아를 비롯한 여러 회사에서 DBMS 엔진 및 푸시 메시징 엔진 등을 개발했다. 그루터를 거쳐 지금은 쿠팡에서 빅데이터 관련 개발 업무를 하고 있다. 아파치 타조(http://tajo.apache.org) 커미터로도 활동 중이다. 옮긴 책으로는 [도커: 설치부터 운영까지], [러닝 스파크]가 있다.

이 상품의 시리즈

(총 19권 / 현재구매 가능도서 12권)

펼쳐보기

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    10.0 (총 0건)

    구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

    리뷰쓰기

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    8.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용