청구할인 안내(인터파크 제휴카드) | 안내
삼성카드 5% (3만원 이상 결제/최대 1만원 할인)
북피니언 롯데카드 30% (최대할인 3만원 / 3만원 이상 결제)
하나SK 북&카드 30% (최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (최대할인 3만원 / 3만원 이상 결제)
Close

2013년 9월 9일 이후 누적수치입니다.

빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지

판매지수 889
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
  • 저 : 백성민
  • 출판사 : 위키북스
  • 발행 : 2017년 02월 09일
  • 쪽수 : 576
  • 제품구성 : 전1권
  • ISBN : 9791158390549
정가

35,000원

  • 31,500 (10%할인)

    1,750P (5%적립)

  • (1건)

    31,500원 ~(10%할인)

    [특급]

  • 중고판매

    이 책을 인터파크에
    판매하세요

  • 이벤트/기획전

  • 연관도서(13)

  • 사은품(3)

책소개

스파크를 처음 접하는 입문자를 위한 안내서!

2017년 현재, 스파크는 RDD보다도 더 뛰어난 기능으로 무장한 데이터셋을 추가로 도입해서 머신러닝, 그래프 알고리즘, 실시간 스트리밍 처리는 물론이고 하둡, R, 하이브(Hive), 카프카(Kafka), 아파치 제플린(Zeppelin) 등 빅데이터 분야의 기존 스타들과의 연동을 통해 데이터 처리와 관련된 거의 대부분의 영역에서 영향력을 넓혀가고 있다. 이 책은 스파크를 처음 접하는 개발자들이 빠른 시간 내에 스파크가 무엇이고 어디에 어떻게 활용할 수 있는지 실무에 필요한 감을 잡을 수 있도록 스파크 전체 모듈에 대한 설명과 예제를 담고 있다. 특히 스파크를 써 보고 싶지만 새로운 언어를 배우는 부담 때문에 망설이던 개발자들을 위해 스칼라, 자바, 파이썬 예제를 수록하였다.

목차

01장: 스파크 소개
1.1 스파크
__1.1.1 빅데이터의 등장
__1.1.2 빅데이터의 정의
__1.1.3 빅데이터 솔루션
__1.1.4 스파크
__1.1.5 RDD(Resilient Distributed Dataset) 소개와 연산
__1.1.6 DAG
__1.1.7 람다 아키텍처
1.2 스파크 설치
__1.2.1 스파크 실행 모드의 이해
__1.2.2 사전 준비
__1.2.3 스파크 설치
__1.2.4 예제 실행
__1.2.5 스파크 셸
__1.2.6 실행 옵션
__1.2.7 더 살펴보기
1.3 개발 환경 구축
__1.3.1 로컬 개발 환경 구축
1.4 예제 프로젝트 설정
__1.4.1 WordCount 예제 실행
1.5 정리

02장: RDD

2.1 RDD
__2.1.1 들어가기에 앞서
__2.1.2 스파크컨텍스트 생성
__2.1.3 RDD 생성
__2.1.4 RDD 기본 액션
__2.1.5 RDD 트랜스포메이션
__2.1.6 RDD 액션
__2.1.7 RDD 데이터 불러오기와 저장하기
__2.1.8 클러스터 환경에서의 공유 변수
__2.1.9 정리
2.2 정리

03장: 클러스터 환경

3.1 클러스터 환경
__3.1.1 클러스터 모드와 컴포넌트
__3.1.2 클러스터 모드를 위한 시스템 구성
__3.1.3 드라이버 프로그램과 디플로이 모드
3.2 클러스터 매니저
__3.2.1 스탠드얼론 클러스터 매니저
__3.2.2 Apache Mesos
__3.2.3 얀
__3.2.4 히스토리 서버와 매트릭스

04장: 스파크 설정

4.1 스파크 프로퍼티
4.2 환경변수
4.3 로깅 설정
4.4 스케줄링
__4.4.1 애플리케이션 간의 자원 스케줄링
__4.4.2 단일 애플리케이션 내부에서의 자원 스케줄링
4.5 정리

05장: 스파크 SQL

5.1 데이터셋
5.2 연산의 종류와 주요 API
5.3 코드 작성 절차 및 단어 수 세기 예제
5.4 스파크세션
5.5 데이터프레임, 로우, 칼럼
__5.5.1 데이터프레임 생성
__5.5.2 주요 연산 및 사용법
5.6 데이터셋
__5.6.1 데이터셋 생성
__5.6.2 타입 트랜스포메이션 연산
5.7 하이브 연동
5.8 분산 SQL 엔진
5.9 Spark SQL CLI
5.10 정리

06장: 스파크 스트리밍

6.1 개요 및 주요 용어
__6.1.1 스트리밍컨텍스트
__6.1.2 DStream(Discretized Streams)
6.2 데이터 읽기
__6.2.1 소켓
__6.2.2 파일
__6.2.3 RDD 큐(Queue of RDD)
__6.2.4 카프카(Kafka)
6.3 데이터 다루기(기본 연산)
__6.3.1 print()
__6.3.2 map(func)
__6.3.3 flatMap(func)
__6.3.4 count(), countByValue()
__6.3.5 reduce(func), reduceByKey(func)
__6.3.6 filter(func)
__6.3.7 union()
__6.3.8 join()
6.4 데이터 다루기(고급 연산)
__6.4.1 transform(func)
__6.4.2 updateStateByKey()
__6.4.3 윈도우 연산
__6.4.4 window(windowLength, slideInterval)
__6.4.5 countByWindow(windowLength, slideInterval)
__6.4.6 reduceByWindow(func, windowLength, slideInterval)
__6.4.7 reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks])
__6.4.8 countByValueAndWindow(windowLength, slideInterval, [numTasks])
6.5 데이터의 저장
__6.5.1 saveAsTextFiles(), saveAsObjectFiles(), saveAsHadoopFiles()
__6.5.2 foreachRDD()
6.6 CheckPoint
6.7 캐시
6.8 모니터링
6.9 주요 설정

07장: 스트럭처 스트리밍

7.1 개요
7.2 프로그래밍 절차
7.3 데이터프레임과 데이터셋 생성
7.4 스트리밍 연산
__7.4.1 기본 연산 및 조인 연산
__7.4.2 윈도우 연산
__7.4.3 워터마킹
__7.4.4 스트리밍 쿼리
7.5 정리

08장: MLlib

8.1 개요
8.2 관측과 특성
8.3 레이블
8.4 연속형 데이터와 이산형 데이터
8.5 알고리즘과 모델
8.6 파라메트릭 알고리즘
8.7 지도학습과 비지도학습
8.8 훈련 데이터와 테스트 데이터
8.9 MLlib API
8.10 의존성 설정
8.11 벡터와 LabeledPoint
__8.11.1 벡터
__8.11.2 LabeledPoint
8.12 파이프라인
8.13 알고리즘
__8.13.1 Tokenizer
__8.13.2 TF-IDF
__8.13.3 StringIndexer, IndexToString
8.14 회귀와 분류
__8.14.1 회귀
__8.14.2 분류
8.15 클러스터링
8.16 협업 필터링
8.17 정리

09장: SparkR

9.1 개요
9.2 R 설치 및 실행
9.3 데이터프레임
9.4 데이터프레임 생성
__9.4.1 R데이터프레임으로부터 생성
__9.4.2 파일로부터 생성
9.5 데이터프레임 연산
__9.5.1 조회 및 기본 연산
__9.5.2 그룹 및 집계 연산
__9.5.3 칼럼 연산
__9.5.4 집합 연산
__9.5.5 dapply(), dapplyCollect()
__9.5.6 gapply(), gapplyCollect()
__9.5.7 spark.lapply()
__9.5.8 createOrReplaceTempView()
__9.5.9 write()
9.6 하이브 연동
9.7 머신러닝
9.8 정리

10장: GraphX

10.1 주요 용어
__10.1.1 유방향 그래프
__10.1.2 유방향 멀티 그래프
__10.1.3 속성 그래프
10.2 데이터 타입
__10.2.1 RDD
__10.2.2 VertextID
__10.2.3 꼭짓점
__10.2.4 선(Edge)
__10.2.5 EdgeTriplet
__10.2.6 VertexRDD
__10.2.7 EdgeRDD
__10.2.8 Graph
10.3 그래프 생성
10.4 그래프 연산
__10.4.1 numEdges, numVertices
__10.4.2 inDegrees, outDegrees, degrees
__10.4.3 vertices, edges, triplets
__10.4.4 mapVertices(), mapEdges(), mapTriplets()
__10.4.5 reverse()
__10.4.6 subgraph()
__10.4.7 mask()
__10.4.8 groupEdges()
__10.4.9 joinVertices(), outerJoinVertices()
__10.4.10 collectNeighborIds(), collectNeighbors()
__10.4.11 aggregateMessages()
__10.4.12 pregel()
10.5 VertextRDD, EdgeRDD 연산
10.6 그래프 알고리즘
10.7 정리

부록: 스칼라란?

부록.1 스칼라 설치
부록.2 스칼라 셸
부록.3 변수 타입과 변수 선언
부록.4 Range와 형변환
부록.5 클래스, 객체, 컴패니언 오브젝트
부록.6 트레이트와 상속
부록.7 apply
부록.8 튜플과 옵션, 케이스클래스
부록.9 패턴 매치
부록.10 패키지 객체
부록.11 type
부록.12 임포트
부록.13 함수와 메서드
부록.14 제네릭
부록.15 암묵적 변환과 타입 클래스 패턴
부록.16 정리

저자소개

생년월일 -
출생지 -
출간도서 0종
판매수 0권

어쩌다 시작한 개발이 천직이 되어 버린 행복한 개발자. 좋아하고 즐기는 일을 직업으로 가질 수 있음에 더없이 감사한 마음으로 살고 있다. 2001년 이후 줄곧 실무 개발자로 일하고 있으며, 지금은 한 포털 회사에서 광고 데이터 분석 업무를 담당하고 있다. 최근에는 프런트엔드 기술에도 관심을 두고 모바일 및 웹 기술도 배워나가려 노력하고 있으며, 새해를 맞아 작년에 사놓기만 하고 미처 읽지 못했던 책들을 다 읽어 보고 싶다는 꿈을 꾸고 있다.
번역서로 [거침없이 배우는 자바파워툴](지앤선, 2011)이 있다.

이 상품의 시리즈

위키북스 데이터베이스 & 빅데이터 시리즈(총 17권 / 현재구매 가능도서 14권)

펼쳐보기

리뷰

0.0 (총 0건)

기대평

작성시 유의사항

평점
0/200자
등록하기

기대평

10.0

교환/환불

교환/환불 방법

‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

교환/환불 가능 기간

고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

교환/환불 비용

고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

교환/환불 불가사유

반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

소비자 피해보상

소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

기타

도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

배송안내

  • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

  • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

  • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

  • 배송비

도서(중고도서 포함) 구매

2,000원 (1만원이상 구매 시 무료배송)

음반/DVD/잡지/만화 구매

2,000원 (2만원이상 구매 시 무료배송)

도서와 음반/DVD/잡지/만화/
중고직배송상품을 함께 구매

2,000원 (1만원이상 구매 시 무료배송)

업체직접배송상품 구매

업체별 상이한 배송비 적용