간편결제, 신용카드 청구할인
삼성카드 6% (23,690원)
(삼성카드 6% 청구할인)
인터파크 롯데카드 5% (23,940원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (17,640원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (20,160원)
(최대할인 4만원 / 2만원 이상 결제)
Close

하둡과 스파크를 활용한 실용 데이터 과학 : 대규모 데이터 분석을 위한 효율적 설계와 구축 가이드

원제 : Practical Data Science with Hadoop® and Spark
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 88
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

28,000원

  • 25,200 (10%할인)

    1,400P (5%적립)

  • 구매

    22,400 (20%할인)

    1,120P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
  • 추가혜택
    배송정보
    주문수량
    감소 증가
    • 북카트 담기
    • 바로구매
    • 매장픽업
    • 이벤트/기획전

    • 연관도서

    • 사은품(5)

    책소개

    호튼웍스 데이터 과학팀이 알려주는 실용 데이터 과학

    이 책은 하둡과 스파크를 활용해 대규모 데이터 분석을 수행하고자 하는 데이터 과학자, 데이터 엔지니어, 비즈니스 이해 관계자를 대상으로 한다. 데이터 엔지니어링 전 과정을 파악하고, 핵심 개념을 개괄적으로 배우고, 실용적 구현 사례를 학습한다. 하둡을 손쉽게 시작할 수 있도록 호튼웍스의 가상 머신 샌드박스를 사용해 실습한다.

    출판사 서평

    데이터 과학과 하둡 & 스파크로 안내하는 완벽한 가이드

    데이터 과학과 현대 하둡 생태계의 정수를 소개한다.
    하둡과 스파크가 대규모 데이터 과학 문제를 해결할 수 있는 효과적인 플랫폼으로 진화해 온 과정과 그 이유를 설명한다. 더불어 데이터 과학의 응용 사례를 포괄적으로 다루며, 데이터 입수, 데이터 개조 그리고 시각화의 여러 단계에 대한 실용적인 가이드라인을 제시한다.

    데이터에 대한 기초 지식을 다진 다음, 구체적인 응용 사례에 집중한다.
    머신러닝, 감성 분석을 위한 예측 모델링, 문서 분석을 위한 군집화, 이상 탐지 그리고 자연어 처리에 이르는 다양한 응용 사례를 접할 수 있다.

    마지막으로 데이터 과학의 실무자가 되고 싶은 당신에게
    하둡과 스파크로 어떻게 데이터 과학 과제의 ROI를 끌어올릴 수 있는지에 대한 비즈니스 지향의 가이드라인을 제시한다.

    이 책에서 배우는 것들
    - 데이터 과학이란 무엇이고 어떻게 진화를 거듭했는지, 데이터 과학자의 커리어를 계획하는 방법
    - 빅데이터의 특징(규모, 다양성, 속도)이 데이터 과학 활용에 어떤 영향을 주었는지
    - HDFS, 맵리듀스, YARN, 스파크를 아우르는 하둡과 하둡 생태계
    - 하이브와 스파크를 활용한 데이터 입수 방법
    - 데이터 품질과 데이터 전처리, 데이터 준비 그리고 모델링 방법
    - 대규모 데이터셋에서 통찰을 도출하는 데이터 시각화 방법
    - 머신러닝: 분류, 회귀, 군집화 그리고 이상 탐지
    - 예측 모델링을 위한 알고리즘과 하둡 도구
    - 군집 분석과 유사도 함수들
    - 대규모 이상 탐지 시스템
    - 데이터 과학을 인간의 언어에 적용하는 자연어 처리 방법

    목차

    1부 하둡을 활용한 데이터 과학의 개요

    1장 데이터 과학

    1.1 데이터 과학이란 무엇인가?
    1.2 데이터 과학의 예: 검색 광고
    1.3 데이터 과학의 간략한 역사
    - 1.3.1 통계학과 머신 러닝
    - 1.3.2 인터넷 거인들이 가져온 혁신
    - 1.3.3 현대 기업의 데이터 과학
    1.4 데이터 과학자가 되는 길
    - 1.4.1 데이터 엔지니어
    - 1.4.2 응용과학자
    - 1.4.3 데이터 과학자로 전직하는 방법
    - 1.4.4 데이터 과학자가 갖춰야 할 소프트 스킬
    1.5 데이터 과학팀 구성하기
    1.6 데이터 과학 프로젝트의 생명 주기
    - 1.6.1 적절한 질문
    - 1.6.2 데이터 입수
    - 1.6.3 데이터 정제: 데이터 품질 관리
    - 1.6.4 데이터 탐색과 모델 특징 변수 설계
    - 1.6.5 모델 구축과 튜닝
    - 1.6.6 운영 시스템에 배포
    1.7 데이터 과학 프로젝트의 관리
    1.8 요약

    2장 데이터 과학의 활용 사례
    2.1 빅데이터: 변화의 원동력
    - 2.1.1 규모: 더 많은 데이터의 활용
    - 2.1.2 다양성: 더 많은 데이터 유형
    - 2.1.3 속도: 더 빠른 데이터 유입
    2.2 비즈니스 활용 사례
    - 2.2.1 제품 추천
    - 2.2.2 고객 이탈 분석
    - 2.2.3 고객 세분화
    - 2.2.4 영업 리드 우선순위 결정
    - 2.2.5 감성 분석
    - 2.2.6 이상 거래 탐지
    - 2.2.7 유지 보수 예측
    - 2.2.8 장바구니 분석
    - 2.2.9 데이터 기반 의료 진단
    - 2.2.10 환자의 재입원 예측
    - 2.2.11 변칙 접근 탐지
    - 2.2.12 보험 위험 분석
    - 2.2.13 유정/가스정의 생산량 예측
    2.3 요약

    3장 하둡과 데이터 과학
    3.1 하둡이란 무엇인가?
    - 3.1.1 분산 파일 시스템
    - 3.1.2 리소스 관리자와 스케줄러
    - 3.1.3 분산 데이터 처리 프레임워크
    3.2 하둡의 진화 과정
    3.3 데이터 과학용 하둡 도구
    - 3.3.1 아파치 스쿱
    - 3.3.2 아파치 플럼
    - 3.3.3 아파치 하이브
    - 3.3.4 아파치 피그
    - 3.3.5 아파치 스파크
    - 3.3.6 R
    - 3.3.7 파이썬
    - 3.3.8 자바 머신 러닝 패키지
    3.4 하둡이 데이터 과학자에게 유용한 이유
    - 3.4.1 저비용 스토리지
    - 3.4.2 스키마 온 리드
    - 3.4.3 비정형 데이터와 반정형 데이터
    - 3.4.4 다양한 언어 지원
    - 3.4.5 견고한 스케줄링과 리소스 관리
    - 3.4.6 분산 시스템 추상화 레벨
    - 3.4.7 대규모 데이터에 기반한 모델 구축
    - 3.4.8 대규모 데이터에 모델을 적용
    3.5 요약

    2부 하둡을 활용한 데이터 준비와 시각화

    4장 하둡을 활용한 데이터 입수

    4.1 하둡 데이터 레이크
    4.2 HDFS
    4.3 파일을 HDFS로 직접 전송하기
    4.4 파일을 하이브 테이블로 가져오기
    - 4.4.1 CSV 파일을 하이브 테이블로 가져오기
    4.5 스파크를 사용해 데이터를 하이브 테이블로 가져오기
    - 4.5.1 스파크를 사용해 CSV 파일을 하이브로 가져오기
    - 4.5.2 스파크를 사용해 JSON 파일을 하이브로 가져오기
    4.6 아파치 스쿱을 활용한 관계형 데이터 입수
    - 4.6.1 스쿱을 활용한 데이터 가져오기와 내보내기
    - 4.6.2 아파치 스쿱의 버전별 차이
    - 4.6.3 스쿱 버전 1을 사용한 기본 예제
    4.7 아파치 플럼을 활용한 데이터 스트림 입수
    - 4.7.1 플럼을 활용한 웹 로그 수집 예제
    4.8 아파치 우지를 활용한 하둡 작업 및 데이터 흐름 관리
    4.9 아파치 팔콘
    4.10 새로운 데이터 입수 도구
    4.11 요약

    5장 하둡을 활용한 데이터 개조
    5.1 하둡이 데이터 개조 작업에 필요한 이유
    5.2 데이터 품질
    - 5.2.1 데이터 품질이란 무엇인가?
    - 5.2.2 데이터 품질 이슈 다루기
    - 5.2.3 하둡을 사용한 데이터 품질 관리
    5.3 특징 행렬
    - 5.3.1 적절한 특징 변수 선택하기
    - 5.3.2 샘플링: 인스턴스 선택
    - 5.3.3 특징 변수 생성
    - 5.3.4 텍스트 특징 변수
    - 5.3.5 시계열 특징 변수
    - 5.3.6 복잡한 데이터 유형에서 추출한 특징 변수
    - 5.3.7 특징 변수 조작
    - 5.3.8 차원 축소
    5.4 요약

    6장 데이터 탐색과 시각화
    6.1 왜 데이터를 시각화하는가?
    - 6.1.1 동기 부여 예제: 네트워크 처리량 시각화하기
    - 6.1.2 애당초 없었던 혁신을 시각화하기
    6.2 데이터 차트 생성
    - 6.2.1 비교 차트
    - 6.2.2 구성 차트
    - 6.2.3 분포 차트
    - 6.2.4 관계 차트
    6.3 데이터 과학에서 사용하는 시각화 차트
    6.4 시각화 도구
    - 6.4.1 R
    - 6.4.2 파이썬: matplotlib, seaborn 등
    - 6.4.3 SAS
    - 6.4.4 MATLAB
    - 6.4.5 Julia
    - 6.4.6 기타 시각화 도구
    6.5 하둡을 활용한 빅데이터 시각화
    6.6 요약

    3부 하둡을 활용한 데이터 모델링

    7장 하둡을 활용한 머신 러닝

    7.1 머신 러닝 개요
    7.2 머신 러닝 용어
    7.3 머신 러닝 작업 유형
    7.4 빅데이터와 머신 러닝
    7.5 머신 러닝 도구
    7.6 머신 러닝과 인공지능의 미래
    7.7 요약

    8장 예측 모델링
    8.1 예측 모델링 개요
    8.2 분류 vs 회귀
    8.3 예측 모델 평가
    - 8.3.1 분류 모델 평가
    - 8.3.2 회귀 모델 평가
    - 8.3.3 교차 검증
    8.4 지도 학습 알고리즘
    8.5 빅데이터를 활용한 예측 모델 솔루션 구축
    - 8.5.1 모델 학습
    - 8.5.2 일괄 예측
    - 8.5.3 실시간 예측
    8.6 예제: 감성 분석
    - 8.6.1 트윗 데이터셋
    - 8.6.2 데이터 준비하기
    - 8.6.3 특징 변수 생성
    - 8.6.4 분류 모델 구축
    8.7 요약

    9장 군집화
    9.1 군집화 개요
    9.2 군집화 활용
    9.3 유사도 측정 방식 설계
    - 9.3.1 거리 함수
    - 9.3.2 유사도 함수
    9.4 군집화 알고리즘
    9.5 군집화 알고리즘의 예
    - 9.5.1 k - 평균 군집화
    - 9.5.2 잠재 디리클레 할당
    9.6 군집 평가와 군집 개수 선택
    9.7 빅데이터를 활용한 군집화 솔루션 구축
    9.8 예제: LDA를 활용한 주제 모델링
    - 9.8.1 데이터 입수
    - 9.8.2 특징 변수 생성
    - 9.8.3 LDA 실행
    9.9 요약

    10장 하둡을 활용한 이상 탐지
    10.1 이상 탐지 개요
    10.2 이상 탐지 활용
    10.3 데이터 내 이상 현상 유형
    10.4 이상 탐지 기법
    - 10.4.1 규칙 기반 기법
    - 10.4.2 지도 학습 기법
    - 10.4.3 비지도 학습 기법
    - 10.4.4 준지도 학습 기법
    10.5 이상 탐지 시스템 튜닝
    10.6 하둡을 활용한 빅데이터 기반 이상 탐지 솔루션 구축
    10.7 예제: 네트워크 침입 탐지
    - 10.7.1 데이터 입수하기
    - 10.7.2 분류 모델 학습하기
    - 10.7.3 성능 평가하기
    10.8 요약

    11장 자연어 처리
    11.1 자연어 처리
    - 11.1.1 자연어 처리의 역사
    - 11.1.2 자연어 처리의 활용 사례
    - 11.1.3 텍스트 분할
    - 11.1.4 품사 태깅
    - 11.1.5 개체명 인식
    - 11.1.6 감성 분석
    - 11.1.7 주제 모델링
    11.2 하둡의 자연어 처리 도구
    - 11.2.1 스몰 모델 NLP
    - 11.2.2 빅 모델 NLP
    11.3 텍스트 표현 모델
    - 11.3.1 Bag-of-Words
    - 11.3.2 Word2Vec
    11.4 감성 분석 예제
    - 11.4.1 스탠포드 CoreNLP
    - 11.4.2 스파크를 활용한 감성 분석
    11.5 요약

    12장 하둡과 데이터 과학의 미래
    12.1 자동 데이터 탐색
    12.2 딥러닝
    12.3 요약

    부록
    A.1 HDFS 퀵스타트
    - A.1.1 퀵 명령
    A.2 참고 자료
    - A.2.1 하둡과 스파크에 관한 일반적인 정보
    - A.2.2 하둡과 스파크 설치 레시피
    - A.2.3 HDFS
    - A.2.4 맵리듀스
    - A.2.5 스파크
    - A.2.6 필수 도구
    - A.2.7 머신 러닝

    찾아보기

    관련이미지

    저자소개

    오퍼 멘델리비치 [저] 신작알림 SMS신청 작가DB보기
    생년월일 -
    출생지 -
    출간도서 1종
    판매수 174권

    렌드업(Lendup)의 데이터 과학 VP로, 머신러닝과 고급 분석 그룹을 이끌고 있다. 이전에는 호튼웍스의 데이터 과학 디렉터를 역임하며 의료, 금융, 리테일 등 여러 산업에 하둡과 스파크를 전파하였다.

    케이시 스텔라 [저] 신작알림 SMS신청 작가DB보기
    생년월일 -
    출생지 -
    출간도서 1종
    판매수 174권

    호튼웍스의 수석 데이터 과학자며, 아파치 메트론이라는 사이버 보안 오픈 소스 프로젝트의 분석과 데이터 과학팀을 이끌고 있다. 이전에는 의료 정보학 스타트업인 익스플로리스(Explorys)의 아키텍트로 근무하였다.

    더글라스 에드라인 [저] 신작알림 SMS신청 작가DB보기
    생년월일 -
    출생지 -
    출간도서 1종
    판매수 174권

    리눅스 고성능 컴퓨팅의 혁명을 목격한 기록자이자 실무자로 커리어를 시작했다. 그는 지금 빅데이터 분야의 기술 저자이자 고성능 컴퓨팅과 데이터 분석 산업의 컨설턴트로 활동하고 있다.

    생년월일 -
    출생지 -
    출간도서 0종
    판매수 0권

    KAIST 정보통신공학과 학사 및 박사 학위를 취득하고, 삼성전자에서 빅데이터 플랫폼 엔지니어로 근무했다. 그 이후 SK 플래닛과 11번가에서 커머스 분야의 데이터 과학자로 경력을 쌓아 현재는 영상 기술 스타트업인 하이퍼커넥트에서 데이터 과학팀과 데이터실을 이끌고 있다.

    이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

      리뷰

      0.0 (총 0건)

      구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

      리뷰쓰기

      기대평

      작성시 유의사항

      평점
      0/200자
      등록하기

      기대평

      10.0

      교환/환불

      교환/환불 방법

      ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

      교환/환불 가능 기간

      고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

      교환/환불 비용

      고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

      교환/환불 불가사유

      반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
      배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

      소비자 피해보상

      소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
      교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

      기타

      도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

      배송안내

      • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

      • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

      • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

      • 배송비

      도서(중고도서 포함) 구매

      2,000원 (1만원이상 구매 시 무료배송)

      음반/DVD/잡지/만화 구매

      2,000원 (2만원이상 구매 시 무료배송)

      도서와 음반/DVD/잡지/만화/
      중고직배송상품을 함께 구매

      2,000원 (1만원이상 구매 시 무료배송)

      업체직접배송상품 구매

      업체별 상이한 배송비 적용