간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (34,200원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (25,200원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (28,800원)
(최대할인 4만원 / 2만원 이상 결제)
Close

빅쿼리를 활용한 데이터 웨어하우스 구축 : 단계별로 배우는 구글 클라우드 관리형 데이터 분석

원제 : Bigquery for Data Warehousing
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 34
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

40,000원

  • 36,000 (10%할인)

    2,000P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택
배송정보
  • 7/5(화) 이내 발송 예정  (서울시 강남구 삼성로 512)
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(71)

  • 상품권

AD

책소개

구글의 BigQuery(빅쿼리) 기술을 바탕으로 리포팅과 대시보드 기능을 지원하는 데이터 웨어하우스를 구축하는 방법을 설명한다. BigQuery를 사용해 설계, 빌드, 로드, 검색, 유지하는 방법을 단계별로 진행하면서 데이터 웨어하우스를 구축할 수 있다. 유용하면서도 확장 가능하며 유지보수가 쉬운 모던 데이터 분석 시스템을 어떻게 만드는지에 대한 궁금증을 해결해준다. 그리고 BigQuery 머신러닝 기능을 사용해 데이터를 예측하고 조직의 데이터 문제를 해결하는 방법을 설명한다.

출판사 서평

◈ 이 책에서 다루는 내용 ◈
◆ 프로젝트와 조직을 위한 데이터 웨어하우스 설계
◆ 다양한 외부 및 내부 소스에서의 데이터 로드
◆ 복잡한 워크플로를 위한 구글 클라우드 플랫폼 서비스 통합
◆ 조직 성장에 대응하는 데이터 웨어하우스 유지 및 확장
◆ 웨어하우스 데이터 분석, 리포팅 및 대시보드 생성

◈ 이 책의 구성 ◈
1부, ‘웨어하우스 구축’에서는 백지상태에서 데이터 저장소에 대한 요구 사항을 정하고 구성하는 방법을 설명한다. 몇 가지 예제로 데이터 웨어하우스나 SQL 저장소 없이 BigQuery에서 바로 데이터에 접근하는 방법을 알려준다. 이미 사용하는 데이터 저장소가 있다면 어떤 전략을 채용할지 설명한다. 마지막으로 비용 측면에서 예산과 데이터의 가용성 사이의 절충안을 논의한다.
2부, ‘웨어하우스 채우기’에서는 기존 데이터 소스에서 데이터 웨어하우스로 옮기는 방법인 로딩(loading), 스트리밍(Streaming) 그리고 데이터플로우(Dataflow)를 설명한다. BigQuery에서 바로 로딩과 스트리밍을 관리할 수 있다. 데이터플로우에 한 장을 할애해 확장 가능한 커스텀 데이터 파이프라인을 구성하는 기술을 설명한다.
3부, ‘웨어하우스 사용’에서는 데이터 웨어하우스를 구축한 후 가능한 작업을 기술한다. 8장에서는 처음 BigQuery를 실행한 후 데이터를 다루는 방법에 있어 기초를 세우는 방법을 설명하고 9장에서는 BigQuery에서 SQL을 어떻게 사용하는지를 알려준다.
4부, ‘웨어하우스 유지 및 관리’에서는 데이터 웨어하우스에서 회사에 가치를 부여할 수 있는 데이터를 운영할 수 있다. 다만 데이터도 주기적인 관리가 필요하다. 문제 발생을 예방하기 위한 데이터 관리 전략을 설명한다. 14장에서는 조직에서 큰 스케일의 변화가 있을 때 데이터 웨어하우스에 어떤 변화가 있을지 설명한다.
5부, ‘데이터 리포팅과 시각화’에서는 부가적인 부분을 다룬다. 정보를 리포트로 만들거나 실시간 대시보드를 만들고 분석을 위해 데이터를 어떻게 조직에게 전달하는지를 다룬다.
6부, ‘데이터의 잠재력 향상’에서는 BigQuery의 획기적인 기능인 머신러닝(ML, machine learning) 기능을 설명하고 우리가 다루는 데이터에서 어떻게 사용하는지 설명한다. 공개 데이터 세트를 사용해 기존 데이터와 연동하는 방법도 설명한다.

◈ 옮긴이의 말 ◈
데이터는 어디에나 존재한다. 이제 데이터 분석은 비즈니스에 있어 필수적인 요소다. 대부분의 회사는 분석 스택을 만들면서 많은 시행착오를 겪는다. 그중 가장 먼저 맞닥뜨리는 것은 어떻게 데이터 웨어하우스(Data Warehouse)를 구축할 것인지에 관한 고민이다.
대부분의 데이터 분석 스택은 데이터 웨어하우스와 같은 중앙저장소에 데이터를 저장한 후 데이터를 변환해 BI 도구 혹은 보고서를 만드는 식으로 구성한다. 데이터 웨어하우스가 대두되기 전에는 프로덕션 DB를 직접 쿼리하는 방식으로 구현했다. 하지만 이런 방법은 프로덕션 성능에 부담을 주게 돼 읽기 전용 복제본을 사용하게 됐다. NoSQL 데이터베이스를 사용할 경우 지원되는 도구와 표준이 부족하기 때문에 SQL 데이터베이스에 로드한 후 분석했다. 최근에는 다양한 데이터 소스를 통합해서 인사이트를 얻어야 하는 복잡한 요구사항의 수용을 위해 데이터 웨어하우스의 존재가 부각됐다. 데이터 웨어하우스를 구축하면 다양한 이벤트, 애플리케이션 데이터, 마케팅 데이터, CRM 데이터, API로 얻을 수 있는 모든 데이터를 한곳에 모아 정제한 다음, 분석과 모델링을 할 수 있게 된다. 하지만 이런 기술은 기업 수준의 투자가 아니면 불가능했다. 그리고 기업들에도 데이터 웨어하우스 운영 및 워크플로 유지보수는 쉬운 일이 아니었다. 하지만 데이터 웨어하우스가 클라우드로 옮겨가면서 개발자들도 손쉽게 접할 수 있는 기술이 됐다.
데이터 웨어하우스는 중앙 분석 데이터 저장소로 분석 쿼리에 최적화된 데이터베이스라고 생각하면 된다. 다음과 같은 이유로 데이터 웨어하우스 사용을 고려하게 된다. 다수의 데이터 소스의 데이터를 결합해 분석이 필요할 때, 분석용 데이터와 트랜잭션 데이터를 분리해야 할 때, NoSQL과 같이 분석 쿼리에 적합하지 않을 때, 자주 쓰이는 분석 쿼리를 최적화할 때다.
하지만 저장소만으로 데이터 웨어하우스는 혼자 분석 스택을 감당할 수 없다. 데이터 웨어하우스를 구축하려면 워크플로와 운영을 포함해 스토리지(추출과 로드), 프로세스(변환과 모델), 접근(시각화와 전달)의 세 가지 기능을 충족해야 한다.
Amazon Redshift, google BigQuery, snowflake, presto와 같은 여러 가지 데이터 웨어하우스가 떠오르고 있다. 하지만 BigQuery는 완전 관리형 서버리스 서비스로 누구나 약정 없이 바로 시작할 수 있다.
이 책을 통해 BigQuery의 기술뿐만 아니라 데이터 엔지니어링에 필요한 여러 가지 GCP 기술들을 접할 수 있다. Cloud Functions, Dataflow, DLP 등 여러 가지 GCP 서비스들을 사용해 데이터 웨어하우스를 구축, 유지, 관리하는 방법을 배울 것이다. 시간이 지남에 따라 퇴색되고 더 나은 도구가 나오더라도 데이터 웨어하우스를 구축하는 방법론과 유지보수를 위한 기초지식을 다루기 때문에 두고두고 여러 번 참고할 수 있을 것이다.
이 책은 기술보다는 사람과의 관계를 강조한다. 데이터 전략 및 수행에 있어 BigQuery는 단순한 도구일 뿐이다. 데이터 웨어하우스 구축을 통해 인사이트를 얻고 비즈니스 예측까지 할 수 있는 기회를 갖고 데이터 주도적인 결정을 할 수 있길 바란다.

목차

1부. 웨어하우스 구축

1장. BigQuery 살펴보기
__구글 클라우드 플랫폼
__GCP 시작
__GCP 사용
____Cloud Console
____Command Line Interface
____프로그래밍 방식 액세스
__BigQuery Cloud Console
____SQL 쿼리
____유용한 정보
__웨어하우스 디자인
__데이터 저장소로서의 BigQuery
____행 지향 접근
____열 지향 접근
__데이터 웨어하우스로서의 BigQuery
__주요 질문
____기초
____확장성
__데이터 정규화
__요약

2장. 웨어하우스 프로젝트 시작
__시작에 앞서
__핵심 질문
____제한적인 리소스는 무엇인가?
____조직의 업무 분야는 무엇인가?
____조직의 차별점은 무엇인가?
____필요한 데이터를 알려줄 수 있는 사람은 누구인가?
____고객에게 필요한 데이터를 파악하고 있는 사람은 누구인가?
____핵심 객체는 무엇인가?
____핵심 관계는 무엇인가?
____시간은 어떤 역할을 하는가?
____비용은 어떤 역할을 하는가?
__일반적인 고려사항
__업무 승인
____관계자 인터뷰
____갈등 해결
____문서 산출물
____비즈니스 수용
____결정 기록
__설계 방식 선택
____트랜잭션 저장소
____스타/눈송이 스키마
____NoSQL
____BigQuery
__BigQuery 모델
____프로젝트
____데이터 세트
____테이블
__요약

3장. 데이터 모델
__데이터 모델
__수집 속도
__과거 데이터의 가치
__데이터 모델 생성
__데이터 세트 생성
__테이블 생성
____소스
____파일 형식
____대상
____스키마
____모드
____파티션 및 클러스터 설정
____고급 옵션
____파티셔닝
____클러스터링
__BigQuery 데이터 읽기
____BigQuery UI
____bq 커맨드 라인
____BigQuery API
____BigQuery Storage API
__요약

4장. BigQuery 비용 관리
__BigQuery 모델
__BigQuery 비용 모델
____스토리지 가격
____주문형 가격
____정액제
____BigQuery 예약
__비용 최적화
____연간 약정
____테이블 분할
____로딩 vs 스트리밍
____쿼리 작성
____쿼리 비용 확인
__GCP 예산 도구
____GCP 요금 계산기
____주문형 모델 제한 설정
____예약 할당량 설정
____BigQuery에 결제정보 로드
__요약

2부. 웨어하우스 채우기

5장. 웨어하우스 데이터 로드
__로딩과 마이그레이션
____파일
____Google Cloud Storage
____타사 이전 솔루션
____Java Database Connectivity
____Document-Based Storage/NoSQL
____외부 데이터 소스
__요약

6장. 데이터 웨어하우스 스트리밍
__장점과 단점
____데이터 일관성
____데이터 가용성
____스트리밍 사용 조건
__스트리밍 코드 작성
____Google App Engine
____발생할 수 있는 문제
__고급 스트리밍 기능
____시간순으로 분할
____수집순으로 분할
____템플릿 테이블
__요약

7장. Dataflow
__주요 개념
____Driver Program
____파이프라인
____Directed-Acyclic Graph
____PCollection
____PTransform
__파이프라인 구축
____준비
____튜토리얼
____Google Dataflow Runner
__Dataflow Templates
__Dataflow SQL
____주요 개념 확장
____Dataflow SQL 확장
____Dataflow SQL 파이프라인 작성
____Dataflow SQL 작업 배포
__요약

3부. 웨어하우스 사용

8장. 웨어하우스 관리
__질문과 계획
__회고
__로드맵
____제품 결함
____기술 부채
____유지보수
____범위 축소
____시스템화
____낙관적인 확장성
____우선순위
__푸시-풀 전략
__데이터 고객 유형
____데이터 분석가
____엔지니어
____임원 및 경영진
____영업직
__요약

9장. 웨어하우스 쿼리
__BigQuery SQL
____기본 문법
____추가 구문
____이전 데이터 액세스
__집합과 교차
____UNION ALL/DISTINCT
____INTERSECT
____EXCEPT
__조인
____CROSS JOIN
____INNER JOIN
____OUTER JOIN
____USING
____셀프 조인
__하위 쿼리
____WITH절
__중첩 데이터
____UNNEST
__파티션
____수집 시간 파티션 테이블
____날짜/타임스탬프 파티션 테이블
____정수 범위 파티션 테이블
__날짜 함수
____협정 세계시
____일반 사용 사례
__그룹핑
____ROLLUP
____HAVING
__집계 함수
__BigQuery GIS
____GEOGRAPHY의 개념
____GIS 함수
____시각화
__기타 함수들
__요약

10장. 예약 작업
__BigQuery의 예약 쿼리
____쿼리 예약하기
____쿼리 검토
__Cloud Scheduler
____이름
____빈도
____대상
____상태
____명령줄 사용
____스케줄링 모범 사례
__다른 예약 방법
____Cloud Tasks
____Cloud Composer
____BigQuery Transfer Service
__요약

11장. GCP의 서버리스 함수
__장점
____관리
____확장성
____비용
____가용성
__단점
____지연
____리소스 제한
____이식성
____관리
__BigQuery와 Cloud Functions
__함수 작성
____함수 이름
____리전
____트리거
____인증
____변수, 네트워킹, 고급 설정
____코드
____소스코드
____Cloud Functions 배포
__Cloud Functions 호출
____HTTP 트리거
____Cloud Pub/Sub 트리거
____Cloud Storage 트리거
____Cloud Firestore
____직접 트리거
____Firebase 트리거
__Cloud Scheduler
__실제 애플리케이션 예제
____제안하는 디자인
__요약

12장. Cloud Logging
__로그와 분석의 연관성
____Abigail’s Flowers 예제
__Cloud Logging
____로그 탐색기
____Cloud Logging 쿼리
__BigQuery 로그 싱크
____싱크
____싱크 생성
__측정항목과 알림
____측정항목 생성
____로그 기반 측정항목
____측정항목 내보내기
____알림
__피드백 루프
__요약

4부. 웨어하우스 유지 및 관리

13장. 고급 BigQuery 기능
__분석 함수
____정의
____윈도우 프레임
____파티션
____실행 순서
____숫자 함수
____윈도우 프레임 문법
____탐색 함수
____집계 분석 함수
__BigQuery 스크립팅
____블록
____변수
____Comments 주석
____IF/THEN/ELSEIF/ELSE/END IF
____제어 흐름
__저장 프로시저, 사용자 정의 함수, 뷰
____저장 프로시저
____사용자 정의 함수
____자바스크립트 사용자 정의 함수
____뷰
____구체화된 뷰
__요약

14장. 데이터 거버넌스
__데이터 거버넌스 정의
____가용성
____컴플라이언스
____일관성
____비용 관리
____의사 결정
____성능
____품질
____보안
____사용성
__거버넌스 전략
__책임과 역할
____고위 경영진
____거버넌스 위원회
____주제 전문가
____데이터 분석가
____데이터 엔지니어
__기록 시스템
____Golden Record
____단방향 데이터 흐름
__보안
____인증
____권한
____암호화
____분류
____데이터 손실 방지
____감사
__데이터 수명 주기
____수집에서 사용 가능 상태까지
____활성 데이터 및 품질 측정
____폐기
__거버넌스 정책 수정
__로드맵
__승인
__Google Cloud Data Catalog
____개요
____BigQuery
____외부 연결
____개인 식별 정보
__요약

15장. 장기적인 전략 수립
__비즈니스 변화
____큰 비즈니스 변화
____핵심 성과 지표
____타임라인
____접근 방법
____데이터 프로그램 품의서
__자연적인 성장
____변화 제어
____소스 제어 관리
____데이터 보존 고려사항
____개인 정보 보호법
____비용 관리
____만료 기간
____장기 스토리지
__데이터 조작 언어
__중단 시간
____코드 프리즈
____단계적 성능 저하
__BigQuery 생태계
__요약

5부. 데이터 리포팅과 시각화

16장. 리포팅
__리포팅
__리포팅과 데이터 대중화
____역사
____회색시장 데이터
____리포팅을 통한 대중화
____역사는 반복된다
__제품 관점의 리포팅
____B2B의 관점
____리포팅 시스템 품의
____제품 관리
__요구사항 정의
____플랫폼
____보고서
____로드맵
__솔루션 분포
____Google Cloud Platform
____서드 파티
____그 외의 방법
__요약

17장. 대시보드와 시각화
__시각화
____시각화 기능
__대시보드
____시각화와 대시보드
____대시보드 계층
____사용 사례
____접근성
____신선함
____관련 측정항목
____주요 비즈니스 변화
____커뮤니티
__대시보드 구축
____하드웨어
____소프트웨어
____유지보수
__요약

18장. Google Data Studio
__데이터 스튜디오 보고서와 BigQuery
____데이터 소스
____BigQuery 커넥터
____보고서 준비
____보고서 생성
____차트 작성
____보고서 보기 옵션
__추가 기능
____데이터 스튜디오 탐색기
____데이터 혼합
____계산된 필드
____커뮤니티 추가 기능
____Google 애널리틱스
__BigQuery BI Engine
__요약

6부. 데이터의 잠재력 향상

19장. BigQuery ML
__배경 지식
____인공지능
____머신러닝
____통계와의 관계
____윤리
__BigQuery ML 개념
____비용
____지도 학습과 비지도 학습
____모델 유형
____수행 절차
__예제
____k-평균 군집화
____분류
__요약

20장. Jupyter Notebook과 공개 데이터 세트
__심연의 가장자리
__Jupyter Notebook
____노트북 설정
____노트북 인터페이스
____Python 데이터 분석
__BigQuery 연결
____커널에 데이터 추가하기
____BigQuery 데이터 추가
__dataframe 탐색
____둘러보기
____개별 값 탐색
____다중 값 탐색
____다음 단계
____매직 명령어
__AutoML Tables
____데이터 세트 가져오기
____학습 설정
____모델 학습
____모델 평가
____예측
____추가 분석
__데이터 인사이트 퍼널
__요약

21장. 결론
부록 A. Cloud Shell과 Cloud SDK
부록 B. 데이터 프로젝트 품의서 샘플

저자소개

마크 무케티 [저] 신작알림 SMS신청
생년월일 -

의료 및 전자 상거래 분야의 업계 기술 리더다. 인텔 8088에서 BASIC 및 터보 C를 시작으로 지금은 클라우드에서 Node.js를 사용하는 등 30년 이상 컴퓨터 작업과 소프트웨어를 작성해왔다. 그동안 기술에 대한 깊은 애정과 관리 기술로 세계적 수준의 플랫폼을 만드는 엔지니어링 그룹을 구축하고 성장시켜왔다. 데이터베이스, 릴리스 엔지니어링, 프론트엔드 및 백엔드 코딩, 프로젝트 관리 분야에서도 일했다. 로스앤젤레스 지역에서 기술 임원으로 일하면서 기술 팀원들이 최고의 잠재력을 갖고 업무 목표를 달성할 수 있도록 지도하고 있다.

백진욱 [역] 신작알림 SMS신청
생년월일 -

카네기멜론 대학에서 컴퓨터공학 학사와 석사를 취득했다. 삼성전자에 다니다가 마이뮤직테이스트를 공동 창업해 8년간 CTO 포지션으로 일했다. 행파이브를 비롯한 여러 스타트업의 테크니컬 컨설팅을 해왔으며, 딜리버스라는 물류 스타트업을 공동 창업해 다시 한번 열정을 불태우고 있다. 데이터와 클라우드 기술의 결합에 의한 혁신에 많은 관심이 있고 조직에 DataOps와 MLOps를 적용하는 것에 흥미를 갖고 있다.

이 상품의 시리즈

(총 77권 / 현재구매 가능도서 72권)

선택한 상품 북카트담기
펼쳐보기

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

    리뷰쓰기

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    10.0

    판매자정보

    • 인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

    상호

    (주)교보문고

    대표자명

    안병현

    사업자등록번호

    102-81-11670

    연락처

    1544-1900

    전자우편주소

    callcenter@kyobobook.co.kr

    통신판매업신고번호

    01-0653

    영업소재지

    서울특별시 종로구 종로 1(종로1가,교보빌딩)

    교환/환불

    반품/교환 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능

    반품/교환가능 기간

    변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능
    단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    반품/교환 비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담

    반품/교환 불가 사유

    ·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)

    ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등

    ·복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음

    소비자 피해보상
    환불지연에 따른 배상

    ·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    (주) 인터파크 안전결제시스템 (에스크로) 안내

    (주)인터파크의 모든 상품은 판매자 및 결제 수단의 구분없이 회원님들의 구매안전을 위해 안전결제 시스템을 도입하여 서비스하고 있습니다.
    결제대금 예치업 등록 : 02-006-00064 서비스 가입사실 확인

    배송안내

    • 교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.

    • 배송비는 업체 배송비 정책에 따릅니다.

    • - 도서 구매 시, 1만 원 이상 무료, 1만원 미만 2천 원 - 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용