간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (23,090원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (17,010원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (19,440원)
(최대할인 4만원 / 2만원 이상 결제)
Close

실무 예제로 배우는 데이터 공학 : 파이썬과 오픈소스 프로젝트로 만드는 나만의 데이터공학환경과 파이프라인

원제 : Data Engineering with Python
소득공제

2013년 9월 9일 이후 누적수치입니다.

공유하기
정가

27,000원

  • 24,300 (10%할인)

    1,350P (5%적립)

할인혜택
적립혜택
  • S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택
배송정보
  • 4/15(월) 이내 발송 예정  (서울시 강남구 삼성로 512)
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서

  • 상품권

AD

라이브북

책소개

실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해 낼 수 있는 자신감이 생길 것이다.

출판사 서평

실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

이 책은 데이터 공학의 기초를 소개하고, 대형 데이터 집합을 다루는 데이터 파이프라인을 구축하는 데 필요한 다양한 기술과 프레임워크를 개괄한다. 여러 예제를 통해 데이터를 정제하고 변환하는 방법과 데이터를 분석해서 데이터에서 최대한 많은 것을 얻는 방법을 배우게 될 것이다. 또한, 이 책은 복잡하고 덩치 큰 데이터를 다루는 방법과 실무 환경에 적합한 데이터 파이프라인을 구축하고 관리하는 방법도 설명한다. 현실적인 예제를 통해서는 데이터 파이프라인을 위한 기반 구조를 구축하고 실무 환경에 데이터 파이프라인을 배치하는 방법을 배우게 될 것이다.

이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해낼 수 있는 자신감이 생길 것이다.

이 책의 특징 및 구성
■ 데이터 과학 및 분석 작업을 지원하는 데이터 공학자의 역할과 임무
■ 파일과 데이터베이스에서 데이터를 추출하는 방법과 데이터를 정제하고, 변환하고, 증강하는 방법
■ 다양한 형식의 파일을 읽고 쓰는 방법과 SQL 및 NoSQL 데이터베이스를 다루는 방법
■ 데이터 파이프라인을 구축하고 대시보드를 이용해서 데이터 흐름을 시각화하는 방법
■ 데이터를 웨어하우스에 적재하기 전에 스테이징과 검증 단계를 이용해서 데이터를 점검하는 방법
■ 데이터를 검증하고 장애를 처리하는 스테이징 단계를 가진 실시간 데이터 파이프라인 구축 방법
■ 데이터 파이프라인을 실무 환경에 배치하는 방법과 주의 사항

이 책의 대상 독자
■ 데이터 공학자나 IT 전문가가 되고자 하는 학생
■ 데이터 공학 분야에 진입하고자 하는 현업 개발자
■ 실무에서 데이터를 추출-변환-적재해야 하는 현업 개발자
■ 파이썬을 자신의 업무에 적용하고자 하는 기존 데이터 공학자 또는 데이터 분석가

목차

PART I 데이터 파이프라인 구축: 추출, 변환, 적재 1
CHAPTER 1 데이터 공학이란? 3
1.1 데이터 공학자가 하는 일 3
1.2 데이터 공학 대 데이터 과학 7
1.3 데이터 공학 도구들 7
1.4 요약 13

CHAPTER 2 데이터 공학 기반구조 구축 15
2.1 아파치 NiFi의 설치와 설정 16
2.2 아파치 에어플로의 설치와 설정 24
2.3 일래스틱서치의 설치와 설정 30
2.4 키바나의 설치와 설정 31
2.5 PostgreSQL의 설치와 설정 36
2.6 pgAdmin 4 설치 37
2.6.1 pgAdmin 4 둘러보기 38
2.7 요약

CHAPTER 3 파일 읽고 쓰기 41
3.1 파이썬으로 파일 쓰고 읽기 41
3.2 아파치 에어플로 데이터 파이프라인 구축 51
3.3 NiFi 처리기를 이용한 파일 다루기 57
3.4 요약 68

CHAPTER 4 데이터베이스 다루기 69
4.1 파이썬을 이용한 관계형 데이터 삽입 및 추출 70
4.2 파이썬을 이용한 NoSQL 데이터베이스 데이터 삽입 및 추출 79
4.3 데이터베이스를 위한 아파치 에어플로 데이터 파이프라인 구축 87
4.4 NiFi 처리기를 이용한 데이터베이스 처리 91
4.4.1 PostgreSQL에서 데이터 추출 92 / 4.4.2 데이터 파이프라인 실행 95
4.5 요약 96

CHAPTER 5 데이터의 정제, 변환, 증강 99
5.1 파이썬을 이용한 탐색적 데이터 분석 100
5.2 pandas를 이용한 공통적인 데이터 문제점 처리 109
5.3 에어플로를 이용한 데이터 정제 119
5.4 요약 122

CHAPTER 6 실습 프로젝트: 311 데이터 파이프라인 만들기 123
6.1 데이터 파이프라인 구축 123
6.2 키바나 대시보드 만들기 132
6.3 요약 142

PART II 실무 환경 데이터 파이프라인 배치 145
CHAPTER 7 실무용 데이터 파이프라인의 특징 147
7.1 데이터의 스테이징과 검증 148
7.2 멱등적 데이터 파이프라인 구축 168
7.3 원자적 데이터 파이프라인 구축 169
7.4 요약 171

CHAPTER 8 NiFi 레지스트리를 이용한 버전 관리 173
8.1 NiFi 레지스트리의 설치과 설정 173
8.2 NiFi에서 레지스트리 사용 176
8.3 데이터 파이프라인 버전 관리 178
8.4 NiFi 레지스트리에서 git-persistence 활용 184
8.5 요약 188

CHAPTER 9 데이터 파이프라인 모니터링 189
9.1 NiFi GUI를 이용한 데이터 파이프라인 모니터링 189
9.2 NiFi 처리기를 이용한 데이터 파이프라인 모니터링 198
9.3 파이썬과 REST API를 이용한 데이터 파이프라인 모니터링 201
9.4 요약 206

CHAPTER 10 데이터 파이프라인 배치 207
10.1 실무 배치를 위한 데이터 파이프라인 마무리 작업 207
10.2 NiFi 변수 레지스트리 활용 214
10.3 데이터 파이프라인 배치 217
10.4 요약 222

CHAPTER 11 실습 프로젝트: 실무용 데이터 파이프라인 구축 223
11.1 검사 환경과 실무 환경 구축 223
11.2 실무용 데이터 파이프라인 구축 227
11.3 데이터 파이프라인을 실무 환경에 배치 238
11.4 요약 238

PART III 일괄 처리를 넘어서: 실시간 데이터 파이프라인 구축 241
CHAPTER 12 아파치 카프카 클러스터 구축 243
12.1 주키퍼 및 카프카 클러스터 생성 243
12.2 카프카 클러스터 시험 운영 248
12.3 요약 250

CHAPTER 13 카프카를 이용한 데이터 스트리밍 251
13.1 로깅의 기초 251
13.2 카프카의 로그 활용 방식 253
13.3 카프카와 NiFi를 이용한 데이터 파이프라인 구축 257
13.4 스트림 처리와 일괄 처리의 차이 264
13.5 파이썬을 이용한 메시지 생산 및 소비 266
13.6 요약 270

CHAPTER 14 아파치 스파크를 이용한 데이터 처리 271
14.1 아파치 스파크의 설치와 설정 271
14.2 PySpark의 설치와 설정 275
14.3 PySpark를 이용한 데이터 처리 277
14.4 요약 283

CHAPTER 15 MiNiFi, 카프카, 스파크를 이용한 실시간 엣지 데이터 처리 285
15.1 MiNiFi 설치 및 설정 285
15.2 MiNiFi 데이터 파이프라인 구축 및 연동 288
15.3 요약 293

APPENDIX A NiFi 클러스터 구축 295

본문중에서

가장 낮은 수준에서 데이터 공학에는 데이터를 한 시스템에서 다른 시스템으로 이동하거나 다른 형식(format)으로 변환하는 작업이 관여한다. 좀 더 일반적인 용어로 말하자면, 데이터 공학자는 자료원, 즉 데이터 공급원에서 데이터를 질의하고(‘추출’), 데이터를 어떤 방식으로든 수정하고(‘변환’), 데이터를 사용자가 접근할 수 있는, 그리고 거기에 있는 데이터가 실무 품질임을 아는 어떤 장소에 넣는다(‘적재’). 추출(extract), 변환(transform), 적재(load)라는 용어들은 이 책 전체에 쓰이며, 종종 ETL로 줄여서 표기하기도 한다. 그런데 데이터 공학의 이러한 정의는 다소 광범위하고 단순화된 것이다. 그럼 데이터 공학자가 과연 어떤 일을 하는지를 예제를 통해서 좀 더 깊게 살펴보자. _4p

데이터 공학자는 효율적인 데이터 전송을 위해 데이터 형식, 모형, 구조를 고민하는 반면, 데이터 과학자는 그런 데이터를 활용해서 통계 모형을 구축하고 수학 계산을 수행하는 방법을 고민한다.
데이터 과학자는 데이터 공학자가 만든 데이터 웨어하우스에 연결해서 기계학습 모형과 분석에 필요한 데이터를 추출한다. 데이터 과학자가 자신의 모형들을 데이터 공학 파이프라인에 집어넣는 경우도 있다. 그런 만큼 데이터 공학자와 데이터 과학자는 밀접한 관계를 맺어야 한다. 데이터 과학자가 데이터에서 무엇을 필요로 하는지를 파악하는 것은 데이터 공학자가 더 나은 제품을 제공하는 데 도움이 된다. _7p

아파치 에어플로에서 DAG(Directed Acyclic Graph; 유향 비순환 그래프)를 만들 때에는 Bash 스크립트를 비롯해 다양한 연산자(operator)로 작업(task)을 정의할 수 있다. 이 책에서 특히 중요한 것은 파이썬 함수의 형태로도 작업을 정의할 수 있다는 점이다. 이 작업들은 DAG 형태로 조직화된다. 이는 작업들의 의존 관계와 실행 순서가 명시적으로 정의된다는 뜻이다. 여러 작업으로 DAG를 만든 다음에는 스케줄러를 이용해서 DAG의 실행 시점과 주기를 설정한다. 에어플로는 DAG를 감시하고 관리할 수 있는 GUI를 제공한다. 이번 절에서는 지금까지 배운 것을 이용해서 에어플로에서 데이터 파이프라인을 하나 만들어 본다. _51p

데이터 레이크data lake의 로그 파일이나 기타 텍스트 파일을 읽어서 데이터베이스나 데이터 웨어하우스로 옮기는 것은 데이터 공학자가 흔히 하는 작업이다. 이번 장에서는 제3장에서 배운 텍스트 파일 처리 기술에 기초해서 데이터를 데이터베이스로 옮기는 방법을 살펴본다. 또한 이번 장에서는 관계형 데이터베이스와 NoSQL 데이터베이스에서 데이터를 추출하는 방법도 이야기한다. 이번 장을 마치면 여러분은 파이썬과 NiFi, 에어플로를 이용해서 데이터베이스를 다루는 데 필요한 기술들을 갖추게 될 것이다. _69p

이번 장에서는 실무(production)에 바로 사용할 수 있는 데이터 파이프라인의 여러 특징을 살펴본다. 데이터 파이프라인을 여러 번 실행해도 결과가 변하지 않게 하려면 어떻게 해야 하는지(멱등성), 트랜잭션이 실패했을 때 어떻게 처리해야 하는지(원자성) 배우게 될 것이다. 또한 이번 장에서는 스테이징 환경에서 데이터를 검증하는 방법도 살펴본다. 이번 장의 예제 데이터 파이프라인은 내가 실무 환경에서 실제로 실행 중인 데이터 파이프라인이다. _147p

관련이미지

저자소개

폴 크리커드 [저] 신작알림 SMS신청
생년월일 -

해당작가에 대한 소개가 없습니다.

류광 [역] 신작알림 SMS신청
생년월일 -

1996년부터 활동해 온 프로그래밍 서적 전문 번역가로, Game Programming Gems 시리즈와 컴퓨터 프로그래밍의 예술(The Art of Computer Programming) 제1~4A권, UNIX 고급 프로그래밍(Advanced Programming in UNIX Environment) 제2판과 제3판을 포함하여 60여 권의 다양한 프로그래밍 서적을 번역했다. C++ 관련 번역서로는 일반적 프로그래밍과 STL, C++ Template Metaprogramming, (C++로 배우는) 프로그래밍의 원리와 실제 등이 있다. 수학 관련 번역서로는 《구체 수학》, 《3D 게임 프로그래밍 & 컴퓨터 그래픽을 위한 수학》 제1판·제2판 등이 있고, 심층학습 관련

펼쳐보기

역자의 다른책

전체보기
펼쳐보기

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    100자평

    작성시 유의사항

    평점
    0/100자
    등록하기

    100자평

    0.0
    (총 0건)

    판매자정보

    • 인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

    상호

    (주)교보문고

    대표자명

    안병현

    사업자등록번호

    102-81-11670

    연락처

    1544-1900

    전자우편주소

    callcenter@kyobobook.co.kr

    통신판매업신고번호

    01-0653

    영업소재지

    서울특별시 종로구 종로 1(종로1가,교보빌딩)

    교환/환불

    반품/교환 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능

    반품/교환가능 기간

    변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능
    단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    반품/교환 비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담

    반품/교환 불가 사유

    ·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)

    ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등

    ·복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음

    소비자 피해보상
    환불지연에 따른 배상

    ·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    (주)KG이니시스 구매안전서비스서비스 가입사실 확인

    (주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한 모든 거래에 대하여
    (주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.

    배송안내

    • 교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.

    • 배송비는 업체 배송비 정책에 따릅니다.

    • - 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원 - 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용