간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (23,940원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (17,640원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (20,160원)
(최대할인 4만원 / 2만원 이상 결제)
Close

데이터 품질의 비밀 : 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

원제 : Data Quality Fundamentals
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 116
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
  • 출판사 : 디코딩
  • 발행 : 2023년 04월 10일
  • 쪽수 : 376
  • ISBN : 9791198140814
정가

28,000원

  • 25,200 (10%할인)

    1,400P (5%적립)

할인혜택
적립혜택
  • S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택
배송정보
  • 12/8(금) 이내 발송 예정  (서울시 강남구 삼성로 512)
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서

  • 상품권

AD

책소개

데이터를 다루는 일을 하는 사람들이라면
누구나 읽어보고, 알아보고 싶었던 ‘데이터 품질’
데이터가 곧 가치인 시대, 성패는 데이터 품질에 달려있다!

이 책은 신뢰할 수 없는 데이터로 고통받고, 내적 비명을 지르며 이 상황을 개선하기 위해 무언가 하고 싶어 하는 모든 이들을 위한 길잡이다. 기본적으로 이 책은 데이터를 정제하고 이해하는 방법을 다룬 매뉴얼처럼 보인다. 그러나 여기서 더 나아가 보다 안정적인 데이터 시스템을 구축하고 그 과정에서 조직 및 이해관계자와 데이터 신뢰를 구축하는 모범 사례, 도구 및 프로세스까지 설명한다. 책을 다 읽었을 때, 최소한 조직 전반에서 데이터 품질과 신뢰성의 우선순위를 정할 때 써먹을 만한 몇 가지 요령을 터득하길 바란다. 데이터 신뢰는 하루아침에 완성되지 않는다. 올바른 접근 방식을 기반으로, 파이프라인 하나하나가 점진적으로 쌓인다.

출판사 서평

[이 책의 핵심 내용]
ㆍ 바로 지금, 데이터 품질에 주목해야 하는 이유
ㆍ 데이터 품질에 초점을 맞춘 데이터 파이프라인 구축 및 모니터링 시스템, 데이터 옵저버빌리티 구성 방법
ㆍ 데이터 품질 신뢰성을 높이는 방법과 실제 사례
ㆍ 데이터 품질을 향상시키는 거버넌스와 실제 사례
ㆍ 각 기업 사정에 맞게 데이터 품질 투자 대비 효용성을 계산하는 공식 소개
ㆍ 데이터 품질의 미래 트렌드 4가지

[이 책의 대상 독자]
ㆍ 데이터 엔지니어
ㆍ 기업의 데이터 파이프라인을 구축하고, 확장하고, 관리하는 실무자
ㆍ 데이터로 서비스를 만드는 데이터 제품 매니저
ㆍ 데이터 품질에 투자하려는 의지가 있는 COO
ㆍ 데이터 품질을 중시하는 데이터 분석가
ㆍ 데이터 품질을 중시하는 데이터 과학자

[이 책의 구성]
1장: 지금 데이터 품질에 주목해야 하는 이유
현재 시점에서 데이터 품질에 주목해야 하는 이유를 살펴보고 아키텍처 및 기술 동향이 전반적인 거버넌스 및 신뢰성에 어떤 영향을 주고 있는지 설명한다. 이와 관련하여 ‘데이터 다운타임’이라는 개념을 소개하고, 사이트 신뢰성 엔지니어링(SRE) 팀의 초창기로 거슬러 올라가, 동일한 데브옵스(DevOps) 원칙을 어떻게 데이터 엔지니어링 워크플로에도 적용할 수 있는지 설명한다.

2장: 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인 기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 살펴본다. 이를 통해 탄력적인 데이터 시스템을 구축하는 방법에 대해 설명한다. 여기서 소개하는 세 가지 기본 기술은 양질의 데이터 프로덕션을 위한 사전 준비에 사용되며, 데이터를 저장·처리·추적한다.

3장: 데이터 수집 · 정제 · 변환 · 테스트
데이터 품질과 신뢰성을 염두에 두고 데이터를 수집·정제·변환·테스트하는 방법을 설명한다. 이를 통해 데이터가 파이프라인에 있기 전과 파이프라인에 있는 동안 품질을 관리하는 방법을 알려준다. 특히, 최근 주목받는 방법론인 데이터 실시간 처리 시 사용할 수 있는 데이터 품질 관리 툴과 해당 툴의 이점을 짚어준다. 마지막으로 데이터 테스트 단계를 마친 뒤, 아파치 에어플로를 활용하여 데이터 품질을 효율적으로 관리할 수 있는 방법을 안내한다.

4장: 데이터 파이프라인 모니터링 및 이상 탐지
데이터 신뢰성 워크플로의 가장 중요한 측면 중 하나인 사전 이상 탐지 및 모니터링을 설명한다. 독자들의 이해를 돕기 위해, 공식적으로 사용 가능한 데이터셋인 거주 가능한 외계 행성에 관한 모의 천문 데이터를 활용하여 데이터 품질 모니터 구축 방법을 공유한다.

5장: 데이터 신뢰성을 위한 아키텍처
지금까지 다룬 중요한 기술들을 잘 조합하려면 어떻게 해야 하는지, 어떤 사례에서도 데이터 품질을 잘 측정하고 보장할 수 있는 강력한 프로세스와 시스템을 설계하려면 어떻게 하면 좋을지 큰 그림으로 조망한다. 이어서 에어비앤비(Airbnb), 우버(Uber), 인튜이트(Intuit) 및 기타 기업의 데이터 팀이 SLA(서비스 레벨 계약), SLI(서비스 수준 지표), SLO(서비스 수준 목표) 설정을 비롯해 데이터 안정성을 일상적인 워크플로에 통합하는 방법을 살펴본다. 또한 이들 데이터 팀이 신선도, 볼륨, 배포, 스키마, 계보의 다섯 가지 핵심 요소를 기반으로 데이터 품질을 최적화하는 데이터 플랫폼 구축 방법을 공유한다.

6장: 대규모 데이터 품질 문제 해결
데이터 사고 관리, 근본 원인 분석, 포스트모템, 그리고 사고 커뮤니케이션의 모범 사례 구축 등 운영 환경에서 데이터 품질 문제에 실제로 대응하고 해결하는 데 필요한 단계를 자세히 들여다본다.

7장: 엔드 투 엔드 데이터 계보 구축
모든 데이터 엔지니어가 갖추어야 할 무기이자 즐겨 사용하는 오픈 소스 도구를 사용해 현업에서 사용하는 수준의 계보 구축 방법을 설명한다. 이를 통해, 최신 데이터 시스템을 위한 ‘엔드 투 엔드 필드 레벨’ 데이터 계보를 만들 때 고려해야 할 주요 내용, 계보에 포함되는 세 가지 요소 등을 배울 수 있다. 더불어, 거대 미디어 기업 폭스 네트워크에서 데이터 신뢰성을 보장하기 위해 데이터 아키텍처를 어떻게 설계했고, 이를 데이터 계보로 어떻게 구축했는지 실제 사례를 들어 알아본다.

8장: 데이터 품질 민주화
조직 전반에 데이터 품질 관리의 중요성을 알리고, 구성원 모두가 데이터 품질 관리에 쉽게 접근할 수 있도록 민주화하는 과정에서 넘어야 할 문화적·조직적 장벽에 대해 논의한다. 구체적으로는 데이터를 프로덕트처럼 취급하는 시각과 데이터 품질에 대한 회사의 RACI 매트릭스를 이해하는 원칙, 비즈니스에 미치는 영향을 극대화할 수 있는 데이터 조직 구성 방법을 다룬다.

9장: 현실에서의 데이터 품질: 전문가 대담과 사례 연구
실제 사례 연구 및 대담 내용을 공유한다. 데이터 메시를 만든 자마크 데가니(Zhamak Dehghani), (데이터 품질이 최우선인) 분산형 데이터 아키텍처로 마이그레이션하는 방법에 대해 자신 있게 이야기하는 안토니오 피타스(Antonio Fitas), 폭스(Fox)의 데이터 서비스 부사장이자 ‘관리된 자유(controlled freedom)’ 데이터 관리 기술의 선구자인 알렉스 트베르돌렙(Alex Tverdohleb)이 자신의 경험을 공유해 주었다.

10장: 신뢰할 수 있는 데이터 시스템의 미래 개척
신뢰할 수 없는 데이터가 비즈니스에 미치는 재정적 영향을 측정하기 위한 구체적인 계산법을 설명한다. 여기서 다루는 내용은 데이터 다운타임 해결이라는 임무를 지고 있을 많은 독자들이 문제를 해결하기 위해 더 많은 도구와 프로세스에 투자하는 리더십을 발휘하는 데 도움을 줄 것이다.

추천사

주한나(양파)((MS 코파일럿 응용 AI 팀, 데이터 과학자)
과거와 달리 이제는 데이터 파이프라인이라는 개념이 어느 정도 정립되었다. 수집할 데이터의 텔레메트리 디자인부터 시작하여 데이터 전송과 수집, 가공, 공급, 테스트, 모니터링 등으로 분화되어 데이터 파이프라인을 구성하는데, 그 모든 분야에서 품질 관리가 필수적이다. 컴퓨터라는 단어조차 없을 때의 격언은 지금의 첨단 기술에도 해당된다- garbage in, garbage out. 제대로 관리되지 않은 데이터를 기반으로 한 AI라면 아무리 훌륭한 기술이라도 좋은 결과를 낼 수가 없다. 신뢰할 수 있는 데이터 시스템을 거대 스케일로 구축하는 데에 필요한 구성 요소를 폭넓게 커버하는 이런 책이 꼭 필요하다고 본다.

조재영(오토피디아 데이터 엔지니어)
데이터가 없는 것보다 잘못된 데이터에 기반한 의사 결정이 더 무섭다고 생각한다. 이 책은 데이터 품질을 챙기고 싶지만 어디서부터 시작해야 할지 혼란스러운 실무자와 의사 결정권자들에게 다양한 규모의 조직에서 적용해 볼 수 있는 실질적인 방법론을 제시한다. 더불어 기술에만 국한되지 않고 조직 관점에서 실제 사례를 제공하기 때문에 지침서로서도 손색이 없다.

조승완(비바리퍼블리카 데이터 엔지니어)
데이터 품질 문제는 데이터 엔지니어링 분야에서 빈번하게 발생한다. 이 책은 그 문제를 해결할 데이터 팀의 기술, 프로세스, 문화를 종합적으로 다뤘다. 그래서 데이터 분석가, 데이터 과학자, 데이터 파이프라인을 구축하고 관리하는 모든 분에게 자신 있게 추천할 수 있는 책이다.

장재영(신한카드 D&D 연구소장, 최고 데이터 책임자)
이 책의 특별함은 데이터를 활용한 비즈니스적인 성과가 주를 이루는 많은 데이터 관련 출판물과는 달리, 데이터 활용 전에 이루어져야 하는 데이터 정합성과 무결성을 높이는 기본에 관한 방법론을 제시하는 데 있다.

윤정환(OP.GG 데이터 팀 리드)
데이터 품질은 데이터 분석의 신뢰도와 밀접하게 연관돼 있다. 데이터가 원활하게 흐르는 조직이 되기 위해서는 구성원들이 데이터에 쉽고 빠르게 접근해서 활용할 수 있어야 하는데 이때 의사 결정 속도를 확보하는 것이 곧 비즈니스 발전 속도가 됐다. 이 책에서 데이터옵스를 통해 신뢰도 높은 데이터를 확보하는 방법과 이를 기반으로 빠른 의사 결정을 내리는 사례를 찾아보기 바란다. 현재 조직의 데이터옵스 현황도 진단해 보면 더할 나위 없겠다.

웨인 야도우(데이터 및 ETL 품질 분석가)
데이터 엔지니어, ETL 프로그래머, 전체 데이터 파이프라인 조직은 이 책과 같은 참고 문서, 테스트 가이드가 절실히 필요하다. 데이터 애플리케이션의 품질을 보장하는 데 도움이 되는 각 요소와 프로세스 및 도구가 무엇인지, 또 그것들이 어떤 역할을 하는지 배울 수 있기 때문이다. 이 책은 특히 신선한 관점과 실용적인 테스트 시나리오를 통해 최신 데이터 파이프라인을 테스트할 때 인사이트를 제공한다.

맘마드 자데(데이터 리더 겸 전 인튜이트 엔지니어링 부사장)
데이터 아키텍처가 점점 더 분산되고, 데이터에 대한 책임도 점점 더 분산되면서 데이터 품질이 갈수록 중요해질 것이다. 이 책은 요즘 가장 중요한 기술과 프로세스에 주목하며, 데이터의 정확성·신뢰성·사실성을 진지하게 개선하는 엔지니어링 조직을 위해 핵심 정보를 제공한다.

데바쉬스 사하(전 앱젠(AppZen), 인튜이트(Intuit), 이베이(eBay) 데이터 리더)
데이터를 신뢰할 수 없다면 데이터 투자, 인프라 및 통찰력은 모두 소용없다. 이 책의 공동 저자인 바(Barr), 라이어(Lior), 몰리(Molly)는 데이터 신뢰의 근본적인 의미를 꼼꼼히 설명하기 위해 엄청난 노력을 기울였으며, 기업에서 데이터 품질을 구현할 때 매우 실용적으로 쓸 수 있는 프레임워크를 만들었다. 데이터 품질에 관심 있는 사람이라면 누구나 읽어야 할 필독서라고 자신 있게 추천한다.

목차

CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유
1.1 데이터 품질이란?
1.2 데이터 품질의 현재
1.3 마치며

CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
2.1 운영 데이터와 분석 데이터의 차이
2.2 차이는 어떻게 만들어지는가?
2.3 데이터 웨어하우스 vs 데이터 레이크
2.4 데이터 품질 지표 수집
2.5 데이터 카탈로그 설계
2.6 데이터 카탈로그 구축
2.7 마치며

CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트
3.1 데이터 수집
3.2 데이터 정제
3.3 배치 처리 vs 실시간 처리
3.4 실시간 처리를 위한 데이터 품질
3.5 데이터 정규화
3.6 분석 데이터 변환 실행
3.7 테스트 및 경고 알람 시스템
3.8 아파치 에어플로를 활용한 데이터 품질 관리
3.9 마치며

CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지
4.1 알려진 미지와 알려지지 않은 미지
4.2 이상 탐지 알고리즘 구축
4.3 스키마 및 계보를 위한 모니터 구축
4.4 파이썬과 머신러닝으로 이상 탐지 확장
4.5 이상 탐지의 심화 과정: 기타 유용한 접근법
4.6 데이터 품질 모니터 설계: 데이터 웨어하우스 vs 데이터 레이크
4.7 마치며

CHAPTER 5 데이터 신뢰성을 위한 아키텍처
5.1 수집 단계에서 높은 데이터 신뢰성 측정 및 유지
5.2 파이프라인에서 높은 데이터 품질 측정 및 유지
5.3 데이터 품질 다운스트림
5.4 데이터 플랫폼 구축
5.5 데이터 신뢰 구축
5.6 [사례 연구] 블링키스트
5.7 마치며

CHAPTER 6 대규모 데이터 품질 문제 해결
6.1 소프트웨어 개발 시 품질 문제 조정
6.2 데이터 사고 관리
6.3 사고 대응 및 완화
6.4 [사례 연구] 페이저듀티의 데이터 사고 관리
6.5 마치며

CHAPTER 7 엔드 투 엔드 데이터 계보 구축
7.1 최신 데이터 시스템을 위한 엔드 투 엔드 필드 레벨 데이터 계보 구축
7.2 [사례 연구] 폭스의 데이터 신뢰성을 위한 아키텍처
7.3 마치며

CHAPTER 8 데이터 품질 민주화
8.1 데이터를 프로덕트로 다루는 시각
8.2 데이터를 프로덕트로 다루는 사례
8.3 데이터 플랫폼을 향한 신뢰 축적
8.4 데이터 품질 책임 할당
8.5 데이터 품질 보장을 위한 책임감 조성
8.6 데이터 접근성과 신뢰 간 균형
8.7 데이터 인증
8.8 데이터 인증 프로그램 실행 7단계
8.9 [사례 연구] 적합한 데이터 조직을 찾는 토스트의 여정
8.10 데이터 리터러시 함양
8.11 데이터 거버넌스와 컴플라이언스
8.12 데이터 품질 전략 수립
8.13 마치며

CHAPTER 9 현실에서의 데이터 품질: 전문가 대담과 사례 연구
9.1 데이터 품질 향상을 위한 데이터 메시 구축
9.2 왜 데이터 메시인가?
9.3 자마크 데가니와의 대화: 데이터 메시에서 데이터 품질의 역할
9.4 [사례 연구] 콜리브리 게임즈의 데이터 스택 여정
9.5 비즈니스에 메타데이터 활용
9.6 데이터 검색에서 얻는 메타데이터의 가치
9.7 데이터 품질 관리 시기 결정
9.8 마치며

CHAPTER 10 신뢰할 수 있는 데이터 시스템의 미래 개척
10.1 사후 대응이 아닌 사전 예방적 대응
10.2 데이터 품질 및 신뢰성의 미래 예측
10.3 이제부터 우리는 무엇을 해야 할까?

찾아보기

관련이미지

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    100자평

    작성시 유의사항

    평점
    0/100자
    등록하기

    100자평

    10.0
    (총 0건)

    판매자정보

    • 인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

    상호

    (주)교보문고

    대표자명

    안병현

    사업자등록번호

    102-81-11670

    연락처

    1544-1900

    전자우편주소

    callcenter@kyobobook.co.kr

    통신판매업신고번호

    01-0653

    영업소재지

    서울특별시 종로구 종로 1(종로1가,교보빌딩)

    교환/환불

    반품/교환 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능

    반품/교환가능 기간

    변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능
    단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    반품/교환 비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담

    반품/교환 불가 사유

    ·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)

    ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등

    ·복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음

    소비자 피해보상
    환불지연에 따른 배상

    ·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    (주)KG이니시스 결제대금예치업 등록번호: 02-006-00013

    (주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한
    모든 거래에 대하여 (주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.
    등록 여부는 e-금융민원센터 홈페이지(www.fcsc.kr)의 등록·신고>전자금융업등록현황 메뉴에서 확인하실 수 있습니다. 서비스 가입사실 확인

    배송안내

    • 교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.

    • 배송비는 업체 배송비 정책에 따릅니다.

    • - 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원 - 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용