간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (34,200원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (25,200원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (28,800원)
(최대할인 4만원 / 2만원 이상 결제)
Close

데이터 과학 효율을 높이는 데이터 클리닝 : 불량 데이터의 문제를 발견하고 해결하는 방법[초판]

원제 : Cleaning Data for Effective Data Science
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 1,820
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

40,000원

  • 36,000 (10%할인)

    2,000P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택
배송정보
  • 3/27(월) 이내 발송 예정  (서울시 강남구 삼성로 512)
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서

  • 상품권

AD

책소개

데이터 과학자라면 피할 수 없는 데이터 클리닝 작업은 수집과 분석, 정제에 이르기까지 데이터 과학의 효율을 높이는 일반적인 절차다. 기존 책들이 주로 첫 장에서만 다루던 데이터 준비 과정에 대한 필수 내용을 구체화했고, 실제 데이터 과학에서 응용할 수 있는 기술을 전달한다. 데이터 클리닝 작업을 수행하기 위한 도구와 기술을 설명하고, 새로 습득한 기술을 테스트하고 개선해볼 수 있도록 각 장의 끝 부분에 자세한 실습이 수록돼 있다.

출판사 서평

◈ 이 책에서 다루는 내용 ◈

◆ 데이터를 신중하게 생각하고 올바른 질문을 하는 방법
◆ 개별 데이터 포인트와 관련된 문제 데이터 식별
◆ 데이터의 체계적인 형태에서 문제 데이터 감지
◆ 데이터 무결성 및 청결 문제 해결
◆ 분석 및 머신 러닝 작업을 위한 데이터 준비
◆ 누락되거나 신뢰할 수 없는 데이터에 값 보정
◆ 데이터 과학, 데이터 분석 또는 시각화 목표에 더 적합한 통합 특징 생성

◈ 이 책의 대상 독자 ◈

자기 주도적인 독자나 좀 더 체계적인 학술, 훈련 또는 인증 과정에서 사용하기 적합하다. 각 장의 하단에는 독자나 학생들에게 이전 자료에서 방금 배운 것과 관련된 작업을 완성하게 요구하는 연습이 있다.

◈ 옮긴이의 말 ◈

데이터 과학이나 데이터 엔지니어링 작업 중 80%는 데이터 수집, 변환, 정제와 같은 준비 작업이다. 나머지 20%의 작업이 통계, 머신러닝 또는 기타 다양한 분석 기업을 적용하는 것이다. 80% 추정치가 정확하지 않더라도 데이터를 다루는 대부분의 시간과 노력이 여기에 소비된다.
이처럼 데이터의 수집과 변환, 정제에 이르기까지 데이터 과학의 효율을 높이는 작업을 데이터 클리닝이라고 하며, 데이터 과학자라면 피할 수 없는 작업이다. 데이터 클리닝은 데이터 과학 및 머신 러닝 작업을 위한 데이터 파이프라인에서 시간이 많이 걸리고 중요한 작업이지만 가장 적게 언급되는 부분이다. 주로 책이 아닌 경험이나 시행착오를 통해 배우게 되지만 데이터 클리닝에 관한 적합한 책을 찾을 수 있다면 이러한 시간과 비용을 줄일 수 있다.
하지만 데이터 과학 관련 서적들이 주로 첫째 장에서만 데이터 준비 과정을 다루기 때문에 이론적 토대에 관한 지식을 제대로 전달하지 않고 관련 파이썬 및 R 패키지를 사용하는 방법만 보여준다. 이 책의 전반적인 구성은 데이터 과학 실무에서 개발할 데이터 파이프라인 단계와 유사한 순서로 배열돼 있으며 효율적인 데이터 과학을 위한 표준 데이터 파이프라인에서 해결해야 할 데이터 클리닝 문제를 다룬다.
광범위한 테이블 형식, 계층적 형식 등 여러 타입의 데이터 형식을 살펴보며 결측값을 보정하고 신뢰할 수 없는 데이터 및 통계적 이상치를 감지하고 합성하는 기술을 설명한다. 특히 다양한 형태의 데이터에 대한 구조적 문제와 내용적 문제를 짚어보고 유용하게 정리하는 방법의 장단점을 살펴본다. 또한 데이터 준비 과정에 대한 필수 내용을 구체화했고 실제 데이터 과학에서 응용할 수 있는 기술을 전달한다. 데이터 클리닝을 수행하기 위한 도구와 기술을 설명하고 새로 습득한 기술을 테스트하고 개선해 지식이 강화되도록 각 장의 끝부분에서는 자세한 실습을 제공하고 있다.
이 책에서 다루는 파이썬이나 R 코드를 감안할 때 이러한 언어에 대한 지식과 경험이 있는 것은 좋지만 전부 알고 있을 필요는 없다. 템플릿으로 사용할 수 있는 코드 예제가 많지만 코드의 이해나 잘라내기 및 붙여넣기 예제보다 사고방식과 사고 과정을 강조한다. 즉, 파이썬, 셸 스크립트, R을 모르더라도 몇 줄의 코드로 얼마나 많은 일을 할 수 있는지 보는 것만으로도 도움이 된다.
데이터 과학이나 AI 분야에서 일하는 사람이라면 누구나 이 책을 읽고 더 정제되고 유용한 데이터를 얻고자 프로세스를 구현하는 방법을 학습할 수 있을 것이다. 데이터를 준비하는 전처리 과정과 관련이 있는 독자에게 이 책을 강력히 추천하며 전산학 학위 취득을 위해 데이터 구조와 알고리즘을 배우는 시기에 읽을 것을 권장한다.

추천사


데이터 과학, 데이터 분석, 머신러닝에서 실제 목적을 달성하고자 필요한 대부분의 노력은 데이터를 클리닝하는 데 있다. 이 책의 부제는 데이터 클리닝에 할당된 일반적인 비율을 암시한다. 몇 년 전에 데이터 과학 콘퍼런스에서 기조 연설자는 동료와 함께 이와 관련된 농담을 했는데, 아마 널리 되풀이된 농담일 것이다. 동료는 데이터 클리닝이 작업 시간의 절반을 차지한다고 불평했고 기조 연설자는 단지 절반만 차지한다는 사실에 놀랐다.
정확한 비율을 할당하는 것을 크게 걱정할 필요는 없다. 기술자 및 데이터 과학자로 일해보니 내 일의 대부분은 통계 분석, 머신러닝 모델 또는 미묘한 차이가 있는 시각화를 위해 데이터를 준비하는 것임을 깨달았다. 성공을 바라는 임원들이나 기술 관리자들은 실무와 다소 떨어져 있기 때문에 조직이 획득하는 데이터 세트가 깨끗하고 작업하기 쉬울 것이라는 낙관적 생각을 가지곤 한다. 하지만 나의 경험상 그런 적은 없었다.
물론 어떤 데이터는 더 좋고 어떤 데이터는 더 나쁘다. 그러나 통계의 매우 작은 오차 범위 내에서 모든 데이터는 오염돼 있다. 통계 교과서나 소프트웨어 라이브러리의 표준 예제로서 널리 배포되고 출판돼 주의 깊게 연구된 데이터 세트도 데이터 무결성 문제가 있다. 최선의 전처리 후에도 데이터를 덜 오염시키는 것이 더 달성해야 할 목표가 된다. 데이터를 깨끗하게 만드는 것은 지나치게 이상적인 목표로 남아 있다.
데이터 품질과 데이터 효용성을 구별해야 하는데, 이 말은 크게 보면 서로 상충된다. 데이터가 오염돼 있을 수 있지만 때로는 매우 유용하다. 클리닝된 데이터라고 하더라도 거의 목적이 없거나 목적에 적합하지 않을 수 있다. 수집할 측정값의 선택, 가능한 선택 편향(Selection Bias) 또는 기타 방법론적 및 과학적 질문에 대한 우려는 대부분 이 책의 범위를 벗어난다. 내가 제시하는 많은 기술은 데이터의 효용성을 평가하는 데 도움이 될 수 있지만 시스템 문제를 해결하는 기계적 메서드는 없는 경우가 많다. 예를 들어 통계 및 기타 분석에서 특정 데이터 필드가 신뢰할 수 없음을 드러내거나 최소한 강하게 암시할 수는 있다. 그러나 일반적으로 이 책에서 소개하는 기술은 신뢰할 수 없는 데이터를 자동으로 수정하거나 더 나은 데이터를 수집할 수는 없다.
이 책의 목적은 특정 도구의 사용법을 배우는 것이 아니라 데이터 품질의 근본적인 목적을 이해하는 것이다. 제시된 개념은 데이터 처리와 머신러닝에 사용되는 모든 프로그래밍 언어에 적용할 수 있어야 한다. 내가 보여준 기술을 여러분이 선호하는 도구와 프로그래밍 언어에 쉽게 적용할 수 있기를 바란다.

목차

1부. 데이터 수집
1장. 테이블 형식
__정리
__CSV
____온전성 검사
____좋은 데이터, 나쁜 데이터, 텍스트 데이터
______나쁜 데이터
______좋은 데이터
__유해하다고 간주되는 스프레드시트
__SQL RDBMS
____데이터 타입 다듬기
____R에서 반복
____SQL이 잘못되는 위치(및 이것을 확인하는 방법)
__기타 형식
____HDF5와 NetCDF-4
______도구와 라이브러리
____SQLite
____아파치 파켓
__데이터 프레임
____스파크/스칼라
____판다스와 파생된 래퍼
____Vaex
____R의 데이터 프레임(Tidyverse)
____R의 데이터 프레임(data.table)
____흥미로운 Bash
__연습
____엑셀 데이터 정리
____SQL 데이터 정리
__대단원

2장. 계층적 형식
__JSON
____JSON의 모습
____NaN 처리와 데이터 타입
____JSON Lines
____GeoJSON
____깔끔한 지리
____JSON 스키마
__XML
____사용자 레코드
____키홀 마크업 언어
__구성 파일
____INI와 플랫 사용자 정의 형식
____TOML
____YAML
__NoSQL 데이터베이스
____문서 지향 데이터베이스
______누락된 필드
______비정규화와 비정규화의 불만
____키/값 저장소
__연습
____채워진 영역 탐색
____관계형 모델 생성
__대단원

3장. 데이터 소스의 목적 변경
__웹 스크래핑
____HTML 테이블
____테이블 형식이 아닌 데이터
____커맨드라인 스크래핑
__PDF
__이미지 형식
____픽셀 통계
____채널 조작
____메타데이터
__바이너리 직렬화된 데이터 구조
__사용자 정의 텍스트 형식
____구조화된 로그
____문자 인코딩
__연습
____NPY 파서 향상
____웹 트래픽 스크래핑
__대단원

2부. 오류의 변천
4장 이상 징후 감지
__결측 데이터
____SQL
____계층적 형식
____센티넬
__잘못 코딩된 데이터
__고정된 한도
__아웃라이어
____z-스코어
____사분위수 범위
__다변량 아웃라이어
__연습
____유명한 실험
____철자가 틀린 단어
__대단원

5장. 데이터 품질
__결측 데이터
__편향적인 트렌드
____편향 이해
____편향 감지
____기준선과 비교
____벤포드의 법칙
__클래스 불균형
__정규화과 스케일링
____머신러닝 모델 적용
____스케일링 기술
____요인 및 샘플 가중치
__주기성과 자기 상관관계
____도메인 지식 트렌드
____발견된 주기
__비스포크 검증
____콜레이션 검증
____트랜스크립션 검증
__연습
____데이터 특성화
____오버샘플링된 여론 조사
__대단원

3부. 수정과 참조
6장. 값 보정
__전형적인 값 보정
____전형적인 테이블 형식 데이터
____지역성 보정
__트렌드 보정
____트렌드 타입
____더 크게 얽힌 시계열
______데이터 이해
______사용할 수 없는 데이터 제거
______일관성 보정
______보간법
____비시간적 트렌드
__샘플링
____언더샘플링
____오버샘플링
__연습
____대체 트렌드 보정
____다중 특징 밸런싱
__대단원

7장. 피처 엔지니어링
__날짜/시간 필드
____날짜 시간 만들기
____규칙성 부여
____중복된 타임스탬프
____타임스탬프 추가
__문자열 필드
____퍼지 매칭
____명시적 범주
__문자열 벡터
____분해
____로테이션과 화이트닝
____차원 축소
____시각화
__양자화와 이진화
__원핫 인코딩
__다항식 특징
____합성 특징 생성
____특징 선택
__연습
____간헐적 발생
____레벨 특성화
__대단원

4부. 부록
A. 마치며
__여러분이 아는 것
__여러분이 아직 모르는 것
B. 용어 사전

저자소개

David Mertz [저] 신작알림 SMS신청
생년월일 -

해당작가에 대한 소개가 없습니다.

전공도서/대학교재 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    100자평

    작성시 유의사항

    평점
    0/100자
    등록하기

    100자평

    0.0
    (총 0건)

    판매자정보

    • 인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

    상호

    (주)교보문고

    대표자명

    안병현

    사업자등록번호

    102-81-11670

    연락처

    1544-1900

    전자우편주소

    callcenter@kyobobook.co.kr

    통신판매업신고번호

    01-0653

    영업소재지

    서울특별시 종로구 종로 1(종로1가,교보빌딩)

    교환/환불

    반품/교환 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능

    반품/교환가능 기간

    변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능
    단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    반품/교환 비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담

    반품/교환 불가 사유

    ·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)

    ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등

    ·복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음

    소비자 피해보상
    환불지연에 따른 배상

    ·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    (주) 인터파크커머스 안전결제시스템 (에스크로) 안내

    (주)인터파크커머스의 모든 상품은 판매자 및 결제 수단의 구분없이 회원님들의 구매안전을 위해 안전결제 시스템을 도입하여 서비스하고 있습니다.
    결제대금 예치업 등록 : 02-006-00064 서비스 가입사실 확인

    배송안내

    • 교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.

    • 배송비는 업체 배송비 정책에 따릅니다.

    • - 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원 - 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용