책소개

데이터 탐색에서 모델링, 결과 전달에 이르기까지 데이터 과학의 모든 프로세스를 담았다!

이 책은 실무 비즈니스에 사용할 수 있는 R 프로그래밍 언어와 유용한 통계 기술 적용 방법을 보여준다. 마케팅, 비즈니스 인텔리전스 및 의사 결정 예를 사용하여 A/B 테스트 같은 설계 방법, 예측 모델 작성 방법 및 모든 수준의 잠재 고객에게 결과를 제시하는 방법 등을 제대로 보여준다.

출판사 서평

데이터 탐색에서 모델링, 결과 전달에 이르기까지
데이터 과학의 모든 프로세스를 담았다!

비즈니스 분석가와 개발자는 점점 더 중요한 비즈니스 데이터를 수집하고, 큐레이팅하고, 분석하고 보고한다. R 언어와 관련 도구들은 이런 과중한 업무를 학문적 이론이나 고급 수학을 적용하지 않는 일상적인 데이터 과학 작업으로 처리하는 손쉬운 방법을 제공한다.

이 책은 실무 비즈니스에 사용할 수 있는 R 프로그래밍 언어와 유용한 통계 기술 적용 방법을 보여준다. 마케팅, 비즈니스 인텔리전스 및 의사 결정 예를 사용하여 A/B 테스트 같은 설계 방법, 예측 모델 작성 방법 및 모든 수준의 잠재 고객에게 결과를 제시하는 방법 등을 제대로 보여준다.

이 책이 다루는 내용
■ 비즈니스 전문가를 위한 데이터 과학
■ R 언어를 이용한 통계 분석
■ 기획에서 제품 인도까지의 프로젝트 라이프사이클
■ 즉시 응용 가능한 수많은 사례
■ 효과적인 데이터 프레젠테이션의 핵심

PART I 데이터 과학 소개
CHAPTER 1 데이터 과학 프로세스 3
1.1 데이터 과학 프로젝트에서의 역할 3
　1.1.1 프로젝트에서의 역할 4
1.2 데이터 과학 프로젝트의 단계 7
　1.2.1 목표 설정 8
　1.2.2 데이터 수집과 관리 9
　1.2.3 모델링 12
　1.2.4 모델 평가와 비평 14
　1.2.5 프레젠테이션과 문서화 15
　1.2.6 모델 배포와 유지보수 17
1.3 기대치 설정 17
　1.3.1 모델 성능 상하한선 결정 18
1.4 요약 20

CHAPTER 2 R 프로그램에 데이터 적재하기 21
2.1 파일에 있는 데이터 다루기 22
　2.1.1 파일 또는 URL로부터 잘 구조화된 데이터 작업하기 22
　2.1.2 덜 구조화된 데이터에 R 사용하기 25
2.2 관계형 데이터베이스를 이용하여 작업하기 28
　2.2.1 실무 예제 29
　2.2.2 R에 데이터베이스 데이터 입력하기 34
　2.2.3 PUMS data로 작업하기 36
2.3 요약 39

CHAPTER 3 데이터 탐색하기 41
3.1 통계 요약치를 이용하여 문제 파악하기 43
　3.1.1 데이터 요약을 통해 전형적인 데이터 문제 파악하기 44
3.2 그래프와 시각화를 통해 문제 제거하기 48
　3.2.1 단일변수에서 시각적으로 분산 점검하기 51
　3.2.2 두 변수의 관계를 시각적으로 확인하기 60
3.3 요약 71

CHAPTER 4 데이터 관리 72
4.1 데이터 정리하기 72
　4.1.1 결측치 다루기 73
　4.1.2 데이터 변환 78
4.2 모델링과 데이터 유효성 검증을 위한 샘플링 86
　4.2.1 테스트와 트레이닝의 분할 86
　4.2.2 샘플 그룹 열 만들기 87
　4.2.3 레코드 그룹화 88
　4.2.4 데이터 출처 90
4.3 요약 90

PART II 모델링 기법
CHAPTER 5 모델 선택과 평가 93
5.1 머신러닝 과제에 문제 매핑하기 95
　5.1.1 분류 문제 해결하기 95
　5.1.2 스코어링 문제 해결하기 97
　5.1.3 예측 결과 없이 일하기 98
　5.1.4 문제와 방법 매핑하기 101
5.2 모델 평가 103
　5.2.1 분류 모델 평가하기 104
　5.2.2 스코어링 모델 평가하기 110
　5.2.3 확률 모델 평가하기 113
　5.2.4 랭킹 모델 평가하기 118
　5.2.5 클러스터 모델 평가하기 118
5.3 모델 검증하기 121
　5.3.1 일반적인 모델 문제 확인하기 122
　5.3.2 모델 건전성 정량화 123
　5.3.3 모델 품질 보증 124
5.4 요약 127

CHAPTER 6 메모라이제이션 128
6.1 KDD와 KDD 컵 2009 128
　6.1.1 KDD 컵 2009 데이터로 시작하기 129
6.2 단일변수 모델 구축하기 131
　6.2.1 범주형 특성 사용하기 132
　6.2.2 숫자형 특성 사용하기 135
　6.2.3 교차 검증으로 과적합 정도 측정하기 137
6.3 다항변수를 이용하여 모델 구축하기 139
　6.3.1 변수 선택 139
　6.3.2 의사결정나무 사용하기 141
　6.3.3 최근접 이웃 메서드 사용하기 145
　6.3.4 나이브 베이즈 사용하기 149
6.4 요약 153

CHAPTER 7 선형 회귀와 로지스틱 회귀 155
7.1 선형 회귀 사용하기 156
　7.1.1 선형 회귀 이해하기 156
　7.1.2 선형 회귀 모델 만들기 160
　7.1.3 예측하기 161
　7.1.4 선형 회귀에서 관계 찾기와 조언 추출하기 165
　7.1.5 모델 요약값 해석과 계수 품질 규정하기 167
　7.1.6 선형 회귀에서 꼭 기억할 내용 173
7.2 로지스틱 회귀 사용하기 173
　7.2.1 로지스틱 회귀 이해하기 174
　7.2.2 로지스틱 회귀 모델 만들기 176
　7.2.3 예측 모델 만들기 177
　7.2.4 로지스틱 모델에서 관계 찾기와 조언 추출하기 181
　7.2.5 모델 요약값 해석과 계수 품질 규정하기 183
　7.2.6 로지스틱 회귀에서 꼭 기억할 내용 192
7.3 요약 192

CHAPTER 8 비지도 방법론 194
8.1 클러스터 분석 195
　8.1.1 거리 195
　8.1.2 데이터 준비하기 198
　8.1.3 hclust()를 이용한 계층적 클러스터링 199
　8.1.4 k-means 알고리즘 211
　8.1.5 클러스터에 새로운 포인트 추가하기 216
　8.1.6 클러스터링에서 꼭 기억할 내용 219
8.2 연관 규칙 219
　8.2.1 연관 규칙 개요 219
　8.2.2 예제 221
　8.2.3 arules 패키지를 이용한 연관 규칙 마이닝 222
　8.2.4 연관 규칙에서 꼭 기억할 내용 231
8.3 요약 232

CHAPTER 9 고급 탐색법 233
9.1 배깅과 랜덤 포레스트를 이용하여 훈련 분산 감소시키기 234
　9.1.1 배깅을 이용하여 예측 성능 높이기 235
　9.1.2 랜덤 포레스트를 이용하여 예측력 향상시키기 238
　9.1.3 배깅과 랜덤 포레스트에서 꼭 기억할 내용 243
9.2 일반화 가법 모델로 비단조 관계 학습하기 243
　9.2.1 GAM 이해하기 243
　9.2.2 일차원 회귀 예제 245
　9.2.3 비선형 관계 추출 249
　9.2.4 실제 데이터로 GAM 사용하기 251
　9.2.5 로지스틱 회귀에 GAM 사용하기 254
　9.2.6 GAM에서 꼭 기억할 내용 256
9.3 데이터 분리를 증가시키기 위해 커널 메서드 사용하기 256
　9.3.1 커널 함수 이해하기 257
　9.3.2 문제에 명시적 커널 사용하기 261
　9.3.3 커널에서 꼭 기억할 내용 265
9.4 서포트 벡터 머신으로 복잡한 결정 경계 모델링하기 265
　9.4.1 서포트 벡터 머신 이해하기 266
　9.4.2 인위적 예제 데이터에 SVM 적용하기 269
　9.4.3 실데이터 기반에서 SVM 사용하기 273
　9.4.4 서포트 벡터 머신에서 꼭 기억할 내용 276
9.5 요약 276

PART III 산출물 배포
CHAPTER 10 문서화와 배포 281
10.1 버즈 데이터셋 282
10.2 knitr을 사용하여 마일스톤 문서 만들기 283
　10.2.1 knitr이란? 284
　10.2.2 knitr 세부사항 288
　10.2.3 knitr을 이용하여 버즈 데이터 문서화하기 289
10.3 실행 문서를 위한 주석과 버전 관리 사용하기 293
　10.3.1 효율적인 주석 작성하기 293
　10.3.2 레코드 히스토리를 위해 버전 컨트롤 사용하기 294
　10.3.3 프로젝트 탐색을 위한 버전 컨트롤 사용하기 301
　10.3.4 작업 공유를 위해 버전 관리 사용하기 306
10.4 모델 배포하기 309
　10.4.1 R HTTP 서비스로 모델 배포하기 310
　10.4.2 익스포트로 모델 배포하기 313
　10.4.3 모델 배포에서 꼭 기억할 내용 314
10.5 요약 316

CHAPTER 11 효과적인 발표 자료 만들기 317
11.1 프로젝트 스폰서에게 결과 발표하기 318
　11.1.1 프로젝트 목표 요약하기 319
　11.1.2 프로젝트 결과 명시하기 320
　11.1.3 세부사항 채우기 322
　11.1.4 개선 사항과 향후 과제 토론하기 324
　11.1.5 프로젝트 스폰서 프레젠테이션에서 꼭 기억할 내용 325
11.2 최종 사용자에게 프레젠테이션하기 325
　11.2.1 프로젝트 목표 요약하기 326
　11.2.2 모델이 사용자의 워크플로에 어떻게 적용되는지 보여주기 327
　11.2.3 모델 사용법 보여주기 329
　11.2.4 최종 사용자 프레젠테이션에서 꼭 기억할 내용 331
11.3 동료 데이터 과학자에게 작업 결과 프레젠테이션하기 331
　11.3.1 문제 언급하기 332
　11.3.2 관련 작업에 대해 의논하기 333
　11.3.3 우리의 접근 방법에 대해 의논하기 333
　11.3.4 향후 작업 의논하기 334
　11.3.5 동료 프레젠테이션에서 꼭 기억할 내용 335
11.4 요약 337

APPENDIX A R과 기타 도구로 작업하기 339
A.1 도구 설치하기 339
　A.1.1 R 설치하기 339
　A.1.2 R 패키지 시스템 340
　A.1.3 Git 설치하기 340
　A.1.4 RStudio 설치하기 340
　A.1.5 R 관련 자료 341
A.2 R 시작하기 342
　A.2.1 R의 주요 기능 343
　A.2.2 R의 기본 데이터 유형 348
　A.2.3 HTTPS로 데이터 로딩하기 355
A.3 R로 데이터베이스 사용하기 356
　A.3.1 H2 데이터베이스 엔진 획득하기 356
　A.3.2 SQuirreL SQL 사용하기 356
　A.3.3 SQL 스크루드라이버 설치하기 360
　A.3.4 SQL 변환 작업 예제 361
　A.3.5 SQL로 생각하는 법 367

APPENDIX B 중요한 통계적 개념 369
B.1 분산 369
　B.1.1 정규분포 369
　B.1.2 R의 확률분포 명명 규칙 요약 374
　B.1.3 로그 정규분포 375
　B.1.4 이항분포 379
　B.1.5 분산 관련 기타 R 도구 384
B.2 통계 이론 384
　B.2.1 통계 철학 385
　B.2.2 A/B 테스트 388
　B.2.3 검정력 394
　B.2.4 특수 통계 테스트 397
B.3 데이터 통계 보기 399
　B.3.1 표본추출 편향 399
　B.3.2 누락된 변수 편향 402

APPENDIX C 데이터 탐색을 위한 더 많은 도구와 아이디어 408
C.1 더 많은 도구 409
　C.1.1 R 그 자체 409
　C.1.2 다른 언어 409
　C.1.3 빅데이터 도구 410
C.2 기타 아이디어 411
　C.2.1 적응 학습 411
　C.2.2 통계 학습 412
　C.2.3 컴퓨터 과학 머신러닝 412
　C.2.4 베이지안 방법론 413
　C.2.5 통계학 413
　C.2.6 부스팅 413
　C.2.7 시계열 413
　C.2.8 도메인 지식 414

찾아보기 416

본문중에서

데이터 과학 프로젝트에서 스폰서 다음으로 중요한 역할은 데이터 과학자다. 데이터 과학자는 프로젝트 수행을 위한 필수적인 모든 단계에 책임을 지고 있다. 또한 프로젝트의 전략을 설정하고, 고객에게 지속적으로 통지해야 하는 역할도 해야 한다. 데이터 과학자는 프로젝트의 단계를 계획하고, 데이터 원천과 사용할 도구를 선정한다. 따라서 기술 요소를 선정하기 때문에 통계학과 머신러닝에 대해 능통해야 한다. 프로젝트의 진행자로서 프로젝트를 계획하고 추진하는 역할도 해야 한다.
_6쪽

프로젝트에 너무 깊이 들어가기 전에 비즈니스 목표를 만족시키는 충분한 자원을 가지고 있는지 확인해야 한다. 지금부터는 원하는 정도의 목표를 달성시킬 수 있을 만큼의 충분한 가용 데이터가 있는지 여부를 추정하는 방법을 설명할 것이다. 이 내용은 프로젝트 라이프 사이클의 유동성을 설명하는 한 예다. 데이터 탐색과 클리닝을 하면서 데이터를 보다 잘 이해하게 된다. 데이터의 의미를 보다 잘 이해하게 되면 목표가 요구하는 것을 충분히 만족시킬 수 있는지 알게 될 것이다. 만일 데이터가 불충분하다면 프로젝트 설계와 목표를 다시 설정해야 한다.
_17쪽

고객이 의료보험에 가입하지 않았는지 예측하는 모델을 만든다고 가정해보자. 아마도 여러분은 저렴한 건강보험 패키지를 고객에게 판매하길 원할 것이다. 프로젝트를 위해 고객의 건강보험 상황에 관련한 데이터셋을 수집한다. 또한 보험의 적용 범위를 예측하는 데 도움이 되는 나이, 고용 상태, 수입, 주거와 차량 보유 정보 등의 고객의 특성도 파악되었다. R 프로그램상에 custdata라는 데이터 프레임을 만들고 데이터를 적재해보자.1 이제 고객을 파악하는 모델을 만들 준비가 됐다.
_41쪽

앞에서 모델링 기법을 선택하는 법과 트레이닝 데이터로 모델의 성능을 평가하는 법을 배웠다. 이번에는 가장 큰 걱정거리 중 하나인 모델 검증에 대해 다루겠다. 과연 트레이닝 데이터로 테스트한 모델이 운영에서도 비슷한 품질을 보일 수 있을 것인가? 새로운 데이터 기반으로 모델을 테스트하는 것을 모델 검증(model validation)이라 한다. 다음의 절에서 모델 검증에 있어 확인
해야 할 주요 문제를 다룰 것이다.
_121쪽

나이브 베이즈(Naive Baye)는 각 학습 변수가 결과와 어떻게 관련되어 있는지 기억하고 각 변수
의 효과를 함께 곱하여 예측하는 흥미로운 방법이다. 이를 보여주기 위해 교육 수준, 지역 및 기타 변수에 따라 고용 여부를 예측하려고 하는 시나리오를 사용해보자. 나이브 베이즈는 논리를 반전하여 다음과 같은 질문을 한다. ‘만일 누군가 고용되어 있다면 고등교육을 받았을 확률은 얼마나 되는가?’ 데이터로부터 고용에 관한 예측을 만들어볼 수 있다.
_149쪽

저자소개

니나 줌멜 [저] 신작알림 SMS신청

생년월일	-

해당작가에 대한 소개가 없습니다.

임대경 [역] 신작알림 SMS신청

생년월일	-

해당작가에 대한 소개가 없습니다.

주간랭킹
더보기

상품정보제공고시

판매자정보

인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

상호	(주)교보문고
대표자명	안병현
사업자등록번호	102-81-11670
연락처	1544-1900
전자우편주소	callcenter@kyobobook.co.kr
통신판매업신고번호	01-0653
영업소재지	서울특별시 종로구 종로 1(종로1가,교보빌딩)

교환/환불

반품/교환 방법	‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능
반품/교환가능 기간	변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능 단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환 비용	변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담 상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담
반품/교환 불가 사유	·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우 (단지 확인을 위한 포장 훼손은 제외) ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품(악세서리 포함) 등 ·복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집 ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우 ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
상품 품절	공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음
소비자 피해보상 환불지연에 따른 배상	·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨 ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의소비자 보호에 관한 법률에 따라 처리함

(주)KG이니시스 구매안전서비스

(주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한 모든 거래에 대하여
(주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.

배송안내

교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.
출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.
군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.
배송비는 업체 배송비 정책에 따릅니다.

- 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원

- 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용

인터파크 롯데카드	5% (25,650원) (최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드	30% (18,900원) (최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드	20% (21,600원) (최대할인 4만원 / 2만원 이상 결제)

신한	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
비씨	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불/Non-BC카드 제외)
국민	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
삼성	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
현대	2~3개월(1만원↑) ※1만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
롯데	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
NH	2~4개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
하나SK	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)

할인혜택	카드할인/무이자 할부 이달의 혜택 도서상품권
적립혜택	1,500P (5%적립) 5만원이상 주문시 2천P+등급별 최대 1.5%적립
	S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택

배송정보	7/27(토) 이내 발송 예정 (서울시 강남구 삼성로 512) 무료배송
주문수량	감소증가 감소 증가

추가 적립 안내

R로 배우는 실무 데이터 과학 : 실용 데이터를 이용한 데이터 분석 실습!

이상품의 분류

책소개

출판사 서평

추천사

목차

본문중에서

관련이미지

저자소개

주간랭킹
더보기

상품정보제공고시

이벤트 기획전

이 책과 연관있는 항공권

리뷰

0.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

10.0

(총 0건)

최근순

평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

추가 적립 안내

R로 배우는 실무 데이터 과학 : 실용 데이터를 이용한 데이터 분석 실습!

이상품의 분류

책소개

출판사 서평

추천사

목차

본문중에서

관련이미지

저자소개

주간랭킹 더보기

상품정보제공고시

이벤트 기획전

이 책과 연관있는 항공권

리뷰 0.0 (총 0건) 리뷰쓰기

100자평 작성시 유의사항

100자평 10.0 (총 0건) 최근순 평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

주간랭킹
더보기

리뷰

0.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

10.0

(총 0건)

최근순

평점 높은순