간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (25,650원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (18,900원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (21,600원)
(최대할인 4만원 / 2만원 이상 결제)
Close

R로 배우는 실무 데이터 과학 : 실용 데이터를 이용한 데이터 분석 실습!

원제 : Practical Data Science with R
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 35
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

30,000원

  • 27,000 (10%할인)

    1,500P (5%적립)

  • 구매

    21,000 (30%할인)

    1,050P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
추가혜택
배송정보
  •  당일배송을 원하실 경우 주문시 당일배송을 선택해주세요.
  • 서울시 강남구 삼성로 512변경
  • 배송지연보상 안내
  • 무료배송
  • 해외배송가능
주문수량
감소 증가
  • 북카트 담기
  • 바로구매
  • 매장픽업
  • 이벤트/기획전

  • 연관도서

  • 사은품(11)

책소개

데이터 탐색에서 모델링, 결과 전달에 이르기까지
데이터 과학의 모든 프로세스를 담았다!


이 책은 실무 비즈니스에 사용할 수 있는 R 프로그래밍 언어와 유용한 통계 기술 적용 방법을 보여준다. 마케팅, 비즈니스 인텔리전스 및 의사 결정 예를 사용하여 A/B 테스트 같은 설계 방법, 예측 모델 작성 방법 및 모든 수준의 잠재 고객에게 결과를 제시하는 방법 등을 제대로 보여준다.

출판사 서평

데이터 탐색에서 모델링, 결과 전달에 이르기까지
데이터 과학의 모든 프로세스를 담았다!


비즈니스 분석가와 개발자는 점점 더 중요한 비즈니스 데이터를 수집하고, 큐레이팅하고, 분석하고 보고한다. R 언어와 관련 도구들은 이런 과중한 업무를 학문적 이론이나 고급 수학을 적용하지 않는 일상적인 데이터 과학 작업으로 처리하는 손쉬운 방법을 제공한다. 이 책은 실무 비즈니스에 사용할 수 있는 R 프로그래밍 언어와 유용한 통계 기술 적용 방법을 보여준다. 마케팅, 비즈니스 인텔리전스 및 의사 결정 예를 사용하여 A/B 테스트 같은 설계 방법, 예측 모델 작성 방법 및 모든 수준의 잠재 고객에게 결과를 제시하는 방법 등을 제대로 보여준다.

이 책이 다루는 내용

- 비즈니스 전문가를 위한 데이터 과학
- R 언어를 이용한 통계 분석
- 기획에서 제품 인도까지의 프로젝트 라이프사이클
- 즉시 응용 가능한 수많은 사례
- 효과적인 데이터 프레젠테이션의 핵심

추천사

당신이 초보 데이터 과학자이거나 데이터 과학자가 되고 싶은 학생이라면 이 책이 그 시작을 위한 좋은 토대가 될 것이다. 이미 업무에서 데이터 과학을 다루고 있는 종사자라면 부족한 지식을 보충해 줄 것이며, 심지어 일상적으로 사용하는 도구를 다시 생각하는 계기가 될 것이다. 한마디로, 이 책은 모든 데이터 과학자의 책장에 꽂혀 있을 만한 독특하고 중요한 책이다.
- 짐 포르작(JIM PORZAK) / 시니어 데이터 과학자이자 베이 지역 R 사용자 그룹 공동 설립자

목차

PART I 데이터 과학 소개
CHAPTER 1 데이터 과학 프로세스 3

1.1 데이터 과학 프로젝트에서의 역할 3
1.1.1 프로젝트에서의 역할 4
1.2 데이터 과학 프로젝트의 단계 7
1.2.1 목표 설정 8
1.2.2 데이터 수집과 관리 9
1.2.3 모델링 12
1.2.4 모델 평가와 비평 14
1.2.5 프레젠테이션과 문서화 15
1.2.6 모델 배포와 유지보수 17
1.3 기대치 설정 17
1.3.1 모델 성능 상하한선 결정 18
1.4 요약 20

CHAPTER 2 R 프로그램에 데이터 적재하기 21
2.1 파일에 있는 데이터 다루기 22
2.1.1 파일 또는 URL로부터 잘 구조화된 데이터 작업하기 22
2.1.2 덜 구조화된 데이터에 R 사용하기 25
2.2 관계형 데이터베이스를 이용하여 작업하기 28
2.2.1 실무 예제 29
2.2.2 R에 데이터베이스 데이터 입력하기 34
2.2.3 PUMS data로 작업하기 36
2.3 요약 39

CHAPTER 3 데이터 탐색하기 41
3.1 통계 요약치를 이용하여 문제 파악하기 43
3.1.1 데이터 요약을 통해 전형적인 데이터 문제 파악하기 44
3.2 그래프와 시각화를 통해 문제 제거하기 48
3.2.1 단일변수에서 시각적으로 분산 점검하기 51
3.2.2 두 변수의 관계를 시각적으로 확인하기 60
3.3 요약 71

CHAPTER 4 데이터 관리 72
4.1 데이터 정리하기 72
4.1.1 결측치 다루기 73
4.1.2 데이터 변환 78
4.2 모델링과 데이터 유효성 검증을 위한 샘플링 86
4.2.1 테스트와 트레이닝의 분할 86
4.2.2 샘플 그룹 열 만들기 87
4.2.3 레코드 그룹화 88
4.2.4 데이터 출처 90
4.3 요약 90

PART II 모델링 기법
CHAPTER 5 모델 선택과 평가 93

5.1 머신러닝 과제에 문제 매핑하기 95
5.1.1 분류 문제 해결하기 95
5.1.2 스코어링 문제 해결하기 97
5.1.3 예측 결과 없이 일하기 98
5.1.4 문제와 방법 매핑하기 101
5.2 모델 평가 103
5.2.1 분류 모델 평가하기 104
5.2.2 스코어링 모델 평가하기 110
5.2.3 확률 모델 평가하기 113
5.2.4 랭킹 모델 평가하기 118
5.2.5 클러스터 모델 평가하기 118
5.3 모델 검증하기 121
5.3.1 일반적인 모델 문제 확인하기 122
5.3.2 모델 건전성 정량화 123
5.3.3 모델 품질 보증 124
5.4 요약 127

CHAPTER 6 메모라이제이션 128
6.1 KDD와 KDD 컵 2009 128
6.1.1 KDD 컵 2009 데이터로 시작하기 129
6.2 단일변수 모델 구축하기 131
6.2.1 범주형 특성 사용하기 132
6.2.2 숫자형 특성 사용하기 135
6.2.3 교차 검증으로 과적합 정도 측정하기 137
6.3 다항변수를 이용하여 모델 구축하기 139
6.3.1 변수 선택 139
6.3.2 의사결정나무 사용하기 141
6.3.3 최근접 이웃 메서드 사용하기 145
6.3.4 나이브 베이즈 사용하기 149
6.4 요약 153

CHAPTER 7 선형 회귀와 로지스틱 회귀 155
7.1 선형 회귀 사용하기 156
7.1.1 선형 회귀 이해하기 156
7.1.2 선형 회귀 모델 만들기 160
7.1.3 예측하기 161
7.1.4 선형 회귀에서 관계 찾기와 조언 추출하기 165
7.1.5 모델 요약값 해석과 계수 품질 규정하기 167
7.1.6 선형 회귀에서 꼭 기억할 내용 173
7.2 로지스틱 회귀 사용하기 173
7.2.1 로지스틱 회귀 이해하기 174
7.2.2 로지스틱 회귀 모델 만들기 176
7.2.3 예측 모델 만들기 177
7.2.4 로지스틱 모델에서 관계 찾기와 조언 추출하기 181
7.2.5 모델 요약값 해석과 계수 품질 규정하기 183
7.2.6 로지스틱 회귀에서 꼭 기억할 내용 192
7.3 요약 192

CHAPTER 8 비지도 방법론 194
8.1 클러스터 분석 195
8.1.1 거리 195
8.1.2 데이터 준비하기 198
8.1.3 hclust()를 이용한 계층적 클러스터링 199
8.1.4 k-means 알고리즘 211
8.1.5 클러스터에 새로운 포인트 추가하기 216
8.1.6 클러스터링에서 꼭 기억할 내용 219
8.2 연관 규칙 219
8.2.1 연관 규칙 개요 219
8.2.2 예제 221
8.2.3 arules 패키지를 이용한 연관 규칙 마이닝 222
8.2.4 연관 규칙에서 꼭 기억할 내용 231
8.3 요약 232

CHAPTER 9 고급 탐색법 233
9.1 배깅과 랜덤 포레스트를 이용하여 훈련 분산 감소시키기 234
9.1.1 배깅을 이용하여 예측 성능 높이기 235
9.1.2 랜덤 포레스트를 이용하여 예측력 향상시키기 238
9.1.3 배깅과 랜덤 포레스트에서 꼭 기억할 내용 243
9.2 일반화 가법 모델로 비단조 관계 학습하기 243
9.2.1 GAM 이해하기 243
9.2.2 일차원 회귀 예제 245
9.2.3 비선형 관계 추출 249
9.2.4 실제 데이터로 GAM 사용하기 251
9.2.5 로지스틱 회귀에 GAM 사용하기 254
9.2.6 GAM에서 꼭 기억할 내용 256
9.3 데이터 분리를 증가시키기 위해 커널 메서드 사용하기 256
9.3.1 커널 함수 이해하기 257
9.3.2 문제에 명시적 커널 사용하기 261
9.3.3 커널에서 꼭 기억할 내용 265
9.4 서포트 벡터 머신으로 복잡한 결정 경계 모델링하기 265
9.4.1 서포트 벡터 머신 이해하기 266
9.4.2 인위적 예제 데이터에 SVM 적용하기 269
9.4.3 실데이터 기반에서 SVM 사용하기 273
9.4.4 서포트 벡터 머신에서 꼭 기억할 내용 276
9.5 요약 276

PART III 산출물 배포
CHAPTER 10 문서화와 배포 281

10.1 버즈 데이터셋 282
10.2 knitr을 사용하여 마일스톤 문서 만들기 283
10.2.1 knitr이란? 284
10.2.2 knitr 세부사항 288
10.2.3 knitr을 이용하여 버즈 데이터 문서화하기 289
10.3 실행 문서를 위한 주석과 버전 관리 사용하기 293
10.3.1 효율적인 주석 작성하기 293
10.3.2 레코드 히스토리를 위해 버전 컨트롤 사용하기 294
10.3.3 프로젝트 탐색을 위한 버전 컨트롤 사용하기 301
10.3.4 작업 공유를 위해 버전 관리 사용하기 306
10.4 모델 배포하기 309
10.4.1 R HTTP 서비스로 모델 배포하기 310
10.4.2 익스포트로 모델 배포하기 313
10.4.3 모델 배포에서 꼭 기억할 내용 314
10.5 요약 316

CHAPTER 11 효과적인 발표 자료 만들기 317
11.1 프로젝트 스폰서에게 결과 발표하기 318
11.1.1 프로젝트 목표 요약하기 319
11.1.2 프로젝트 결과 명시하기 320
11.1.3 세부사항 채우기 322
11.1.4 개선 사항과 향후 과제 토론하기 324
11.1.5 프로젝트 스폰서 프레젠테이션에서 꼭 기억할 내용 325
11.2 최종 사용자에게 프레젠테이션하기 325
11.2.1 프로젝트 목표 요약하기 326
11.2.2 모델이 사용자의 워크플로에 어떻게 적용되는지 보여주기 327
11.2.3 모델 사용법 보여주기 329
11.2.4 최종 사용자 프레젠테이션에서 꼭 기억할 내용 331
11.3 동료 데이터 과학자에게 작업 결과 프레젠테이션하기 331
11.3.1 문제 언급하기 332
11.3.2 관련 작업에 대해 의논하기 333
11.3.3 우리의 접근 방법에 대해 의논하기 333
11.3.4 향후 작업 의논하기 334
11.3.5 동료 프레젠테이션에서 꼭 기억할 내용 335
11.4 요약 337

APPENDIX A R과 기타 도구로 작업하기 339
A.1 도구 설치하기 339
A.1.1 R 설치하기 339
A.1.2 R 패키지 시스템 340
A.1.3 Git 설치하기 340
A.1.4 RStudio 설치하기 340
A.1.5 R 관련 자료 341
A.2 R 시작하기 342
A.2.1 R의 주요 기능 343
A.2.2 R의 기본 데이터 유형 348
A.2.3 HTTPS로 데이터 로딩하기 355
A.3 R로 데이터베이스 사용하기 356
A.3.1 H2 데이터베이스 엔진 획득하기 356
A.3.2 SQuirreL SQL 사용하기 356
A.3.3 SQL 스크루드라이버 설치하기 360
A.3.4 SQL 변환 작업 예제 361
A.3.5 SQL로 생각하는 법 367

APPENDIX B 중요한 통계적 개념 369
B.1 분산 369
B.1.1 정규분포 369
B.1.2 R의 확률분포 명명 규칙 요약 374
B.1.3 로그 정규분포 375
B.1.4 이항분포 379
B.1.5 분산 관련 기타 R 도구 384
B.2 통계 이론 384
B.2.1 통계 철학 385
B.2.2 A/B 테스트 388
B.2.3 검정력 394
B.2.4 특수 통계 테스트 397
B.3 데이터 통계 보기 399
B.3.1 표본추출 편향 399
B.3.2 누락된 변수 편향 402

APPENDIX C 데이터 탐색을 위한 더 많은 도구와 아이디어 408
C.1 더 많은 도구 409
C.1.1 R 그 자체 409
C.1.2 다른 언어 409
C.1.3 빅데이터 도구 410
C.2 기타 아이디어 411
C.2.1 적응 학습 411
C.2.2 통계 학습 412
C.2.3 컴퓨터 과학 머신러닝 412
C.2.4 베이지안 방법론 413
C.2.5 통계학 413
C.2.6 부스팅 413
C.2.7 시계열 413
C.2.8 도메인 지식 414

찾아보기 416

본문중에서

데이터 과학 프로젝트에서 스폰서 다음으로 중요한 역할은 데이터 과학자다. 데이터 과학자는 프로젝트 수행을 위한 필수적인 모든 단계에 책임을 지고 있다. 또한 프로젝트의 전략을 설정하고, 고객에게 지속적으로 통지해야 하는 역할도 해야 한다. 데이터 과학자는 프로젝트의 단계를 계획하고, 데이터 원천과 사용할 도구를 선정한다. 따라서 기술 요소를 선정하기 때문에 통계학과 머신러닝에 대해 능통해야 한다. 프로젝트의 진행자로서 프로젝트를 계획하고 추진하는 역할도 해야 한다.
(/ p.6)

프로젝트에 너무 깊이 들어가기 전에 비즈니스 목표를 만족시키는 충분한 자원을 가지고 있는지 확인해야 한다. 지금부터는 원하는 정도의 목표를 달성시킬 수 있을 만큼의 충분한 가용 데이터가 있는지 여부를 추정하는 방법을 설명할 것이다. 이 내용은 프로젝트 라이프 사이클의 유동성을 설명하는 한 예다. 데이터 탐색과 클리닝을 하면서 데이터를 보다 잘 이해하게 된다. 데이터의 의미를 보다 잘 이해하게 되면 목표가 요구하는 것을 충분히 만족시킬 수 있는지 알게 될 것이다. 만일 데이터가 불충분하다면 프로젝트 설계와 목표를 다시 설정해야 한다.
(/ p.17)

고객이 의료보험에 가입하지 않았는지 예측하는 모델을 만든다고 가정해보자. 아마도 여러분은 저렴한 건강보험 패키지를 고객에게 판매하길 원할 것이다. 프로젝트를 위해 고객의 건강보험 상황에 관련한 데이터셋을 수집한다. 또한 보험의 적용 범위를 예측하는 데 도움이 되는 나이, 고용 상태, 수입, 주거와 차량 보유 정보 등의 고객의 특성도 파악되었다. R 프로그램상에 custdata라는 데이터 프레임을 만들고 데이터를 적재해보자.1 이제 고객을 파악하는 모델을 만들 준비가 됐다.
(/ p.41)

앞에서 모델링 기법을 선택하는 법과 트레이닝 데이터로 모델의 성능을 평가하는 법을 배웠다. 이번에는 가장 큰 걱정거리 중 하나인 모델 검증에 대해 다루겠다. 과연 트레이닝 데이터로 테스트한 모델이 운영에서도 비슷한 품질을 보일 수 있을 것인가? 새로운 데이터 기반으로 모델을 테스트하는 것을 모델 검증(model validation)이라 한다. 다음의 절에서 모델 검증에 있어 확인해야 할 주요 문제를 다룰 것이다.
(/ p.121)

나이브 베이즈(Naive Baye)는 각 학습 변수가 결과와 어떻게 관련되어 있는지 기억하고 각 변수의 효과를 함께 곱하여 예측하는 흥미로운 방법이다. 이를 보여주기 위해 교육 수준, 지역 및 기타 변수에 따라 고용 여부를 예측하려고 하는 시나리오를 사용해보자. 나이브 베이즈는 논리를 반전하여 다음과 같은 질문을 한다. ‘만일 누군가 고용되어 있다면 고등교육을 받았을 확률은 얼마나 되는가?’ 데이터로부터 고용에 관한 예측을 만들어볼 수 있다.
(/ p.149)

관련이미지

저자소개

니나 줌멜(Nina Zumel) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 1종
판매수 66권

니나 줌멜은 독립적인 비영리 연구소 SRI International에서 과학자로 일했다. 또한, 가격 최적화 회사의 수석 과학자로 일했으며, 계약 연구 회사를 설립하기도 했었다. 현재는 Win-Vector LLC의 수석 컨설턴트로 일하고 있다.

존 마운트(John Mount) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 1종
판매수 66권

존 마운트는 생명 공학 분야의 컴퓨터 과학자이자 주식 거래 알고리즘 디자이너로 일했으며, Shopping.com의 연구 팀을 관리했다. 현재는 니나와 함께 Win-Vector LLC의 수석 컨설턴트로 일하고 있다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

SK C&C와 IBM에서 주로 응용 애플리케이션 아키텍트로 경험을 쌓았다. 현재는 쿠팡에서 추천시스템 개발 업무를 담당하고 있다. 커피와 차에 관심이 많고 주말에는 딸과 노느라 바쁘다. 최근에는 딥러닝과 이미지 처리 분야에 관심을 가지고 있다.

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

    리뷰쓰기

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    10.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용