간편결제, 신용카드 청구할인
네이버페이 1%
(네이버페이 결제 시 적립)
NH(올원페이)카드 12% (39,600원)
(3만원 이상 결제/최대 1만원 할인)
북피니언 롯데카드 30% (31,500원)
(최대할인 3만원 / 3만원 이상 결제)
하나SK 북&카드 30% (31,500원)
(최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (36,000원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (40,500원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (41,850원)
(최대할인 3만원 / 3만원 이상 결제)
Close

실전 예측 분석 모델링 : 예측 모델 과정을 여행하는 데이터 분석가를 위한 안내서[양장]

원제 : Applied Predictive Modeling

2013년 9월 9일 이후 누적수치입니다.

판매지수 2,597
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

50,000원

  • 45,000 (10%할인)

    2,500P (5%적립)

할인혜택
적립혜택자동적립
배송정보
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(11)

  • 사은품(2)

출판사 서평

데이터 전처리, 데이터 분할 등의 분석에 있어서 필수적으로 필요한 단계부터 모델 튜닝의 기초에 이르기까지, 전반적인 예측 모델 과정을 다룬다. 다양한 일반적인 회귀 및 분류 기법 대해 직관적으로 설명하고, 이에 대한 실제 데이터 문제를 예제로 들어 이해를 돕는다. 이를 통해 클래스 불균형, 예측 변수 선택, 모델 성능 원인 파악 등 실제 모델을 적용할 때 종종 맞닥뜨리게 되는 문제들에 대해서도 살펴볼 수 있다. 또한 각 예제에 대한 상세한 R 코드가 같이 실려 있어서 책의 내용을 실제로 실행해 보면서 학습할 수 있다. 이 책은 학부 및 석사과정의 예측 모델 수업용 교과서부터 실제 현업에서의 참고자료까지 예측 모델을 활용하고자 하는 여러 사람들이 다양하게 활용할 수 있을 것이다.

[이 책의 대상 독자]

예측 모델에 대한 소개와 모델 적용 가이드로서 광범위한 사용자를 대상으로 한다. 수학에 친숙하지 않은 독자는 기법에 대한 직관적인 설명을 반길 수 있을 것이고, 다양한 애플리케이션에서 실제 데이터로 문제를 해결하는 데 중점을 둔 내용은 전문 지식을 확장하려는 실무자에게 도움이 될 것이다. 독자는 상관 관계 및 선형 회귀 분석과 같은 기본 통계 개념에 대한 지식을 갖고 있어야 한다. 일부 복잡한 방정식을 다루며 고급 주제의 경우 수학적 배경이 필요하다.

목차

1장. 시작하며

1.1 예측 대 해석
1.2 예측 모델의 주 요소
1.3 용어
1.4 예제 데이터 세트와 일반적 데이터 시나리오
음악 장르
장학금 신청
간 손상
투과성
화학 물질 제조 절차
부정 재무 재표
데이터 세트 비교
1.5 개요
1.6 표기법

2장. 예측 모델링 과정 훑어보기

2.1 사례 연구: 연비 예측
2.2 테마
데이터 분할
예측 데이터
성능 추정
여러 모델을 평가하기
모델 선정
2.3 요약

3장. 데이터 전처리

3.1 사례 연구: 하이콘텐츠 스크리닝에서의 세포 분할
3.2 개별 예측 변수에 대한 데이터 변형
중심화와 척도화
왜도 해결을 위한 변형
3.3 여러 예측 변수 변형
이상치 제거를 위한 데이터 변형
데이터 축소와 특징 추출
3.4 결측치 처리
3.5 예측 변수 제거
예측 변수 간의 상관관계3.6 예측 변수 추가
3.7 예측 변수 구간화
3.8 컴퓨팅
변환
필터링
가변수 생성
연습 문제

4장. 과적합과 모델 튜닝

4.1 과적합 문제
4.2 모델 튜닝
4.3 데이터 분할
4.4 리샘플링 기법
K -겹 교차 검증
일반화 교차 검증
반복적 훈련/테스트 세트 분할
부트스트랩
4.5 사례 연구: 신용 평가
4.6 최종 튜닝 변수 선정
4.7 추천하는 데이터 분할 방식
4.8 모델 선택
4.9 컴퓨팅
데이터 분할
리샘플링
R로 하는 기본적 모델 구축
튜닝 변수 판단
모델 간 비교
연습 문제

5장. 회귀 모델 성능 측정

5.1 성능의 정량적 측정
5.2 분산-편향성 트레이드 오프
5.3 컴퓨팅

6장. 선형 회귀와 이웃 모델들

6.1 사례 연구 구조적 정량 활성 관계 모델링
6.2 선형 회귀
용해도 데이터에 대한 선형 회귀
6.3 부분 최소 제곱
용해도 데이터에 대한 PCR과 PLSR
PLS의 알고리즘 분산
6.4 벌점 모델
6.5 컴퓨팅
일반 선형 회귀
부분 최소 제곱
벌점 회귀 모델
연습 문제

7장 비선형 회귀 모델

7.1 신경망 모델
7.2 다변량 가법 회귀 스플라인 모델
7.3 서포트 벡터 머신
7.4 K -최근접 이웃
7.5 컴퓨팅
신경망 모델
다변량 가법 회귀 스플라인서포트 벡터 머신
K-최근접 이웃
연습 문제

8장. 회귀 트리와 규칙 기반 모델

8.1 기본 회귀 트리
8.2 회귀 모델 트리
8.3 규칙 기반 모델
8.4 배깅 트리
8.5 랜덤 포레스트
8.6 부스팅
8.7 큐비스트
8.8 컴퓨팅
단일 트리
모델 트리
배깅 트리
랜덤 포레스트
부스티드 트리
큐비스트
연습 문제

9장. 용해도 모델 정리

10장. 사례 연구: 콘크리트 혼합물의 압축 강도


10.1 모델 구축 전략
10.2 모델 성능
10.3 압축 강도 최적화
10.4 컴퓨팅

11장. 분류 모델에서의 성능 측정

11.1 클래스 분류
잘 보정된 확률
클래스 확률 나타내기
중간 지대
11.2 분류 예측 평가
이종 문제
비정확도 기반 기준
11.3 클래스 확률 평가
시스템 동작 특성(ROC) 곡선
리프트 도표
11.4 컴퓨팅
민감도와 특이도
혼동 행렬
시스템 동작 특성 곡선
리프트 도표
확률 보정

12장. 판별 분석 및 기타 선형 분류 모델

12.1 사례 연구: 성공적인 지원금 신청 예측
12.2 로지스틱 회귀
12.3 선형 판별 분석
12.4 부분 최소 제곱 판별 분석
12.5 벌점 모델
12.6 최근접 축소 중심 모델
12.7 컴퓨팅
로지스틱 회귀
선형 판별 분석
부분 최소 제곱 판별 분석
벌점 모델
최근접 축소 중심법
연습 문제

13장. 비선형 분류 모델

13.1 비선형 판별 분석
이차 판별 분석과 정규 판별 분석
혼합 판별 분석
13.2 신경망
13.3 유연 판별 분석
13.4 서포트 벡터 머신
13.5 K -최근접 이웃 모델
13.6 나이브 베이즈 모델
13.7 컴퓨팅
비선형 판별 분석
신경망
유연 판별 분석
서포트 벡터 머신
K-최근접 이웃 분석
나이브 베이즈 분석
연습 문제

14장. 분류 트리와 규칙 기반 모델

14.1 기본 분류 트리
14.2 규칙 기반 모델
C4.5 규칙
PART
14.3 배깅 트리
14.4 랜덤 포레스트
14.5 부스팅
에이다부스트
확률 경사 부스팅
14.6 C5.0
분류 트리
분류 규칙
부스팅
모델의 다른 측면
보조금 데이터
14.7 범주형 변수의 두 가지 변조 방식 비교
14.8 컴퓨팅
분류 트리
규칙배깅 트리
랜덤 포레스트
부스티드 트리
연습 문제

15장. 보조금 지원 모델 살펴보기

16장. 심각한 클래스 불균형 처리하기


16.1 사례 연구: 이동식 주택 보험 가입 예측
16.2 클래스 불균형의 영향
16.3 모델 튜닝
16.4 대체 한도
16.5 사전 확률 보정
16.6 다른 경우별 가중치
16.7 샘플링 기법
16.8 비용 민감 훈련
16.9 컴퓨팅
대체 한도
샘플링 기법
비용 민감 훈련
연습 문제

17장. 사례 연구: 작업 스케줄링

17.1 데이터 분할과 모델 전략
17.2 결과
17.3 컴퓨팅

18장. 예측 변수 중요도 측정하기

18.1 수치형 결과
18.2 범주형 결과
18.3 다른 방법
18.4 컴퓨팅
수치형 결과
변수형 결과
모델 기반 중요도
연습 문제

19장. 특징 선택 입문

19.1 비정보성 예측 변수 사용의 결과
19.2 변수 수를 줄이는 방식
19.3 래퍼 방법
전진, 후진, 단계적 선택법
담금질 기법
유전 알고리즘
19.4 필터 방법
19.5 선택 편향
19.6 사례 연구: 인지 장애 예측
19.7 컴퓨팅
전진, 후진, 단계적 선택법
반복 특징 제거
필터 방법
연습 문제

20장. 모델 성능에 영향을 미치는 요인

20.1 삼종 오류
20.2 결과의 측정 오차
20.3 예측 변수에서의 측정 오차
사례 연구: 원치 않는 부작용 예측
20.4 연속형 결과를 이산화하기
20.5 언제 모델의 예측값을 믿어야 할까?
20.6 샘플이 클 때의 영향
20.7 컴퓨팅
연습 문제

부록 A. 여러 모델에 대한 요약

부록 B. R에 대한 소개

1B.1 시작 및 도움말
1B.2 패키지
1B.3 객체 생성
1B.4 데이터 유형과 기본 구조
1B.5 2차원 데이터 세트로 작업하기
1B.6 객체와 클래스
1B.7 R 함수
1B.8 =의 3개 얼굴
1B.9 AppliedPredictiveModeling 패키지
B.10 caret 패키지
B.11 이 책에서 사용된 소프트웨어

부록 C. 유용한 웹 사이트

소프트웨어
대회
데이터 세트

본문중에서

이 책은 예측 모델링을 실제로 활용하는 데에 특별히 초점을 맞춰 쓴 데이터 분석에 대한 책이다. '예측 모델링'이란 용어에는 머신 러닝과 패턴 인식, 데이터 마이닝 같은 개념이 뒤섞여 있으며 실제로 이런 융화는 적절하다. 이 용어들이 포함하는 기법은 예측 모델링 과정에서 반드시 필요한 부분이다. 하지만 예측 모델에는 데이터의 숨겨진 패턴을 찾기 위한 도구나 기술보다 훨씬 중요한 것들이 들어 있다. 예측 모델을 활용한다는 것은 이해할 수 있는 형태로 모델을 개발하고 아직 나타나지 않은 미래의 데이터에 대한 예측 정확성을 계측하는 과정을 말하는 것이다. 이 책에서 초점을 맞추고 있는 부분은 이런 전 과정을 말한다.
이 책이 모델을 실제 활용하고자 하는 사람들에게 예측 모델링 과정에 대한 가이드이자, 주로 사용되고 최근 나온 강력한 모델에 대한 접근 방법을 배우고 통찰을 얻을 수 있는 장소가 되게 하고자 했다. 예측 모델링을 위해 통계 및 수학 능력이 필요하다는 것은 이미 알려져 있지만, 대부분의 경우에 이런 기법의 수학적 기원이나 기반에 대해 말하는 대신 강점 및 약점을 파악해 이에 대한 통찰력을 기를 수 있는 방식으로 나타내고자 했다. 대부분의 경우 복잡한 연산을 사용하는 것은 배제하려고 노력했지만, 일부 필요한 예외의 경우도 있었다. 예측 모델링에 대해 좀 더 이론적인 내용이 필요하다면 헤이스티(Hastie) 등이 집필한 책(2008)이나 비숍(Bishop)의 책(2006)을 추천한다. 이 책을 이해하기 위해서는 분산, 상관관계, 간단한 선형 회귀, 기본 가설 검정(p-값 및 검정 통계) 등의 기본 통계 지식을 사전에 가지고 있어야 한다
('지은이의 말' 중에서)

데이터 분석의 최종 목적은 결국 기존의 데이터를 활용해 잘 모르는 것을 '예측'하는 것에 있어 왔다. 흔히 '고급 분석'이라는 머신 러닝 알고리즘을 활용한 데이터 분석은 크게 추이를 통해 명확하지 않은 변동 상황이나 알 수 없는 미래를 '예측'하고, 분류를 통해 정확하지 않거나 알 수 없는 것의 성격을 '예측'하는 것에 초점이 맞춰져 있다. 이런 분석 기법은 흔히 '예측 분석'이라고 불려왔고, 데이터 분석을 하는 많은 사람들이 이 '예측 분석' 기법을 실제 상황에 직접 사용해보려고 시도하고 있다. 특히 예전과 달리 학계 및 산업계에서 전반적으로 데이터에 대한 인식이 자연스러워지고, '머신 러닝'이나 '인공 지능'이라는 단어도 더 이상 생소하지 않은 시대가 되면서 머신 러닝 알고리즘과 유사한 '예측 분석'에도 좀 더 많은 사람들이 관심을 갖게 됐다.
이런 때에 맞춰 이 책을 번역하게 돼 매우 기쁘게 생각한다. 이 책은 실제로 충분한 지식을 갖고 예측 분석을 업계에서 직접 사용하면서, 실제로 사람들이 많이 사용할 만한 기능을 R패키지로 구현하기도 했던 훌륭한 저자들이 자신들의 지식과 노하우, 실제 분석에서 얻은 통찰까지 골고루 담아낸 책이다. 학교에서 교과서로 사용해도 될 정도로 풍부한 지식이 꼼꼼하게 들어 있으면서도, 현업에서 일을 하면서도 간간히 참고 자료로 찾아볼 수 있을 정도의 실질적인 팁이나 실무에서 접하게 되는 요소들도 놀라울 정도로 풍부하게 들어 있다. 계속 데이터를 접하는 사람이라면 이 책을 오랜 기간 옆에 두며 도움을 받을 수 있을 거라고 확신한다.
솔직히 데이터 분석에 처음 입문하는 사람이 접하기에는 난이도가 어느 정도 있는 책이다. 하지만 그만큼 배울 것이 매우 많다고 생각한다. 나 역시도 어느 정도 실무로 데이터 분석을 해왔음에도 불구하고, 이 책의 번역을 진행하면서 많은 것을 배웠고, 많은 부분에서 감탄하기도 했으며, 여러 부분에서 감동하기도 했고, 한없이 겸손해지기도 하는 등 즐거운 경험을 했다. 이 책을 접하게 되는 독자들도 나와 같은 경험을 하실 수 있기를 바라고, 아마도 충분히 그럴 수 있을 거라고 생각한다.
('옮긴이의 말' 중에서)

관련이미지

저자소개

막스 쿤(Max Kuhn) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 1종
판매수 149권

코네티컷 주 그로턴에서 화이자 글로벌(Pfizer Global) R&D의 비임상 통계 디렉터로 일하고 있다. 15년간 약학 분야와 진단 분야에서 예측 모델을 적용해왔으며 수많은 R 패키지를 만들었다.

키엘 존슨(Kjell Johnson) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 1종
판매수 149권

약학 연구 개발 분야의 통계 컨설팅 및 예측 모델링에서 10년 이상의 경험을 쌓았다. dPcmr 모델링에 특화된 회사인 아버 애널리틱스(Arbor Analytics)의 공동 창업자이며, 전 화이자 글로벌 R&D의 통계 디렉터였다. 또한 통계 방법론과 러닝 알고리즘을 개발하고 응용하는 연구를 했다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

세상은 데이터로 이뤄져 있다고 생각하며, 이를 잘 활용하고자 하는 목표를 가지고 다양한 데이터 분석 및 활용 방안을 만들고 연구하는 것을 업으로 하고 있다. 카이스트(KAIST) 및 포항공과대학교(POSTECH)에서 산업공학과 전산학을 전공했으며, 다양한 산업군에서 데이터 분석을 수행하고 있다. 역서로는 [빅데이터 분석 도구 R 프로그래밍](에이콘, 2012), [The R Book(Second Edition) 한국어판](에이콘, 2014), [파이썬을 활용한 베이지안 통계](한빛미디어, 2014) 등이 있으며 [인터넷, 알고는 사용하니?](마음이음, 2017)를 감수했다.

이 상품의 시리즈

데이터 과학 시리즈(총 12권 / 현재구매 가능도서 12권)

펼쳐보기

이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

    리뷰

    0.0 (총 0건)

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    10.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용