책소개

페이스북, 트위터, 아마존과 같은 디지털 플랫폼이 생활 깊숙이 들어오면서 데이터 활용가치는 높아지지만, 수학과 통계 때문에 데이터 분석을 본격적으로 시작하지 못 하고 있다. 최근에는 정형화된 숫자 데이터를 넘어 문자 데이터에서 지금껏 포착할 수 없었던 새로운 의미를 추출해야 하는 어려움 때문에 빅데이터 분석 진입장벽은 또 한 단계 올라가는 중이다. 한국에서 가장 인기 있는 프로 스포츠인 야구로 빅데이터 분석을 다룬다면, 데이터가 새롭게 보일 수 있다. 메이저리그에서 지난 140년 동안 통계원의 손으로 시작해, 90년대 퀘스텍(QuesTec), 2000년대 PITCHf/x, 2010년대 아마존과 파트너쉽을 통한 트랙맨 플랫폼까지 상상 이상의 야구 데이터가 수집돼 왔다. 장구한 메이저리그 데이터의 힘을 빌려 전통적 분석인 상관관계 분석, 분산분석, 회귀분석, 로지스틱 회귀분석, 계량경제학 패널데이터 분석과 최근 머신러닝으로 다시 관심을 받고 있는 군집분석, 요인분석, 지도학습, 딥러닝 기반 자연어처리를 통해 야구 이야기를 모델링하고 직접 테스트한다. 모든 작업에는 학계와 산업계 분석 작업에 이미 중심이 된 오픈소스 통계 프로그램 R을 사용한다.
데이터 분석 목적은 데이터를 통해 현실을 모델링하고 예측하며, 데이터에 담긴 정보와 의미를 추출해 인간의 인지적 한계를 극복한 합리적 의사결정을 하는 것이다. 분석 목적을 달성하는 데 반드시 거쳐야 하는 전처리(preprocessing) 전략은 데이터 분석보다 더 중요하고 많은 아이디어를 요구한다. 1판에서는 경험 부족으로 놓쳤지만, 이후 논문을 출판하고 ‘마케팅과 경영전략을 위한 데이터 분석’을 강의하면서 중요하다고 느끼게 된 전처리 전략을 2판 곳곳에 추가했다. 또한 1판에서 부족했던 그래픽 분석 방법을 새롭게 업데이트했다. 2판에서의 가장 큰 변화는 정형화되지 않은 문자 데이터까지도 분석에 활용할 수 있도록 머신러닝을 추가한 점이다. 비지니스 환경은 정형화된 숫자 데이터로는 이해할 수 없는 한계를 경험하고 있으며, 사람들이 남긴 디지털 커뮤니케이션에서 의미 있는 신호를 포착하는 데 주목하고 있다. 핵심 기술은 머신러닝이며 그 시작을 야구데이터와 함께 할 수 있다.

출판사 서평

★ 이 책에서 다루는 내용 ★

■ 야구 이야기와 통계 프로그램 R 코드가 동시에 진행되는 이해하기 쉬운 설명
■ 다양한 목적의 분석 툴을 야구에서 발생하는 특수 상황에 맞게 적용
■ 연구질의에 따른 적합한 데이터와 분석방법 선택을 위한 제안
■ 실제 메이저리그 대형 데이터인 라만(Lahman) 데이터베이스 활용
■ 대형 데이터를 분석 목적에 맞게 전처리하는 전략 제시
■ 예측모델에서 발생하는 소음을 제거하는 모델링 방법 소개
■ 머신러닝을 이용한 자연어처리 방법 소개

★ 이 책의 대상 독자 ★

■ R에 관심은 있지만 특별한 동기가 없어서 본격적으로 시작하지 못했던 R 초보자
■ 학위 과정을 준비하고 있거나 학위 과정에서 통계분석을 알고 있어야 하는 독자
■ 직장에서 매일 다루는 데이터를 의미 있게 분석하고, 해석하고 싶은 직장인
■ 야구를 통해 데이터과학을 배우고 싶은 스포츠 팬

★ 이 책의 구성 ★

이 책은 총 7개 장으로 구성됐다. 데이터와 분석 목적이 일치하는가, 측정하려는 개념을 측정하고 있는가, 과학적 예측은 어떻게 하는가, 다름과 같음을 구분할 수 있는가, 분석결과를 호도할 수 있는 소음은 잡아낼 수 있는가에 대해 R에서 메이저리그 경기 데이터를 사용해 직접 실험한 결과를 바탕으로 설명하고 각 장에서 코드를 제시한다.
1장, ‘변수를 알면 분석모델을 디자인할 수 있다’에서는 분석 목적에 맞는 맞춤형 데이터를 만들기 위해 반드시 알아야 하는 데이터 구조와 그 중심에 있는 변수를 메이저리그 데이터베이스를 통해 이해한다. 더불어 데이터 생성, 가공, 분석 활동이 동시에 이뤄져야 하는 비즈니스 환경에서 분석 플랫폼 역할을 하는 R과 오픈소스 R 활용이 궁극적으로 도달해야 하는 데이터 가치 사슬(data value chain)에 대해 설명한다.
2장, ‘메이저리그 데이터 마이닝’에서는 메이저리그팀과 선수들의 데이터를 활용해 빅데이터로부터 특정 데이터를 추출하거나 데이터의 형태를 변형해 분석 목적에 맞게 준비하는 마이닝 기법을 배운다. 특히 원본 데이터에 어떠한 영향도 주지 않고 코드를 통해 변수를 자유자재로 변형하고 2개 이상의 테이블을 공통 변수로 결합함으로써 제기된 문제에 유연하게 답할 수 있는 방법을 제시한다.
3장, ‘선수의 능력은 어떻게 측정할 것인가?’에서는 데이터 시각화의 시작이자 추정통계의 기반이 되는 상관관계 분석을 활용해 신뢰성과 타당성을 보유한 야구지표의 조건을 파악한다. 또한 장타력과 득점의 상관성을 보여주는 산포도의 다양한 시각화 방법, 감독과 선수의 상관 정도인 인맥을 보여주는 네트워크 분석, 산포도 개념을 활용한 메이저리그 구장 위치 정보 소개 그리고 조건에 따라 변하는 다양한 상관 정도를 한 번에 보여주는 패널차트 등 분석을 실행하는 데 필요한 데이터 구조와 코딩방법을 소개한다.
4장, ‘상관관계는 인과관계가 아니다’에서는 인과관계를 모델링하는 대표적인 분석방법인 선형회귀 분석을 실행하기 위해 빅데이터에서 필요한 양의 표본을 임의로 추출해 분석결과를 해석하고 예측하는 방법을 팀타율과 팀득점을 이용해 자세히 설명한다. 특히 예측에서 반드시 발생할 수밖에 없는 다양한 오류를 소개하고, 예측능력이 좋은 모델을 구별하는 기준이 되는 표준오차가 팀득점 예측에 활용되는 과정을 코드를 통해 이해한다.
5장, ‘비교와 구분’에서는 머신러닝이 주목받으면서 가치가 높아지고 있는 분석을 소개한다. 전통적인 t 검증과 분산분석(ANOVA)뿐만 아니라 비지도학습법인 판별분석, 요인분석, 군집분석, 신경망분석과 지도학습법인 로지스틱 회귀분석을 메이저리그팀들이 소속된 리그 구분 및 지구(디비전) 우승 여부와 연계해서 학습한다. 이 과정에서 이상치의 확인과 모델에 미치는 영향, 프로 스포츠에서 선수성적 표준편차가 갖는 의미 그리고 구글 트렌드 데이터를 R에서 활용하는 방법을 소개한다.
6장, ‘모델링’에서는 개념적 관계를 수학적 모델로 전환하는 과정인 모델링에서 관측값이 충분히 많은 빅데이터로 인과관계를 검증한다고 해도 활용할 수 있는 변수가 충분치 않아 측정되지 않은 제3의 변수 때문에 관계는 항상 의심을 받는다는 사실에 주목한다. 메이저리그팀들의 공격능력과 팀성적 간의 인과관계를 입증하기 위해 통제 변수를 개발하고 눈에 보이지 않는 교란 변수를 통제하는 패널모델 및 다수준혼합모델을 적용해 인과관계를 테스트하고 모델 적합성을 평가하는 방법을 코드를 통해 배운다. 어려운 개념인 모델링을 야구와 결합함으로써 일반화된 이론모델, 검증할 수 있는 수학모델, 그리고 현실의 데이터를 R에서 결합하는 방법을 쉽게 이해할 수 있다.
7장, ‘머신러닝’은 2판에서 새로 추가된 장이다. 기존 대부분의 분석들이 행과 열에 맞춰진 구조화된(structured) 데이터라서 사용하기에는 편했지만 그 적용 범위가 좁았다. 머신러닝의 발전으로 글이나 그림 같은 구조화되지 않은(unstructured) 데이터가 눈에 보이지 않아서 숫자 데이터만으로 설명할 수 없는 현상들을 포착할 수 있게 됐다. 야구도 마찬가지다. 트랙맨 시스템이 생성하는 선수들의 기록은 운동장에서 만들어진 결과물이다. 하지만 운동장 밖에서 존재하는 선수들 개개인의 역사도 팀성적과 팀 인기도에 미칠 수 있는 예측력이 있지만, 야구 경험이 없는 분석가들은 그 역사가 무엇인지 모르며 분석에 익숙하지 않은 야구 전문가들은 그 역사를 데이터로 모을 수 있는지 모른다. 이제는 야구 전문가의 경험과 분석가의 분석 역량을 머신러닝으로 연결해서 어느 팀이나 할 줄 아는 데이터 야구를 벗어나 팀 특유의 머신러닝 역량을 만들어낼 때다.

1장. 변수를 알면 분석모델을 디자인할 수 있다
__데이터과학에서 왜 야구인가?
__분석 공부 중도에 포기하지 않는 방법: 나만의 데이터 만들기
__변수를 알아야 분석이 보인다
____연속 변수
____이산 변수
____명목 변수
____서열 변수
__데이터 구조를 파악하다
__여러분이 가지고 있는 변수의 특징
____데이터 중심화 경향
____데이터의 분포범위
__데이터는 조작되지 않아야 한다
__데이터 분석의 완성: 데이터 가치 사슬
__R 스튜디오와 친구들
____R 스크립트
____R 노트북
____R 마크다운
____샤이니웹앱
__패키지 없는 R은 앱 없는 스마트폰
__정리하며

2장. 메이저리그 데이터 마이닝
__마이닝의 개념
__간단한 데이터 내 손으로 직접 만들기
__데이터를 R로 불러올 때 알아두면 좋은 정보
__인터넷에서 만난 팬그래프닷컴 데이터를 R로 불러오기
__빅데이터에서 필요한 데이터 분리하기
__작업했던 코딩과 데이터 정보 저장하기
__순서가 같은 테이블 합치기: cbind( ) 그리고 rbind( )
__순서가 다른 테이블 합치기: merge( )
__양적 변수를 명목 변수로 바꾸기
__괄호 사용법
____소괄호 ( )
____중괄호 { }
____대괄호 [ ]
__결측값 제거하기
__조건문 사용하기
__계속 사용할 테이블 고정하기
__추가로 공유하고 싶은 마이닝 기법들
__정리하며

3장. 선수의 능력은 어떻게 측정할 것인가?
__과학적 측정
__측정의 신뢰도
__영화 〈머니볼〉에서 보는 신뢰도가 높은 지표의 활용 케이스
__측정의 타당도
__능력과 운의 결과물: 시즌 성적
__공격지표들을 이용한 상관관계
__데이터에서 룰을 찾다: 연관성 분석
__선수와 감독의 인적 상관성: 네트워크 분석
__기술통계와 추정통계의 매개: 히스토그램은 막대그래프가 아니다
__정리하며

4장. 상관관계는 인과관계가 아니다
__인과관계의 필수조건
__확률로 따지면 말이야
__오류는 모델링의 꽃
____진실이 존재하는 신의 영역
____예측모델과 데이터가 있는 현실계
__확률과 우도
__출루의 조건: 최대우도추정법
__정규분포: 얼마나 칠 것인가?
____중심극한정리란?
____회귀분석에서는 왜 정규분포를 사용하지 않고 스튜던트 t 분포를 사용하는가?
__좋은 예측모델 구별법: 표준오차
__팀타율 1푼의 가치는 2천 4백만 달러?
__팀득점 예측을 위해 만든 추정모델 해석하기
____조절된 설명력
____모델 전체의 의미: F 통곗값
____계수의 p 값: 긍정오류의 가능성 유의확률
__게임당 팀득점 신뢰성 있게 예측하기
____신뢰구간
____예측구간
__정리하며

5장. 비교와 구분
__다른가?
__시각적 비교
__모델에 영향을 주는 이상치를 찾아라
__메이저리그 140년 역사의 원동력: 표준편차의 힘
____시즌타율 3할의 효과 40년간의 관찰: 패키지 plyr
____시즌타율 표준편차가 적을수록 야구장에 관중들이 더 모인다?
__실험군은 아메리칸리그, 대조군은 내셔널리그
__그룹 간 비교 시각화 방법: 패널차트구글 트렌드와 분산분석(ANOVA) 연계
__데이터를 분리해 필요한 부분만 취하다: 스트링 변수
__비모수 시대의 그룹 간 비교
__긍정오류와 부정오류
__긍정오류, 부정오류, 그리고 판별분석
__내셔널리그, 아메리칸리그, 그리고 판별분석
__지구에서 우승할 가능성, 우승하지 못할 가능성: 로지스틱 회귀분석
__지구에서 우승할 팀, 우승하지 못할 팀, 그리고 딥러닝
__자율학습을 활용한 군집분석
__정리하며

6장. 모델링
__복잡한 현실을 수학으로 모형화하고 통계로 증명하다
__2차함수 사고하기
__고차함수 사고하기
__논리와 데이터를 연결하다: 모델 선택
____단순선형회귀분석모델(simple linear regression)에 기반한 주장
____다중선형회귀분석모델(multiple regression)에 기반한 주장
____고정효과모델(fixed effects model)에 기반한 주장
____다수준혼합모델(multilevel mixed effects model)에 기반한 주장
____시차 변수를 보유하는 다수준혼합모델에 기반한 주장
____시차 변수와 자기상관을 보유하는 다수준혼합모델에 기반한 주장
__조건이 포함되는 모델링: 조절 변수
__리그별 홈런의 관중 동원 효과: 리그의 조절효과
__다수준혼합모델로 메이저리그 팀승수 추정하기
__실험실 없이 실험환경 통제하기: 통제 변수
__눈에 보이지 않는 교란요인들 잡아내기
__단순선형모델, 임의효과모델, 고정효과모델의 비교
____단순선형모델
____임의효과모델
____고정효과모델
__정리하며

7장. 머신러닝
__머신러닝: 기계에 답을 주고 인간은 로직을 얻는다
__최적의 타순 정하기
____케이스 스터디
____기계가 학습을 하려면 몇 가지 사전 작업이 필요하다
____베이즈 룰
____머신러닝: 데이터, 정답지, 그리고 베이즈 방식
__머신러닝의 종류
__자연어 처리와 머신러닝
__지도학습으로 문서 분류하기
____지도학습으로 분류모델 개발하기
____분류결과
__기계는 글의 의미를 이해하는가
__글과 머신러닝의 역사
__주변에 흔한 일반 문서는 어떻게 처리할까

맺음말
__데이터과학을 대하는 자세.
__R을 대하면서 확장되는 생각의 범위
__라만 데이터 적용 부분

저자소개

김재민 [저] 신작알림 SMS신청

생년월일	-

미시간 오클랜드대학교 비지니스스쿨 경영학과 조교수로 재직 중이다. 학부생과 MBA 학생들을 대상으로 경영전략을 강의하고 있으며, 경영전략과 데이터 분석의 교집합을 다루는 마케팅과 비지니스 전략을 위한 데이터 분석도 강의하고 있다. 경영전략 및 기업의 사회적 책임과 관련된 연구로 「Journal of Business Research」, 「Entrepreneurship Theory & Practice」, 「Journal of Business Ethics」, 「Organization & Environment」 등에 다수의 논문이 실렸다. 최근 연구에 자연어 처리를 위한 머신러닝을 분석 방법으로 활용하고 있으며, 10년 이상 개인 블로그 blog.na ver.com/ibuyworld를 통해 연구와 영어강의에 대한 생각을 공유하고 있다

펼쳐보기

김재민 [저] 신작알림 SMS신청

생년월일	-

해당작가에 대한 소개가 없습니다.

주간랭킹
더보기

상품정보제공고시

판매자정보

인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

상호	(주)교보문고
대표자명	안병현
사업자등록번호	102-81-11670
연락처	1544-1900
전자우편주소	callcenter@kyobobook.co.kr
통신판매업신고번호	01-0653
영업소재지	서울특별시 종로구 종로 1(종로1가,교보빌딩)

교환/환불

반품/교환 방법	‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능
반품/교환가능 기간	변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능 단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환 비용	변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담 상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담
반품/교환 불가 사유	·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우 (단지 확인을 위한 포장 훼손은 제외) ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품(악세서리 포함) 등 ·복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집 ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우 ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
상품 품절	공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음
소비자 피해보상 환불지연에 따른 배상	·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨 ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의소비자 보호에 관한 법률에 따라 처리함

(주)KG이니시스 구매안전서비스

(주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한 모든 거래에 대하여
(주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.

배송안내

교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.
출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.
군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.
배송비는 업체 배송비 정책에 따릅니다.

- 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원

- 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용

인터파크 롯데카드	5% (28,220원) (최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드	30% (20,790원) (최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드	20% (23,760원) (최대할인 4만원 / 2만원 이상 결제)

신한	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
비씨	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불/Non-BC카드 제외)
국민	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
삼성	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
현대	2~3개월(1만원↑) ※1만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
롯데	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
NH	2~4개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
하나SK	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)

할인혜택	카드할인/무이자 할부 이달의 혜택 도서상품권
적립혜택	1,650P (5%적립) 5만원이상 주문시 2천P+등급별 최대 1.5%적립
	S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택

배송정보	4/20(토) 이내 발송 예정 (서울시 강남구 삼성로 512) 무료배송
주문수량	감소증가 감소 증가

추가 적립 안내

메이저리그 야구 통계학 : 빅데이터 분석과 머신러닝의 시작 R

이상품의 분류

책소개

출판사 서평

목차

저자소개

주간랭킹
더보기

상품정보제공고시

이벤트 기획전

이 책과 연관있는 항공권

리뷰

10.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

0.0

(총 0건)

최근순

평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

추가 적립 안내

메이저리그 야구 통계학 : 빅데이터 분석과 머신러닝의 시작 R

이상품의 분류

책소개

출판사 서평

목차

저자소개

주간랭킹 더보기

상품정보제공고시

이벤트 기획전

이 책과 연관있는 항공권

리뷰 10.0 (총 0건) 리뷰쓰기

100자평 작성시 유의사항

100자평 0.0 (총 0건) 최근순 평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

주간랭킹
더보기

리뷰

10.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

0.0

(총 0건)

최근순

평점 높은순