간편결제, 신용카드 청구할인
PAYCO(페이코) 최대 5,000원 할인
(페이코 신규 회원 및 90일 휴면 회원 한정)
네이버페이 1%
(네이버페이 결제 시 적립)
북피니언 롯데카드 30% (15,750원)
(최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (18,000원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (20,250원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (20,930원)
(최대할인 3만원 / 3만원 이상 결제)
Close

R로 하는 빅데이터 분석 - 데이터 전처리와 시각화 : 개념적 기초에서 심층 활용까지

소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 1,429
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
  • 저 : 김권현
  • 출판사 : 숨은원리
  • 발행 : 2019년 03월 01일
  • 쪽수 : 328
  • 제품구성 : 전1권
  • ISBN : 9791196014476
정가

25,000원

  • 22,500 (10%할인)

    1,250P (5%적립)

할인혜택
적립혜택자동적립
추가혜택
배송정보
주문수량
감소 증가
  • 이벤트/기획전(1)

  • 연관도서

  • 사은품(14)

책소개

이 책은 쿡북(Cookbook)이 아니다!

물론 프로그래밍 언어으로 원하는 목적을 달성하는 가장 빠른 방법은 이미 작동하는 소스 코드를 실행하는 것이다. 하지만 소스 코드를 고쳐야 한다면!?!

그 때부터는 수많은 문법오류, 논리오류(버그)에 잘 돌아가던 프로그램도 안 돌아가는 신비한 경험을 하게 된다. 그 버그란 무엇 때문에 생기는가? 실수, 수면부족, 주의 산만 등 다양한 원인이 있겠지만, 또 다른 주요 원인은 튼튼하지 못한 기초에 있다!

* NA ] 3은 왜 NA이고, NA | TRUE는 왜 TRUE인가?
* 데이터테이블(data.table)의 복잡한 문법은 어떻게 이해해야 하는가?
* 정규표현식의 메타문자는 무엇이고, 어떻게 다루어야 하는가?
* ggplot2의 수많은 옵션은 어떻게 외워야 할까?

패키지, 벡터, 데이터프레임 등 기초부터 데이터테이블, 정규표현식, ggplot2까지 데이터 전처리와 시각화를 위한 핵심을 모두 담았다!

출판사 서평

이 책은 어느 정도 프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명한다. 이 책은 시중의 책들과 달리 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다. 그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다. 분산처리 없이 빅데이터 처리를 할 수 있는 마지막 보류인 데이터테이블을 dplyr 패키지의 함수와 비교하여 이해를 도왔고,ggplot2의 설명에서는 플롯의 수많은 옵션을 정하는 방법을 한 눈에 보기 싶게 보여준다. 그 밖에도 부록으로 RStudio의 치트시트를 수록하였다. 어느 정도 R에 익숙한 독자들에게도 R의 데이터 전처리와 시각화에 대해 좀 더 깊이 알 수 있게 하였다. 레퍼런스 북으로도 손색이 없다.

[특이 사항]

* R 최신 버전 3.5.2(2018-12-20) 반영
* 빅데이터 분석을 위한 최선의 선택-data.table 패키지(최신버전 1.12.0)에 대한 설명 수록
* RStudio의 ggplot2(최신버전 3.1.0) 등 패키지 치트시트(cheatsheet) 수록
* 백과사전식의 나열이 아니라 개념 중심의 체계적인 이해 중시
* 좀 더 테크니컬한 심층 활용 방법과 오류를 사전에 방지하는 방법 설명
* 각종 참고 자료 및 표 수록
* 다양한 원서의 내용 종합
- Spector(2008). Data Manipulation with R.
- Kabacoff(2015). R in Action: Data Analysis and Graphics with R
- Wickham(2016). ggplot2: Elegant Graphics for Data Analysis.
- Lander(2017). R for Everyone: Advanced Analytics and Graphics.
- Wickham & Grolemund(2017). R for Data Science.
- Van Der Loo & De Jong(2018). Statistical Data Cleaning with Applications in R.
* ds.sumeun.org 홈페이지 운영

목차

1 들어가기
11 R 8

2 R의 패키지(Packages)
21 패키지 설치 9
22 패키지 관련 정보 10
23 패키지 불러오기/확인하기/제거하기 11
24 패키지 관리하기 12
25 중복되는 함수와 변수 12

3 R의 변수, 자료형, 연산/함수
31 R의 변수 13
32 R의 데이터 타입(자료형) 17
33 연산(Operations)과 함수(Functions) 20
34 특별한 값 26

4 데이터 구조
41 벡터(Vector) 31
42 데이터 구조에 따른 생성, 참조, 수정, 추가, 삭제 함수 43
43 CRUD(Create, Read, Update, Delete) 51
44 3+차원의 배열 53

5 dplyr 패키지를 활용한 데이터 가공
51 magrittr의 파이프 연산자 59
52 dplyr의 방식: 부분 선택(Subsetting) 62
53 dplyr의 방식 : 수정 68
54 dplyr의 기타 편의 기능 74

6 날짜와 시간(Date and Time)
61 날짜의 표기 80
62 날짜 표기 변환 81
63 날짜시간 표기 인식 82
64 날짜, 시간 연산 89
65 날짜(시간)의 특정한 정보 참조 90
66 날짜(시간) 갱신 90
67 활용예 93

7 팩터형 데이터타입
71 팩터형의 중요성 96
72 데이터 전처리에 있어서 팩터형 96
73 forcats 패키지 98

8 R로 데이터 읽어오기
81 R 내장 데이터 101
82 들어가기 : writetable/readtable, save/load 102
83 텍스트로 저장된 데이터 화일 읽기 103
84 EXCEL 화일 읽기 110
85 그 밖의 통계 프로그램 데이터 화일 111

9 데이터 가공
91 집단별로 함수 적용하기 114
92 여러 데이터 프레임 합치기 119
93 세로형/가로형 변환 125

10 패키지 데이터테이블(datatable)
101 package:dplyr과 package:datatable의 비교 127
102 datatable의 키(key) 활용하기 143
103 datatable을 활용한 병합 148
104 그 밖의 특수한 기호 : SD, GRP, N, I, BY, EACHI 157
105 데이터테이블 종합 165

11 문자열(character)
111 인코딩 167
112 대표적인 인코딩 방법 168
113 그 밖의 인코딩 방법 168
114 R에서 인코딩 다루기 169
115 R에서 문자열 입력 171
116 유니코드 정규화(Normalization) 173
117 문자열의 정렬 174
118 문자열을 다루는 함수들 176
119 패키지 stringr을 활용한 문자열 관리 182

12 정규표현식
121 R과 정규표현식 185
122 확장정규표현식(ERE; Extended Regular Expressions) 186

13 정규표현식을 활용한 문자열 데이터 가공: 개념적 접근
131 패턴과 일치하는 부분과 관련된 정보 200
132 패턴과 일치하는 부분을 활용하여 가공하기 200

14 흐름 제어와 함수
141 제어문: 조건과 반복 201
142 함수 209

15 1변수 기술 통계량
151 집중경향치 215
152 변산성 측정치 216
153 범주형, 순위형 변수 217

16 데이터 프레임의 모든 변수(컬럼)에 대해 요약통계치 구하기
161 함수 목록은 다음과 같다 219

17 간편 시각화
171 간편 시각화의 예 222

18 ggplot2
181 들어가기 227
182 시각적 맵핑(Aesthetic mapping) 229
183 기하학적 대상(geom) 248
184 보조선(Auxillary lines) 257
185 좌표계(Coordinate system) 259
186 범례(Legends) 265
187 제목과 테마(Title and Theme) 267
188 결과 정리 및 저장 273
189 ggplot2(gg = Grammar of Graphics) 총정리 275

19 연습문제 해답
데이터 불러들이기 279
제어와 함수 I 282

부록 1 R에서 하는 벡터/행렬 연산
벡터연산 283
한 행렬 연산 283
두 행렬의 연산 284
선형(행렬) 대수 285

부록 2 R의 색

부록 3 RStudio 치트시트

관련이미지

저자소개

생년월일 -
출생지 -
출간도서 0종
판매수 0권

서울대학교 인지과학 박사, 서울대학교 물리학 학사 출신으로 서울대학교 사회과학원 방법론 컨설턴트, 서울대학교 사회과학원 R 강의, 서강대학교, 국민대학교 등에서의 강의경험과 여러 참조 자료를 토대로 책을 썼다. R 패키지 mirt의 공헌자이고 datacamp.com에 기고 경험도 있다. ‘기초 통계학의 숨은 원리’, ‘수학의 숨은 원리’ 등의 저자이기도 하다.

이벤트 기획전

이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

    리뷰

    8.4 (총 0건)

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    0.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용