간편결제, 신용카드 청구할인
카카오페이 5% (17,100원)
(카카오페이 결제 시 최대 2천원 할인 (3만원 이상 결제 시, 5% 할인, 기간 중 1회))
네이버페이 1%
(네이버페이 결제 시 적립)
북피니언 롯데카드 30% (12,600원)
(최대할인 3만원 / 3만원 이상 결제)
하나SK 북&카드 30% (12,600원)
(최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (14,400원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (16,200원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (16,740원)
(최대할인 3만원 / 3만원 이상 결제)
Close

딥러닝 데이터 전처리 입문 : 파이썬과 R로 배우는 데이터 다루기

원제 : Practical Data Wrangling: Expert techniques for transforming your raw data into a valuable source for analytics

2013년 9월 9일 이후 누적수치입니다.

판매지수 268
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

20,000원

  • 18,000 (10%할인)

    1,000P (5%적립)

할인혜택
적립혜택자동적립
배송정보
  • 예약판매
  • 2018-05-24 (공급업체사정에 따라 입고예정일은 변경될 수 있습니다.)
  • 배송지연보상 안내
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(35)

  • 사은품(2)

책소개

실제 데이터 분석에 가장 중요한 기초 데이터 전처리를 다룬다. 데이터 전처리 과정은 머신 러닝을 통해 만든 모델의 성능을 크게 좌우한다. 데이터 분석에 입문한다면 데이터 전처리를 위한 데이터 전처리 개념과 사용 도구, 주요 파일 형식, 정규 표현식 등 꼭 알아야 할 내용을 실습을 통해 쉽게 익힐 수 있다.

출판사 서평

[이 책에서 다루는 내용]

- 파이썬과 R로 CSV를 읽어 데이터의 통계량 출력하기
- 데이터 형식과 API를 활용한 데이터 추출에 필요한 프로그래밍 구조 학습
- 데이터 정리 과정에 필요한 정규 표현식의 효과적인 사용
- 수치 데이터 분석에 필요한 도구와 패키지 탐색
- 더 나은 데이터 구조 제어 방법 탐색
- 프로그래밍 방식을 통한 데이터의 읽기, 검사, 수정, 형태 변경
- 데이터셋을 불러오고 정제하고 출력하는 프로그램 작성

[이 책의 대상 독자]

데이터를 분석해보고 싶은 데이터 과학자, 데이터 분석가, 통계학자에게 유용한 책이다. R과 파이썬을 모두 다루기 때문에 큰 도움이 될 것이다

[이 책의 구성]

1장. '데이터 프로그래밍'에서는 데이터 처리 방법을 논의하고 이 책에서 다루는 내용을 개괄한다.

섹션 1. 데이터를 다루는 일반적인 프로그래밍 방법
2장. '파이썬 프로그래밍 소개'에서는 이 책에서 가장 많이 사용하는 프로그래밍 언어인 파이썬을 소개한다.
3장. '데이터 입력, 탐색, 수정: 1부'에서는 데이터를 처리하는 방법과 JSON 데이터 형식을 소개한다.
4장. '데이터 입력, 탐색, 수정: 2부'에서는 CSV와 XML 데이터 형식을 다룬다.
5장. '텍스트 데이터 처리: 정규 표현식 소개'에서는 정규 표현식을 이용해 주소로부터 도로명을 추출해본다.

섹션 2: 정형 데이터 처리
6장. '수치 데이터 정리: R과 RStudio 소개'에서는 R을 소개하고 RStudio를 이용해 수치 데이터를 정리하는 방법을 소개한다.
7장. 'dplyr을 이용한 데이터 처리 간소화'에서는 데이터를 강력하면서도 간단하게 다룰 수 있는 R의 dplyr 패키지를 소개한다.

섹션 3: 고급 데이터 입출력 방법
8장. '웹에서 데이터 수집하기'에서는 파이썬 API를 이용해 웹에서 데이터를 추출하는 방법을 다룬다.
9장. '대용량 데이터 처리'에서는 대용량 데이터 처리 시 발생할 수 있는 문제점을 논의하고 MongoDB를 이용해 대용량 데이터를 처리해본다.

목차

1장. 데이터 프로그래밍
-데이터 처리의 이해
-데이터의 수집과 읽어오기
-데이터 정리
-데이터 형성 및 구조화
-데이터 저장
-데이터 처리 도구
-파이썬
-R
-요약

2장. 파이썬 프로그래밍 소개
-외부 리소스
-이번 장 살펴보기
-설치 요구 사항
-다른 학습 리소스
-파이썬 2와 파이썬 3의 차이점
-파이썬에서 프로그램 실행
-텍스트 편집기를 사용해 프로그램 작성 및 관리
-터미널을 사용해 프로그램 실행
-동작하지 않면 어떻게 해야 할까?
-데이터 유형, 변수, 파이썬 셸
-숫자: 정수와 실수
-문자열
-부울 데이터 형식
-print 함수
-변수
-배열(파이썬에서의 리스트)
-사전
-복합문
-복합문 문법과 들여쓰기 수준
-for문과 이터러블
-if문
-함수
-프로그램에서 주석 달기
-프로그래머 리소스
-공식 문서
-온라인 포럼과 메일링 리스트
-요약

3장. 데이터 입력, 탐색, 수정: 1부
-외부 리소스
-이번 장 살펴보기
-설치 요구 사항
-데이터
-파일시스템 설정
-기본 데이터 처리 작업 흐름 소개
-JSON 파일 형식 소개
-파이썬의 파일 I/O를 이용한 파일 열기와 닫기
-open 함수와 파일 객체
-파일 구조: 데이터 저장을 위한 좋은 방법
-파일 열기
-파일 내용 읽기
-파이썬 모듈
-json 모듈을 이용한 JSON 파일 파싱
-데이터 파일의 내용 탐색
-데이터의 주요 내용 추출
-데이터상의 모든 변수 출력
-데이터셋 수정
-원본 데이터셋에서 데이터 변수 추출
-수정된 데이터를 새 파일에 기록
-터미널에서 입출력 파일명 지정
-터미널에서 파일명 지정
-요약

4장. 데이터 입력, 탐색, 수정: 2부
-이번 장 살펴보기
-파일시스템 설정
-데이터
-pandas 설치
-CSV 형식 이해
-csv 모듈 소개
-CSV 데이터를 읽고 처리하기 위해 csv 모듈 사용
-CSV 데이터 기록을 위한 csv 모듈 사용
-데이터를 읽고 처리하기 위해 pandas 모듈 사용
-2011년 총 도로 길이 다시 계산
-비표준 CSV 인코딩과 다이얼렉트 처리
-XML 이해
-XML과 JSON 비교
-XML 데이터 파싱을 위한 xmletreeElementTree 모듈 사용
-Xpath
-요약

5장. 텍스트 데이터 처리: 정규 표현식 소개
-이번 장 살펴보기
-데이터
-파일 구조 설정
-패턴 인식의 필요성
-정규 표현식 소개
-정규 표현식 작성
-특수 문자
-공백 문자 탐색
-시작 문자 탐색
-종료 문자 탐색
-문자 또는 숫자의 범위 탐색
-여러 패턴의 탐색
-하나의 문자가 아닌 문자열 시퀀스 탐색
-패턴 결합
-문자열로부터 패턴 추출
-정규 표현식의 split() 함수
-파이썬 정규 표현식 문서
-패턴 탐색
-패턴 정량화
-도로명 주소를 탐색하는 정규 표현식 작성
-탐색 횟수 측정
-탐색 정확도 검증
-패턴 추출
-출력 결과 파일 저장
-요약

6장. 수치 데이터 정리: R과 RStudio 소개
-이번 장 살펴보기
-데이터
-디렉터리 구조
-R과 Rstudio 설치
-R과 RStudio 소개
-RStudio 연습
-R 명령어 실행
-작업 디렉터리 지정
-데이터 불러오기
-R 데이터프레임
-R 벡터
-R 데이터프레임 인덱싱
-R을 활용한 2001년 데이터 분석
-기본적인 이상치 탐지 및 제거
-NA 값 처리
-결측치 제거
-결측치를 상수로 대체
-결측치 대체
-변수명과 내용
-요약

7장. dplyr을 이용한 데이터 처리 간소화
-이번 장 살펴보기
-데이터
-파일시스템 구성
-dplyr 및 tibble 패키지 설치
-dplyr 소개
-dplyr 시작하기
-명령어 체인 사용
-데이터프레임의 행 필터링
-항목별로 데이터 요약하기
-dplyr을 이용한 코드 재작성
-요약

8장. 웹에서 데이터 수집하기
-이번 장 살펴보기
-파일시스템 설정
-requests 모듈 설치
-인터넷 연결
-API 소개
-API를 통해 파이썬으로 데이터 추출하기
-결과 필터링을 위한 URL 파라미터 사용
-요약

9장. 대용량 데이터 처리
-이번 장 살펴보기
-시스템 요구 사항
-데이터
-파일시스템 설정
-MongoDB 설치
-시간 계획
-정리
-컴퓨터 메모리 이해
-데이터베이스 이해
-MongoDB 소개
-파이썬에서 MongoDB 사용하기
-요약

본문중에서

최종 사용자용으로 가공되지 않은 데이터가 있다. 프로젝트별로 데이터의 개수가 너무 많거나, 너무 적거나, 누락돼 있거나, 잘못돼 있거나, 또는 구조화되지 않거나 부적절한 형태로 구성돼 있을 수 있다. 이 책은 사용 가능한 데이터를 모으고 출력 데이터를 구성하는 방법을 다룬다. 각 장에서는 데이터 다루기에 대한 새로운 접근법을 보여주기 위해 하나 이상의 예시를 사용한다.
('지은이의 말' 중에서)

알파고 이후로 제4차 산업혁명, 인공지능 등의 키워드와 마찬가지로 머신 러닝이라는 용어도 많은 회사와 대중에게 더욱 친숙해지고 있다. 하지만 많은 관심을 받고 있는 머신 러닝 분야에서 데이터 전처리의 중요성은 상대적으로 강조되지 못하는 분위기다.
데이터에 맞는 머신 러닝 알고리즘과 적절한 파라미터를 선택하는 것만큼 데이터 전처리 과정 또한 매우 중요하다. 양질의 데이터를 통해 좋은 결과를 만들어낼 수 있으므로, 올바른 데이터 전처리는 필수라 해도 과언이 아니다. 데이터 전처리는 꽤 노동집약적인 작업으로, 데이터 분석가는 전처리 작업에 많은 시간을 할애하고 있다.
머신 러닝 알고리즘과 도구를 소개하는 책은 다양하지만 전처리 과정을 쉽게 접할 수 있도록 소개하는 책은 드물다.
이 책에서는 먼저 데이터를 처리하는 방법을 알아보고 가장 널리 사용되는 파이썬을 사용해 JSON, CSV, XML 파일을 처리하는 방법을 살펴본다. 다음으로 실무에 매우 유용한 정규 표현식에 대해 알아보고 수치 데이터 분석에 유리한 R과 RStudio에 대해서도 배운다. 또한 데이터 수집을 위한 웹 크롤링과 대용량 데이터 처리를 위한 MongoDB에 대해서도 간단히 다룬다. 이 책을 통해 머신 러닝을 위한 데이터 전처리 학습에 도움을 얻길 바란다.
이 책이 머신 러닝에 처음 입문하는 분들에게 조금이나마 보탬이 됐으면 하는 바람이다.
('옮긴이의 말' 중에서)

저자소개

앨런 비소첵(Allan Visochek) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 1종
판매수 2권

코네티컷 주 뉴 헤이븐에서 활동하고 있는 프리랜서 웹 개발자이자 데이터 분석가며, 업무 외적으로 머신 러닝과 인공지능에 관심이 많다. 지식을 가르치고 공유하기를 즐긴다. 유다시티(Udacity)의 데이터 분석 나노 학위(Nanodegree) 프로그램을 수료한 후, 유다시티에서 수개월간 포럼 멘토 및 프로젝트 검수자로 활동하면서 데이터 분석 프로젝트를 수행하는 학생들에게 도움을 줬다. learntoprogram.tv에 기술 자료를 기고하기도 한다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

데이터 분석과 머신 러닝에 관심이 많아 현재 고려대학교 산업경영공학과 데이터 사이언스 및 비즈니스 어낼리틱스(DSBA) 연구실에서 박사 과정을 밟고 있다. 이전에는 안랩에서 9년간 근무하며 악성코드 대응 및 침해 사고 분석 업무를 수행했다. 에이콘출판사에서 펴낸 [텐서플로 入門](2016), [리눅스 바이너리 분석](2016), [모의 해킹을 위한 메타스플로잇](2014), [케라스로 구현하는 딥러닝과 강화학습](2017) 등을 번역했다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

한양대학교 공과대학 컴퓨터공학부 및 동 대학원 컴퓨터·소프트웨어학과를 졸업했으며, 현재 한국전자통신연구원(ETRI)에 근무하고 있다. 관심 분야는 컴퓨터 보안과 머신 러닝이다.

이 상품의 시리즈

에이콘 데이터 과학 시리즈(총 39권 / 현재구매 가능도서 36권)

펼쳐보기

리뷰

0.0 (총 0건)

기대평

작성시 유의사항

평점
0/200자
등록하기

기대평

0.0

교환/환불

교환/환불 방법

‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

교환/환불 가능 기간

고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

교환/환불 비용

고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

교환/환불 불가사유

반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

소비자 피해보상

소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

기타

도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

배송안내

  • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

  • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

  • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

  • 배송비

도서(중고도서 포함) 구매

2,000원 (1만원이상 구매 시 무료배송)

음반/DVD/잡지/만화 구매

2,000원 (2만원이상 구매 시 무료배송)

도서와 음반/DVD/잡지/만화/
중고직배송상품을 함께 구매

2,000원 (1만원이상 구매 시 무료배송)

업체직접배송상품 구매

업체별 상이한 배송비 적용