간편결제, 신용카드 청구할인
카카오페이 3,000원
(카카오페이 머니 결제시 최대할인 3천원 / 5만원 이상 결제, 기간 중 1회)
인터파크 롯데카드 5% (28,220원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (20,790원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (23,760원)
(최대할인 4만원 / 2만원 이상 결제)
Close

파이썬을 활용한 데이터 길들이기 : 데이터 전처리 효율화 전략

소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 42
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

33,000원

  • 29,700 (10%할인)

    1,650P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
  • 추가혜택
    배송정보
    주문수량
    감소 증가
    • 이벤트/기획전

    • 연관도서(79)

    • 사은품(6)

    책소개

    미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매번 거쳐야 하는 이 수작업을 더 효율적으로, 더 똑똑하게 할 수는 없을까? 이에 대한 답을 [파이썬을 활용한 데이터 길들이기] 에서 찾아 보자! 여기에는 데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다.
    이 책은 일반적인 데이터 분석 프로젝트의 흐름을 따라 단계별로 구성되어 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 예전에는 너무 지저분하거나 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있을 것이다.
    매번 되풀이되는 데이터 분석 초기 단계를 좀 더 효율적으로 작업하고 싶었던 독자라면 이 책을 통해 데이터 분석 능력을 한 단계 업그레이드할 수 있을 것이다.

    목차

    1장 파이썬 소개
    왜 파이썬인가?
    파이썬 시작하기
    파이썬 버전 선택하기
    컴퓨터에 파이썬 설치하기
    파이썬 실행 테스트하기
    pip 설치하기
    코드 에디터 설치하기
    선택사항: IPython 설치하기
    요약

    2장 파이썬 기초
    기본적인 데이터 유형
    문자열
    정수와 실수
    데이터 컨테이너
    변수
    리스트
    딕셔너리
    각 데이터 유형으로 무엇을 할 수 있나?
    문자열 메서드: 문자열이 할 수 있는 것들
    수치형(numerical) 메서드: 숫자가 할 수 있는 것들
    리스트 메서드: 리스트가 할 수 있는 것들
    딕셔너리 메서드: 딕셔너리가 할 수 있는 것들
    유용한 도구: type, dir 그리고 help
    type
    dir
    help
    모두 종합하기
    이 모든 것이 무엇을 의미하는가?
    요약

    3장 기계가 읽을 수 있는 데이터
    CSV 데이터
    CSV 데이터 불러오기
    파일에 코드 저장하기; 명령 프롬프트에서 실행하기
    JSON 데이터
    JSON 데이터 불러오기
    XML 데이터
    XML 데이터 불러오기
    요약

    4장 엑셀 파일 다루기
    파이썬 패키지 설치하기
    엑셀 파일 파싱하기
    파싱 시작하기
    요약

    5장 파이썬에서의 PDF와 문제 해결
    PDF 사용을 자제하라!
    PDF 파싱에 대한 프로그램적인 접근
    slate를 사용하여 열고 읽기
    PDF를 텍스트로 변환하기
    pdfminer를 사용해 PDF 파싱하기
    문제 해결 방법 배우기
    예제: 표 추출 사용하기, 다른 라이브러리 사용하기
    예제: 수동으로 데이터 클리닝하기
    예제: 다른 도구 사용하기
    흔치 않은 파일 유형
    요약

    6장 데이터 수집 및 저장하기
    모든 데이터가 평등하게 창조되지는 않았다
    사실 확인하기
    가독성, 깔끔함 그리고 데이터의 지속성
    데이터를 어디에서 구할 수 있을까
    전화 걸기
    미 정부 데이터
    전 세계 정부 및 도시 오픈 데이터
    조직 및 비정부조직(NGO) 데이터
    교육 및 대학 데이터
    의료 및 과학 데이터
    크라우드소싱 데이터 및 API
    사례 연구: 데이터 예시 조사
    에볼라 사태
    기차 안전
    축구 선수 연봉
    아동 노동
    데이터 저장하기: 언제, 왜, 어떻게?
    데이터베이스: 간단한 소개
    관계형 데이터베이스: MySQL과 PostgreSQL
    비관계형 데이터베이스: NoSQL
    파이썬에서 로컬 데이터베이스 설정하기
    언제 간단한 파일을 사용하나
    클라우드 저장과 파이썬
    로컬 저장과 파이썬
    대안적인 데이터 저장 방법
    요약

    7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화
    왜 데이터를 클리닝하는가?
    데이터 클리닝 기초
    데이터 클리닝을 위한 값 찾기
    데이터 서식화하기
    이상치와 불량 데이터 찾기
    중복 기록 찾기
    퍼지 매칭
    정규식 매칭
    중복 기록 처리하기
    요약

    8장 데이터 클리닝하기: 표준화와 스크립트
    데이터 정규화 및 표준화
    데이터 저장하기
    프로젝트에 적절한 데이터 클리닝 방식 결정하기
    클리닝 스크립트 만들기
    새 데이터 테스트하기
    요약

    9장 데이터 탐색과 분석
    데이터 탐색하기
    데이터 불러오기
    표 함수 탐색하기
    다수의 데이터세트 결합하기
    상관관계 판별하기
    이상치 판별하기
    그룹화하기
    추가 탐색하기
    데이터 분석하기
    데이터를 분리하고 집중하기
    데이터가 무엇을 말하고 있나?
    결론 도출하기
    결론 문서화 하기
    요약

    10장 데이터 표현하기
    스토리텔링의 함정을 방지하기
    스토리를 어떻게 전달할 것인가?
    청중을 알라
    데이터 시각화하기
    차트
    시간 관련 데이터
    지도
    인터랙티브
    단어
    이미지, 비디오, 일러스트
    프레젠테이션 도구
    데이터 게재하기
    가능한 사이트 사용하기
    오픈소스 플랫폼: 새로운 사이트 만들기
    Jupyter(기존 IPython Notebooks)
    요약

    11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기
    스크래핑 대상과 방법
    웹 페이지 분석하기
    요소 검사 : 마크업 구조
    Network/Timeline 탭 : 페이지 로드 현황보기
    콘솔 탭 : 자바스크립트와 상호작용하기
    페이지 심층분석
    페이지 가져오기 : 페이지 요청 방법
    뷰티풀수프를 사용하여 웹페이지 읽어 들이기
    LXML로 웹페이지 읽어들이기
    XPath 사례
    요약

    12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더
    브라우저 기반 파싱
    셀레니움(Selenium)으로 하는 스크린 리딩
    Ghost.Py로 스크린 리딩하기
    웹 스파이더링
    Scrapy를 이용한 스파이더 구축
    Scrapy로 웹사이트 전체를 크롤링하기
    네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유
    변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유)
    몇 가지 주의 사항
    요약

    13장 API
    API에서 제공하는 기능들
    REST API vs. 스트리밍 API
    요청 제한
    데이터 볼륨 계층
    API 키와 토큰
    REST API로부터 간단한 데이터 받아 오기
    트위터 REST API를 사용한 고급 데이터 수집
    트위터 스트리밍 API를 통한 고급 데이터 수집
    요약

    14장 자동화와 규모 확장
    왜 자동화를 해야 할까?
    자동화 단계
    무엇이 잘못될 수 있는가?
    자동화 수행 위치
    자동화를 위한 특별한 도구들
    로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기
    데이터 처리를 위해 클라우드 사용하기
    병렬 프로세싱 사용하기
    분산 프로세싱 사용하기
    단순 자동화
    크론잡(CronJob)
    웹 인터페이스
    주피터 노트북(Jupyter Notebooks)
    대규모 자동화
    셀러리(Celery) : 큐 기반 자동화
    Ansible을 이용한 운영 자동화
    자동화 모니터링하기
    파이썬으로 로깅(logging)하기
    자동화된 메시지 보내기
    파일 업로드 및 기타 보고 방법
    로깅 및 모니터링 서비스
    완벽한 시스템은 없다
    요약

    15장 결론
    데이터 랭글러의 의무
    데이터 랭글링을 넘어
    더 나은 데이터 분석가가 되기
    더 나은 개발자가 되기
    더 나은 시각적 스토리텔러가 되기
    더 나은 시스템 아키텍트가 되기
    이젠 무엇을 할까?

    저자소개

    재클린 카질 [저] 신작알림 SMS신청 작가DB보기
    생년월일 -
    출생지 -
    출간도서 1종
    판매수 69권

    인간 행동과 개방형 데이터에 열정적인 데이터 과학자이자 소프트웨어 개발자이다. 파이썬과 데이터 과학 수업을 가르치고 있으며, 전직 대통령 혁신 펠로우(Presidential Innovation Fellows)이자 정부 기술 조직인 18F의 공동창립자이다. 그 전에는 워싱턴 포스트에서 데이터 저널리스트로 일했다.

    캐서린 자멀 [저] 신작알림 SMS신청 작가DB보기
    생년월일 -
    출생지 -
    출간도서 1종
    판매수 69권

    파이썬과 유닉스에서 데이터 분석과 수집, 웹 스크래핑, 교육을 즐기는 파이썬 개발자이다. PyLadies의 창립자 중 한 명이며 파이썬 초급부터 고급 주제에 이르는 다양한 워크숍과 튜토리얼을 진행했다.

    생년월일 -
    출생지 -
    출간도서 0종
    판매수 0권

    데이터를 직접 모으고 그 안에서 재미있는 현상을 발견하는 것을 좋아한다. 현재 미국 노스웨스턴 대학교 켈로그 경영대학원에서 마케팅 박사 과정 중이다.

    생년월일 -
    출생지 -
    출간도서 0종
    판매수 0권

    KAIST 문화기술대학원을 졸업하고 데이터몬스터즈를 창업하여 다양한 원천의 데이터를 살펴보는 컨설팅을 업이자 낙으로 삼고 있다. 옮긴 책으로 [R Cookbook],[R Graphics Cookbook],[복잡계와 데이터 과학]이 있다.

    생년월일 -
    출생지 -
    출간도서 0종
    판매수 0권

    KAIST 전산학과 웹사이언스대학원에서 석사를 취득하고 박사 과정을 수료했다. 뭐든지 직접 만들어 보는 것을 좋아하는 편이며 현재 자연어 처리와 머신 러닝 분야에서 연구를 진행하고 있다.

    이 상품의 시리즈

    Programming Insight 시리즈(총 88권 / 현재구매 가능도서 80권)

    펼쳐보기

    이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

      리뷰

      0.0 (총 0건)

      구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

      리뷰쓰기

      기대평

      작성시 유의사항

      평점
      0/200자
      등록하기

      기대평

      10.0

      교환/환불

      교환/환불 방법

      ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

      교환/환불 가능 기간

      고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

      교환/환불 비용

      고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

      교환/환불 불가사유

      반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
      배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

      소비자 피해보상

      소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
      교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

      기타

      도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

      배송안내

      • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

      • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

      • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

      • 배송비

      도서(중고도서 포함) 구매

      2,000원 (1만원이상 구매 시 무료배송)

      음반/DVD/잡지/만화 구매

      2,000원 (2만원이상 구매 시 무료배송)

      도서와 음반/DVD/잡지/만화/
      중고직배송상품을 함께 구매

      2,000원 (1만원이상 구매 시 무료배송)

      업체직접배송상품 구매

      업체별 상이한 배송비 적용