간편결제, 신용카드 청구할인
카카오페이 3,000원
(카카오페이 5만원 이상 결제시, 5/1~5/31 기간 중 1회)
우리카드 3천원/7천원/1만 5천원 즉시할인
3만원/5만원/10만원 이상 결제시
삼성카드 6% (25,380원)
(삼성카드 6% 청구할인)
인터파크 롯데카드 5% (25,650원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (18,900원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (21,600원)
(최대할인 4만원 / 2만원 이상 결제)
Close

파이썬을 이용한 웹 크롤링과 스크레이핑 : 데이터 수집과 분석을 위한 실전 가이드

소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 159
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

30,000원

  • 27,000 (10%할인)

    1,500P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
추가혜택
배송정보
주문수량
감소 증가
  • 북카트 담기
  • 바로구매
  • 매장픽업
  • 이벤트/기획전

  • 연관도서(52)

  • 사은품(3)

책소개

[파이썬을 이용한 웹 크롤링과 스크레이핑]은 파이썬을 이용한 데이터 수집과 분석을 위해 입문에서 실전까지 상세하게 설명한 책입니다. 기본적인 크롤링과 API를 활용한 데이터 수집은 물론, HTML과 XML 분석부터 데이터 수집 후 분석 및 머신러닝 처리에 대한 설명까지, 데이터를 수집하고 분석해서 활용할 수 있는 방법까지 확실하게 이해할 수 있도록 기초부터 차근차근 알려 줍니다. 웹 서비스 개발이나 데이터 과학 또는 머신러닝 분야에서 실무에 활용하고자 하는 사람들은 물론, 파이썬을 처음 배우는 초보자도 따라 하면서 학습할 수 있게끔 친절하게 구성했으며, 파이썬을 이용한 다양한 라이브러리와 강력한 프레임워크를 활용해 효율적인 개발이 가능하도록 도와줍니다.

출판사 서평

이 책은 크롤링/스크레이핑과 관련된 내용을 정말 자세하게 다루는 책입니다. '기본적인 유닉스 명령어를 사용해 크롤링/스크레이핑하는 방법'부터 '파이썬 프레임워크인 Scrapy를 사용해 크롤링/스크레이핑하는 방법'까지 현재 사용되고 있는 크롤링/스크레이핑 방법을 전반적으로 다룹니다.

이 책의 구성

1장에서는 파이썬을 사용하지 않고, 유닉스 명령어로 간단하게 크롤링/스크레이핑하는 방법을 소개합니다. 크롤링과 스크레이핑이 무엇인지 조금은 느낄 수 있을 것입니다.
2장에서는 파이썬 표준 라이브러리만으로 크롤링/스크레이핑을 합니다. 파이썬을 사용하면 유연한 스크레이핑이 가능하다는 것을 느낄 수 있을 것입니다.
3장에서는 편리하게 사용할 수 있는 서드파티 라이브러리를 사용해 크롤링/스크레이핑합니다. 서드파티 라이브러리를 사용하면 표준 라이브러리만으로는 어려운 처리를 간단하게 할 수 있습니다.
4장에서는 실제로 웹사이트를 대상으로 크롤링/스크레이핑할 때 주의해야 할 점을 설명합니다.
5장에서는 실제 웹사이트에서 데이터를 수집하고 활용해 봅니다. 데이터 세트 또는 API로 데이터를 수집하거나 그래프로 그리거나 자연 언어를 처리하는 등의 데이터 활용에 대해서도 설명합니다.
6장에서는 강력한 크롤링/스크레이핑 프레임워크인 Scrapy를 사용해 효율적인 크롤러를 간단하게 만들어 봅니다. 또한 내용 검색 또는 얼굴 인식 등과 관련된 데이터 활용에 대해서도 설명합니다.
7장에서는 크롤러를 지속적으로 운용할 때 필요한 것들을 소개합니다. 또한 크롤링을 빠르게 할 수 있는 효율적인 방법에 대해서도 설명합니다.

목차

01장: 크롤링과 스크레이핑이란?
1.1 이 책에서 다루는 영역
- 1.1.1 크롤링과 스크레이핑
- 1.1.2 크롤링/스크레이핑과 파이썬
- 1.1.3 이 책에서 사용하는 플랫폼
- 1.1.4 이 책의 구성
1.2 Wget으로 크롤링하기
- 1.2.1 Wget이란?
- 1.2.2 wget 사용법
- 1.2.3 실제 사이트 크롤링하기
1.3 유닉스 명령어로 스크레이핑하기
- 1.3.1 유닉스 명령어 기초 지식
- 1.3.2 텍스트 처리와 관련된 유닉스 명령어
- 1.3.3 정규 표현식
1.4 한빛미디어의 전체 도서 목록 중에서 페이지 하나 출력하기
- 1.4.1 도서 목록 추출하기
1.5 정리

02장: 파이썬으로 시작하는 크롤링/스크레이핑
2.1 파이썬을 사용할 때의 장점
- 2.1.1 언어 자체의 특
- 2.1.2 강력한 서드파티 라이브러리
- 2.1.3 스크레이핑 이후 처리와의 친화성
2.2 파이썬 설치와 실행
- 2.2.1 파이썬 2와 파이썬 3
- 2.2.2 패키지 매니저로 파이썬 3 설치하기
- 2.2.3 가상 환경(venv) 사용하기
- 2.2.4 인터랙티브 셸 사용
2.3 파이썬 기초 지식
- 2.3.1 스크립트 파일 실행과 구성
- 2.3.2 기본적인 데이터 구조
- 2.3.3 제어 구조와 함수/클래스 정의
- 2.3.4 내장 함수
- 2.3.5 모듈
2.4 웹 페이지 추출하기
- 2.4.1 urllib으로 웹 페이지 추출하기
- 2.4.2 문자 코드 다루기
2.5 웹 페이지에서 데이터 추출하기
- 2.5.1 정규 표현식으로 스크레이핑하기
- 2.5.2 XML(RSS) 스크레이핑
2.6 데이터 저장하기
- 2.6.1 CSV 형식으로 저장하기
- 2.6.2 JSON 형식으로 저장하기
- 2.6.3 데이터베이스(SQLite3)에 저장하기
2.7 파이썬으로 스크레이핑하는 흐름
2.8 정리

03장: 주요 라이브러리 활용
3.1 라이브러리 설치
- 3.1.1 pip으로 설치하기
3.2 웹 페이지 간단하게 추출하기
3.3 HTML 스크레이핑
- 3.3.1 XPath와 CSS 선택자
- 3.3.2 lxml로 스크레이핑하기
- 3.3.3 Beautiful Soup로 스크레이핑하기
3.4 RSS 스크레이핑하기
3.5 데이터베이스에 저장하기
- 3.5.1 MySQL에 데이터 저장하기
- 3.5.2 MongoDB에 데이터 저장하기
3.6 크롤러와 URL
- 3.6.1 URL 기초 기식
- 3.6.2 퍼머링크와 링크 구조 패턴
- 3.6.3 재실행을 고려한 데이터 설계
3.7 파이썬으로 크롤러 만들기
- 3.7.1 목록 페이지에서 퍼머 링크 목록 추출하기
- 3.7.2 상세 페이지에서 스크레이핑하기
- 3.7.3 상세 페이지 크롤링하기
- 3.7.4 스크레이핑한 데이터 저장하기
3.8 정리

04장: 크롤러를 사용할 때 기억해야 하는 것
4.1 크롤러 분류하기
- 4.1.1 상태를 가지는 지로 분류하기
- 4.1.2 자바스크립트를 실행할 수 있는지로 분류하기
- 4.1.3 불특정 다수의 사이트를 대상하고 있는지로 분류하기
4.2 크롤러를 만들 때 주의해야 하는 것
- 4.2.2 robots.txt로 크롤러에게 지시하기
- 4.2.3 XML 사이트맵
- 4.2.4 크롤링 대상에 대한 부하
- 4.2.5 연락처 명시하기
- 4.2.6 상태 코드와 오류 처리
4.3 여러 번 사용을 전제로 설계하기
- 4.3.1 변경된 데이터만 추출하기
4.4 크롤링 대상의 변화에 대응하기
- 4.4.1 변화 감지하기
- 4.4.2 변화 통지하기
4.5 정리

05장: 크롤링/스크레이핑 실전과 데이터 활용
5.1 데이터 세트 추출과 활용
- 5.1.1 위키백과 데이터 세트 다운로드하기
- 5.1.2 자연어 처리를 사용한 빈출 단어 추출
5.2 API로 데이터 수집하고 활용하기
- 5.2.1 트위터에서 데이터 수집하기
- 5.2.2 유튜브에서 동영상 정보 수집하기
5.3 시계열 데이터 수집하고 활용하기
- 5.3.1 환율 데이터 수집
- 5.3.2 pandas와 CSV 파일
- 5.3.3 그래프로 시각화하기
5.4 열린 데이터 수집과 활용
- 5.4.1 열린 데이터란?
- 5.4.2 PDF에서 데이터 추출하기
- 5.4.3 Linked Open Data를 기반으로 데이터 수집하기
5.5 웹 페이지 자동 조작
- 5.5.1 자동 조작 구현 방법
- 5.5.2 네이버페이 주문 이력 추출하기
5.6 자바스크립트를 이용한 페이지 스크레이핑
- 5.6.1 자바스크립트를 사용한 페이지에 대한 대응 방법
- 5.6.2 PhantomJS 활용하기
- 5.6.3 RSS 피드 생성하기
5.7 추출한 데이터 활용하기
- 5.7.1 지도로 시각화하기
- 5.7.2 BigQuery로 해석하기
5.8 정리

06장: Scrapy 프레임워크
6.1 Scrapy 개요
- 6.1.1 Scrapy 설치
- 6.1.2 Spider 실행하기
6.2 Spider 만들고 실행하기
- 6.2.1 Scrapy 프로젝트 만들기
- 6.2.2 Item 만들기
- 6.2.3 Spider 만들기
- 6.2.4 Scrapy Shell로 인터랙티브하게 스크레이핑하기
- 6.2.5 Spider 실행하기
6.3 실전적인 크롤링
- 6.3.1 크롤링으로 링크 순회하기
- 6.3.2 XML 사이트맵을 사용해 크롤링하기
6.4 추출한 데이터 처리하기
- 6.4.1 Item Pipeline 개요
- 6.4.2 데이터 검증
- 6.4.3 MongoDB에 데이터 저장하기
- 6.4.4 MySQL에 데이터 저장하기
6.5 Scrapy 설정
- 6.5.1 설정 방법
- 6.5.2 크롤링 대상에 폐를 끼치지 않기 위한 설정 항목
- 6.5.3 병렬 처리와 관련된 설정 항목
- 6.5.4 HTTP 요청과 관련된 설정
- 6.5.5 HTTP 캐시 설정 항목
- 6.5.6 오류 처리와 관련된 설정
- 6.5.7 프락시 사용하기
6.6 Scrapy 확장하기
- 6.6.1 다운로드 처리 확장하기
- 6.6.2 Spider의 동작 확장하기
6.7 크롤링으로 데이터 수집하고 활용하기
- 6.7.1 음식점 정보 수집
- 6.7.2 불특정 다수의 웹사이트 크롤링하기
6.8 이미지 수집과 활용
- 6.8.1 플리커에서 이미지 수집하기
- 6.8.2 OpenCV로 얼굴 이미지 추출하기
6.9 정리

07장: 크롤러의 지속적 운용과 관리
7.1 크롤러를 서버에서 실행하기
- 7.1.1 가상 서버 만들기
- 7.1.2 서버에 디플로이하기
7.2 크롤러를 정기적으로 실행하기
- 7.2.1 Cron 설정
- 7.2.2 오류 통지
7.3 크롤링과 스크레이핑 분리하기
- 7.3.1 메시지 큐 RQ 사용 방법
- 7.3.2 메시지 큐로 연동하기
- 7.3.3 메시지 큐 운용하기
7.4 크롤링 성능 향상과 비동기 처리
- 7.4.1 멀티 스레드와 멀티 프로세스
- 7.4.2 비동기 I/O를 사용해 효율적으로 크롤링하기
7.5 클라우드 활용하기
- 7.5.1 클라우드의 장점
- 7.5.2 AWS SDK 사용하기
- 7.5.3 클라우드 스토리지 사용하기
7.6 정리

부록: 베이그런트로 개발 환경 구축하기
A.1 버추얼박스와 베이그런트
- A.1.1 버추얼박스란?
- A.1.2 베이그런트란?
A.2 CPU 가상화 지원 기능 활성화하기
- A.2.1 윈도우 10의 경우
- A.2.2 윈도우 7의 경우
- A.2.3 펌웨어 설정으로 가상화 지원 기능 활성화하기
A.3 버추얼박스 설치하기
A.4 베이그런트 설치하기
A.5 가상 머신 실행하기
A.6 게스트 OS에 SSH 접속하기
- A.6.1 Tera Term 설치
- A.6.2 Tera Term으로 게스트 OS에 SSH로 접속하기
A.7 리눅스 기본 조작
- A.7.1 소프트웨어 설치하기
A.8 베이그런트의 가상 머신 조작 명령어
- A.8.1 가상 머신 실행하기(vagrant up)
- A.8.2 가상 머신 종료/재실행하기(vagrant halt/reload)
- A.8.3 가상 머신 제거하기(vagrant destroy)
- A.8.4 가상 머신 상태 출력하기(vagrant status)
- A.8.5 가상 머신에 SSH로 접속하기(vagrant ssh)
- A.8.6 가상 머신 익스포트하기(vagrant package)

저자소개

생년월일 -
출생지 -
출간도서 1종
판매수 266권

파이썬과의 만남은 Django.
사용하기 쉬운 UI 만들기와 자동화를 좋아함.
간사이에 있는 시스템 통합 업체에서 근무.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

어쩌다가 책을 집필/번역하기 시작해서, 지금까지 계속해서 집필/번역하고 있다. 현재 직업 특성상 집에서 나갈 이유가 별로 없다는 것에 굉장히 만족하고 있다. 오전에는 커피, 오후에는 홍차를 마신다. 요리, 피아노, 기타, 작곡, 그림, 스컬핑 등의 취미를 갖고 있다. 《HTML5 웹 프로그래밍 입문》 《혼자 공부하는 파이썬》 《모던 웹을 위한 HTML5+CSS3 바이블》 등을 저술했으며 《최신 표준 HTML+CSS 디자인》 《파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문》 《파이썬을 이용한 웹 크롤링과 스크레이핑》 등을 번역하였다. 이 책의 역자 소개를 작성하는 시점을 기준

펼쳐보기

역자의 다른책

전체보기
펼쳐보기

이 상품의 시리즈

(총 69권 / 현재구매 가능도서 53권)

펼쳐보기

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

    리뷰쓰기

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    0.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용