간편결제, 신용카드 청구할인
PAYCO(페이코) 최대 5,000원 할인
(페이코 신규 회원 및 90일 휴면 회원 한정)
네이버페이 1%
(네이버페이 결제 시 적립)
북피니언 롯데카드 30% (16,380원)
(최대할인 3만원 / 3만원 이상 결제)
EBS 롯데카드 20% (18,720원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 NEW 우리V카드 10% (21,060원)
(최대할인 3만원 / 3만원 이상 결제)
인터파크 현대카드 7% (21,770원)
(최대할인 3만원 / 3만원 이상 결제)
Close

한입에 웹 크롤링 : 파이썬 데이터 수집 자동화 한 방에 끝내기

소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 2,711
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

26,000원

  • 23,400 (10%할인)

    1,300P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
  • 추가혜택
    배송정보
    주문수량
    감소 증가
    • 북카트 담기
    • 바로구매
    • 매장픽업
    • 이벤트/기획전(2)

    • 연관도서

    • 사은품(6)

    책소개

    프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기

    인터넷에서 데이터를 수집하여 받아오는 것을 크롤링 또는 스크래핑이라고 하고, 크롤링을 하는 프로그램을 크롤러라고 합니다. 웹 크롤링은 단순 반복을 줄여주고 빠르게 처리할 수 있으며, 일의 효율을 높여 인간이 좀 더 인간답게 창의적인 활동에 집중할 수 있도록 도와주는 좋은 도구입니다. 하지만 진입 장벽이 제법 높습니다. 마치 구구단과 같습니다. 우리가 초등학교에서 구구단을 어렵게 공부했지만 지금은 자연스럽게 사용하듯이, 웹 크롤링도 처음 익힐 때는 조금 어렵지만 한번 익혀 놓으면 구구단처럼 평생 사용할 수 있는 좋은 도구입니다.

    이 책에서는 크롤러를 쉬운 것부터 조금 복잡한 것까지 단계별로 만들어 볼 예정입니다. 이 책을 통해 좀 더 많은 분들이 웹 크롤링이라는 도구를 이용해 일의 효율을 높이고 인간다우면서 창의적인 일에 몰두하여 조금 더 세상을 살기 좋게 만드는 데 기여를 하셨으면 좋겠습니다.

    출판사 서평

    '프'로그래밍 잘 '알'지 '못'해도
    참 쉬운 파이썬 데이터 수집 자동화


    일을 자동화하는 것은 이제는 필수를 넘어 생존 조건입니다. 만약 대량의 정보를 웹에서 지속적으로 받고 필요한 정보를 골라서 처리해야 한다면 어떨까요? 키워드를 하나씩 검색해서 정보를 얻고 저장하고 직접 가공한다면 많은 시간과 노력이 필요할 것입니다. 이런 상황이라면 비교적 짧은 시간을 거쳐 만든 크롤러가 당신의 삶의 질을 완전히 개선할 수 있습니다.

    본 책에서는 프로그래밍에 문외한인 분들도 자신만의 크롤러를 만들고 활용할 수 있도록 개발 환경 설치부터 코딩까지 그림과 함께 단계별로 쉽게 풀어서 설명하였습니다. 처음부터 모든 개념이 쉽게 다가오지는 않을 겁니다. 하지만, 한 단계씩 실습해보고, 다른 예시를 찾아보고 또한 비슷하게 자신만의 코드를 작성해본다면 훨씬 더 빠르고 깊게 프로그래밍에 익숙해질 겁니다. 초반의 작은 실패에 좌절하기보다 작은 성공을 보고 '할 수 있다'는 자신감을 얻으셨으면 좋겠습니다.

    [이 책의 특징]
    - 프로그래밍이나 파이썬 초보자도 어렵지 않게 이해할 수 있다.
    - 파이썬을 통한 웹 크롤링의 기초부터 API 이용까지 폭넓게 다루었다.
    - 생생한 실무 예제를 통해 다른 업무에도 활용할 수 있도록 구성되었다.

    [이 책이 필요한 독자]
    - 프로그래밍이 아직 익숙하지 않은 독자
    - 파이썬으로 프로그래밍을 시작하고 싶은 독자
    - 웹 크롤링의 기초부터 탄탄하게 배우고자 하는 독자

    [독자대상]
    초중급

    [소스코드 다운로드]
    https://github.com/bjpublic/webcrawling

    목차

    1장 파이썬에 대해서
    1.1 파이썬이란?
    1.2 파이썬을 쓰는 이유
    1.3 프로그래밍을 배워야 하는 이유

    2장 파이썬 개발 환경 구축하기
    2.1 파이썬3 설치하기
    2.2 파이참
    2.3 프로젝트
    2.4 패키지 만들기
    2.5 hello 출력하기

    3장 파이썬 기초
    3.1 변수와 상수
    3.2 if문
    3.3 함수
    3.4 사칙연산 예제로 배우는 함수 만들기
    3.5 반복문 for
    3.6 숫자
    3.7 문자열
    3.8 리스트
    3.9 딕셔너리
    3.10 딕셔너리 만들기
    3.11 라이브러리

    4장 웹 기초
    4.1 HTTP
    4.2 URL
    4.3 HTML

    5장 크롤러 만들기
    5.1 크롬 설치하기
    5.2 urllib 패키지
    5.3 뷰티풀솝 사용 방법
    5.4 네이버에서 특정 글자 추출하기
    5.5 네이버 메뉴 이름 뽑아내기
    5.6 타입
    5.7 네이버 뉴스 제목 가져오기

    6장 링크 수집하고 링크에 있는 내용 수집하기
    6.1 대상 사이트 구조 파악하기
    6.2 requests package 설치하기
    6.3 페이지 불러오기
    6.4 상세 페이지 링크 뽑아내기
    6.5 링크별로 들어가서 페이지 불러오기
    6.6 리스트에서 부분만 선택하기
    6.7 서브 페이지 호출하기
    6.8 서브 페이지에서 이름 추출하기
    6.9 위치 추출하기
    6.10 링크 추출하기
    6.11 함수로 묶기
    6.12 0부터 4번째까지 링크 상세 페이지 내용 추출하기

    7장 쇼핑몰 크롤링
    7.1 데이터 수집할 웹사이트 접속하기
    7.2 페이지 불러오기
    7.3 한 번에 안 뽑히는 경우 인덱스로 접근하기
    7.4 함수로 묶기
    7.5 제품명, 가격 함께 뽑기
    7.6 딕셔너리로 여러 개 값 리턴하기
    7.7 링크 뽑아내기
    7.8 한 페이지 데이터를 한 덩어리로 만들기
    7.9 한 페이지를 호출하는 부분을 함수로 감싸기
    7.10 1페이지부터 5페이지까지 데이터 받아오기

    8장 JSON 데이터 다루기
    8.1 JSON
    8.2 JSON 형식을 표로 표현하기
    8.3 파이썬으로 JSON 다루기
    8.4 엑셀에 데이터 넣고 데이터 나누기

    9장 네이버 API 이용하기
    9.1 애플리케이션 등록하기
    9.2 API 주소 알아보기
    9.3 requests 라이브러리 이용하기
    9.4 온라인 제이선 뷰어 이용하기
    9.5 API 호출한 후에 필요한 데이터 뽑아내기
    9.6 API 호출 결과인 JSON
    9.7 검색 결과 출력하기
    9.8 반복문으로 결과 출력하기
    9.9 특정 속성값만 뽑아내기
    9.10 [b], [/b] 없애기
    9.11 링크와 함께 출력하기
    9.12 검색 결과를 10개에서 100개로 늘리기
    9.13 함수로 묶기
    9.14 검색 결과 페이징하기
    9.15 결과 출력하기
    9.16 여러 페이지 호출하기
    9.17 제목, 블로거 이름, 링크만 뽑아서 엑셀에 넣기
    9.18 엑셀에 데이터 넣고 가공하기

    10장 세계 곡물 가격 JSON 데이터 호출해서 엑셀로 차트 그리기
    10.1 대상 사이트 접속하기
    10,2 대상 URL 알아보기
    10.3 파이썬에서 호출하기
    10.4 엑셀에 데이터를 넣고 차트 그리기

    11장 공공 데이터 API 이용하기
    11. 1 공공 데이터 들어가기
    11.2 오픈 API 신청하기
    11.3 신청한 API 활용하기
    11.4 서울의 심야 약국 수 조사
    11.5 커리어넷 진로직업정보 데이터로 원하는 직업 찾아보기

    12장 Git
    12.1 github.com 가입하기
    12.2 리포지토리
    12.3 GitHub에서 저장소 생성하기
    12.4 리모트 리포지토리를 로컬 리포지토리로 가져와서 사용하기
    12.5 GitHub의 다른 프로젝트 소스코드 가져와서 사용하기

    저자소개

    생년월일 -
    출생지 -
    출간도서 2종
    판매수 245권

    코인거래소 백엔드 개발자로 주말에는 프로그래밍 강의를 하고 있다. 블로그(http://krksap.tistory.com)를 운영하고 있으며, [초보자를 위한 Node.js 200제]를 저술하고 [웹 데이터 수집의 기술]을 번역하는 등 다방면에서 활동하는 개발자이다.

    저자의 다른책

    전체보기
    생년월일 -
    출생지 -
    출간도서 1종
    판매수 206권

    머신러닝 엔지니어로 서울대학교 컴퓨터공학부 석사 과정 중 블록체인, 메모리 시스템을 연구했다. 현재는 삼성전자 메모리 사업부에서 데이터 분석 및 인공지능 연구에 즐겁게 몰입하고 있다.

    이벤트 기획전

    이 책과 내용이 비슷한 책 ? 내용 유사도란? 이 도서가 가진 내용을 분석하여 기준 도서와 얼마나 많이 유사한 콘텐츠를 많이 가지고 있는가에 대한 비율입니다.

      리뷰

      0.0 (총 0건)

      기대평

      작성시 유의사항

      평점
      0/200자
      등록하기

      기대평

      0.0

      교환/환불

      교환/환불 방법

      ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

      교환/환불 가능 기간

      고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

      교환/환불 비용

      고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

      교환/환불 불가사유

      반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
      배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

      소비자 피해보상

      소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
      교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

      기타

      도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

      배송안내

      • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

      • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

      • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

      • 배송비

      도서(중고도서 포함) 구매

      2,000원 (1만원이상 구매 시 무료배송)

      음반/DVD/잡지/만화 구매

      2,000원 (2만원이상 구매 시 무료배송)

      도서와 음반/DVD/잡지/만화/
      중고직배송상품을 함께 구매

      2,000원 (1만원이상 구매 시 무료배송)

      업체직접배송상품 구매

      업체별 상이한 배송비 적용