간편결제, 신용카드 청구할인
카카오페이 3,000원
(카카오페이 5만원 이상 결제시, 6/1~6/30 기간 중 1회)
삼성카드 6% (12,690원)
(삼성카드 6% 청구할인)
인터파크 롯데카드 5% (12,830원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (9,450원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (10,800원)
(최대할인 4만원 / 2만원 이상 결제)
Close

주머니 속의 머신러닝 : 파이썬으로 구조적 데이터 다루기

원제 : Machine Learning Pocket Reference: Working with Structured Data in Python 1st Edition
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 137
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

15,000원

  • 13,500 (10%할인)

    750P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
추가혜택
배송정보
주문수량
감소 증가
  • 북카트 담기
  • 바로구매
  • 매장픽업
  • 이벤트/기획전

  • 연관도서(5)

  • 사은품(4)

책소개

머신러닝의 길잡이가 되어줄 주머니 속 핸드북!

이 책은 자세한 노트, 표, 예제를 담고 있으며, 구조적 데이터를 다루는 머신러닝의 기본을 탐색하는 데 도움이 되는 참고서이다.
또한 머신러닝 프로젝트의 수행 과정과 구조적 데이터를 분류하는 방법을 조망할 수 있어 프로그래머, 데이터 과학자, 인공지능 엔지니어에게 꼭 필요한 책이기도 하다. 클러스터링, 회귀, 차원성 감소를 비롯해 다음과 같은 여러 주제를 다룬다.

■ 타이타닉 데이터셋을 사용한 분류
■ 누락된 데이터를 다루는 등의 데이터 정리
■ 탐색적 데이터 분석
■ 샘플 데이터를 사용한 일반적인 전처리 과정
■ 모델에 유용한 특징의 선택
■ 모델의 선택
■ 분류 모델을 위한 평가지표와 평가
■ 다양한 머신러닝 기법을 사용한 회귀 예제
■ 회귀 모델을 위한 평가지표와 평가
■ 클러스터링
■ 차원성 감소

출판사 서평

머신러닝의 길잡이가 되어줄 Quick Reference!

인공지능을 구현하는 방법론 중 하나인 머신러닝에 대해 알아야 할 수학 공식이나 통계 지식이 너무 많아 압도될 때가 있습니다.
이 책은 이런 고민을 해결해 주는 책입니다. 너무 복잡하고 어려운 과정을 추상화해서 쉽게 사용하고 싶다거나, 알고리즘의 복잡한 내부를 바닥까지 이해하지는 못하더라도 머신러닝 알고리즘을 가져와 내 데이터에 바로 적용해 보고 싶을 때 사용할 수 있는 도구들을 소개하고 그 활용 방법을 알려줍니다.
다양한 데이터 분석기법 및 시각화 방법을 함축적 내용으로 소개하여, 옆에 두고 보면서 궁금한 것이 생겼을 때 찾아보는 용도로도 좋습니다.

이 책의 특징
머신러닝을 배울 때 참고하며 읽기 좋은 책
도구의 종류, 사용 방법, 각종 파라미터 등을 빠르게 훑으며 기억을 상기할 수 있는 좋은 레퍼런스 자료
머신러닝 모델의 구성 요소, 데이터와 모델의 평가 및 분석을 다양한 도구로 접근해 다각적으로 바라보는 방법을 제시

이 책의 대상 독자
머신러닝에 관심 있는 프로그래머
머신러닝의 방법론을 정립하고 싶은 분
머신러닝의 개념을 다시 한번 정리하고 싶은 분
머신러닝의 다양한 라이브러리와 시각화 방법을 알고 싶은 분

목차

CHAPTER 1 소개
1.1 사용된 라이브러리 2
1.2 Pip을 이용한 설치 5
1.3 Conda를 이용한 설치 7

CHAPTER 2 머신러닝 과정에 대한 개요

CHAPTER 3 분류 문제 둘러보기: 타이타닉 데이터셋
3.1 프로젝트 구조의 제안 11
3.2 필요한 패키지 12
3.3 질문을 하자 13
3.4 데이터에 관한 용어 14
3.5 데이터의 수집 15
3.6 데이터의 정리 16
3.7 특징의 생성 24
3.8 샘플 데이터 27
3.9 데이터의 대치 27
3.10 데이터의 표준화 29
3.11 리팩터링 30
3.12 베이스라인 모델 31
3.13 다양한 알고리즘 32
3.14 스태킹 34
3.15 모델 만들기 35
3.16 모델의 평가 36
3.17 모델의 최적화 37
3.18 오차 행렬 38
3.19 ROC 곡선 40
3.20 학습 곡선 41
3.21 모델의 배포 42

CHAPTER 4 누락된 데이터
4.1 누락된 데이터의 분석 46
4.2 누락된 데이터의 삭제 50
4.3 데이터의 대치 51
4.4 지시자 열의 추가 52

CHAPTER 5 데이터의 정리
5.1 열의 이름 53
5.2 누락된 값의 교체 54

CHAPTER 6 탐색
6.1 데이터의 크기 57
6.2 요약 통계 58
6.3 히스토그램 59
6.4 산점도 60
6.5 조인트 플롯 61
6.6 쌍 격자 63
6.7 박스 플롯과 바이올린 플롯 65
6.8 두 순서형 값의 비교 66
6.9 상관관계 68
6.10 라드비즈 72
6.11 평행 좌표 74

CHAPTER 7 데이터 전처리
7.1 표준화 77
7.2 범위 조정 79
7.3 더미 변수 80
7.4 레이블 인코더 82
7.5 프리퀀시 인코딩 83
7.6 문자열에서 범주 가져오기 83
7.7 그 밖의 범주형 인코딩 85
7.8 날짜형 데이터의 특징 공학 88
7.9 col_na 특징의 추가 89
7.10 수동적 특징 공학 90

CHAPTER 8 특징의 선택
8.1 공선성을 가진 열 94
8.2 라소 회귀 97
8.3 재귀적 특징 제거 99
8.4 상호 정보량 100
8.5 주성분 분석 102
8.6 특징 중요도 102

CHAPTER 9 불균형 범주의 문제
9.1 다른 평가 지표 사용하기 103
9.2 트리 기반 알고리즘과 앙상블 103
9.3 모델에 페널티 부과하기 104
9.4 소수집단 데이터 업샘플링하기 105
9.5 소수집단 데이터 생성하기 106
9.6 과반수집단 데이터를 다운샘플링하기 106
9.7 업샘플링 후 다운샘플링하기 108

CHAPTER 10 분류
10.1 로지스틱 회귀 111
10.2 나이브 베이즈 116
10.3 서포트 벡터 머신 118
10.4 K-최근접 이웃 122
10.5 디시전 트리 125
10.6 랜덤 포레스트 134
10.7 XGBoost 139
10.8 LightGBM을 사용한 그래디언트 부스팅 150
10.9 TPOT 156

CHAPTER 11 모델 선택
11.1 검증 곡선 161
11.2 학습 곡선 163

CHAPTER 12 분류용 평가 지표로 평가하기
12.1 오차 행렬 165
12.2 평가 지표 168
12.3 정확도 170
12.4 재현율 171
12.5 정밀도 171
12.6 F1 171
12.7 분류 보고서 172
12.8 ROC 173
12.9 정밀도-재현율 곡선 174
12.10 누적 이득 도표 175
12.11 리프트 곡선 177
12.12 범주의 균형 179
12.13 범주 예측 오류 180
12.14 차별 임계치 181

CHAPTER 13 모델 설명
13.1 회귀 계수 183
13.2 특징 중요도 184
13.3 LIME 184
13.4 트리 기반 모델의 해석 186
13.5 부분 의존성 도표 187
13.6 대리 모델 191
13.7 SHAP 192

CHAPTER 14 회귀
14.1 베이스라인 모델 200
14.2 선형 회귀 200
14.3 SVM 204
14.4 K-최근접 이웃 207
14.5 디시전 트리 209
14.6 랜덤 포레스트 216
14.7 XGBoost 회귀 220
14.8 LightGBM 회귀 분석 227

CHAPTER 15 회귀용 평가 지표로 평가하기
15.1 평가 지표 233
15.2 잔차 도표 236
15.3 이분산성 237
15.4 정규 잔차 238
15.5 예측 오차 도표 240

CHAPTER 16 회귀 모델의 해석
16.1 SHAP 243

CHAPTER 17 차원성 감소
17.1 PCA 250
17.2 UMAP 269
17.3 t-SNE 275
17.4 PHATE 279

CHAPTER 18 클러스터링
18.1 K-평균 285
18.2 응집 클러스터링 293
18.3 클러스터의 이해 296

CHAPTER 19 파이프라인
19.1 분류 파이프라인 303
19.2 회귀 파이프라인 306
19.3 PCA 파이프라인 307

본문중에서

이 책에서는 다양한 라이브러리를 사용한다. 이는 장점인 동시에 단점일 수 있다. 이들 중 일부는 설치가 까다롭거나 다른 라이브러리 버전과 충돌 문제가 발생할 수 있다. 모든 라이브러리를 설치해야 하는 것은 아니며, 필요한 라이브러리를 상황에 맞게 ‘그때그때 설치’하면 된다. _2p

이번에 다룰 예제에서는 질문에 대답을 하는 예측 모델을 만들고자 한다. 타이타닉호 참사에서의 생존 여부는 탑승객 및 여행의 특징으로 분류할 것이다. 간단한 프로젝트이지만, 여러 모델링 단계를 보여 주는 교육적인 도구로서의 역할을 할 것이다. 우리가 만들 모델은 탑승객의 정보를 입력받아 해당 탑승객이 타이타닉에서 생존했을지를 예측할 수 있어야 한다. 생존했는지 사망했는지, 생존이라는 레이블을 예측하기 때문에 이는 분류 문제다. _13p

이 시점에서 코드를 리팩터링한다. 보통 2개의 함수를 만드는데, 하나는 데이터 정리 작업에 대한 것이고, 다른 하나는 데이터를 학습용과 테스트용으로 분리한 다음 각 데이터셋마다 필요한 다른 변환 처리 작업을 수행하기 위한 것이다. _30p

라드비즈(RadViz) 도표는 각 표본을 원 속에 표현하는데, 원의 둘레 부분에 특징을 표시한다(그림 6-12). 값들은 정규화되어 표현된다. 각 특징마다 표본 값들에 연결된 가상의 실이 있다고 상상해 보자. 그러면 표본들은 값을 기준으로 서로의 특징 방향으로 당겨지는 형태가 된다. 이 도표는 타깃들 사이의 분리 가능성을 시각화하는 한 가지 기법이다. _72p

차원의 저주(curse of dimensionality)는 고려되어야 할 또 다른 문제다. 차원을 증가시키면 증가시킬수록 데이터의 밀도는 점점 더 희박해지며, 근접 계산(neighbor calculation)은 그 유용성을 상실하게 된다. 따라서 밀도의 빈 공간을 채워 넣기 위해서는 더 많은 데이터가 필요하고, 만약 충분한 데이터가 없다면 데이터로부터 신호(signal)을 끄집어내기가 어려워진다. _93p

클러스터링은 그룹을 여러 집단으로 분리하는 데 사용되는 비지도 머신러닝 기법이다. 비지도인 이유는 모델에 주입될 레이블이 없기 때문이다. 단지 특징들의 검사를 통해, 같은 클러스터에 속할 유사한 샘플들을 선별한다. 18장에서는 K-평균(K-means) 및 계층적 클러스터링(hierarchical clustering) 방법을 알아보고, 다양한 기법을 사용하여 타이타닉 데이터셋을 살펴본다. _285p

관련이미지

저자소개

맷 해리슨(Matt Harrison) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

맷 해리슨은 파이썬과 데이터 과학을 위한 교육 및 컨설팅 회사인 MetaSnake를 운영 중이다. 2000년부터 데이터 과학, BI, 스토리지, 테스트 및 자동화, 오픈소스 스택 관리, 금융, 검색 등 다양한 도메인에서 파이썬을 활용한 경험이 많다.

생년월일 -
출생지 -
출간도서 0종
판매수 0권

인제대학교와 워싱턴 주립 대학교에서 컴퓨터공학을 전공했으며 현재는 한국전자통신연구원에서 컴퓨터 네트워크 분야를 연구 및 개발한다. ML GDE(Google Developers Expert for Machine Learning)이자 TensorFlow Korea 및 fast.ai KR 커뮤니티 운영자이며, 관련 분야의 번역자로도 활동한다. 『나만의 스마트워크 환경 만들기』(비제이퍼블릭, 2020)를 집필했다. 프로그래밍과 다양한 언어에 관심이 많으며 지금까지 진행한 프로젝트에서 C/C++, 자바, 파이썬, Go 언어를 사용했다.

역자의 다른책

전체보기

리뷰

10.0 (총 0건)

구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

리뷰쓰기

기대평

작성시 유의사항

평점
0/200자
등록하기

기대평

0.0

교환/환불

교환/환불 방법

‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

교환/환불 가능 기간

고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

교환/환불 비용

고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

교환/환불 불가사유

반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

소비자 피해보상

소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

기타

도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

배송안내

  • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

  • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

  • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

  • 배송비

도서(중고도서 포함) 구매

2,000원 (1만원이상 구매 시 무료배송)

음반/DVD/잡지/만화 구매

2,000원 (2만원이상 구매 시 무료배송)

도서와 음반/DVD/잡지/만화/
중고직배송상품을 함께 구매

2,000원 (1만원이상 구매 시 무료배송)

업체직접배송상품 구매

업체별 상이한 배송비 적용