간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (28,220원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (20,790원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (23,760원)
(최대할인 4만원 / 2만원 이상 결제)
Close

예제로 배우는 파이썬 머신러닝 : 텐서플로 2, 파이토치, 사이킷런으로

원제 : Python Machine Learning by Example - Third Edition
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 59
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기

만들면서 배우는 다양한 인공지능 시스템

정가

33,000원

  • 29,700 (10%할인)

    1,650P (5%적립)

할인혜택
적립혜택
  • S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택
배송정보
  • 6/21(금) 이내 발송 예정  (서울시 강남구 삼성로 512)
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(27)

  • 상품권

AD

라이브북

책소개

다양한 알고리즘과 최신 기법으로 머신러닝 개발 실무 능력 레벨업

인공지능 시스템 구축에 필요한 지식과 개발 방법을 망라한 가이드북. 꾸준히 개정되어 이번 3판에는 영화 추천 엔진(나이브 베이즈), 얼굴 인식(SVM), 주가 예측(신경망), 옷 이미지 분류(CNN), 시퀀스 예측(RNN), 강화학습 등 6개 장이 추가되었다. 주요 파이썬 머신러닝 알고리즘을 라이브러리 없이 혹은 텐서플로/케라스 같은 라이브러리를 사용해서 구현해본다. 풍부한 예제를 통해 특징 공학, 분류, 회귀, 군집화, NLP 등 업계에서 널리 활용되는 머신러닝 기법의 작동 원리를 익힐 수 있다.

출판사 서평

다양한 프레임워크, 다양한 알고리즘, 다양한 예제로 익히는 실전 머신러닝 개발

머신러닝이 업계 전반에서 널리 활용되고 있지만, 기법과 도구는 나날이 새로워지고 있어 어떤 조합을 어떤 시나리오에 적용할지 막막함을 느끼는 실무자가 많다. 이 책은 일부 알고리즘을 깊이 파고들기보다는 다양한 애플리케이션 예제를 훑고 구현함으로써 EDA, 특징 공학, 분류, 회귀, 군집화, NLP 등 영역에서의 머신러닝 알고리즘의 작동 원리를 되새길 수 있게 한다.

1장은 머신러닝 기술을 개괄하고, 바로 2장부터 나이브 베이즈를 이용해 영화 추천 엔진을 구축해본다. 라이브러리 없이 ‘밑바닥부터’ 구현하는 법과 사이킷런을 이용하는 법을 모두 다루며, 이러한 방식이 이후 챕터에서도 자주 반복된다. 3장은 SVM을 설명하고 얼굴 인식이나 심전도 분류에 활용한다.

4장부터 6장은 온라인 광고 클릭률 데이터셋을 사용한 예측을 살펴본다. 4장은 의사결정 트리, 랜덤 포레스트 등 트리 기반 알고리즘으로, 5장은 로지스틱 회귀로 광고 클릭률 예측기를 만들어본다. 이 과정에서 사이킷런, XGBoost, 텐서플로 등 익숙한 라이브러리들의 사용법도 익힐 수 있다. 6장은 스파크를 사용해 테라바이트 규모의 로그를 분석해봄으로써 광고 클릭률 예측기를 더욱 확장한다.

7장과 8장은 누구나 관심 있는 주가 예측 문제를 다룬다. 7장에서는 회귀 기법을 자세히 설명한 다음에, 8장에서는 딥러닝의 기초인 신경망을 설명한 다음에 여러 방식으로 구현해 주가 예측에 적용해본다.

9장과 10장은 뉴스그룹 데이터셋을 예시로 NLP 애플리케이션을 실습한다. NLP에서 널리 쓰이는 라이브러리들을 개괄한 다음, 토큰화, 어간 추출, 표제어 추출 등 NLP의 기초를 설명하고, 나아가 차원 축소(t-SNE), 비지도학습(주제 모델링, k-평균 군집화)까지 살펴본다. 11장은 잠시 숨을 고르고 머신러닝 작업 워크플로에서 단계별로 대표적인 모범 사례를 꼽아 살펴본다.

12장과 13장은 각각 CNN과 RNN을 다룬다. 텐서플로(케라스)를 사용하여, 12장은 의류 이미지 분류기를 만들며 데이터 증강 같은 유용한 기법을 소개하고, 13장은 감정 분석과 텍스트 생성 실습을 하며 트랜스포머 같은 최신 모델도 소개한다. 마지막 14장은 OpenAI Gym 환경에서 가치 반복, 정책 반복, Q-러닝 등을 이용해 강화학습을 실습해본다.

책 전체에 걸쳐 수많은 도구, 기법, 개념이 등장하지만, 하나하나를 자세히 살펴보기보다는 큰 그림과 실제 구현하는 법에 초점을 둔 책이다. 아직 다양한 개발 경험을 쌓지 못한 실무자들에게 풍성한 간접경험을 제공한다는 점이 큰 미덕이다. EDA, 특징 공학, 분류, 회귀, 군집화, NLP 등 업계에서 널리 활용되는 머신러닝 기법의 작동 원리를 살펴봄으로써 오늘날의 ‘거의 모든’ 머신러닝 커리큘럼을 접할 수 있다.

주요 내용
■ 머신러닝 및 데이터 과학에서 다루는 주요 개념
■ 파이썬을 활용한 데이터 마이닝 및 분석
■ 아파치 스파크로 복잡한 데이터를 이용하는 모델 훈련 확장
■ NLTK, 젠심 같은 파이썬 라이브러리를 통한 텍스트 분석 및 NLP
■ 머신러닝 모델 선택, 구축, 성능 평가, 최적화
■ 바닐라 파이썬, 텐서플로 2, 파이토치, 사이킷런 등으로 머신러닝 알고리즘 구현

추천사

코디 잭슨(Cody Jackson)(소프트웨어 디자인 엔지니어)
《Python Machine Learning, 3rd Edition》(Packt, 2019)을 보완하는 좋은 참고서다. 해당 교과서는 ML 프로그래밍 이론 및 범용 애플리케이션을 다루지만, 이 책은 구체적인 애플리케이션 예제들에 초점을 둔다. (…) 예를 들어 나이브 베이즈 분류 하나에 대해서만 한 챕터 전체를 할애하여, 여러 분류 기법을 논하고 작동 원리를 살펴보며 실제로 애플리케이션을 구현해본다. (…) 마치 해당 교과서를 보완하는 실습용 워크북 같은 역할을 한다. 둘을 각각 봐도 좋겠지만 둘을 같이 읽는다면 ML 학습을 극대화할 수 있다. (…) 모든 ML 분야 종사자, 특히 다양한 알고리즘 경험이 없는 독자에게 매우 귀중한 자료다. 교과서와 함께 읽는다면 거의 완전한 ML 커리큘럼을 익힐 수 있다.

목차

지은이·옮긴이 소개 xiii
기술 감수자 소개 xiv
옮긴이 머리말 xv
베타리더 후기 xvii
감사의 글 xix
이 책에 대하여 xx

CHAPTER 1 머신러닝과 파이썬 시작하기 1
1.1 머신러닝 소개 2
1.2 머신러닝의 전제 조건 7
1.3 세 가지 유형의 머신러닝 시작하기 8
1.4 머신러닝의 핵심 파헤치기 11
1.5 데이터 처리와 특징 공학 23
1.6 모델 결합 29
1.7 소프트웨어 설치 및 설정 34
1.8 요약 39
1.9 연습 문제 39

CHAPTER 2 나이브 베이즈를 이용한 영화 추천 엔진 구축 41
2.1 분류 시작하기 42
2.2 나이브 베이즈 45
2.3 나이브 베이즈 구현 52
2.4 나이브 베이즈를 이용한 영화 추천기 구축 57
2.5 분류 성능 평가 62
2.6 교차 검증으로 모델 조정 66
2.7 요약 69
2.8 연습 문제 69
2.9 참고 문헌 70

CHAPTER 3 서포트 벡터 머신을 이용한 얼굴 인식 71
3.1 SVM으로 구분 경계 탐색 72
3.2 SVM을 이용한 얼굴 이미지 분류 90
3.3 태아심박동검사에서 태아 상태 분류 96
3.4 요약 98
3.5 연습 문제 99

CHAPTER 4 트리 기반 알고리즘을 이용한 온라인 광고 클릭률 예측 101
4.1 광고 클릭률 예측의 개요 102
4.2 두 가지 유형의 데이터로 시작하기: 수치형과 범주형 103
4.3 루트에서 리프까지 의사결정 트리 탐색 104
4.4 밑바닥부터 구현하는 의사결정 트리 115
4.5 사이킷런을 이용한 의사결정 트리 구현 123
4.6 의사결정 트리를 이용한 광고 클릭률 예측 124
4.7 의사결정 트리 앙상블: 랜덤 포레스트 130
4.8 의사결정 트리 앙상블: 그레이디언트 부스티드 트리 132
4.9 요약 135
4.10 연습 문제 135

CHAPTER 5 로지스틱 회귀를 이용한 온라인 광고 클릭률 예측 137
5.1 범주형 특징을 수치형으로 변환: 원-핫 인코딩과 순서 인코딩 138
5.2 로지스틱 회귀를 이용한 데이터 분류 141
5.3 로지스틱 회귀 모델 훈련 146
5.4 온라인 학습을 통한 대규모 데이터셋 훈련 158
5.5 다중 클래스 분류 161
5.6 텐서플로를 이용한 로지스틱 회귀 구현 163
5.7 랜덤 포레스트를 이용한 특징 선택 165
5.8 요약 167
5.9 연습 문제 167

CHAPTER 6 테라바이트 규모의 클릭 로그 예측 169
6.1 아파치 스파크의 핵심 배우기 170
6.2 파이스파크 프로그래밍 175
6.3 스파크를 통한 대규모 클릭 로그 학습 178
6.4 스파크를 이용한 범주형 변수의 특징 공학 189
6.5 요약 195
6.6 연습 문제 196

CHAPTER 7 회귀 알고리즘을 이용한 주가 예측 197
7.1 주식시장과 주가의 개요 198
7.2 회귀란 무엇인가? 199
7.3 주가 데이터 수집 200
7.4 선형회귀를 이용한 추정 210
7.5 의사결정 트리 회귀를 이용한 추정 217
7.6 서포트 벡터 회귀를 이용한 추정 225
7.7 회귀 성능 평가 226
7.8 회귀 알고리즘 세 가지를 이용한 주가 예측 228
7.9 요약 233
7.10 연습 문제 233

CHAPTER 8 인공 신경망을 이용한 주가 예측 235
8.1 신경망의 이해 236
8.2 신경망 구축 242
8.3 적절한 활성화 함수 선택 248
8.4 신경망의 과적합 방지 249
8.5 신경망을 이용한 주가 예측 251
8.6 요약 259
8.7 연습 문제 259

CHAPTER 9 텍스트 분석 기법을 이용한 20개 뉴스그룹 데이터셋 분석 261
9.1 컴퓨터가 언어를 이해하는 방법: NLP 262
9.2 인기 있는 NLP 라이브러리와 NLP 기초 265
9.3 뉴스그룹 데이터 가져오기 274
9.4 뉴스그룹 데이터 탐색 276
9.5 텍스트 데이터의 특징 고려 279
9.6 t-SNE를 이용한 뉴스그룹 데이터 시각화 286
9.7 요약 289
9.8 연습 문제 290

CHAPTER 10 군집화와 주제 모델링을 이용한 뉴스그룹 데이터셋의 기본 주제 찾기 291
10.1 선생님 없이 학습하기: 비지도학습 292
10.2 k-평균을 이용한 뉴스그룹 데이터 군집화 293
10.3 뉴스그룹 이면의 주제 발견 311
10.4 요약 318
10.5 연습 문제 319

CHAPTER 11 머신러닝 모범 사례 321
11.1 머신러닝 솔루션 워크플로 322
11.2 데이터 준비 단계의 모범 사례 323
11.3 훈련셋 생성 단계의 모범 사례 329
11.4 모델 훈련, 평가, 선택 단계의 모범 사례 340
11.5 배포와 모니터링 단계의 모범 사례 345
11.6 요약 349
11.7 연습 문제 350

CHAPTER 12 합성곱 신경망을 이용한 옷 이미지 분류 351
12.1 CNN의 구성 요소 352
12.2 분류를 위한 CNN 구조 설계 356
12.3 옷 이미지 데이터셋 358
12.4 CNN을 이용한 옷 이미지 분류 361
12.5 데이터 증강을 통한 CNN 분류기 강화 369
12.6 데이터 증강을 통한 옷 이미지 분류기 개선 375
12.7 요약 378
12.8 연습 문제 378

CHAPTER 13 순환 신경망을 이용한 시퀀스 예측 379
13.1 순차 학습 소개 380
13.2 예시를 통해 배우는 RNN 구조 380
13.3 RNN 모델 훈련 386
13.4 장단기 메모리를 이용한 장기 의존성 극복 387
13.5 RNN을 이용한 영화 리뷰 감정 분석 390
13.6 RNN으로 나만의 《전쟁과 평화》 작성하기 398
13.7 트랜스포머 모델을 이용한 언어 이해도 향상 409
13.8 요약 412
13.9 연습 문제 412

CHAPTER 14 강화학습을 이용한 복잡한 환경에서의 의사결정 413
14.1 작업 환경 설정 413
14.2 예시를 이용한 강화학습 소개 417
14.3 동적 프로그래밍을 이용한 FrozenLake 환경 해결 421
14.4 몬테카를로 학습 수행 432
14.5 Q-러닝 알고리즘으로 택시 문제 풀기 441
14.6 요약 449
14.7 연습 문제 449

찾아보기 450

본문중에서

정밀도, 재현율, F1 점수는 다중 클래스 분류에도 적용할 수 있는데, 이 경우에는 관심 있는 클래스를 양성으로 처리하고 그 밖의 다른 클래스는 음성으로 처리한다. / 클래스 평균 F1 점수와 클래스별 F1 점수 모두 가장 높은 값을 얻도록 이진 분류기를 조정(예를 들어 나이브 베이즈 분류기의 평활화 계수와 같은 초매개변수(hyperparameter)의 다양한 조합을 시도하는 경우)할 수 있으면 좋겠지만, 일반적으로는 어렵다. 어떤 경우에는 한 모델의 평균 F1 점수가 다른 모델보다 높지만, 특정 클래스에 대해서는 F1 점수가 상당히 낮다. 또 어떤 경우에는 두 모델의 평균 F1 점수가 동일하지만,한 모델의 어떤 클래스에 대한 F1 점수는 높고 다른 클래스에 대해서는 F1 점수가 낮다. 이와 같은 상황에서 어떤 모델이 더 잘 작동하는지는 어떻게 판단할 수 있을까? (64쪽)

온라인 디스플레이 광고는 머신러닝을 활용하기에 매우 좋은 예 중 하나다. 광고주와 소비자는 타깃이 명확한 광고에 큰 관심을 가진다. 지난 20년 동안 업계는 광고 타기팅의 효과를 예측하기 위해 머신러닝 모델에 크게 의존해왔는데, 특정 연령대의 소비자가 이 제품에 관심을 가질 가능성, 특정 가계소득 수준의 고객이 광고를 본 뒤에 이 제품을 구매할 가능성, 스포츠 사이트를 자주 방문하는 방문자가 해당 광고를 읽는 데 더 많은 시간을 할애할 가능성 등이 이에 해당한다. 광고의 효과를 측정하는 가장 일반적인 방법은 클릭률(click-through rate, CTR)로, 전체 조회수 대비 특정 광고를 클릭하는 비율이다. (102쪽)

예측력을 높이려면 더 많은 특징을 생성해야 한다. 요약하자면, 머신러닝에서의 특징 공학은 머신러닝 알고리즘의 성능을 향상하기 위해 기존 특징을 기반으로 도메인별(domain-specific) 특징을 생성하는 과정이다. / 일반적으로 특징 공학에는 충분한 도메인 지식이 필요한데, 매우 어려울뿐더러 시간이 많이 소요될 수 있다. 실제로 머신러닝 문제를 해결하는 데 사용되는 특징은 바로 눈에 보이지 않는 만큼, 스팸 이메일 탐지와 뉴스그룹 분류에서의 용어 빈도나 tf-idf 특징과 같이 구체적으로 설계하고 구성해야 한다. 따라서 머신러닝에서 특징 공학은 필수 요소이면서 실제 문제를 해결하기 위해 가장 큰 노력을 쏟는 부분이다. (202쪽)

앞서 언급했듯이, 같은 어근에서 나온 단어를 처리하는 두 가지 기본 전략으로 어간 추출과 표제어 추출이 있다. 어간 추출이 좀 더 빠른 접근 방식으로 필요할 때는 글자를 잘라내기도 한다. 예를 들어 words는 어간 추출 후에 word가 된다. 또한 어간 추출의 결과가 꼭 유효한 단어일 필요는 없는데, 예를 들어 trying과 try를 어간 추출하면 tri가 된다. 반면 표제어 추출은 느리지만 더 정확하다. 사전 조회(dictionary lookup)를 통해 유효한 단어의 반환을 보장한다. 앞 절에서 NLTK를 이용해서 어간 추출과 표제어 추출을 구현해보았으니, 필요하면 이를 참조한다. / 지금까지 다룬 모든 내용(전처리, 불용어 삭제, 표제어 추출, 카운트 벡터화)을 통합하면 다음과 같다. (284쪽)

데이터 증강(data augmentation)은 일반화 성능을 개선하기 위해서 기존 훈련 데이터셋을 확장하는 것이다. 이를 통해 더 많은 데이터를 수집하고 레이블링하는 데 드는 비용을 줄일 수 있다. 텐서플로에서는 케라스 API의 ImageDataGenerator 모듈을 이용해서 실시간으로 이미지 증강을 구현한다. / 이미지 데이터를 증강하는 여러 가지 방법이 있는데, 가장 간단한 방법은 이미지를 수평 방향이나 수직 방향으로 뒤집는(flipping) 것이다. 예를 들어 기존 이미지를 수평으로 뒤집으면 새로운 이미지가 생긴다. 수평으로 뒤집은 이미지를 생성하려면 다음과 같이 이미지 데이터 생성기를 만들어야 한다. (369~370쪽)

관련이미지

저자소개

위시 (헤이든) 류 [저] 신작알림 SMS신청
생년월일 -

구글의 머신러닝 소프트웨어 엔지니어. 구글 이전에는 여러 데이터 기반 도메인에서 머신러닝 과학자로 일하며 디지털 광고, 마케팅, 사이버 보안에 관한 전문 지식을 발휘했다. 현재 세계에서 가장 큰 검색 엔진에서 광고 최적화를 위한 머신러닝 모델과 시스템을 개발하고 개선하는 일을 한다. 교육에 대한 열정이 커 여러 머신러닝 도서를 집필했다. 첫 책인 《Python Machine Learning By Example》의 초판은 2017년과 2018년에 아마존에서 베스트셀러 1위에 올랐으며 다양한 언어로 번역되었다. 집필한 책으로는 《Machine Learning with PyTorch and Scikit-Learn》(20

펼쳐보기
구정회 [역] 신작알림 SMS신청
생년월일 -

공학박사. 대학과 대학원에서 전자공학을 전공했다. 삼성전자에서 다양한 연구개발 및 상품화를 경험했고, 지금은 삼성리서치에서 컴퓨터 비전 관련 딥러닝 속에서 하루하루 발견하는 즐거움을 찾는 데 대부분의 시간을 보내고 있다. 《쏙쏙 들어오는 인공지능 알고리즘》(제이펍, 2021)을 번역했다.

이 상품의 시리즈

(총 28권 / 현재구매 가능도서 28권)

선택한 상품 북카트담기
펼쳐보기

전공도서/대학교재 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    100자평

    작성시 유의사항

    평점
    0/100자
    등록하기

    100자평

    10.0
    (총 0건)

    판매자정보

    • 인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

    상호

    (주)교보문고

    대표자명

    안병현

    사업자등록번호

    102-81-11670

    연락처

    1544-1900

    전자우편주소

    callcenter@kyobobook.co.kr

    통신판매업신고번호

    01-0653

    영업소재지

    서울특별시 종로구 종로 1(종로1가,교보빌딩)

    교환/환불

    반품/교환 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능

    반품/교환가능 기간

    변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능
    단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    반품/교환 비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담

    반품/교환 불가 사유

    ·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)

    ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등

    ·복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음

    소비자 피해보상
    환불지연에 따른 배상

    ·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    (주)KG이니시스 구매안전서비스서비스 가입사실 확인

    (주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한 모든 거래에 대하여
    (주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.

    배송안내

    • 교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.

    • 배송비는 업체 배송비 정책에 따릅니다.

    • - 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원 - 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용