책소개

2019년 대한민국학술원 우수학술도서 선정도서

머신 러닝의 결과는 데이터를 얼마나 잘 표현하는 피처를 추출하는가에 달려있다고 할 수 있다. 그러나 머신 러닝을 위한 다양한 알고리즘이나 도구에 대한 안내서는 많이 있는 것에 비해서 데이터의 피처를 어떻게 추출하고 사용할 도구에 맞게 변환하고 처리할 것인지 알려주는 안내서는 거의 없다. 이 책은 수치형 데이터, 범주형(카테고리) 데이터를 다루는 기법뿐만 아니라 텍스트, 이미지, 그리고 고차원 데이터에서 머신 러닝을 위해 좋은 피처를 추출하는 기법과 그 원리를 설명하고 실습을 통해 직관을 얻을 수 있도록 해준다.

출판사 서평

★ 이 책에서 다루는 내용 ★

■ 숫자 데이터에 대한 피처 엔지니어링: 필터링, 비닝, 스케일링, 로그 변환, 거듭제곱 변환
■ 텍스트 처리 기법: BoW(Bag-of-Words), n-gram, 구문 탐색
■ 정보가 없는 피처를 제거하기 위한 빈도 기반 필터링 및 피처 스케일링
■ 피처 해싱과 빈 카운팅 등을 포함하는 범주형 변수의 인코딩 기법
■ 주성분 분석(PCA)을 이용한 모델 기반 피처 엔지니어링
■ 피처 생성 기법으로 k-평균을 사용하는 모델 스태킹(model stacking)의 개념
■ 딥러닝을 이용한 이미지 피처 추출

★ 이 책의 대상 독자 ★

이 책은 ‘모델과 벡터가 무엇인지’와 같은 기본적인 머신 러닝 지식을 전제로 한다. 물론 그와 관련된 간단한 설명이 제공될 것이다. 선형대수, 확률분포, 최적화 등에 대한 경험이 이 책을 이해하는 데 도움은 되지만 꼭 필요하지는 않다.

★ 이 책의 구성 ★

처음 몇 장은 데이터 과학과 머신 러닝을 시작하려는 사람들을 위한 다리를 제공하고자 천천히 시작한다.
1장에서는 데이터, 모델, 피처 등 머신 러닝 파이프라인의 기본 개념을 소개한다.
2장에서는 숫자 데이터를 위한 피처 엔지니어링의 기본인 필터링, 비닝(binning), 스케일링(scaling), 로그 변환(log transform), 거듭제곱 변환(power transform), 상호작용 피처(interaction feature) 등을 살펴본다.
3장에서는 자연어 텍스트를 위한 피처 엔지니어링을 다루며 BoW(Bag-of-Words), n-grams, 구문 탐색 등의 기법을 살펴본다.
4장에서는 피처 스케일링의 한 예로 tf-idf(term frequency-inverse document frequency)를 살펴보고 그 동작 원리를 설명한다.
5장에서는 피처 해싱(feature hashing)과 빈 카운팅(bin counting)을 포함해 범주형 변수에 대한 효율적인 인코딩 기법을 논의하면서 진행에 속도를 높인다.
주성분 분석(PCA, Principal Component Analysis)을 다루는 6장에 이르면 머신 러닝의 세계에 깊이 들어서게 된다.
7장에서는 피처 생성 기법으로서 k-평균을 다루며, 유용한 개념인 모델 스태킹(model stacking)을 설명한다.
8장에서는 텍스트 데이터에 비해 피처 추출이 훨씬 어려운 이미지에 대해 다룬다. 여기서는 이미지에 대한 최신 피처 추출 기법이라고 할 수 있는 SIFT와 HOG, 두 가지 수동 피처 추출 기법을 살펴볼 것이다.
9장에서는 학술 논문에 대한 추천 모델을 생성하는 예제를 통해 몇 가지 서로 다른 기법을 비교 분석한다.

추천사

[지은이의 말]
머신 러닝은 데이터로부터 통찰력을 이끌어내거나 예측하기 위해 데이터에 수학적인 모델을 적용한다. 이 모델은 피처(feature)를 입력으로 사용한다. 피처는 원시 데이터의 숫자적인 표현이다. 피처는 머신 러닝 파이프라인에서 데이터와 모델 사이에 위치한다. 피처 엔지니어링(feature engineering)은 원시 데이터로부터 피처를 추출하고 이를 머신 러닝 모델에 적합한 형식으로 변환하는 작업이다. 적절한 피처는 모델링의 난이도를 낮춰주고, 결과적으로 파이프라인이 높은 품질의 결과를 산출할 수 있게 해주기 때문에 피처 엔지니어링은 머신 러닝 파이프 라인에서 매우 중요한 단계다. 머신 러닝 파이프라인을 구축할 때, 실무자들도 피처 엔지니어링과 데이터 정제에 가장 많은 시간이 든다는 데 동의한다. 하지만 그 중요성에도 불구하고 이와 관련된 주제는 거의 논의되지 않고 있다. 아마도 적합한 피처는 모델과 데이터의 컨텍스트 내에서만 정의될 수 있고, 데이터와 모델은 매우 다양하기 때문에 피처 엔지니어링 방법을 일반화하기가 어렵기 때문일 것이다.
그렇다고 해도, 피처 엔지니어링은 단순히 그때그때 상황에 따라 대처할 만한 것이 아니다. 피처 엔지니어링 작업에도 깊은 원리가 있으며, 그것은 실무 현장에서 가장 잘 설명된다. 이 책은 각 장마다 텍스트나 이미지 데이터를 표현하는 방법, 자동 생성된 피처들의 차원을 줄이는 방법, 언제 어떻게 정규화시켜야 하는지 등의 데이터 문제를 하나씩 다룬다. 이 책을 하나의 긴 소설이 아니라, 서로 연결된 짧은 이야기들의 모음으로 생각하길 바란다. 각 장은 다양한 피처 엔지니어링 기법을 소개하면서 그와 함께 매우 중요한 원리도 설명한다.
한 주제를 마스터하는 것은 단순히 그 정의를 알고 공식을 도출할 수 있다는 것에 그치지 않는다. 동작하는 메커니즘과 그것을 통해 무엇을 할 수 있는지를 아는 것만으로는 충분하지 않다. 왜 그런 방식으로 설계됐으며, 다른 기법들과 어떻게 연관되고, 또한 각 접근법의 장단점이 무엇인지 이해해야 한다. 무엇이 어떻게 수행됐는지 정확하게 알고, 기본 원리에 대한 직관력이 있으며, 그것을 기존에 갖고 있던 지식에 통합해야 완전히 숙련됐다고 할 수 있다. 좋은 책은 새로운 문을 열어줄 수 있지만 단순히 책을 읽는다고 해서 무언가를 마스터할 수 있는 것은 아니다.
이는 아이디어를 활용하는 반복적인 연습을 통해서만 가능하다. 반복할 때마다 더 좋은 아이디어를 갖게 될 것이고 그것을 적용하는 데 점점 더 능숙하고 창의적이 될 것이다. 이 책의 목적은 이런 아이디어를 실무에 응용하도록 돕는 것이다.
이 책은 논리적인 근거를 먼저 설명하고 그다음 수학적인 이론을 다룬다. 단지 ‘어떻게’ 하는지에 대해서만 이야기하지 않고 ‘왜’ 그렇게 되는지 설명하려고 노력했다. 이 책의 목적은 아이디어를 넘어서는 직관을 제공해 독자가 아이디어들을 언제 어떻게 적용해야 하는지 이해할 수 있도록 하는 것이다. 사람들마다 학습하는 방식이 다르므로 많은 설명과 그림을 넣었다. 제시된 수식들은 직관의 정확성을 높이기 위한 것이며 이 책의 다른 부분들과 연결된다.

[옮긴이의 말]
피처 엔지니어링은 좋은 머신 러닝 결과를 얻기 위한 핵심적인 과정이다. 하지만 너무나 다양한 데이터의 종류와 특성에 따라 경험적으로 수행돼 왔을 뿐, 이를 범용적으로 적용하는 방법에 대한 책이나 논문들이 거의 없었다.
머신 러닝 경진대회 중 가장 유명한 캐글(Kaggle)의 여러 대회에서 우승한 팀을 인터뷰한 기사들을 읽어보면 피처 엔지니어링이 좋은 결과를 얻는 데 얼마나 중요한 역할을 했는지 알 수 있다(관련 기사: http://kweonwooj.tistory.com/42). 물론 자신이 속한 도메인 지식이 반드시 그 기초가 돼야 함은 말할 것도 없다. 의미를 찾아내기 어려운 복잡한 데이터에서 의미 있는 피처를 추출해내기 위해서는 이 도메인 지식을 활용해 반복적이고 끊임없는 피처 엔지니어링 작업을 수행할 필요가 있다.
이 책은 먼저 수치 데이터에 간단하게 적용할 수 있는 피처 엔지니어링 기법을 살펴보고, 이어서 텍스트 데이터에서 의미 있는 피처를 추출하고 변환하는 기법을 소개한다. 그다음으로 범주형 데이터를 다루는 쉬운 방법과 함께 기하급수적으로 증가하는 고차원의 범주형 데이터를 PCA와 k-평균 클러스터링을 활용해 효율적으로 차원 축소를 하면서 효과적인 피처를 추출하는 기법과 그 핵심 원리를 설명한다. 또한 오늘날 가장 많이 다루는 이미지에서의 피처 추출과 딥러닝을 통한 피처 학습의 원리를 배울 수 있다. 마지막으로 실제적으로 논문 검색을 위한 머신 러닝 시스템을 만들어가는 실습을 진행하면서 이 책을 통해 배운 피처 엔지니어링 기법들의 장단점을 익히고 직관을 얻을 수 있도록 돕는다.

안드레아스 뮐러
“데이터 전처리와 피처 엔지니어링은 모델 성능의 주요인으로 밝혀지고 있다. 마침내 이 주제에 집중한 책을 만날 수 있어서 기쁘다. 앨리스와 아만다는 많은 기법의 사소한 뉘앙스까지 세밀하게 설명하고 있다.”
[scikit-learn 핵심 개발자이자 컬럼비아대학교 머신 러닝 강사]

1장. 머신 러닝 파이프라인
__데이터
__과제
__모델
__피처
__모델 평가

2장. 숫자를 위한 멋진 트릭
__스칼라, 벡터, 공간
__카운트 처리
____바이너리 변환
____양자화 또는 비닝
__로그 변환
____로그 변환의 역할
____거듭제곱 변환: 로그 변환의 일반화
__피처 스케일링 또는 정규화
____min-max 스케일링
____표준화(분산 스케일링)
____ℓ2 정규화
__상호작용 피처
__피처 선택
__요약
__참고 문헌

3장. 텍스트 데이터: 플래트닝, 필터링, 청킹
__bag-of-x: 자연어 텍스트를 평면 벡터로 변환
____BoW
____bag-of-n-grams
__정제된 피처를 위한 필터링
____불용어
____빈도 기반 필터링
____어간 추출
__의미의 단위: n-grams에서 구문까지
____파싱과 토큰화
____구문 탐색을 위한 연어 추출
__요약
__참고 문헌

4장. 피처 스케일링의 효과: BoW에서 tf-idf로
__tf-idf: BoW 비틀기
__tf-idf 테스트
____분류 데이터셋 생성
____tf-idf 변환으로 BoW를 스케일링
____로지스틱 회귀를 이용한 분류
____일반화로 로지스틱 회귀 튜닝
__심층 분석: 무슨 일이 일어나고 있는가?
__요약
__참고 문헌

5장. 범주형 변수: 로봇닭 시대에 달걀 개수 세기
__범주형 변수 인코딩
____원-핫 인코딩
____더미 코딩
____이펙트 코딩
____범주형 변수 인코딩의 장단점
__대규모 범주형 변수 처리
____피처 해싱
____빈 카운팅
__요약
__참고 문헌

6장. 차원 축소: PCA로 데이터 팬케이크 납작하게 만들기
__직관
__수식 유도
____선형 투영법
____분산과 경험적 분산
____주성분: 첫 번째 식
____주성분: 행렬-벡터식
____주성분의 일반적인 해
____피처 변환
____PCA 구현
__PCA의 활약
__화이트닝과 ZCA
__PCA의 고려 사항과 한계
__사용 예
__요약
__참고 문헌

7장. k-means 모델 스태킹을 통한 비선형 피처 생성
__k-means 클러스터링
__곡면 분할로서의 클러스터링
__분류를 위한 k-means 피처 생성
____조밀한 피처 생성
__장단점과 몇 가지 사항들
__요약
__참고 문헌

8장. 피처 생성 자동화: 이미지 피처 추출과 딥러닝
__가장 단순한 이미지 피처(그리고 이것이 동작하지 않는 이유)
__수동 피처 추출: SIFT와 HOG
____이미지 그래디언트
____그래디언트 오리엔테이션 히스토그램
____SIFT 아키텍처
__심층 신경망으로 이미지 피처 학습
____완전 연결 계층
____컨볼루션 계층
____ReLU 변환
____응답 정규화 계층
____풀링 계층
____AlexNet의 구조
__요약
__참고 문헌

9장. 다시 피처로: 학술 논문 추천 시스템 구축
__항목 기반 협업 필터링
__첫 번째 단계: 데이터 가져오기, 정제하기, 피처 파싱하기
____학술 논문 추천 시스템: 단순 접근법
__두 번째 단계: 피처 엔지니어링과 더 똑똑한 모델
____학술 논문 추천 시스템: 테이크 2
__세 번째 단계: 추가 피처 = 추가 정보
____학술 논문 추천 시스템: 테이크 3
__요약
__참고 문헌

부록 A. 선형 모델링과 선형대수 기초
__선형 분류 개관
__행렬 분석
____벡터에서 부분공간으로
____특이값 분해
____데이터 행렬의 기본적인 네 가지 부분공간
__선형 시스템 풀이
__참고 문헌

저자소개

앨리스 젱 [저] 신작알림 SMS신청

생년월일	-

해당작가에 대한 소개가 없습니다.

김우현 [역] 신작알림 SMS신청

생년월일	-

대학생 시절, 선배와 함께 창업한 후 20년 넘게 소프트웨어 개발자로 살고 있으며 인공지능 분야에서 새로운 길을 만들어가고 있다. 숙명여자대학교 나노/바이오 전산화학 연구센터에서 데이터 과학자로 근무했으며, 현재 프리랜서 AI 개발자로 일하고 있다. 옮긴 책으로는 『R 데이터 구조와 알고리즘』(에이콘, 2017), 『자바 데이터 사이언스 쿡북』(에이콘, 2018), 『피처 엔지니어링, 제대로 시작하기』(에이콘, 2018), 『The Python 3 Standard Library by Example』(에이콘, 2020) 등이 있다.

역자의 다른책

전체보기

북카트담기

파이썬을 활용한 머신러닝 해석 가능성

45,000원 40,500원
북카트담기

파이썬 객체지향 프로그래밍

43,000원 38,700원
북카트담기

자바 데이터 사이언스 쿡북

30,000원 27,000원
북카트담기

R 데이터 구조와 알고리즘

30,000원 27,000원

주간랭킹
더보기

상품정보제공고시

판매자정보

인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

상호	(주)교보문고
대표자명	안병현
사업자등록번호	102-81-11670
연락처	1544-1900
전자우편주소	callcenter@kyobobook.co.kr
통신판매업신고번호	01-0653
영업소재지	서울특별시 종로구 종로 1(종로1가,교보빌딩)

교환/환불

반품/교환 방법	‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능
반품/교환가능 기간	변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능 단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환 비용	변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담 상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담
반품/교환 불가 사유	·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우 (단지 확인을 위한 포장 훼손은 제외) ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품(악세서리 포함) 등 ·복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집 ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우 ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
상품 품절	공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음
소비자 피해보상 환불지연에 따른 배상	·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨 ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의소비자 보호에 관한 법률에 따라 처리함

(주)KG이니시스 구매안전서비스

(주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한 모든 거래에 대하여
(주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.

배송안내

교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.
출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.
군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.
배송비는 업체 배송비 정책에 따릅니다.

- 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원

- 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용

인터파크 롯데카드	5% (21,380원) (최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드	30% (15,750원) (최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드	20% (18,000원) (최대할인 4만원 / 2만원 이상 결제)

신한	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
비씨	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불/Non-BC카드 제외)
국민	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
삼성	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
현대	2~3개월(1만원↑) ※1만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
롯데	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
NH	2~4개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
하나SK	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)

할인혜택	카드할인/무이자 할부 이달의 혜택 도서상품권
적립혜택	1,250P (5%적립) 5만원이상 주문시 2천P+등급별 최대 1.5%적립
	S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택

추가 적립 안내

피처 엔지니어링, 제대로 시작하기 : 데이터에서 효과적으로 정보를 추출하는 원리와 기법

이상품의 분류

책소개

출판사 서평

추천사

목차

저자소개

주간랭킹
더보기

상품정보제공고시

이벤트 기획전

이 책과 연관있는 항공권

리뷰

0.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

0.0

(총 0건)

최근순

평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

추가 적립 안내

피처 엔지니어링, 제대로 시작하기 : 데이터에서 효과적으로 정보를 추출하는 원리와 기법

이상품의 분류

책소개

출판사 서평

추천사

목차

저자소개

주간랭킹 더보기

상품정보제공고시

이벤트 기획전

이 책과 연관있는 항공권

리뷰 0.0 (총 0건) 리뷰쓰기

100자평 작성시 유의사항

100자평 0.0 (총 0건) 최근순 평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

주간랭킹
더보기

리뷰

0.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

0.0

(총 0건)

최근순

평점 높은순