파이썬으로 배우는 응용 텍스트 분석 : 언어 인식 데이터 제품 개발을 위한 머신러닝

원제 : Applied Text Analysis with Python

소득공제

리뷰쓰기

2013년 9월 9일 이후 누적수치입니다.

저 : 레베카 빌브로, 토니 오제다
역 : 박진수
출판사 : 제이펍
발행 : 2019년 11월 29일
쪽수 : 392
ISBN : 9791188621774

정가	27,000원

24,300원 (10%할인)

1,350P (5%적립)

할인가

0원 (0%할인)

대량구매 할인혜택! 5만원 이상 구매시 특별 할인율 적용 대량구매 할인 주문시 꼭 확인하세요!

대량구매 할인 주문시 꼭 확인하세요!

인터파크 도서가 직접 판매하는 도서를 5만원 이상 주문시 상품별 특별 할인율을 제공합니다.
(CD/DVD/eBook/굿즈/해외주문원서/업체배송상품 제외)
5만원 미만 주문시 일반 회원 할인가 적용됩니다.
구매 적립금/굿즈 추가할인/5만원이상 추가적립/최대혜택 등의 기본 혜택은 제공되지 않습니다.
필수 사은품을 제외한 사은품 구매는 불가합니다
기본 하루배송으로 제공되나 배송 지연 보상은 제외됩니다. (재고에 따라 부분배송 가능)
S-Point ,S-Money 사용이 가능합니다.
보유하고 계신 쿠폰 및 상품권 적용이 되지 않으며, 청구할인, 쿠폰 등의 프로모션에서 제외됩니다.

주문수량	감소증가 감소 증가

북카트 담기
바로구매

북카트에 담아 5만원 이상 구매하시면
대량구매 할인을 받으실 수 있습니다.

일반 구매로 진행하시겠습니까?

구매하기 쇼핑 계속하기
Close

할인혜택	카드할인/무이자 할부 이달의 혜택 도서상품권
적립혜택	1,350P (5%적립) 5만원이상 주문시 2천P+등급별 최대 1.5%적립
	S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택

배송정보	7/27(토) 이내 발송 예정 (서울시 강남구 삼성로 512) 무료배송
주문수량	감소증가 감소 증가

파이썬으로 배우는 응용 텍스트 분석

24,300원

북카트 담기 바로구매

위로

이벤트/기획전
연관도서(27)
상품권

책정보
이벤트/기획전(0)
추천도서(1/0)
100자평/리뷰
교환/환불/배송

이상품의 분류

책소개

텍스트 인식 애플리케이션을 직접 만들며 배운다!
파이썬 라이브러리로 학습하는 자연어 처리와 머신러닝 응용 테크닉!

이 책에서 여러분은 언어 인식(language-aware) 제품을 구축하는 일에 머신러닝을 활용하는 데이터 과학자의 접근 방식을 볼 수 있다. 특히, 문맥이나 사용 언어에 맞춰 특징을 처리하는 기술(즉, 특징 공학)이나 벡터화ㆍ분류ㆍ토픽 모델링ㆍ엔터티 분해ㆍ그래프 분석ㆍ시각적 조정 같은 기술도 다루고 있다. 더불어 파이썬 기반의 텍스트 분석에 필요한 강력하면서도 반복 및 확장 가능한 기술도 배울 수 있다. 이 책에 나온 내용을 모두 배우고 나면 복잡한 현업 문제를 해결할 수 있는 실용적 해법을 찾을 수 있을 것이다.

출판사 서평

텍스트 인식 애플리케이션을 직접 만들며 배운다!
파이썬 라이브러리로 학습하는 자연어 처리와 머신러닝 응용 테크닉!

뉴스나 연설 그리고 소셜 미디어에서 이뤄지는 사적인 대화에 이르기까지 자연어는 가장 널리 쓰이면서도 활용률은 낮은 데이터 중 하나다. 자연어는 일정하게 흐르지 않고 상황에 맞춰 늘 변하며 적응한다. 게다가 자연어는 기존 데이터에서 전달하지 않는 정보도 전하기 때문에, 텍스트 분석 응용 프로그램을 창의적으로 만들어 사용해야 적절히 해독할 수 있다.

이 책에서 여러분은 언어 인식(language-aware) 제품을 구축하는 일에 머신러닝을 활용하는 데이터 과학자의 접근 방식을 볼 수 있다. 특히, 문맥이나 사용 언어에 맞춰 특징을 처리하는 기술(즉, 특징 공학)이나 벡터화ㆍ분류ㆍ토픽 모델링ㆍ엔터티 분해ㆍ그래프 분석ㆍ시각적 조정 같은 기술도 다루고 있다. 더불어 파이썬 기반의 텍스트 분석에 필요한 강력하면서도 반복 및 확장 가능한 기술도 배울 수 있다. 이 책에 나온 내용을 모두 배우고 나면 복잡한 현업 문제를 해결할 수 있는 실용적 해법을 찾을 수 있을 것이다.

이 책의 주요 내용
■ 텍스트를 전처리하고 벡터화해서 고차원 특징 표현으로 바꾸기
■ 문서 분류 및 토픽 모델링 수행하기
■ 시각적인 진단을 통해 모델 선택 과정 조정하기
■ 핵심 어구 추출, 개체명 식별, 그래프 구조 추출을 통해 텍스트가 담고 있는 데이터 추론하기
■ 챗봇이나 언어로 상호작용을 하는 대화형 프레임워크 만들기
■ 스파크를 사용해 처리 능력을 늘리거나 신경망을 사용해 더 복잡한 모델로 키우기

CHAPTER 01 언어와 계산 1
데이터 과학 패러다임 2
언어 인식 데이터 제품 4
데이터 제품 파이프라인 6
데이터로서의 언어 9
언어의 계산 모델 10
언어 자질 11
맥락 자질 15
구조적 자질 17
결론 20

CHAPTER 02 사용자 정의 말뭉치 구축 21
말뭉치란 무엇인가? 22
영역 특정 말뭉치 22
Baleen 수집 엔진 23
말뭉치 데이터 관리 25
말뭉치 디스크 구조 27
말뭉치 리더 30
NLTK를 사용한 스트리밍 데이터 액세스 32
HTML 말뭉치 읽기 34
데이터베이스에서 말뭉치 읽기 38
결론 40

CHAPTER 03 말뭉치의 전처리와 가공 41
문서 쪼개 보기 42
핵심 내용 식별 및 추출 42
문서를 단락별로 나누기 44
분할: 문장별로 나누기 46
토큰화: 개별 토큰 식별 48
품사 태깅 49
중간 말뭉치 분석론 50
말뭉치 변환 52
중간 전처리 및 저장 52
처리된 말뭉치 읽기 56
결론 58

CHAPTER 04 텍스트 벡터화와 변환 파이프라인 59
공간 내 단어 61
빈도 벡터 62
원핫 인코딩 64
용어빈도-역문서빈도 67
분산 표현 71
사이킷런 API 74
BaseEstimator 인터페이스 74
TransformerMixin 확장 76
파이프라인 81
파이프라인의 기초 81
하이퍼파라미터 최적화를 위한 격자 검색 83
특징결합을 사용한 특징추출 강화 84
결론 86

CHAPTER 05 텍스트 분석을 위한 분류 89
텍스트 분류 90
분류 문제 식별 91
분류기 모델 92
텍스트 분류 애플리케이션 만들기 94
교차검증 94
모델 구성 98
모델 평가 100
결론 105

CHAPTER 06 텍스트 유사성을 위한 군집화 107
텍스트에 대한 비지도학습 108
문서 유사성에 의한 군집화 109
거리 계량 110
부분 군집화 112
위계적 군집화 118
문서 토픽 모델링 122
잠재 디리클레 할당 122
잠재 의미 분석 130
음이 아닌 행렬 인수분해 133
결론 134

CHAPTER 07 문맥 인식 텍스트 분석 137
문법 기반 특징추출 138
문맥 자유 문법 139
구문론적 구문분석기 139
키프레이즈 추출 141
엔터티 추출 144
엔그램 특징추출 145
엔그램 인식 CorpusReader 147
올바른 엔그램 창 선택하기 149
유의한 병치 150
엔그램 언어 모델 153
빈도 및 조건부 빈도 154
최대 가능도 추정 157
알 수 없는 단어: 백오프 및 평활화 160
언어 생성 163
결론 164

CHAPTER 08 텍스트 시각화 167
특징공간 시각화 168
시각적 특징분석 168
유도된 특징공학 179
모델 진단 187
군집 시각화 188
계급 시각화 190
분류 오차 진단 191
시각적 조향 195
실루엣 점수 및 엘보 곡선 195
결론 198

CHAPTER 09 텍스트의 그래프 분석 201
그래프 계산 및 분석 203
그래프 기반 시소러스 만들기 203
그래프 구조 분석 205
그래프의 시각적 분석 206
텍스트에서 그래프 추출하기 207
소셜 그래프 만들기 208
소셜 그래프에서 통찰력 얻기 211
엔터티 분해 219
그래프상의 엔터티 분해 220
구조로 차단하기 221
퍼지 차단 221
결론 224

CHAPTER 10 챗봇 227
대화의 기초 228
대화: 간략한 의견 교환 230
대화 유지 233
예의바른 대화 규칙 236
인사와 경례 236
의사불통 다루기 241
재미있는 질문 244
의존 구문분석 245
구 구조 분석 246
질문 검출 249
스푼에서 그램으로 251
도움을 위한 학습 256
이웃이 되기 257
추천 정보 제공 260
결론 263

CHAPTER 11 멀티프로세싱과 스파크를 사용한 텍스트 분석론 확장 265
파이썬 멀티프로세싱 266
병렬로 작업 실행 269
프로세스 풀 및 큐 274
병렬 말뭉치 전처리 276
스파크를 사용한 클러스터 컴퓨팅 278
스파크 작업의 해부학 278
말뭉치 배포 280
RDD 운영 282
스파크를 이용한 자연어 처리 284
결론 296

CHAPTER 12 딥러닝과 그 이후 299
응용 신경망 300
신경 언어 모델 300
인공 신경망 301
딥러닝 아키텍처 306
정서 분석 311
심층 구조 분석 313
미래가 바로 눈앞에 318

용어 해설 321
찾아보기 338

본문중에서

우리가 제안하는 텍스트 분석용 모델은 머신러닝 작업흐름과 직접 관련이 있다. 이런 작업흐름 중에서 검색 과정에서는 특징과 알고리즘 및 학습 데이터에서 가장 잘 작동하는 하이퍼파라미터로 구성된 모델을 찾아 알려지지 않은 데이터에 대한 추정치를 산출한다. 텍스트 분석 시에 이 작업흐름은 말뭉치라고 하는 훈련 데이터셋을 작성하고 관리하는 일로 시작된다. 그런 다음에 머신러닝이 이해할 수 있는 숫자 데이터로 텍스트를 구성하는 특징추출 방법 및 전처리 방법들을 찾아본다. 우리는 몇 가지 기본 특징을 사용해 책의 처음 몇 장에 대한 결론을 지으면서 텍스트 분류 및 텍스트 군집화 기술을 살펴볼 것이다.
_xxiv쪽

사실, 이 책을 쓰는 중요한 동기는 의미 있는 데이터 제품에 힘을 실어 줄 만큼 충분히 크고 풍부한 자료를 만들고 다룰 수 있기 위해 노력하는 과정에서 우리가 겪었던 엄청난 어려움 때문이었다. 우리의 일상적인 시간과 노력이 텍스트 전처리와 랭글링(wrangling, 정리)에
얼마나 많은 노력을 기울이고 있는지를 감안할 때 이러한 단계를 지원(또는 심지어 인정하는 것)하는 리소스가 거의 없다는 점이 놀라웠다. 이번 장에서는 수집된 원시 텍스트를 계산하고 모델링을 하기 좋은 형태에 맞게 체계적으로 변환하는 데 사용할 수 있는 다목적 전처리 프레임워크를 제안한다. 우리의 프레임워크는 다섯 가지 핵심 단계인 내용 추출, 단락 블록 지정, 문장 분할, 단어 토큰화 및 품사 태깅(tagging, 테그 달기)을 포함한다. 이 단계들 각각에 대해 우리는 이전 장에서 정의된 HTMLCorpusReader 클래스의 메서드로 여겨지는 함수들을 제공할 것이다.
_41쪽

문서를 숫자로 표현하면 유의한 분석을 수행할 수 있으며, 머신러닝 알고리즘이 작동하는 사례도 생성된다. 텍스트 분석 시, 전체 문서 또는 발화가 사례에 해당하므로 텍스트의 길이는 따옴표 길이에서 시작해서 트윗 정도의 길이를 거쳐 도서 내용 전체를 아우르는 길이에 이르기까지 그 길이가 저마다 다를 수 있지만, 벡터의 길이는 항상 일정하게 된다. 벡터 표현을 이루는 각 속성에 해당하는 것이 특징(feature)이다. 텍스트라면 특징은 문서의 길이와 작성자, 출처 및 게시 날짜와 같은 메타 속성뿐만 아니라 내용을 포함해 문서의 특성(attributes)과 속성(properties)을 나타낸다.
_59쪽

앞으로 수십 년이 지나면 스팸을 걸러 내는 일이 가장 일반적이며, 아마도 상업적으로 성공한 텍스트 분류 모델이 될 것으로 보인다. 이메일의 내용이 스팸인지 아닌지를 결정하는 것이 중요하다는 점이 혁신을 이루게 된 핵심 아이디어다. 단순히 ‘비아그라’나 ‘김미영 팀장’이라는 용어의 존재가 중요한 것이 아니라 스팸 메일에 담긴 맥락이나 빈도 및 철자 오류의 존재가 중요하다. 스팸 메일과 햄 메일을 둘 다(both) 담고 있는 말뭉치 모음집으로 나이브 베이즈 모델을 만들 수 있었는데, 이 나이브 베이즈 모델은 빈도를 기반으로 한 스팸 메일과 햄 이메일 모두에서 한 단어의 존재 확률을 예측하기 전에 먼저 획일적인 방법을 적용해 본다.
_90쪽

특징분석 및 특징공학을 수행한 후에, 3중 모델 선택 작업흐름의 다음 단계는 모델 선택이다. 실제로는 새로운 모델로 어떤 모델이 가장 효과적일지 미리 예측하기가 일반적으로 어렵기 때문에 여러 모델을 선택하고 비교할 것이다. 따라서 우리의 다음 과제는 모델이 잘 작동하는지 또는 불량하게 작동하는지를 결정하는 것이다. 전통적인 머신러닝 문맥에서 볼 때 우리는 모델 성능 점수에 의존할 수 있는데, 회귀라면 평균제곱오차(mean square error) 또는 결정계수(coefficient of determination) 등에서, 그리고 분류라면 정밀도(precision)와 정확도(accuracy) 및 F1 점수(F1 score) 등에서 어떤 것이 가장 강력한 모델인지를 결정한다. 이러한 기술은 또한 시각적 분석의 맥락으로 확장될 수 있다.
_187쪽

저자소개

레베카 빌브로, 토니 오제다 [저] 신작알림 SMS신청

생년월일	-

해당작가에 대한 소개가 없습니다.

박진수 [역] 신작알림 SMS신청

생년월일	-

해당작가에 대한 소개가 없습니다.

주간랭킹
더보기

상품정보제공고시

이 상품의 시리즈

전공도서/대학교재 분야에서 많은 회원이 구매한 책

이 책을 조회한 회원들이 같이 본 책

이 책을 구매한 회원들이 구매한 책

리뷰

0.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

0.0

(총 0건)

최근순

평점 높은순

판매자정보

인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

상호	(주)교보문고
대표자명	안병현
사업자등록번호	102-81-11670
연락처	1544-1900
전자우편주소	callcenter@kyobobook.co.kr
통신판매업신고번호	01-0653
영업소재지	서울특별시 종로구 종로 1(종로1가,교보빌딩)

교환/환불

반품/교환 방법	‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능
반품/교환가능 기간	변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능 단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환 비용	변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담 상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담
반품/교환 불가 사유	·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우 (단지 확인을 위한 포장 훼손은 제외) ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품(악세서리 포함) 등 ·복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집 ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우 ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
상품 품절	공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음
소비자 피해보상 환불지연에 따른 배상	·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨 ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의소비자 보호에 관한 법률에 따라 처리함

(주)KG이니시스 구매안전서비스

(주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한 모든 거래에 대하여
(주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.

배송안내

교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.
출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.
군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.
배송비는 업체 배송비 정책에 따릅니다.

- 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원

- 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용

파워링크 광고

신청하기

인터파크 롯데카드	5% (23,090원) (최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드	30% (17,010원) (최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드	20% (19,440원) (최대할인 4만원 / 2만원 이상 결제)

신한	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
비씨	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불/Non-BC카드 제외)
국민	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
삼성	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
현대	2~3개월(1만원↑) ※1만원 이상 결제 시 (단, 법인/체크/기업/선불카드 제외)
롯데	2~5개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
NH	2~4개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)
하나SK	2~3개월(5만원↑) ※5만원 이상 결제 시 (단, 법인/체크/기업/선불카드/BC 계열 제외)

추가 적립 안내

파이썬으로 배우는 응용 텍스트 분석 : 언어 인식 데이터 제품 개발을 위한 머신러닝

이상품의 분류

책소개

출판사 서평

목차

본문중에서

관련이미지

저자소개

주간랭킹
더보기

상품정보제공고시

이벤트 기획전

이 상품의 시리즈

이 책과 연관있는 항공권

리뷰

0.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

0.0

(총 0건)

최근순

평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

추가 적립 안내

파이썬으로 배우는 응용 텍스트 분석 : 언어 인식 데이터 제품 개발을 위한 머신러닝

이상품의 분류

책소개

출판사 서평

목차

본문중에서

관련이미지

저자소개

주간랭킹 더보기

상품정보제공고시

이벤트 기획전

이 상품의 시리즈

이 책과 연관있는 항공권

리뷰 0.0 (총 0건) 리뷰쓰기

100자평 작성시 유의사항

100자평 0.0 (총 0건) 최근순 평점 높은순

판매자정보

교환/환불

(주)KG이니시스 구매안전서비스

배송안내

파워링크 광고

주간랭킹
더보기

리뷰

0.0 (총 0건)

리뷰쓰기

100자평

작성시 유의사항

100자평

0.0

(총 0건)

최근순

평점 높은순