간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (29,930원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (22,050원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (25,200원)
(최대할인 4만원 / 2만원 이상 결제)
Close

예제로 배우는 자연어 처리 기초 : NLP 알고리즘, 텍스트 분류와 요약, 감성 분석

원제 : Natural Language Processing Fundamentals
소득공제

2013년 9월 9일 이후 누적수치입니다.

공유하기
정가

35,000원

  • 31,500 (10%할인)

    1,750P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택
배송정보
  • 8/17(수) 이내 발송 예정  (서울시 강남구 삼성로 512)
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(73)

  • 상품권

AD

책소개

자연어 처리 분야에 입문할 때 필요한 기본기를 닦는 데 많은 도움을 주는 책이다. 텍스트 데이터를 수집하고 전처리하는 과정을 알아보고, 다양한 자연어 처리 알고리즘과 시각화를 적용해 텍스트 데이터에 내재된 지식을 추출하는 방법을 다룬다. 자연어 처리 과정에서 자주 활용하는 SpaCy, 젠심(Gensim)과 같은 라이브러리를 학습해, 실무에서 적용할 수 있는 애플리케이션을 개발할 수 있는 초석을 마련해 줄 것이다.

출판사 서평

★ 이 책에서 다루는 내용 ★

■ 데이터 수집, 검증, 정제
■ 파이썬을 활용한 데이터 분석과 머신러닝 작업 수행
■ 전산언어학의 기초 이해
■ 자연어 처리 작업에 대한 일반적인 모델 구현
■ 적절한 평가 지표를 사용한 모델 성능 평가
■ 텍스트 데이터에 대한 시각화, 정량화, 탐색적 분석 수행

★ 이 책의 대상 독자 ★

NLP를 활용한 결과물을 만들고자 텍스트 데이터를 수집하고 분석하려는 초보자와 중급 수준의 데이터 과학자, 머신러닝 개발자 등에게 적합한 책이다. 파이썬에서 데이터 타입, 함수 작성, 라이브러리 불러오기를 사용해 코딩을 해봤다면 내용을 이해하기 좀 더 수월할 것이다. 언어학과 확률에 대한 경험이 있다면 역시 도움이 되겠지만 반드시 필요하지는 않다.

★ 이 책의 구성 ★
이 책은 파이썬 코드로 텍스트를 불러오는 매우 기초적인 작업부터 시작해 NLP에 적합한 형태로 텍스트를 정제, 어간 추출, 토큰화하는 데 필요한 파이프라인에 따라 진행된다. 그런 다음, 가장 일반적으로 사용되는 NLP 라이브러리를 사용해 NLP 통계적 방법, 벡터 표현, 모델 작성 등과 같은 기본기를 다진다. 마지막으로 여러 응용 분야에서 NLP 모델과 코드를 사용하는 실사례를 다룬다.

★ 옮긴이의 말 ★
CNN, RNN(LSTM, GRU) 등을 다양한 방식으로 활용하는 많은 연구가 계속 진행돼 왔지만, 최근 트랜스포머(Transformer), ELMO, GPT, BERT 등의 연구를 기반으로 여러 자연어 처리 태스크에서도 뛰어난 성능을 나타내는 주목할 만한 여러 연구 결과들이 계속 발표되고 있다.
스마트폰에서 사용하는 여러 앱이나 방문하는 사이트에서도 챗봇을 제공하는 사례가 점점 늘어나고 있으며, 기업에서도 매일매일 쌓여가는 수많은 로그로부터 고객의 행동이나 생각, 소비 및 구매 패턴, 추천 방안, 보안 이슈들을 파악하고자 자연어 처리 알고리즘을 활용하고 있다.
이 책은 다양한 자연어 처리 알고리즘의 기반이 되는 기초 지식을 다룬다. 자연어 처리의 개념과 자연어 처리의 과정을 소개하고 품사 태깅, 불용어 처리, 정규화, 어간 추출, 표제어 추출 등 텍스트 데이터를 다룰 때 반드시 필요한 기반 기술을 하나씩 살펴본다. 실무에 다양한 방식으로 적용해볼 수 있는 텍스트 분류기를 만들어보고, 텍스트를 수집하는 데 반드시 필요한 기술인 스크래핑을 소개한다. 다음으로 대량의 문서를 일일이 읽지 않아도 문서의 주제를 파악할 수 있는 토픽 모델링 방법을 자세히 다루고, 활발한 연구가 이뤄지고 있는 텍스트 요약 및 생성 분야를 소개한다. 자연어 처리 분야에 딥러닝을 적용하는 데 가장 중요한 임베딩을 소개한 뒤, 실무에서 다양한 방식으로 적용해볼 수 있는 감성 분석 애플리케이션을 구현해본다. 이 책을 통해 자연어 처리 분야에 입문할 때 반드시 알아야 할 내용을 다양한 예제를 구현해가면서 쉽게 익힐 수 있을 것이다.

목차

1장. 자연어 처리 소개
__소개
__NLP의 역사
__텍스트 분석과 NLP
____예제 1: 기본적인 텍스트 분석
__NLP의 다양한 단계
____토큰화
____예제 2: 단순 문장의 토큰화
____PoS 태깅
____예제 3: PoS 태깅
____불용어 제거
____예제 4: 불용어 제거
____텍스트 정규화
____예제 5: 텍스트 정규화
____철자 수정
____예제 6: 단어 및 문장 철자 수정
____어간 추출
____예제 7: 어간 추출
____표제어 추출
____예제 8: 표제어 추출을 사용해 기본 단어 추출
____NER
____예제 9: 개체명 취급
____단어 중의성 해결
____예제 10: 단어 중의성 해결
____문장 경계 인식
____예제 11: 문장 경계 인식
____실습 1: 원시 텍스트 전처리
__NLP 프로젝트 활성화
____데이터 수집
____데이터 전처리
____피처 추출
____모델 개발
____모델 평가
____모델 배포
__요약

2장. 기본적인 피처 추출 방법
__소개
__데이터 타입
____구조 기반 데이터 분류
____내용 기반 데이터의 범주화
__텍스트 데이터 정제
____토큰화
____예제 12: 텍스트 정제와 토큰화
____예제 13: n-그램 추출
____예제 14: 다른 패키지로 텍스트 토큰화 - 케라스와 TextBlob
____토크나이저의 종류
____예제 15: 다양한 토크나이저를 사용한 텍스트 토큰화
____토큰화의 이슈들
____어간 추출
____RegexpStemmer
____예제 16: RegexpStemmer를 사용해 진행형 형태의 단어를 기본 단어로 변환
____포터 형태소 분석기
____예제 17: 포터 형태소 분석기
____표제어 추출
____예제 18: 표제어 추출
____예제 19: 단어의 단수화와 복수화
____언어 번역
____예제 20: 언어 번역
____불용어 제거
____예제 21: 불용어 제거
__텍스트로부터 피처 추출
____원시 텍스트에서 일반적인 피처 추출
____예제 22: 원시 텍스트에서 일반적인 피처 추출
____실습 2: 텍스트에서 일반적인 피처 추출하기
____단어 모음
____예제 23: BoW 생성
____지프의 법칙
____예제 24: 지프의 법칙
____TF-IDF
____예제 25: TF-IDF 표현
____실습 3: 텍스트에서 특수한 피처 추출하기
__피처 엔지니어링
____예제 26: 피처 엔지니어링(텍스트 유사도)
____단어 구름
____예제 27: 단어 구름
____다른 시각화 방법들
____예제 28: 다양한 시각화(종속 구문 분석 트리와 개체명)
____실습 4: 텍스트 시각화
__요약

3장. 텍스트 분류기 개발
__소개
__머신러닝
____비지도 학습
____계층적 군집화
____예제 29: 계층적 군집화
____K-평균 군집화
____예제 30: K-평균 군집화
____지도 학습
____분류
____로지스틱 회귀
____나이브 베이즈 분류기
____K-최근접 이웃
____예제 31: 텍스트 분류(로지스틱 회귀, 나이브베이즈, KNN)
____회귀
____선형 회귀
____예제 32: 텍스트 데이터를 사용한 회귀분석
____트리 기반 방법
____랜덤 포레스트
____GBM과 XGBoost
____예제 33: 트리 기반 방법(의사 결정 트리, 랜덤 포레스트, GBM, XGBoost)
____샘플링
____예제 34: 샘플링(단순 무작위 추출법, 층화 추출법, 다단계 추출법)
__텍스트 분류기 개발
____피처 추출
____피처 엔지니어링
____상호 연관된 피처 제거
____예제 35: 높은 상관관계 피처들 제거(토큰)
____차원 축소
____예제 36: 차원 축소(PCA)
____모델 유형 결정
____모델 성능 평가
____예제 37: RMSE와 MAPE 계산
____실습 5: 엔드 투 엔드 텍스트 분류기 개발
__NLP 프로젝트를 위한 파이프라인 구축
____예제 38: NLP 프로젝트를 위한 파이프라인 구축
__모델 저장 및 불러오기
____예제 39: 모델 저장 및 불러오기
__요약

4장. 웹에서 텍스트 데이터 수집하기
__소개
__웹 페이지를 스크래핑해 데이터 수집하기
____예제 40: HTML 파일에서 태그 기반 정보 추출하기
__웹 페이지에서 내용 불러오기
____예제 41: 온라인 텍스트 데이터 수집
____예제 42: 주피터 노트북의 내용 분석하기(HTML 형식)
____실습 6: 온라인 HTML 페이지에서 정보 추출하기
____실습 7: 정규 표현식을 사용해 데이터 추출 및 분석하기
__준정형 데이터 다루기
____JSON
____예제 43: JSON 파일 다루기
____실습 8: 온라인 JSON 파일 다루기
____XML
____예제 44: 로컬에 있는 XML 파일 다루기
____API를 사용해 실시간 데이터 불러오기
____예제 45: API를 사용한 데이터 수집
____API 생성
____실습 9: 트위터에서 데이터 추출하기
____로컬 파일에서 데이터 추출하기
____예제 46: 로컬 파일에서 데이터 추출하기
____예제 47: 로컬 파일에 다양한 작업 수행
__요약

5장. 토픽 모델링
__소개
__토픽 찾기
____테마 찾기
____탐색적 데이터 분석
____문서 군집화
____차원 축소
____역사 분석
____단어 모음
__토픽 모델링 알고리즘
____잠재 의미 분석
____LSA - 동작 방식
____예제 48: 잠재 의미 분석을 활용한 로이터 뉴스 기사 분석
____잠재 디리클레 할당
____LDA 동작 방식
____예제 49: 항공사 트윗에 있는 토픽
____토픽 핑거프린팅
____예제 50: 토픽 벡터를 사용한 문서 시각화
____실습 10: 제퍼디 질문에 대한 토픽 모델링
__요약

6장. 텍스트 요약과 텍스트 생성
__소개
__자동 텍스트 요약이란?
____자동 텍스트 요약의 이점
__텍스트 요약의 고수준 뷰
____목적
____입력
____출력
____추출적 텍스트 요약
____추상적 텍스트 요약
____시퀀스 투 시퀀스
____인코더-디코더
__TextRank
____예제 51: TextRank 기초
__젠심을 사용한 텍스트 요약
____실습 11: 젠심 텍스트 요약기를 사용해 다운로드한 페이지 요약하기
__단어 빈도를 이용한 텍스트 요약
____예제 52: 단어 빈도수 텍스트 요약
__마르코프 체인을 사용한 텍스트 생성
____마르코프 체인
____예제 53: 마르코프 체인을 사용한 텍스트 생성
__요약

7장. 벡터 표현
__소개
__벡터 정의
__벡터 표현을 사용하는 이유
____인코딩
____문자 수준 인코딩
____예제 54: ASCII 값을 사용한 문자 인코딩
____예제 55: 넘파이 배열을 사용한 문자 수준 인코딩
____위치 기반 문자 수준 인코딩
____예제 56: 위치를 사용한 문자 수준 인코딩
____원핫 인코딩
____원핫 인코딩의 주요 단계
____예제 57: 문자 원핫 인코딩 - 수동적인 방법
____예제 58: 케라스를 활용한 문자 수준 원핫 인코딩
____단어 수준 원핫 인코딩
____예제 59: 단어 수준 원핫 인코딩
____단어 임베딩
____Word2Vec
____예제 60: 단어 벡터 학습
____사전 학습된 단어 벡터 사용
____예제 61: 사전 학습된 단어 벡터 불러오기
____문서 벡터
____문서 벡터의 활용
____예제 62: 영화 대화를 문서 벡터로 변환하기
____실습 12: 문서 벡터를 활용해 유사한 영화 대사 찾기
__요약

8장. 감성 분석
__소개
__왜 감성 분석이 필요한가?
__감성 분석의 성장
____감성의 수익 창출
____감성의 유형
____주요 아이디어와 용어
____감성 분석의 응용 분야
__감성 분석에 사용하는 도구들
____주요 클라우드 제공업체의 NLP 서비스
____온라인 마켓플레이스
____파이썬 NLP 라이브러리
____딥러닝 라이브러리
__TextBlob
____예제 63: TextBlob 라이브러리를 사용한 기본적인 감성 분석
____실습 13: TextBlob 라이브러리를 사용해 트윗 감성 분석하기
__감성 분석 데이터의 이해
____예제 64: 감성 분석 데이터 불러오기
__감성 모델 학습
____예제 65: TF-IDF와 로지스틱 회귀를 사용한 감성 모델 학습
__요약

부록

저자소개

쇼홈 고시 [저] 신작알림 SMS신청
생년월일 -

해당작가에 대한 소개가 없습니다.

김창엽 [역] 신작알림 SMS신청
생년월일 -

크라우드웍스 ML 팀에서 머신러닝 엔지니어로 일하고 있다. 데이터 분석과 머신러닝에 관심이 많아 고려대학교 산업경영공학과 데이터 사이언스 및 비즈니스 애널리틱스(DSBA) 연구실에서 박사 과정을 수료했다. 이전에는 KT와 안랩에서 12년간 근무하며 악성코드 대응 및 침해사고 분석 업무, 머신러닝을 활용한 네트워크 장애 진단 과제를 수행했다. 번역서로는 에이콘출판사에서 출간한 『텐서플로 入門』(2016), 『케라스로 구현하는 딥러닝과 강화학습』(2017), 『딥러닝 데이터 전처리 입문』(2018), 『머신러닝을 활용한 컴퓨터 보안』(2019), 『예제로 배우는 자연어 처리

펼쳐보기
최민환 [역] 신작알림 SMS신청
생년월일 -

해당작가에 대한 소개가 없습니다.

이 상품의 시리즈

(총 79권 / 현재구매 가능도서 74권)

선택한 상품 북카트담기
펼쳐보기

전공도서/대학교재 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

    리뷰쓰기

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    10.0

    판매자정보

    • 인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

    상호

    (주)교보문고

    대표자명

    안병현

    사업자등록번호

    102-81-11670

    연락처

    1544-1900

    전자우편주소

    callcenter@kyobobook.co.kr

    통신판매업신고번호

    01-0653

    영업소재지

    서울특별시 종로구 종로 1(종로1가,교보빌딩)

    교환/환불

    반품/교환 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능

    반품/교환가능 기간

    변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능
    단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    반품/교환 비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담

    반품/교환 불가 사유

    ·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)

    ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등

    ·복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음

    소비자 피해보상
    환불지연에 따른 배상

    ·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    (주) 인터파크 안전결제시스템 (에스크로) 안내

    (주)인터파크의 모든 상품은 판매자 및 결제 수단의 구분없이 회원님들의 구매안전을 위해 안전결제 시스템을 도입하여 서비스하고 있습니다.
    결제대금 예치업 등록 : 02-006-00064 서비스 가입사실 확인

    배송안내

    • 교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.

    • 배송비는 업체 배송비 정책에 따릅니다.

    • - 도서 구매 시, 1만 원 이상 무료, 1만원 미만 2천 원 - 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용