간편결제, 신용카드 청구할인
인터파크 롯데카드 5% (23,090원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (17,010원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (19,440원)
(최대할인 4만원 / 2만원 이상 결제)
Close

모두의 한국어 텍스트 분석 with 파이썬

소득공제

2013년 9월 9일 이후 누적수치입니다.

공유하기
  • 출판사 : 길벗
  • 발행 : 2023년 05월 29일
  • 쪽수 : 316
  • ISBN : 9791140704521
정가

27,000원

  • 24,300 (10%할인)

    1,350P (5%적립)

할인혜택
적립혜택
  • S-Point 적립은 마이페이지에서 직접 구매확정하신 경우만 적립 됩니다.
추가혜택
배송정보
  • 7/19(금) 이내 발송 예정  (서울시 강남구 삼성로 512)
  • 무료배송
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(24)

  • 상품권

AD

책소개

먼 미래의 거대 모델도 작은 모델에서 시작!
지금 당장 내 손으로 직접 작고 간단한 모델을 구현해보자!
정말 쉽게 누구나 따라 해볼 수 있는 실전형 프로젝트 4가지 수록!

컴퓨터는 한국어를 어떻게 이해할 수 있을까? 컴퓨터로 한국어 텍스트를 다루는 데는 무엇이 필요할까? 맨땅에서 텍스트 분석을 시작하려 할 때 또는 텍스트 분석과 자연어 처리 분야의 기본기를 탄탄히 다지며 재정비하고 싶을 때 반드시 알아야 하는 내용만 담았다.
우선 본격적인 프로젝트를 시작하기 전에 텍스트 분석에 필요한 파이썬 기초 개념과 필수 파이썬 라이브러리의 기본 사용법을 살펴보면서, 텍스트 데이터 전처리 기능과 방법을 익힌다. 다음으로 텍스트 분석의 기본 개념이자 텍스트를 수치 형태의 데이터로 변환하는 벡터화 방법인 단어 가방 모형과 TF-IDF를 배운다. 이어서 네 가지 다른 한국어 데이터를 가지고 실제 프로젝트를 진행해본다. 프로젝트는 데이터 다운로드부터 전처리, 시각화까지 전 과정을 다루며, 실습은 지금 당장 어디서라도 쉽게 진행할 수 있게 코랩으로 준비했다.

출판사 서평

누구나 쉽게 다양한 한국어 텍스트 데이터를 분석할 수 있다!

준비: 코랩 환경과 파이썬 기초
이 책의 예제와 프로젝트는 코랩에서 설치 없이, 클릭만으로 바로 실행할 수 있다. 본격적인 프로젝트를 시작하기 전에 텍스트 분석에 필요한 파이썬 기초 개념과 필수 파이썬 라이브러리인 판다스, 넘파이, 사이킷런의 기본 사용법을 살펴보면서, 텍스트 데이터 전처리 기능과 방법을 익힌다.

개념: 텍스트 분석 방법의 기본 개념
컴퓨터가 한국어를 어떻게 이해하는지, 텍스트 데이터를 어떻게 분석하는지 텍스트 분석 방법의 기본 개념을 이해한다. 그리고 머신러닝/딥러닝 라이브러리를 사용하기 위해 텍스트를 수치 형태의 데이터로 변환하는, 벡터화 방법으로 단어 가방 모형과 TF-IDF를 배운다.

프로젝트: 네 가지 실제 프로젝트 분석
네 가지 다른 한국어 데이터를 가지고 실제 프로젝트를 진행해본다. (1) 연합뉴스 타이틀 주제 분류 (2) 국민청원 텍스트 분석 (3) 120다산콜재단 데이터 토픽 모델링과 유사도 분석 (4) 인프런의 이벤트 댓글 텍스트 군집 분석

[추천평]
처음 운전을 배울 때, 자동차에 대한 모든 것을 알 필요도 없고 그렇게 가르쳐 주지도 않습니다. 자동차를 운전할 수 있는 기본 요령만 알고 시작합니다. 운전에 재미를 붙이고 익숙해지고 난 뒤에 하나씩 자동차에 대해서 알아가면 됩니다. 자연어 처리도 이와 비슷합니다. 책의 내용을 차분히 따라 하다 보면, 어느새 작은 규모의 프로젝트를 손수 구성해 볼 수 있을 것입니다.
송상헌_고려대학교 언어학과

이 책은 이론 설명에서 멈추지 않고, 데이터 획득, 코드 실습 방법을 알려 주면서 일반인도 쉽게 보고 만지면서 이해할 수 있게 해 줍니다. 첫 장을 들추고 마지막 장을 덮기까지 책을 손에서 놓기가 어려운 짜임새, 읽기 쉬운 문장들이 저자의 지식을 독자에게 쉽게 전달하기 위해 정성을 많이 들였다는 것을 알 수 있었습니다.
전창욱_LG AI Research

이 책은 기본을 이해하고, 실제 사용 방법을 익힐 수 있는 매우 좋은 책이다. 초보자부터 전문가까지 모두에게 유용한 자료가 되기를 기대한다.
고병일_카카오엔터프라이즈 자연어 처리 개발자

자연어 처리 분야에서 오랫동안 교육과 연구에 전념해 온 두 분이 함께 내신 책인 만큼 사례 위주로 접근해 나의 연구에 적용해 볼 것을 권합니다. 텍스트 분석은 해당 분야를 전공한 개발자나 연구자뿐만 아니라 다른 백그라운드를 지닌 개발자, 사업을 기획/운영하는 사람, 도메인 전문가 들이 21세기에 꼭 배워야 할 기술 중 하나라고 생각합니다.
이상열_데이터 분석가, 엔픽셀 데이터사이언스 셀장

자연어 처리 전성 시대에 텍스트 분석에 대한 다양한 예제와 자세한 설명이 담긴 책이 나와서 너무 즐겁게 읽었습니다. 실습에 필요한 내용도 꼼꼼하게 잘 들어 있고, 코드에 대한 설명도 이해하기 쉽게 되어 있어서 텍스트 분석에 입문하는 분도, 경험이 있으신 분도 많은 도움을 받을 것입니다.
이진원_뉴블라 CTO, AI 반도체 개발 및 AI 알고리즘 연구

초심자가 따라갈 수 있을 정도의 친절함과 필요한 내용만 담은 간결함, 두 마리 토끼를 동시에 잡은 책입니다.
김태권_만화가

초심자가 이해하기 쉽게 설명한 내용들, 실행하며 따라 하기 좋은 예제 코드들이 가니시(garnish)처럼 매력을 더해 줍니다. 특히 후반부의 매력적인 프로젝트들은 자연어 처리로 무엇을 할 수 있는지 궁금한 분들이 이 책을 펼치게 만들어 줄 것입니다.
김현_자연어 처리 연구자

한글 텍스트 분석을 시작할 때 모두가 참고하던 명강의가 드디어 책으로 탄생했다는 기쁜 소식을 듣고 한걸음에 베타테스트를 신청했습니다. 손에 잡히는 예제들을 차곡차곡 쌓아 올린 뒤, 실무에서 사용할 수 있을 만큼 흥미로운 프로젝트 사례까지 차근차근 실습해 볼 수 있어서 좋았습니다. 자연어 처리를 처음 시작하는 모두에게 가장 좋은 길잡이가 되어 줄 것입니다!
송석리_서울고등학교 교사, 『모두의 데이터 분석』저자

유튜브 강의로 이미 검증된 내용을 책에 담았기 때문에 무겁지 않고 가볍게 볼 수 있었습니다. 이 책을 통해 텍스트 분석과 조금 더 가까워질 것입니다!
송진영_데이터 분석가, 방송통신대학교 통계학과

누구나 궁금할 만한 실제 예제를 통해 가볍게 텍스트 분석을 익힐 수 있습니다. 구글 코랩을 이용해 원격으로 실습하게 되어 있어서 누구나 어디서나 공부할 수 있고, 텍스트 분석 전 과정을 다양한 측면에서 즐겁게 체험해볼 수 있는 입문서입니다.
이요셉_솔루티스 그린솔루션연구소 실장

목차

1장 코랩 시작하기
LESSON OT 들어가며
LESSON 01 코랩 실행하기
____1 주석
____2 단축키
LESSON 02 코랩에서 실습 코드 열기
____1 코랩 테마

2장 파이썬에서 문자열 다루기
LESSON OT 들어가며
LESSON 01 문자열 실습 전에
LESSON 02 문자열 실습
____1 문자열 표현
____2 오류 처리
____3 표현 방법 + 오류 처리
LESSON O3 문자열을 다루는 여러 방법
____1 변수
____2 인덱싱
____3 슬라이싱
____4 문자열의 길이, 단어 수
____5 문자열 함수
____6 반복
____7 함수
____8 문자열 내장 메서드 목록

3장 라이브러리 다루기
LESSON OT 들어가며
LESSON 01 판다스
____1 데이터 프레임과 시리즈 이해하기
____2 str 접근자로 문자열 다루기
LESSON 02 넘파이
____1 넘파이 배열 이해하기
____2 맷플롯립으로 넘파이 배열 시각화하기

4장 단어 가방 모형과 TF-IDF
LESSON OT 들어가며
LESSON 01 단어 가방 모형
____1 단어 가방 모형을 만드는 방법
____2 단어 가방 모형 만들기
____3 n-gram: 앞뒤 단어 묶어서 사용
____4 min_df와 max_df: 빈도수 설정
____5 max_features: 학습 단어 개수 제한
____6 stop_words: 불용어 제거
____7 analyzer: 문자, 단어 단위 설정
LESSON 02 TF-IDF
____1 TF-IDF 가중치를 적용하는 방법

5장 연합뉴스 타이틀 주제 분류
LESSON OT 들어가며
LESSON 01 데이터 선택하기
LESSON 02 분류 과정
LESSON 03 분류를 위한 기본 설정
____1 라이브러리 불러오기
____2 시각화를 위한 폰트 설정
LESSON 04 데이터 불러오기
LESSON 05 데이터 전처리하기
____1 데이터 전처리를 위한 데이터 병합
____2 정답값 빈도수 확인
____3 문자 길이 확인
____4 맷플롯립과 시본을 이용해 히스토그램으로 시각화
____5 주제별 글자와 단어의 빈도 확인
LESSON 06 문자 전처리하기
____1 숫자 제거
____2 영문자는 모두 소문자로 변경
____3 형태소 분석기로 조사, 어미, 구두점 제거
____4 불용어 제거
LESSON 07 학습, 시험 데이터 세트 분리하기
LESSON 08 단어 벡터화하기
LESSON 09 학습과 예측하기
____1 랜덤 포레스트 분류기
____2 교차 검증
____3 학습
LESSON 10 답안지 불러오기

6장 국민청원 데이터 시각화와 분류
LESSON OT 들어가며
LESSON 01 분석 과정
LESSON 02 분석을 위한 기본 설정
____1 라이브러리 불러오기
LESSON 03 판다스로 데이터 불러오기
____1 구글 드라이브에 파일 다운로드
____2 다운로드한 데이터 살펴보기
____3 결측치가 있는지 확인하기
LESSON 04 판다스 데이터 분석과 시각화
____1 답변 대상 청원 열 추가
____2 청원 기간별 분석
____3 청원 기간과 분야별 분석
____4 시각화
LESSON 05 soynlp로 워드클라우드 그리기
____1 라이브러리와 데이터
____2 토큰화
____3 텍스트 데이터 전처리
____4 워드클라우드 그리기
____5 명사만 추출해 시각화
LESSON 06 머신러닝으로 국민청원 데이터 이진 분류하기
____1 지도학습과 데이터 세트 분리
____2 이진 분류 대상 정하기
____3 평균을 기준으로 투표수 예측하기
____4 전처리하기
____5 학습 세트와 시험 세트 만들기
____6 단어 벡터화하기
____7 TF-IDF 가중치 적용하기
____8 LightGBM으로 학습시키기
____9 평가하기
____10 예측하기
____11 예측 결과의 정확도 평가하기

7장 ‘120다산콜재단’ 토픽 모델링과 RNN, LSTM
LESSON OT 들어가며
LESSON 01 분석 과정
LESSON 02 잠재 디리클레 할당으로 토픽 분류하기
____1 라이브러리 설치 및 데이터 불러오기
____2 단어 벡터화하기
____3 잠재 디리클레 할당 적용하기
____4 pyLDAvis를 통한 시각화하기
____5 유사도 분석하기
LESSON 03 순환 신경망으로 텍스트 분류하기
____1 라이브러리와 데이터 불러오기
____2 학습/시험 데이터 세트 분리하기
____3 레이블값을 행렬 형태로 만들기
____4 벡터화하기
____5 패딩하기
LESSON 04 모델 만들기
____1 Bidirectional LSTM
____2 모델 컴파일하기
____3 학습하기
____4 예측하기
____5 평가하기

8장 인프런 이벤트 댓글 분석
LESSON OT 들어가며
LESSON 01 분석 과정
LESSON 02 분석을 위한 기본 설정
____1 라이브러리 불러오기
____2 데이터 불러오기
LESSON 03 데이터 전처리
____1 중복된 글 제거하기
____2 소문자로 변환하기
LESSON 04 문자열 분리로 ‘관심강의’ 분리하기
LESSON 05 벡터화하기
LESSON 06 TF-IDF로 가중치를 주어 벡터화하기
LESSON 07 군집화하기
____1 KMeans
____2 MiniBatchKMeans
____3 클러스터 예측 평가하기
____4 실루엣 계수 분석하기

9장 ChatGPT를 사용한 문장 생성 자동화
LESSON OT 들어가며
LESSON 01 생성 모델의 개념
LESSON 02 생성 모델의 파라미터 크기와 종류
LESSON 03 ChatGPT 사용하기
LESSON 04 한국어 생성 서비스: 뤼튼

본문중에서

[지은이 서문]
“사소한 텍스트 처리 방법을 배워 언제 거대 모델을 만들 수 있을까?”
초거대 모델의 엄청난 성능을 볼 때면 비교적 적은 데이터와 간단한 작업으로 무엇을 할 수 있을지 고민이 된다. 하지만 초거대 모델도 작은 시도에서 시작됐을 것이다. 최근 모델은 코드 한두 줄의 API만 있다면 이미지나 텍스트를 생성해 내거나 질문을 하면 마치 사람처럼 답변을 준다. 하지만 텍스트로 직접 작고 간단한 모델이라도 구현하려면 어디에서부터 시작해야 할지 난감하다.
텍스트 분석을 하며 다양한 도메인의 다양한 전공자들을 만나면서 어떻게 쉽게 기술과 내용을 전달할 수 있을지 고민했던 과정이 모여서 이 책이 되었다. 하루가 다르게 새로운 연구가 쏟아져 나오는 시기에 텍스트 분석의 기본을 익혀 보는 데 좋은 시작점이 되었으면 하는 바람이다.
- 지은이 박조은 서문 중에서
“한국어 텍스트 분석 책이 없으면 영어 텍스트 분석하는 방법이랑 똑같이 하면서 글자만 한글로 바꾸면 되는 거 아닌가?”
하지만 처음 시작하는 사람은 한글이 깨져 보이면 ‘UTF-8 인코딩’이란 단어를 검색해야 하는 것을 모른다. 또한, 어떤 데이터로 시작해야 할지도 막막하고, 책이나 강의에서는 잘 돌아가는 코드가 내가 하면 에러가 나는 이유를 매번 누군가에게 물어보기도 어렵다. 누구나 그렇다. 아는 사람이 보면 아주 낮은 턱이라도 모르는 사람은 넘기가 어렵다.
이 책은 한국어로 된 다양한 텍스트를 다루면서, 데이터를 바꾸면서 달라지는 부분을 익히고, 같은 부분은 반복하면서 자연스럽게 넘파이, 판다스, 사이킷런을 익힐 수 있도록 고심해서 구성했다. 그런데도 3장에서 4장으로 넘어갈 때 난이도가 점프한다는 느낌을 받을 것이다. 하지만 6장을 넘어서면 드디어 2년 차 직장인처럼 “아! 비슷비슷하구나!” 하고 느낄 수 있기를 소망한다.
버전이 안 맞아서 안 되는 부분은 스스로 수정한 후 깃허브에 올려 보면 공부하는 데 도움이 많이 될 것이다. 잘 안 되어도 포기하지 말고 문의를 남겨 해결한 뒤 계속 공부하기를 바란다. 창의적인 부분에도 도전하면서 수동적 독자가 아닌 적극적 동반자로 함께하기를 바란다. 그 후에는 텍스트 분석의 방법이 딥러닝의 블랙박스를 밝히는 데도 도움이 될 것이다.
- 지은이 송영숙 서문 중에서

관련이미지

이 상품의 시리즈

(총 25권 / 현재구매 가능도서 25권)

선택한 상품 북카트담기
펼쳐보기

전공도서/대학교재 분야에서 많은 회원이 구매한 책

    리뷰

    10.0 (총 0건)

    100자평

    작성시 유의사항

    평점
    0/100자
    등록하기

    100자평

    0.0
    (총 0건)

    판매자정보

    • 인터파크도서에 등록된 오픈마켓 상품은 그 내용과 책임이 모두 판매자에게 있으며, 인터파크도서는 해당 상품과 내용에 대해 책임지지 않습니다.

    상호

    (주)교보문고

    대표자명

    안병현

    사업자등록번호

    102-81-11670

    연락처

    1544-1900

    전자우편주소

    callcenter@kyobobook.co.kr

    통신판매업신고번호

    01-0653

    영업소재지

    서울특별시 종로구 종로 1(종로1가,교보빌딩)

    교환/환불

    반품/교환 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청 또는 1:1 문의 게시판 및 고객센터(1577-2555)에서 신청 가능

    반품/교환가능 기간

    변심 반품의 경우 출고완료 후 6일(영업일 기준) 이내까지만 가능
    단, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    반품/교환 비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    상품이나 서비스 자체의 하자로 인한 교환/반품은 반송료 판매자 부담

    반품/교환 불가 사유

    ·소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)

    ·소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등

    ·복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    ·시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    ·전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있음

    소비자 피해보상
    환불지연에 따른 배상

    ·상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    ·대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    (주)KG이니시스 구매안전서비스서비스 가입사실 확인

    (주)인터파크커머스는 회원님들의 안전거래를 위해 구매금액, 결제수단에 상관없이 (주)인터파크커머스를 통한 모든 거래에 대하여
    (주)KG이니시스가 제공하는 구매안전서비스를 적용하고 있습니다.

    배송안내

    • 교보문고 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다.

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능합니다.

    • 배송비는 업체 배송비 정책에 따릅니다.

    • - 도서 구매 시 15,000원 이상 무료배송, 15,000원 미만 2,500원 - 상품별 배송비가 있는 경우, 상품별 배송비 정책 적용