간편결제, 신용카드 청구할인
삼성카드 6% (24,540원)
(삼성카드 6% 청구할인)
인터파크 롯데카드 5% (24,800원)
(최대할인 10만원 / 전월실적 40만원)
북피니언 롯데카드 30% (18,270원)
(최대할인 3만원 / 3만원 이상 결제)
NH쇼핑&인터파크카드 20% (20,880원)
(최대할인 4만원 / 2만원 이상 결제)
Close

검색을 위한 딥러닝 : 심층 신경망을 활용하는 차세대 검색 엔진 개발

원제 : Deep Learning For Search
소득공제

2013년 9월 9일 이후 누적수치입니다.

판매지수 332
?
판매지수란?
사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 지수입니다. 현재 가장 잘 팔리는 상품에 가중치를 두었기 때문에 실제 누적 판매량과는 다소 차이가 있을 수 있습니다. 판매량 외에도 다양한 가중치로 구성되어 최근의 이슈도서 확인시 유용할 수 있습니다. 해당 지수는 매일 갱신됩니다.
Close
공유하기
정가

29,000원

  • 26,100 (10%할인)

    1,450P (5%적립)

할인혜택
적립혜택
  • I-Point 적립은 출고완료 후 14일 이내 마이페이지에서 적립받기한 경우만 적립됩니다.
추가혜택
배송정보
  •  당일배송을 원하실 경우 주문시 당일배송을 선택해주세요.
  • 서울시 강남구 삼성로 512변경
  • 배송지연보상 안내
  • 무료배송
  • 해외배송가능
주문수량
감소 증가
  • 이벤트/기획전

  • 연관도서(25)

  • 사은품(10)

책소개

딥러닝을 활용해 더 스마트하고 인간 친화적인 검색 엔진을 만드는 기술의 모든 것!

구글이나 네이버에서 벗어나 나만의 사용자 중심 검색 엔진을 만들 수 있을까? 이 책에서는 딥러닝, 즉 심층 신경망을 사용하여 더 나은 검색을 이끌어내는 방법을 배웁니다. 우선 색인 처리 및 순위지정과 같은 기본 검색 기술이 딥러닝과 어떤 관련성이 있는지를 알아봅니다. 그런 다음, 아파치 루씬과 DL4J를 사용하는 검색 기능을 딥러닝 기술로 보강해 보는 심층 예제를 다루고, 더 나아가서 이미지 검색, 사용자 질의 내용 번역, 학습하는 동안 개선되는 검색 엔진 설계와 같은 고급 주제를 살펴봅니다.

출판사 서평

딥러닝 기술을 활용해서 한층 더 진화된 검색 엔진을 완성한다!
신경망을 이용한 인공지능 검색 시스템의 원리와 활용!


딥러닝을 활용하면 검색어가 부정확하거나, 색인이 심하게 꼬여 있거나, 메타데이터가 거의 없는
상태에서도 이미지 검색과 같은 가장 까다로운 검색까지 처리할 수 있다. 또한, DL4J나 텐서플로와 같은 최신 도구를 사용하면 데이터 과학이나 자연어 처리에 대한 배경지식이 깊지 않아도 강력한 딥러닝 기술을 응용할 수 있다.

독자는 이 책을 통해 신경망을 사용하여 검색 결과를 향상시키는 방법을 배울 수 있다. 이 책에서는 색인 처리 및 순위지정과 같은 기본 검색 기술이 딥러닝과 어떤 관련성이 있는지를 검토하는 것부터 시작한다. 그런 다음, 아파치 루씬과 DL4J를 사용하는 검색 기능을 딥러닝 기술로 보강해 보는 심층 예제를 다루고, 더 나아가서 이미지 검색, 사용자 질의 내용 번역, 학습하는 동안 개선되는 검색 엔진 설계와 같은 고급 주제를 살펴본다.

■ 동의어를 생성해 쿼리 보충하기
■ 정확하고 연관성 높은 결과가 먼저 나오게 순위지정하기
■ 여러 외국어를 사용해서 검색하기
■ 이미지 내용을 가지고 이미지 검색하기
■ 추천 기능을 제공해 검색 돕기

목차

PART I 검색이 딥러닝을 만나다 1
CHAPTER 1 신경망을 이용한 검색 3

1.1 신경망과 딥러닝 5
1.2 머신러닝이란? 8
1.3 검색 시에 딥러닝으로 할 수 있는 일은? 10
1.4 딥러닝 학습을 위한 계획도 14
1.5 유용한 정보 꺼내기 16
1.5.1 텍스트, 토큰, 용어, 검색에 관한 기초 지식 18
1.5.2 연관도 우선 28
1.5.3 고전적인 검색 모델 29
1.5.4 정밀도와 재현율 30
1.6 미해결 문제들 31
1.7 검색 엔진 블랙박스 열기 32
1.8 구조의 손길을 펼치는 딥러닝 34
1.9 색인아, 뉴런을 만나 주지 않을래? 38
1.10 신경망 훈련 39
1.11 신경 검색의 약속들 42

CHAPTER 2 동의어 생성 44
2.1 동의어 확장 소개 45
2.1.1 왜 동의어인가? 47
2.1.2 어휘 기반 동의어 일치 49
2.2 맥락의 중요성 60
2.3 순방향 신경망 62
2.4 word2vec 사용 66
2.4.1 Deeplearning4j에 word2vec 끼워 쓰기 76
2.4.2 Word2vec 기반 동의어 확장 77
2.5 평가 및 비교 80
2.6 프로덕션 시스템에 대해 고려할 사항 81
2.6.1 동의어 대 반의어 83

PART 2 검색 엔진에 신경망들 던져 넣기 87
CHAPTER 3 일반 검색에서 텍스트 생성까지 89

3.1 정보 요구 대 쿼리: 틈새를 메우는 것 91
3.1.1 대안 쿼리 생성 91
3.1.2 데이터 준비 94
3.1.3 데이터 생성 준비 102
3.2 시퀀스 학습 103
3.3 재귀 신경망 104
3.3.1 RNN 내부 구조와 작동 방식 107
3.3.2 장기 의존성 111
3.3.3 장단기 기억망 112
3.4 비지도 학습 방식으로 텍스트를 생성하기 위한 LSTM 망 113
3.4.1 비지도 쿼리 확장 122
3.5 비지도 텍스트 생성에서 지도 텍스트 생성까지 126
3.5.1 시퀀스-투-시퀀스 모델링 126
3.6 프로덕션 시스템에 대해 고려해야 할 점 130

CHAPTER 4 그럴듯한 쿼리들 제안하기 133
4.1 쿼리 제안 생성 134
4.1.1 쿼리 작성 중에 제안하기 135
4.1.2 사전 기반 제안 136
4.2 루씬 룩업 API 136
4.3 분석된 내용을 활용하는 제안기 141
4.4 언어 모델 사용 148
4.5 내용 기반 제안기 152
4.6 신경 언어 모델 154
4.7 제안용 문자 기반 신경 언어 모델 156
4.8 LSTM 언어 모델 조율 160
4.9 단어 매장을 이용한 제안 다양화 169

CHAPTER 5 단어 매장을 사용해 검색 결과의 순위지정하기 173
5.1 순위지정의 중요성 174
5.2 검색 모델 177
5.2.1 TF-IDF와 벡터 공간 모델 179
5.2.2 루씬에서 문서의 순위지정하기 183
5.2.3 확률 모델 186
5.3 신경 정보 검색 188
5.4 단어 벡터에서 문서 벡터까지 189
5.5 평가 및 비교 196
5.5.1 평균 단어 매장 기준 유사도 198

CHAPTER 6 순위지정 및 추천을 위한 문서 매장 203
6.1 단어 매장으로부터 문서 매장까지 204
6.2 순위지정 시 단락 벡터 사용 208
6.2.1 단락 벡터 기반 유사도 211
6.3 문서 매장과 연관 내용 211
6.3.1 검색, 추천 그리고 연관 내용 212
6.3.2 빈출 용어들을 사용해 유사한 내용 찾기 214
6.3.3 단락 벡터를 사용해 유사한 내용 검색 224
6.3.4 인코더-디코더 모델에서 벡터를 사용해 유사한 내용 검색 227

PART 3 한 걸음 더 나아가다 231
CHAPTER 7 여러 언어로 검색하기 233

7.1 언어가 서로 다른 사용자들에게 서비스하기 234
7.1.1 문서 번역 대 쿼리 번역 235
7.1.2 교차 언어 검색 237
7.1.3 루씬 기반 다중 언어 쿼리 239
7.2 통계적 기계 번역 241
7.2.1 정렬 244
7.2.2 단락 기반 번역 245
7.3 병렬 말뭉치를 가지고 일하기 246
7.4 신경 기계 번역 249
7.4.1 인코더-디코더 모델 250
7.4.2 DL4J에서 기계 번역을 하기 위한 인코더-디코더 254
7.5 여러 언어를 위한 단어 매장 및 문서 매장 261
7.5.1 선형 사영 1개 국어 사용 매장 261

CHAPTER 8 내용 기반 이미지 검색 268
8.1 이미지 내용과 검색 270
8.2 되돌아보기: 텍스트 기반 이미지 검색 272
8.3 이미지 이해하기 275
8.3.1 이미지 표현 277
8.3.2 특징 추출 280
8.4 이미지 표현을 위한 딥러닝 288
8.4.1 CNN 290
8.4.2 이미지 검색 298
8.4.3 국소성 민감 해싱 304
8.5 레이블이 없는 이미지 다루기 308

CHAPTER 9 성능 엿보기 314
9.1 성과 및 딥러닝의 약속 315
9.1.1 모델 설계로부터 모델 산출로 316
9.2 색인과 뉴런이 협동하게 하기 334
9.3 데이터 스트림 작업 337

찾아보기 346

본문중에서

최종 사용자에게는 검색 결과의 품질이 무척 중요하다. 검색 엔진은 어떤 검색 결과가 특정 사용자가 필요한 정보에 가장 부합한지를 알아내는 일을 무엇보다 잘 해야 한다. 검색 결과로 나온 내용에 순위(rank)가 잘 지정되어 있으면 사용자들은 중요한 결과를 더 쉽고 빠르게 찾을 수 있다. 그래서 우리는 관련 결과(relevant result)의 토픽에 많은 중점을 두었다. 현실적으로 이로 인해 엄청난 격차가 벌어진다.
(/ p.12)

쿼리 로그의 각 행에는 검색 결과(더 정확하게 말하자면 일치하는 결과를 담은 문서 식별번호들)와 관련된 사용자 입력 쿼리가 포함되어 있다. 하지만 여러분이 필요로 하는 것은 이게 아니다. 훈련 사례는 입력 쿼리와 입력과 유사한 하나 이상의 출력 쿼리로 구성되어야 한다. 그래서 망을 훈련하기 전에 여러분은 검색 로그의 라인을 처리하고 훈련 집합을 만들어야 한다. 데이터를 조작하고 수정하는 일을 포함한 이러한 종류의 작업을 흔히 데이터 준비(data preparation) 또는 전처리(preprocessing)라고 한다. 다소 지루하게 들릴지 모르지만, 데이터 준비는 관련된 머신러닝 과제의 성패를 좌우한다.
(/ p.96)

신경 언어 모델은 그 밖의 언어 모델들(예를 들면, 엔그램 모델)과 동일한 기능을 가지고 있어야 한다. 차이점은 언어 모델들이 확률 예측을 학습하는 방법과 예측이 얼마나 더 나은 것인가에 달려 있다. 3장에서는 셰익스피어의 작품에서 나온 텍스트를 재현하려는 재귀 신경망(RNN)을 도입했다. 우리는 RNN이 어떻게 작용하는지에 초점을 맞췄지만, 실제로 여러분은 문자 수준 신경 언어 모델(character-level neural language model)을 설정하고 있었다! 여러분은 RNN이 비지도 방식으로 텍스트 시퀀스를 아주 잘 학습한다는 점을 보았는데, 이는 RNN이 이전에 본 시퀀스를 바탕으로 새로운 시퀀스를 잘 생성할 수 있기 때문이다. 언어 모델은 텍스트 시퀀스에 대한 정확한 확률을 얻는 법을 학습하므로 이런 언어 모델이 RNN으로 쓰기에 딱 맞는 것처럼 보인다.
(/ p.154)

통계적 기계 번역(statistical machine translation, SMT)은 통계적 접근법을 사용해 입력 단어나 입력 문장에 대해 어떤 표적 단어나 표적 문장이 가장 가능성이 높은 번역인지를 예측한다. 예를 들어, 통계적 기계 번역 프로그램은 ‘‘hombre’라는 단어의 영어 번역 중에 가장 가능성이 높은 것은 무엇인가?’라는 질문에 대답할 수 있어야 한다. 그렇게 하려면 통계 모델을 병렬 말뭉치를 통해 훈련해야 한다. 병렬 말뭉치(parallel corpus)는 각 내용이 원어(예: 스페인어)와 표적
어(예: 영어)라는 두 가지 버전으로 제공되는 텍스트 조각(문서, 문장, 단어 등)의 모임이다.
(/ p.241)

인공 신경망과 인간의 뇌의 작용 간에는, 이 두 가지 신경망의 이름에도 불구하고, 서로 어떤 관련이 있는지 분명하지 않다. 대부분의 일반적인 인공 신경망 아키텍처에는 고정된 구조가 있다. 즉, 인공 신경망의 뉴런은 완전히 연결되어 있는 반면, 뇌의 신경세포는 그렇게 고정된(그리고 단순한) 구조를 가지고 있지 않다. CNN(convolutional neural networks, ‘합성곱 신경망’)은 원래 인간의 뇌에 있는 시각적 피질이 어떻게 작용하는지로부터 영감을 얻어 만든 것인데, 여기에 쓰이는 세포는 이미지의 특정 부분을 처리한 다음에 정교한 흐름을 따라 정보를 다른 세포로 전달하는 방식으로, 이는 여러분이 CNN에서 보게 될 내용과 같다. CNN이 다른 유형의 신경망과 관련하여 작동하는 방법의 근본적인 차이점은 평탄한 신호 입력(예: 조밀 벡터나 원핫인코딩 벡터)을 처리하지 않는다는 것이다.
(/ p.290)

관련이미지

저자소개

토마소 테오필리(Tommaso Teofili) [저] 신작알림 SMS신청 작가DB보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

오픈 소스와 머신러닝에 열정을 보이는 소프트웨어 엔지니어다. 아파치 소프트웨어 재단의 일원으로서 정보 검색 분야(루씬, 솔라 등)부터 자연어 처리와 OpenNLP, Joshua, UIMA 등에 이르는 다양한 오픈 소스 프로젝트에 기여하고 있다.

현재 어도비(Adobe)에서 검색 및 색인화 기반 컴포넌트를 개발 중이며, 자연어 처리, 정보 검색 및 딥러닝 분야를 연구하고 있다. 베를린에서 열리는 버즈워즈(Buzzwords), 국제 컴퓨터 과학 회의, 아파치콘(ApacheCon), 이클립스콘(EclipseCon) 등을 포함한 여러 회의에서 검색 기술과 머신러닝 기술의 융합을 제안했다. 트위터

펼쳐보기
생년월일 -
출생지 -
출간도서 0종
판매수 0권

다양한 정보기술 분야 경력과 저술/번역 경험을 바탕으로 IT 융·복합 사업을 꿈꾸는, 1인 회사 ‘리율’의 대표다. 옮긴 책으로는 《검색을 위한 딥러닝》, 《파이썬으로 배우는 응용 텍스트 분석》, 《R로 배우는 텍스트 마이닝》, 《케라스 창시자의 딥러닝 with R》, 《모두를 위한 실용 전자공학》, 《해킹 일렉트로닉스》, 《ggplot2》 등이 있다.

이 상품의 시리즈

(총 26권 / 현재구매 가능도서 26권)

펼쳐보기

컴퓨터/인터넷 분야에서 많은 회원이 구매한 책

    리뷰

    0.0 (총 0건)

    구매 후 리뷰 작성 시, 북피니언 지수 최대 600점

    리뷰쓰기

    기대평

    작성시 유의사항

    평점
    0/200자
    등록하기

    기대평

    10.0

    교환/환불

    교환/환불 방법

    ‘마이페이지 > 취소/반품/교환/환불’ 에서 신청함, 1:1 문의 게시판 또는 고객센터(1577-2555) 이용 가능

    교환/환불 가능 기간

    고객변심은 출고완료 다음날부터 14일 까지만 교환/환불이 가능함

    교환/환불 비용

    고객변심 또는 구매착오의 경우에만 2,500원 택배비를 고객님이 부담함

    교환/환불 불가사유

    반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가할 수 있음
    배송된 상품의 분실, 상품포장이 훼손된 경우, 비닐랩핑된 상품의 비닐 개봉시 교환/반품이 불가능함

    소비자 피해보상

    소비자 피해보상의 분쟁처리 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 따라 비해 보상 받을 수 있음
    교환/반품/보증조건 및 품질보증 기준은 소비자기본법에 따른 소비자 분쟁 해결 기준에 따라 피해를 보상 받을 수 있음

    기타

    도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 주문이 취소될 수 있음(이 경우 인터파크도서에서 고객님께 별도로 연락하여 고지함)

    배송안내

    • 인터파크 도서 상품은 택배로 배송되며, 출고완료 1~2일내 상품을 받아 보실 수 있습니다

    • 출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 상품을 기준으로 배송됩니다.

    • 군부대, 교도소 등 특정기관은 우체국 택배만 배송가능하여, 인터파크 외 타업체 배송상품인 경우 발송되지 않을 수 있습니다.

    • 배송비

    도서(중고도서 포함) 구매

    2,000원 (1만원이상 구매 시 무료배송)

    음반/DVD/잡지/만화 구매

    2,000원 (2만원이상 구매 시 무료배송)

    도서와 음반/DVD/잡지/만화/
    중고직배송상품을 함께 구매

    2,000원 (1만원이상 구매 시 무료배송)

    업체직접배송상품 구매

    업체별 상이한 배송비 적용