
掃描右側(cè)圖片或微信搜索 “ Java技術(shù)分享屋 ” ,回復(fù) “ 驗(yàn)證碼 ” ,獲取驗(yàn)證密碼。
本資料僅供讀者預(yù)覽及學(xué)習(xí)交流使用,不能用于商業(yè)用途,請?jiān)谙螺d后24小時內(nèi)刪除。如果喜歡,請購買正版!
一.資料截圖
二.資料介紹
本書介紹了Elasticsearch 的使Elasticsearch搜索集群系統(tǒng)在生產(chǎn)和生活中用、原理、系統(tǒng)優(yōu)化與擴(kuò)展應(yīng)用。本書用例子說了Java、Python、Scala和PHP的編程API,其中在Java搜索界面實(shí)現(xiàn)上,介紹了使用 Spring實(shí)現(xiàn)微服務(wù)開發(fā)。為了擴(kuò)展Elasticsearch 的功能,本書以中文分詞和英文文本分析為例介紹了插件開發(fā)方法。本書介召了使用Elasticsearch 作為數(shù)據(jù)管理平臺的日志監(jiān)控與分析方法,介紹了使用OCR從圖像中提取文本以及問答式搜索的開發(fā)方法。
三.作者簡介
羅剛,獵兔搜索技術(shù)創(chuàng)始人 曾經(jīng)擔(dān)任國防大學(xué)科研處 技術(shù)顧問 工信部 輿情開發(fā)顧問 東南大學(xué) 社會導(dǎo)師 首都師范大學(xué) 金融課程講師 北京石油化工學(xué)院 社會導(dǎo)師 北大光華管理學(xué)院 技術(shù)顧問 藍(lán)汛公司搜索集群技術(shù)咨詢顧問 新東方 創(chuàng)新研究院 研究員
四.資料目錄
第1章 使用Elasticsearch 1
1.1 基本概念 1
1.2 安裝 2
1.3 搜索集群 5
1.4 創(chuàng)建索引 6
1.5 使用Java客戶端接口 9
1.5.1 創(chuàng)建索引 11
1.5.2 增加、刪除與修改數(shù)據(jù) 14
1.5.3 分析器 16
1.5.4 數(shù)據(jù)導(dǎo)入 17
1.5.5 通過攝取快速導(dǎo)入數(shù)據(jù) 17
1.5.6 索引庫結(jié)構(gòu) 17
1.5.7 查詢 18
1.5.8 區(qū)間查詢 22
1.5.9 排序 23
1.5.10 分布式搜索 23
1.5.11 過濾器 24
1.5.12 高亮顯示 24
1.5.13 分頁 25
1.5.14 通過聚合實(shí)現(xiàn)分組查詢 26
1.5.15 文本列的聚合 27
1.5.16 遍歷數(shù)據(jù) 28
1.5.17 索引文檔 29
1.5.18 Percolate 29
1.6 RESTClient 30
1.6.1 使用攝取 31
1.6.2 代碼實(shí)現(xiàn)攝取 33
1.7 使用Jest 33
1.8 Python客戶端 37
1.9 Scala客戶端 40
1.10 PHP客戶端 43
1.11 SQL支持 44
1.12 本章小結(jié) 48
第2章 開發(fā)插件 49
2.1 搜索中文 49
2.1.1 中文分詞原理 49
2.1.2 中文分詞插件原理 51
2.1.3 開發(fā)中文分詞插件 53
2.1.4 中文AnalyzerProvider 55
2.1.5 字詞混合索引 57
2.2 搜索英文 60
2.2.1 句子切分 60
2.2.2 標(biāo)注詞性 62
2.3 使用測試套件 64
2.4 本章小結(jié) 68
第3章 管理搜索集群 69
3.1 節(jié)點(diǎn)類型 69
3.2 管理集群 69
3.3 寫入權(quán)限控制 70
3.4 使用X-Pack 71
3.5 快照 72
3.6 Zen發(fā)現(xiàn)機(jī)制 73
3.7 聯(lián)合搜索 74
3.8 緩存 74
3.9 本章小結(jié) 75
第4章 源碼分析 76
4.1 Lucene源碼分析 76
4.1.1 Ivy管理依賴項(xiàng) 76
4.1.2 源碼結(jié)構(gòu)介紹 76
4.2 Gradle 77
4.3 Guice 77
4.4 Joda-Time 79
4.5 Transport 80
4.6 線程池 80
4.7 模塊 80
4.8 Netty 81
4.9 分布式 81
4.10 本章小結(jié) 82
第5章 搜索相關(guān)性 83
5.1 BM25檢索模型 83
5.1.1 使用BM25檢索模型 86
5.1.2 參數(shù)調(diào)優(yōu) 86
5.2 學(xué)習(xí)評分 86
5.2.1 基本原理 87
5.2.2 準(zhǔn)備數(shù)據(jù) 87
5.2.3 Elasticsearch學(xué)習(xí)排名 89
5.3 本章小結(jié) 91
第6章 搜索引擎用戶界面 92
6.1 JSP實(shí)現(xiàn)搜索界面 92
6.1.1 用于顯示搜索結(jié)果的自定義標(biāo)簽 93
6.1.2 使用Listlib 98
6.1.3 實(shí)現(xiàn)翻頁 100
6.2 使用Spring實(shí)現(xiàn)的搜索界面 102
6.2.1 實(shí)現(xiàn)REST搜索界面 102
6.2.2 REST API中的HTTP PUT 104
6.2.3 Spring-data-elasticsearch 106
6.2.4 Spring HATEOAS 112
6.3 實(shí)現(xiàn)搜索接口 113
6.3.1 編碼識別 113
6.3.2 布爾搜索 116
6.3.3 搜索結(jié)果排序 116
6.4 實(shí)現(xiàn)相似文檔搜索 117
6.5 實(shí)現(xiàn)AJAX搜索聯(lián)想詞 119
6.5.1 估計(jì)查詢詞的文檔頻率 119
6.5.2 搜索聯(lián)想詞總體結(jié)構(gòu) 119
6.5.3 服務(wù)器端處理 120
6.5.4 瀏覽器端處理 125
6.5.5 拼音提示 127
6.5.6 部署總結(jié) 127
6.5.7 Suggester 128
6.6 推薦搜索詞 129
6.6.1 挖掘相關(guān)搜索詞 130
6.6.2 使用多線程計(jì)算相關(guān)搜索詞 132
6.7 查詢意圖理解 133
6.7.1 拼音搜索 133
6.7.2 無結(jié)果處理 133
6.8 集成其他功能 134
6.8.1 拼寫檢查 134
6.8.2 分類統(tǒng)計(jì) 135
6.8.3 相關(guān)搜索 141
6.8.4 再次查找 144
6.8.5 搜索日志 144
6.9 查詢分析 146
6.9.1 歷史搜索詞記錄 146
6.9.2 日志信息過濾 147
6.9.3 信息統(tǒng)計(jì) 148
6.9.4 挖掘日志信息 150
6.9.5 查詢詞意圖分析 150
6.10 部署網(wǎng)站 150
6.10.1 部署到Web服務(wù)器 151
6.10.2 防止攻擊 152
6.11 本章小結(jié) 156
第7章 OCR文字識別 157
7.1 Tesseract 157
7.2 使用TensorFlow識別文字 161
7.3 OpenCV 164
7.3.1 預(yù)處理 166
7.3.2 文字區(qū)域提取 169
7.3.3 糾正偏斜 171
7.3.4 Linux環(huán)境支持 172
7.4 JavaCV 172
7.5 本章小結(jié) 174
第8章 問答式搜索 176
8.1 生成表示語義的代碼 176
8.2 信息整合 181
8.2.1 實(shí)體對齊 181
8.2.2 編輯距離 181
8.2.3 Jaro-Winkler距離 187
8.2.4 比較器 189
8.2.5 Cleaner 189
8.2.6 運(yùn)行過程 190
8.2.7 遺傳算法調(diào)整參數(shù) 192
8.3 自動問答 193
8.3.1 問句處理器 193
8.3.2 自動發(fā)現(xiàn)答案 198
8.4 本章小結(jié) 199
第9章 Elastic系統(tǒng)監(jiān)控 201
9.1 Logstash 201
9.1.1 使用Logstash 201
9.1.2 插件 203
9.1.3 數(shù)據(jù)庫輸入插件 206
9.2 Filebeat 207
9.3 消息過期 208
9.4 Kibana 208
9.5 Flume 209
9.6 Kafka 210
9.7 Graylog 211
9.8 物聯(lián)網(wǎng)數(shù)據(jù) 215
9.9 本章小結(jié) 216