
掃描右側(cè)圖片或微信搜索 “ Java技術(shù)分享屋 ” ,回復(fù) “ 驗(yàn)證碼 ” ,獲取驗(yàn)證密碼。
本資料僅供讀者預(yù)覽及學(xué)習(xí)交流使用,不能用于商業(yè)用途,請(qǐng)?jiān)谙螺d后24小時(shí)內(nèi)刪除。如果喜歡,請(qǐng)購(gòu)買正版!
一.資料圖片
二.資料簡(jiǎn)介
Python是數(shù)據(jù)分析的首選語(yǔ)言,而網(wǎng)絡(luò)中的數(shù)據(jù)和信息很多,如何從中獲取需要的數(shù)據(jù)和信息呢?最簡(jiǎn)單、直接的方法就是用爬蟲技術(shù)來(lái)解決。本書是一本教初學(xué)者學(xué)習(xí)如何爬取網(wǎng)絡(luò)數(shù)據(jù)和信息的入門讀物。書中不僅有Python的相關(guān)內(nèi)容,而且還有數(shù)據(jù)處理和數(shù)據(jù)挖掘等方面的內(nèi)容。本書內(nèi)容非常實(shí)用,講解時(shí)穿插了22個(gè)爬蟲實(shí)戰(zhàn)案例,可以大大提高讀者的實(shí)際動(dòng)手能力。
本書共分12章,核心主題包括Python零基礎(chǔ)語(yǔ)法入門、爬蟲原理和網(wǎng)頁(yè)構(gòu)造、我的第一個(gè)爬蟲程序、正則表達(dá)式、Lxml庫(kù)與Xpath語(yǔ)法、使用API、數(shù)據(jù)庫(kù)存儲(chǔ)、多進(jìn)程爬蟲、異步加載、表單交互與模擬登錄、Selenium模擬瀏覽器、Scrapy爬蟲框架。此外,書中通過(guò)一些典型爬蟲案例,講解了有經(jīng)緯信息的地圖圖表和詞云的制作方法,讓讀者體驗(yàn)數(shù)據(jù)背后的樂(lè)趣。
本書適合爬蟲技術(shù)初學(xué)者、愛好者及高等院校的相關(guān)學(xué)生,也適合數(shù)據(jù)爬蟲工程師作為參考讀物,同時(shí)也適合各大Python數(shù)據(jù)分析的培訓(xùn)機(jī)構(gòu)作為教材使用。
三.資料目錄
前言
第1章 Python零基礎(chǔ)語(yǔ)法入門 1
1.1 Python與PyCharm安裝 1
1.1.1 Python安裝(Windows、Mac和Linux) 1
1.1.2 PyCharm安裝 3
1.2 變量和字符串 3
1.2.1 變量 4
1.2.2 字符串的“加法”和“乘法” 4
1.2.3 字符串的切片和索引 5
1.2.4 字符串方法 5
1.3 函數(shù)與控制語(yǔ)句 7
1.3.1 函數(shù) 7
1.3.2 判斷語(yǔ)句 8
1.3.3 循環(huán)語(yǔ)句 8
1.4 Python數(shù)據(jù)結(jié)構(gòu) 9
1.4.1 列表 9
1.4.2 字典 11
1.4.3 元組和集合 11
1.5 Python文件操作 11
1.5.1 打開文件 11
1.5.2 讀寫文件 12
1.5.3 關(guān)閉文件 13
1.6 Python面向?qū)ο?13
1.6.1 定義類 14
1.6.2 實(shí)例屬性 14
1.6.3 實(shí)例方法 15
1.6.4 類的繼承 16
第2章 爬蟲原理和網(wǎng)頁(yè)構(gòu)造 17
2.1 爬蟲原理 17
2.1.1 網(wǎng)絡(luò)連接 17
2.1.2 爬蟲原理 18
2.2 網(wǎng)頁(yè)構(gòu)造 21
2.2.1 Chrome瀏覽器的安裝 21
2.2.2 網(wǎng)頁(yè)構(gòu)造 22
2.2.3 查詢網(wǎng)頁(yè)信息 23
第3章 我的第一個(gè)爬蟲程序 26
3.1 Python第三方庫(kù) 26
3.1.1 Python第三方庫(kù)的概念 26
3.1.2 Python第三方庫(kù)的安裝方法 27
3.1.3 Python第三方庫(kù)的使用方法 29
3.2 爬蟲三大庫(kù) 30
3.2.1 Requests庫(kù) 30
3.2.2 BeautifulSoup庫(kù) 32
3.2.3 Lxml庫(kù) 36
3.3 綜合案例1——爬取北京地區(qū)短租房信息 37
3.3.1 爬蟲思路分析 37
3.3.2 爬蟲代碼及分析 38
3.4 綜合案例2——爬取酷狗TOP500的數(shù)據(jù) 41
3.4.1 爬蟲思路分析 41
3.4.2 爬蟲代碼及分析 43
第4章 正則表達(dá)式 45
4.1 正則表達(dá)式常用符號(hào) 45
4.1.1 一般字符 45
4.1.2 預(yù)定義字符集 46
4.1.3 數(shù)量詞 46
4.1.4 邊界匹配 47
4.2 re模塊及其方法 48
4.2.1 search()函數(shù) 48
4.2.2 sub()函數(shù) 49
4.2.3 findall()函數(shù) 49
4.2.4 re模塊修飾符 51
4.3 綜合案例1——爬取《斗破蒼穹》全文小說(shuō) 53
4.3.1 爬蟲思路分析 53
4.3.2 爬蟲代碼及分析 55
4.4 綜合案例2——爬取糗事百科網(wǎng)的段子信息 56
4.4.1 爬蟲思路分析 56
4.4.2 爬蟲代碼及分析 58
第5章 Lxml庫(kù)與Xpath語(yǔ)法 63
5.1 Lxml庫(kù)的安裝與使用方法 63
5.1.1 Lxml庫(kù)的安裝(Mac、Linux) 63
5.1.2 Lxml庫(kù)的使用 64
5.2 Xpath語(yǔ)法 68
5.2.1 節(jié)點(diǎn)關(guān)系 68
5.2.2 節(jié)點(diǎn)選擇 70
5.2.3 使用技巧 70
5.2.4 性能對(duì)比 74
5.3 綜合案例1——爬取豆瓣網(wǎng)圖書TOP250的數(shù)據(jù) 77
5.3.1 將數(shù)據(jù)存儲(chǔ)到CSV文件中 77
5.3.2 爬蟲思路分析 78
5.3.3 爬蟲代碼及分析 80
5.4 綜合案例2——爬取起點(diǎn)中文網(wǎng)小說(shuō)信息 83
5.4.1 將數(shù)據(jù)存儲(chǔ)到Excel文件中 83
5.4.2 爬蟲思路分析 84
5.4.3 爬蟲代碼及分析 86
第6章 使用API 88
6.1 API的使用 88
6.1.1 API概述 88
6.1.2 API使用方法 89
6.1.3 API驗(yàn)證 91
6.2 解析JSON數(shù)據(jù) 93
6.2.1 JSON解析庫(kù) 93
6.2.2 斯必克API調(diào)用 94
6.2.3 百度地圖API調(diào)用 96
6.3 綜合案例1——爬取PEXELS圖片 98
6.3.1 圖片爬取方法 98
6.3.2 爬蟲思路分析 99
6.3.3 爬蟲代碼及分析 100
6.4 綜合案例2——爬取糗事百科網(wǎng)的用戶地址信息 102
6.4.1 地圖的繪制 102
6.4.2 爬取思路分析 105
6.4.3 爬蟲代碼及分析 106
第7章 數(shù)據(jù)庫(kù)存儲(chǔ) 109
7.1 MongoDB數(shù)據(jù)庫(kù) 109
7.1.1 NoSQL概述 109
7.1.2 MongoDB的安裝 109
7.1.3 MongoDB的使用 115
7.2 MySQL數(shù)據(jù)庫(kù) 117
7.2.1 關(guān)系型數(shù)據(jù)庫(kù)概述 117
7.2.2 MySQL的安裝 117
7.2.3 MySQL的使用 123
7.3 綜合案例1——爬取豆瓣音樂(lè)TOP250的數(shù)據(jù) 126
7.3.1 爬蟲思路分析 126
7.3.2 爬蟲代碼及分析 127
7.4 綜合案例2——爬取豆瓣電影TOP250的數(shù)據(jù) 132
7.4.1 爬蟲思路分析 132
7.4.2 爬蟲代碼及分析 133
第8章 多進(jìn)程爬蟲 139
8.1 多線程與多進(jìn)程 139
8.1.1 多線程和多進(jìn)程概述 139
8.1.2 多進(jìn)程使用方法 140
8.1.3 性能對(duì)比 140
8.2 綜合案例1——爬取簡(jiǎn)書網(wǎng)熱評(píng)文章 143
8.2.1 爬蟲思路分析 143
8.2.2 爬蟲代碼及分析 147
8.3 綜合案例2——爬取轉(zhuǎn)轉(zhuǎn)網(wǎng)二手市場(chǎng)商品信息 150
8.3.1 爬蟲思路分析 150
8.3.2 爬蟲代碼及分析 152
第9章 異步加載 159
9.1 異步加載技術(shù)與爬蟲方法 159
9.1.1 異步加載技術(shù)概述 159
9.1.2 異步加載網(wǎng)頁(yè)示例 159
9.1.3 逆向工程 162
9.2 綜合案例1——爬取簡(jiǎn)書網(wǎng)用戶動(dòng)態(tài)信息 165
9.2.1 爬蟲思路分析 165
9.2.2 爬蟲代碼及分析 171
9.3 綜合案例2——爬取簡(jiǎn)書網(wǎng)7日熱門信息 173
9.3.1 爬蟲思路分析 173
9.3.2 爬蟲代碼及分析 179
第10章 表單交互與模擬登錄 182
10.1 表單交互 182
10.1.1 POST方法 182
10.1.2 查看網(wǎng)頁(yè)源代碼提交表單 182
10.1.3 逆向工程提交表單 185
10.2 模擬登錄 187
10.2.1 Cookie概述 187
10.2.2 提交Cookie模擬登錄 187
10.3 綜合案例1——爬取拉勾網(wǎng)招聘信息 188
10.3.1 爬蟲思路分析 188
10.3.2 爬蟲代碼及分析 193
10.4 綜合案例2——爬取新浪微博好友圈信息 195
10.4.1 詞云制作 195
10.4.2 爬蟲思路分析 202
10.4.3 爬蟲代碼及分析 206
第11章 Selenium模擬瀏覽器 209
11.1 Selenium和PhantomJS 209
11.1.1 Selenium的概念和安裝 209
11.1.2 瀏覽器的選擇和安裝 209
11.2 Selenium和PhantomJS的配合使用 213
11.2.1 模擬瀏覽器操作 213
11.2.2 獲取異步加載數(shù)據(jù) 215
11.3 綜合案例1——爬取QQ空間好友說(shuō)說(shuō) 218
11.3.1 CSV文件讀取 218
11.3.2 爬蟲思路分析 220
11.3.3 爬蟲代碼及分析 221
11.4 綜合案例2——爬取淘寶商品信息 224
11.4.1 爬蟲思路分析 224
11.4.2 爬蟲代碼及分析 226
第12章 Scrapy爬蟲框架 229
12.1 Scrapy的安裝和使用 229
12.1.1 Scrapy的安裝 229
12.1.2 創(chuàng)建Scrapy項(xiàng)目 233
12.1.3 Scrapy文件介紹 235
12.1.4 Scrapy爬蟲編寫 237
12.1.5 Scrapy爬蟲運(yùn)行 239
12.2 綜合案例1——爬取簡(jiǎn)書網(wǎng)熱門專題信息 240
12.2.1 爬蟲思路分析 240
12.2.2 爬蟲代碼及分析 244
12.3 綜合案例2——爬取知乎網(wǎng)Python精華話題 246
12.3.1 爬蟲思路分析 246
12.3.2 爬蟲代碼及分析 248
12.4 綜合案例3——爬取簡(jiǎn)書網(wǎng)專題收錄文章 250
12.4.1 爬蟲思路分析 251
12.4.2 爬蟲代碼及分析 254
12.5 綜合案例4——爬取簡(jiǎn)書網(wǎng)推薦信息 257
12.5.1 爬蟲思路分析 258
12.5.2 爬蟲代碼及分析 260