內容簡介1 X) ~2 P6 `, m8 I5 |
想自動化生活瑣事?想透過程式擷取網路上的公開資訊?學了Python卻不知道有什麼實際應用?正在尋找入門難度低且成就感高的Python專案?想知道網路爬蟲如何與資料分析結合?本書一次教給你!5 r$ N( Q! F6 @$ x
本書適合閱讀的對象:
8 E, F& z! r! {) z9 G8 N2 S" m ● 對網路爬蟲程式或資料分析有興趣者
" R4 {3 w% w) R ● 想自動化生活瑣事(例如自動追蹤網站特價通知、節省資料收集的時間等),化被動資訊接收為主動
9 ~& S" f" `6 R5 f/ S: t) T ● Python新手或入門級讀者(知道何謂變數、if 判斷式與迴圈,寫過一些小程式),想練習低門檻及高成就感的Python專案) s8 R5 e* s. n; G
本書特色
9 x# v# D3 U0 N: z, e) Y ● 基於熱門線上課程與實體教學的學員迴響重新編寫及增補而成的實戰書籍
( C- B, w: |9 p' l9 |" u ● 以台灣讀者熟悉的網站為範例(PTT、Dcard、台灣證交所、蘋果日報網站、Yahoo奇摩電影、Google Maps API、IMDB電影資料庫等)的Python網路爬蟲程式教學
/ ?5 |) C! W2 i. r ● 由淺入深,以實務需求為導向,涵蓋爬蟲常用函式庫、資料儲存、文件編碼、表單及登入頁處理、爬蟲程式被封鎖的常見原因等經驗談
* ?9 L6 W* v) K5 i1 `, H ● 全新的資料分析章節,包含三個爬蟲程式的經典應用:量化投資、影評情緒分析與商品特價通知
1 ^# m. j5 E& ]: g4 J 範例請至博碩官網下載 http://www.drmaster.com.tw/Bookinfo.asp?BookID=MP218143 l2 O& I! T9 I6 g8 [
作者介紹8 C3 O) N2 ^4 `/ j7 b" O
作者簡介
5 n: V. u! c9 E% m0 m 林俊瑋3 d2 w/ K7 l6 b3 `7 `
熱門開源專案「PTT網路版爬蟲」作者。加州大學爾灣分校(UC Irvine)博士候選人,研究領域為軟體測試自動化,曾執行包含網頁及手機 App 爬蟲實作的多個研究專案,也曾在國外知名研究機構及國內軟體公司實習,並有多年政府資訊部門工作與介接政府開放資料經驗。+ g+ d5 i# P0 \8 ]
林修博
. s0 {4 N# g' `- v. _ 台灣大學電子工程研究所畢業,目前任職於軟體公司擔任全端工程師。有多年爬蟲撰寫經驗,並且將其商用化。+ B- J) U* B- M- {% j6 H
目錄
( n, O: P* Q% _ Chapter 01 環境設定與網頁爬蟲初探9 }# F* l' l* i8 a0 g7 `0 }5 r
1-1 環境設定及套件安裝:Anaconda
( T$ e. K& p3 h* |0 E" Q 1-2 使用IDE:PyCharm' s, @* a+ c& G, F' {2 l1 N9 e
1-3 使用Jupyter Notebook. j; l P9 |: r) S6 D' H1 D& h
1-4 網頁文件解構與網頁爬蟲初探. i7 i& w. ~6 _* u* U9 B; ^
Chapter 02 Beautiful Soup 講解與網頁解構" J# Z2 s6 b" _3 _: I# f' M
2-1 不要重複造輪子:寫爬蟲之前
2 d7 s% V+ r1 z6 @" p" U 2-2 Beautiful Soup 重要功能 (find(), find_all(), .text, .stripped_strings)! x) d0 i2 D4 d: K6 t- r4 q: j9 i
2-3 網頁結構巡覽(parent, children, siblings)
3 j$ s( U* W# u# i 2-4 正規表示式 (Regular Expression)+ `7 Q% X5 U: }3 W, K
Chapter 03 網頁爬蟲範例實戰
' I( ^+ O! N! c1 s2 |8 P7 Z 3-1 PTT 八卦板今日熱門文章
2 y9 B2 C9 `9 {' B. Q* ^; { 3-2 Yahoo 奇摩電影本週新片 G* k3 C! R6 W9 G
3-3 兩大報當日焦點新聞
0 G2 ^/ v: H1 R2 x 3-4 Google 搜尋股價資訊
3 w. J8 t, M9 o7 T 3-5 Dcard 今日熱門文章1 u' s3 y3 e% f+ Q& l
Chapter 04 使用 API% _2 u1 ?: r' T( m( w6 Y
4-1 API 簡介; F+ r2 d; v2 D0 ~! ^# G
4-2 PTT 八卦板眾來源分佈 (ipstack.com): p1 l6 z! l0 }' O5 W; r7 v
4-3 IMDB API
% h4 G7 } `+ w3 B7 f& ]/ ^ 4-4 Google Maps APIs (Google Geocoding/Places API)
$ D3 \; ?& l; {2 b 4-5 Dcard API
8 q7 I& h. I2 Q Chapter0 5 資料儲存
& I: A9 h4 p8 V h* T# u3 b+ T 5-1 儲存圖片與多媒體檔案1 C6 |# V# l% U4 [
5-2 儲存資料到 CSV 檔: @$ a3 s: c/ O. u1 N ?4 l
5-3 儲存資料到資料庫 SQLite" I* |( s$ l& y+ m, w7 a
Chapter 06 不同編碼與類型的文件
; W6 _ j5 a: j$ R 6-1 非 UTF-8 編碼的文件8 |7 @7 H# P) i0 V
6-2 XML 文件
, a& S- T/ N) @( |, @2 u7 h+ n Chapter 07 進階爬蟲議題/ \8 B' A: E! K0 m2 \
7-1 處理表單及登入頁 :台灣高鐵時刻查詢4 O8 {/ z$ Y; ]
7-2 處理表單及登入頁 :Yelp 登入0 c- B& O" S8 {* E8 {
7-3 使用WebDriver:台銀法拍屋資訊查詢
. @ g# f, Y/ V4 r* B. B 7-4 爬蟲程式經驗談:被封鎖的常見原因、常用 Header 欄位、網站隱藏欄位、使用代理伺服器; X) O- G; {4 w
Chapter 08 資料分析實戰
( j$ N' R A+ U, x 8-1 台股每日盤後資訊爬蟲及策略回測(量化投資)
' U- F' V; T, z5 a5 a0 r9 V 8-2 電影評論情緒分析(中文自然語言處理與機器學習)' W8 ]4 [8 U @
8-3 商品特價 Gmail 通知:Costco 商品網頁$ }4 U, B5 F Z H; M" m( M
附表 本書範例目標網站列表4 o1 j( r7 i4 T# G9 p9 J( {
附錄A 在 Mac 安裝Anaconda 開發環境
" ~6 u% M+ X! F! C 附錄B Python 爬蟲框架Scrapy 入門教學
* l1 D' L0 b* P0 p* V. ?# D5 x B-1 Scrapy 環境安裝4 h: V2 t J6 P$ ]7 M) f
B-2 簡易部落格爬蟲
4 ?1 E) h& h) R3 e7 Z) b B-3 Scrapy 系統架構5 m0 k1 f/ H% e3 @
B-4 博客來網路書店爬蟲
) Y+ }4 d! p6 l% o" ?* ?0 U游客,本下载内容需要支付 5共享币,购买后显示下载链接立即支付 ' C( x( ^+ V0 N9 U: @- s% Q
: p D9 B1 q# z9 S& u1 v7 C0 S |