开启左侧

實戰機器學習:使用Spark Rajdeep Dua Manpreet Singh Ghotra

[复制链接]
  • 地区:台湾
  • 格式:PDF
  • 文件大小:92M
  • 时间:
  • 类别:学习
  • 价格:10共享币
  • 提示:本站推荐经典投资资料
本帖最后由 ynjie 于 2019-9-20 23:28 编辑 : U$ P4 w: y* b, [" m0 u
4 e3 g6 V0 U( q/ u
  學習熱門的機器學習演算法 本書介紹熱門的機器學習演算法及其實作方式。你將會了解如何在Spark ML這套開發框架之內,實作各種機器學習概念。首先,我們會帶你在單一節點與多重節點的運算叢集上,完成Spark的安裝工作;接著,說明如何執行以Scala和Python語言撰寫的Spark ML程式;然後以幾套資料集為範例,深入探索分群、分類與迴歸;最後,利用Spark ML來處理文字資料。 打造可以應用於工作中的機器學習程式 弄懂概念之後,便可運用來實作演算法,可能是從頭開始,或是將既有的系統轉移到這個新平台,像是從Mahout或Scikit轉移到Spark ML。當你讀完本書之時,應該能夠善加運用Spark,打造可以應用於工作中的機器學習程式。 本書將帶您: .實際動手嘗試最新版的Spark ML .以Scala與Python語言撰寫Spark程式 .在本機以及Amazon ECS雲端平台上,安裝並設置Spark開發環境 .取用公開的機器學習資料集,使用Spark進行資料的載入、處理、清理與轉換等動作 .處理巨量的文字資料,包括特徵萃取,並使用文字資料作為輸入餵給機器學習模型 .撰寫Spark函式,評估機器學習模型的表現能力
2 d; Y+ B/ _' u  n4 @" ^( v& x  目錄/ `* l6 p/ P. p) J5 @2 Q" }4 u
  CHAPTER 01 與Spark一起奔跑& b  w: K& m4 p
  在本地端安裝並設定Spark
5 h8 @; A) B) U# L$ n' y  Spark 叢集' X0 M1 x; }: T0 g! H
  Spark 程式設計模型. M% B# I% H5 M4 W4 ~
  SchemaRDD
$ K/ Z. O& d  W9 O  Spark 資料框
3 a+ S; p" r# Y; x* ]: Z# p' g: u1 n  邁出第一步撰寫Spark 程式:使用Scala 語言
% z0 c* a; @5 m6 ~  邁出第一步撰寫Spark 程式:使用Java 語言
" j. C# p4 t3 `  邁出第一步撰寫Spark 程式: 使用Python 語言) h7 F, j" W9 D% D$ ]# p
  邁出第一步撰寫Spark 程式:使用R 語言5 E1 N) W" ^& f8 ?0 U! }0 m5 F
  在Amazon EC2 上執行Spark* B3 K0 N* w6 M5 T
  設定Amazon Elastic MapReduce 並執行Spark: [+ v9 o/ O5 W3 g: J8 ?# t% i) o
  Spark 的使用者介面1 |$ Y/ t' T7 Y4 u
  Spark 支援的機器學習演算法
: P7 t: Z$ C! T3 r4 [  ?2 D# L  與其他程式庫相比,Spark ML 的優勢
) |$ l' N3 ^* P/ O  在Google Compute Engine 上頭建立Spark 叢集:Cloud Dataproc
- K# U' ]# F8 _5 s4 U  q  總結
# p: Z/ l) h$ H+ I6 G5 G, N7 s) Q  CHAPTER 02 機器學習需要的數學知識. k8 v5 V2 I0 l$ Z# c% B
  線性代數
: W+ m/ Q+ E" ?0 W3 e* s- |: b9 }. }  梯度下降法
2 _' H% x: B7 l+ s. r  過去經驗、可能性、事後機率
8 U0 v8 Q: k, }9 S  微積分7 f8 |1 J5 f$ ~
  圖表繪製
: |+ H6 t- h9 l# W6 u3 ^  總結
, X6 G9 g5 A& n  CHAPTER 02 設計機器學習系統
! y8 _7 ?+ e- H, n: M" C0 r6 m; L; V! O  何謂機器學習?' d. _3 J3 ?4 ^7 @
  介紹MovieStream
6 E+ M+ |. C' f6 h# N& r: {/ Q  機器學習系統的商業案例' r' f! H5 q3 w  U3 @, w
  機器學習模型的種類, ^4 E6 \! W0 K  f7 K& r% R% r1 M
  以資料驅動的機器學習系統的組成元件) I$ P0 k: X1 T5 v1 H+ Q- S
  機器學習系統的架構' c" ^' n& T+ g, l8 W& M( P2 S: U8 A& ~
  Spark MLlib
) u% ]) k- h# l$ d7 N; d" s; h, w  效能提升:在Spark MLlib 之上的Spark ML
' ~2 A6 c9 M* F5 r! h# h7 @) o  比較MLlib 支援的演算法
" H* B# B" |9 F: d& _, P  MLlib 支援的方法和開發人員API8 S+ ]" s  L' U# P9 w
  MLlib 版本
. A- O; W' e& x9 P7 ^- Q* C* g  MLlib 版本比較, P$ j' p5 j2 @3 B
  總結! t6 n9 p  H9 X
  CHAPTER 04 Spark取得資料並進行處理準備, P$ {6 S+ r+ H0 K, s5 f
  存取公開資料$ n4 x) b' o  N
  資料探索與視覺化- v9 K7 D# [1 s) N, W
  資料處理與轉換
9 n3 m6 W7 ]2 H7 F9 N0 r. t  從資料萃取出有用的特徵3 T7 y7 ]& o: N7 V
  總結: b* }/ Y1 A6 B- M* S$ i
  CHAPTER 05 使用Spark建構推薦引擎
  @0 j  u* N& n  推薦模型的種類
' P! e+ ?! K4 i# l8 }5 J  從你的資料萃取出正確特徵
) S5 c: o6 K" h+ i  訓練推薦模型5 C* N! P: l* r7 u& P2 {
  使用推薦模型% \4 P' K% u. B6 O: R4 U+ L' p
  評估推薦模型的表現
9 P7 W  ?% c/ g5 y+ K3 c7 u  FP-Growth 演算法+ ^' j9 X9 V" b
  總結: r7 e8 r3 [1 w: \5 N8 `  M: U1 q7 ^
  CHAPTER 06 使用Spark建構分類模型1 e! e/ r5 |! r" r  E; a
  分類模型的類型
* O% N: _0 {- V0 C8 e9 p  從資料萃取出正確的特徵
7 ]# d  C' A& k. E* r! L- V  訓練分類模型' r5 h6 l( J/ M2 d' t
  使用分類模型
8 ]1 I! f2 K' |2 Z5 J1 W# h  增進模型表現能力與調校參數
6 L# q. V7 u% H! d# C+ x  其他特徵
8 l' m# W6 [2 u3 e. T  總結
6 k) R% g2 z2 q4 T( C7 _  CHAPTER 07 使用Spark建構迴歸模型
- _0 D  T6 b5 k( k" f5 Z, s  迴歸模型的種類
6 o# L: ?# E$ ~- `2 d+ Y  ~! A  評估迴歸模型的表現能力
, r& d) @2 L' {" B5 t% x; r% S9 W  從資料萃取出正確的特徵
5 v$ u5 d* B# L; {+ B2 `  訓練迴歸模型並使用
4 e5 q2 Y2 T0 h8 @/ h9 L  增進模型表現能力與調校參數
" V7 B  M8 t! @/ C' {9 |  總結# r$ F$ J2 c, a' w$ S
  CHAPTER 08 使用Spark建構分群模型
8 k! i) y; ]6 R8 o) r5 X  分群模型的種類
. w# `' l1 F( n9 w  從資料萃取出正確的特徵$ e! w+ C" u6 t
  k- 平均演算法:訓練分類模型
) N0 s* W/ z; t- d* @# V( x  k- 平均演算法:評估分群模型的表現能力0 @  U, B' g& n- K
  WSSSE 受迭代次數的影響2 }0 a9 A6 @- N" S
  二分k- 平均演算法
* Z; L1 K& A5 S  二分k- 平均演算法:訓練分群模型
+ S2 T" M6 V: q  高斯混合模型3 _. j: y. m7 h/ F  n
  總結
' o0 J) U1 g9 a% K- L; ~  CHAPTER 09 Spark與維度縮減$ p( V4 c2 U- f% r& P0 m
  維度縮減的種類
4 v! B7 q( A1 b  從資料萃取出正確的特徵# h% j* u( `/ \3 I2 F0 @& E
  訓練維度縮減模型
5 L( Y; o- Z1 _. z  使用維度縮減模型/ F7 B$ C" i& a& |( W$ O
  評估維度縮減模型
: m- N/ S0 i8 V& w  總結1 b3 P/ j7 W6 Z( K
  CHAPTER 10 Spark與進階文字處理  X% G0 O1 Z# l( U* n+ d5 b
  文字資料為何如此特別?# t+ N/ Q( T; h
  從資料萃取出正確的特徵4 X+ }4 C  Y: J% A& m
  使用tf-idf 模型
8 H( ^- s+ s/ l) }  評估文字處理的影響
1 `# m# g: s3 I+ [  以Spark 2.0 進行文字分類; [7 K8 W  w+ a: H$ K3 a
  Word2Vec 模型
5 `# c7 F* F' E& [: j$ d  Word2Vec 與20 個新聞群組資料集
+ {* y- I( q( ]  總結
- _; Z3 [1 K/ K$ ^% k$ j  CHAPTER 11 Spark串流程式庫與即時機器學習
+ {1 t3 Z6 H8 J, y  r  線上學習
) y! \; R/ R' i4 @) T  串流處理
; n) f0 Y! b+ `  Spark 串流與線上學習" t' [- q7 ]; ]* k1 {, T5 Q( v
  線上模型評估
4 I- f/ b6 `# m. Z4 v% s  結構化串流
! ]% O0 L) @7 A  總結
$ @) h( L! m$ F$ k  CHAPTER 12 Spark ML 的工作流程API( J' ]2 x% }  p5 w4 k
  介紹工作流程, f. T, [/ M7 q* u' m3 L; g- e4 H. z
  工作流程如何運作?
# N* o' p/ y  P& E  機器學習工作流程範例( r" L3 o6 v7 s3 U* R7 b
  總結
6 P$ I$ C: N9 E9 r. D' F
游客,本下载内容需要支付10共享币,购买后显示下载链接立即支付
: ?7 q! T: t* m' Q( K" m
9 Y2 K' @* k/ `% X
回复

使用道具 举报

懒得打字嘛,点击快捷回复 【回复乱码 永久禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注0

粉丝6

帖子1906

发布主题
推荐素材更多+
广告位

服务电话

15987183307

QQ:1136111231
关注我们 :

QQ- Archiver-手机版-小黑屋-经典-文库- 与你共享

Powered by ynjie.com Array© 2001-2013 ynjie.com  滇ICP备19007624号-1