开启左侧

Python机器学习——预测分析核心算法

[复制链接]
  • 地区:中国大陆
  • 格式:PDF
  • 文件大小:10M
  • 时间:
  • 类别:量化
  • 价格:1共享币
  • 提示:本站推荐经典投资资料
  机器学习关注于预测,其核心是一种基于数学和算法的技术,要掌握该技术,需要对数学及统计概念有深入理解,能够熟练使用R 语言或者其他编程语言。
/ R' z- C# A7 N  本书通过集中介绍两类可以进行有效预测的机器学习算法,展示了如何使用Python 编程语言完成机器学习任务,从而降低机器学习难度,使机器学习能够被更广泛的人群掌握。: O, b; W$ k  _8 Q2 o. h4 G
  作者利用多年的机器学习经验带领读者设计、构建并实现自己的机器学习方案。本书尽可能地用简单的术语来介绍算法,避免复杂的数学推导,同时提供了示例代码帮助读者迅速上手。读者会很快深入了解模型构建背后的原理,不论简单问题还是复杂问题,读者都可以学会如何找到问题的解决算法。书中详细的示例,给出了具体的可修改的代码,展示了机器学习机理,涵盖了线性回归和集成方法,帮助理解使用机器学习方法的基本流程。
* L: L1 b: v4 L) M6 s  本书为不具备数学或统计背景的读者量身打造,详细介绍了如何:4 m9 f( `1 I* |& I* M( q$ }0 N" T7 I
  ● 针对任务选择合适算法; ● 对不同目的应用训练好的模型;
. t7 Y. w! u" X! d' s' E/ z" P  ● 学习数据处理机制,准备数据; ● 评估模型性能以保证应用效果;2 t8 m9 Y& ~2 Q5 f( I+ n
  ● 掌握Python 机器学习核心算法包; ● 使用示例代码设计和构建你自己的模型;
" t  e1 I7 B4 Z* b) \% \. x9 \  ● 构建实用的多功能预测模型。( B& J; y3 `& \$ z
  内容简介/ }/ E/ V* n$ b
  在学习和研究机器学习的时候,面临令人眼花缭乱的算法,机器学习新手往往会不知所措。本书从算法和Python语言实现的角度,帮助读者认识机器学习。
1 ?% @4 Y* B( Y  本书专注于两类核心的“算法族”,即惩罚线性回归和集成方法,并通过代码实例来展示所讨论的算法的使用原则。全书共分为7章,详细讨论了预测模型的两类核心算法、预测模型的构建、惩罚线性回归和集成方法的具体应用和实现。本书主要针对想提高机器学习技能的Python开发人员,帮助他们解决某一特定的项目或是提升相关的技能。
" o1 i- E: G* ?) A9 b; `' T4 N  作者简介
# b: \6 h. c* g  B% M- q% h' Q  Michael Bowles,在硅谷黑客道场教授机器学习,提供机器学习项目咨询,同时参与了多家创业公司,涉及的领域包括生物信息学、金融高频交易等。他在麻省理工学院获得助理教授教职后,创建并运营了两家硅谷创业公司,这两家公司都已成功上市。他在黑客道场的课程往往听者云集并且好评颇多。3 j0 x' M$ s- N* J
  目录
' ?& H( A1 P; z: C; @' e9 H  `  第1 章 关于预测的两类核心
. @' O# R! ?1 G  Q- _, I, N& W  算法 ................................................1
, k+ a& v% `5 D: {  1.1 为什么这两类算法如此有用 ....... 1: M" L3 J" u. i( [1 S& V% h
  1.2 什么是惩罚回归方法..................... 6
5 \1 w. `  P* Z- R. E  1.3 什么是集成方法 ............................. 8
, p5 I) g: H$ n- c8 O  1.4 算法的选择 ...................................... 9
+ E2 E7 G! ~. ^# V" L5 Q  1.5 构建预测模型的流程................... 11
. @) v+ D+ g# p# w7 ]$ I& t5 d9 r  1.5.1 构造一个机器学习问题 ......12
1 Q- a, Y4 F: {. t3 G* W5 ?  1.5.2 特征提取和特征工程 ..........140 J" S0 T" k3 _1 D& C" ?# m9 R' p
  1.5.3 确定训练后的模型的性能 .....15
0 O/ C- R  d3 s9 m/ J  k  1.6 各章内容及其依赖关系 .............. 15& d/ z! s7 W0 S6 a& ]& a' K+ p& K
  1.7 小结 ................................................. 17  M' X; H1 Q8 e6 Y  W9 }8 `
  1.8 参考文献 ........................................ 17, v8 t1 ?  i: L
  第2 章 通过理解数据来了解
3 g: k+ c7 D8 a9 z2 E! l  问题 ..............................................19& I+ e+ k- B9 W" J/ U( d
  2.1 “解剖”一个新问题 ..................... 19+ _& g+ I/ w, {
  2.1.1 属性和标签的不同类型
6 ~$ y& u: I8 D6 T9 ^0 x  决定模型的选择 ..................211 s+ Y5 z: N- N$ V: a5 I3 t
  2.1.2 新数据集的注意事项 ..........22& Q; n3 T' P' F+ J' }) d0 A7 u
  2.2 分类问题:用声纳发现未
) C8 p. A3 e! p+ Q, T1 S) [2 A6 q4 L; c& E  爆炸的水雷 .................................... 23; S" F5 g7 W) W- x
  2.2.1 “ 岩石vs 水雷”数据集的
0 ^! I* P$ D: B. }1 v0 v" X  物理特性 ..............................23
7 I8 z* c2 W6 a; P- `" s  2.2.2 “ 岩石vs 水雷”数据集统计/ ^7 h3 d; Z' l$ N- e2 R
  特征 ......................................27
/ _' I( _( p' d# G  b) {  2.2.3 用分位数图展示异常点 ......30
3 d, P7 T. |1 i( U- n  2.2.4 类别属性的统计特征 ..........32
0 k# A6 g. [" H# S  2.2.5 利用Python Pandas 对“岩石
- J' ?' L) i7 g( _$ j& L% x  vs 水雷”数据集进行统计- o4 u4 t0 _; R$ Z% p2 e
  分析 ......................................32
  F" @8 Q$ f& G$ K) Q  2.3 对“岩石vs 水雷数据集”属性的4 |, N2 K$ S% b7 u, N/ A2 B
  可视化展示 .................................... 35* ^4 n" s! J0 S9 Z1 J5 v) {1 C! ~/ }
  2.3.1 利用平行坐标图进行可视化- X: b7 h7 |! B
  展示 ......................................350 G: C  Y2 P4 s8 K# L, S
  2.3.2 属性和标签的关系可视化 .....37
4 H  O! |0 D, C2 o1 v0 k  2.3.3 用热图(heat map)展示
- d1 d6 B$ o: Y5 ~% q4 w  属性和标签的相关性 ..........44% B/ E4 R! ]: Z0 T
  2.3.4 对“岩石vs. 水雷”数据集: I. r: b8 ]7 Q5 E* K( L2 L5 a% \
  探究过程小结 ......................45
/ M( ^0 }4 ~0 O, M: W  2.4 基于因素变量的实数值预测-& e7 Q8 }" V* l5 t) `; T
  鲍鱼的年龄 .................................... 459 w5 d- j6 H& Y! E" O
  2.4.1 回归问题的平行坐标图- 鲍鱼# ]7 G2 H" j6 [1 Q8 x
  问题的变量关系可视化 ......51: M! ]  v8 Y# [2 d/ R
  2.4.2 回归问题如何使用关联热  D6 n, J: O0 J/ \" `
  图-鲍鱼问题的属性对关
" P" G: A8 h/ }5 c  n" D6 v* W  系的可视化 ..........................55+ L0 H6 \  u6 v9 X  _$ P
  2.5 用实数值属性预测实数值目标:( h9 \9 x; l2 d4 G6 q8 m7 _
  评估红酒口感 ................................ 57
& @1 n) N( w3 `1 a; ~5 ?  2.6 多类别分类问题:它属于哪种) }2 w% i! k1 Y) z9 D) z( i
  玻璃 ................................................. 63+ ?1 w0 Q) E  e% i' ?/ O1 J  [, z* I
  小结 ............................................................ 683 n& I$ k0 Y4 e2 j% |& a
  参考文献 ................................................... 694 J1 e) r/ p; }1 `
  第3 章 预测模型的构建:平衡性
8 Q; \' j& x, y% s' b: r2 F' i3 |  能、复杂性以及大数据 ....71
  j& _2 U- G2 i! g/ r  3.1 基本问题:理解函数逼近.......... 71
1 P2 w/ j$ I6 X. D% R. r; w5 A) A  3.1.1 使用训练数据 ......................725 O7 C9 \5 C" \' l+ K
  3.1.2 评估预测模型的性能 ..........73
. `) j! O4 |: t6 r  3.2 影响算法选择及性能的因素——6 J; w6 p" [) I  [& A
  复杂度以及数据 ........................... 747 S% w# s/ ]7 l
  3.2.1 简单问题和复杂问题的
6 U* j$ f$ C- b0 J; [+ e1 B% |1 x2 u  对比 ......................................74
" C% _) l7 i# Z2 p/ z- }  3.2.2 一个简单模型与复杂模型的
9 t: d3 w2 g, E0 f8 k" W  对比 ......................................779 F1 D0 H5 P% W' k+ m% \$ G
  3.2.3 影响预测算法性能的因素 ....80
- Y1 T; ]/ ]) s/ s8 q  3.2.4 选择一个算法:线性或者& k% m8 Z8 m1 I. r) u
  非线性 ..................................81
7 E' U- C4 k3 s: R  3.3 度量预测模型性能 ....................... 818 z9 V- W9 Q& s
  3.3.1 不同类型问题的性能评价+ j  J0 L5 O, `6 {3 q4 j1 L7 _
  指标 ......................................82
9 K  j  ^- g* |( e9 W4 A  3.3.2 部署模型的性能模拟 ..........920 D- k$ l3 B% {3 R( h, ^
  3.4 模型与数据的均衡 ....................... 94
$ b) k/ R) b" ?4 m4 D- n- e2 x- r  3.4.1 通过权衡问题复杂度、模型$ `: s; y3 Y. r* x
  复杂度以及数据集规模来选
2 C5 g& d! P* M! A  y' v7 ]  择模型 ..................................94
( J' l# e$ Y. ~$ q6 @0 V  3.4.2 使用前向逐步回归来控制过
; [$ U' p9 E3 h9 G  拟合 ......................................955 o& E" q5 o- S( {6 V
  3.4.3 评估并理解你的预测模型....101
2 o" W) X6 B- R3 S0 ~  3.4.4 通过惩罚回归系数来控制6 d& K; M* |( o
  过拟合——岭回归 ............1031 j) o9 q, ]6 ^$ }! m
  小结 .......................................................... 112/ B* c# q7 o) y3 S& G. h) [
  参考文献 ................................................. 112
# g! A, c$ ^8 T, L6 h  第4 章 惩罚线性回归模型 ..........113
- f# H9 c% q; U4 l5 v  4.1 为什么惩罚线性回归方法如此# L. i4 z% T: f7 X( Y
  有效 ............................................... 113
0 z+ q7 j$ Q* E/ A& J9 `  4.1.1 足够快速地估计系数 ........1141 T$ L/ X2 l5 P: j
  4.1.2 变量的重要性信息 ............114
/ x; C6 g' p; S# Z, O  4.1.3 部署时的预测足够快速 ....114
& h5 S- S! T# H4 p; Y  4.1.4 性能可靠 ............................114
# z5 p8 j1 g5 _# M+ H  4.1.5 稀疏解 ................................1150 y$ N% V5 Q/ O8 ?! Q
  4.1.6 问题本身可能需要线性
5 Q& ^0 X6 A& d- w; B; p  模型 ....................................1152 B. `" b; H1 _
  4.1.7 什么时候使用集成方法 ....115  W6 r; t4 x% M- G$ R- |$ A7 S+ X& D5 c
  4.2 惩罚线性回归:对线性回归进行- x% N8 b3 Q3 p) s
  正则化以获得最优性能 ............ 115
1 _! n2 B& Q: v8 C+ C  4.2.1 训练线性模型:最小化错误
4 _/ y/ t/ c! o: P  以及更多 ............................117; W1 L2 }! `$ O
  4.2.2 向OLS 公式中添加一个
- s: c, d+ ^6 Q5 u$ x, P# C  系数惩罚项 ........................118
/ t) O: X% w' h. Q: o/ l9 v0 w' _  4.2.3 其他有用的系数惩罚项:
. s3 V' D7 {3 @7 O' b$ z6 J  Manhattan 以及ElasticNet .....118
  G$ ^0 K; O6 l6 B/ m+ y1 F  4.2.4 为什么套索惩罚会导致稀疏的
4 M( ]8 u* `! c  系数向量 ............................1192 o' s/ Z3 ^4 c' b2 N
  4.2.5 ElasticNet 惩罚项包含套索
8 |5 H' V0 L+ J) R5 ^: `  惩罚项以及岭惩罚项 ........1208 z3 r) x7 p: R& ~, d, f
  4.3 求解惩罚线性回归问题 ............ 121+ a( H1 [# F3 A  a1 F4 H
  4.3.1 理解最小角度回归与前向逐步) n3 N5 _" G1 [, o& |7 B, Q
  回归的关系 ........................121! }) r1 I! e& F) K
  4.3.2 LARS 如何生成数百个不同
% e( Z+ Y) w/ Z3 p& J  复杂度的模型 ....................1253 ~( R* |- \% O! {0 q( C
  4.3.3 从数百个LARS 生成结果中( H. l: r  l7 |
  选择最佳模型 ....................127% q- G9 ^9 O! g. O$ \* o
  4.3.4 使用Glmnet :非常快速# d4 C0 q! t# g9 s
  并且通用 ............................133
$ `  g. ]# }! H# g: y5 Z! M& g2 R  4.4 基于数值输入的线性回归方法的* ]) w; o* j, R9 V* H- z
  扩展 ............................................... 140$ T1 }2 n! @( V1 L# S
  4.4.1 使用惩罚回归求解分类; B4 D" I+ E4 P+ l; S: G9 e
  问题 ....................................140/ g: C8 E9 t# t; H# B- b# Y( s
  4.4.2 求解超过2 种输出的分类' _4 B+ O! g/ {$ d
  问题 ....................................145
% q8 k, ^# m+ K0 s) D/ H6 O  4.4.3 理解基扩展:使用线性方法来
, _8 M. M3 _2 B! ]5 d' }- [  解决非线性问题 ................145
7 n4 T7 M" }# N  4.4.4 向线性方法中引入非数值. M1 k* l7 n! ~
  属性 ....................................148. c5 \. v/ o& t# R+ R! W
  小结 .......................................................... 152
. h( z! i* T2 y5 Y2 u# _: j! `  参考文献 ................................................. 153
: G9 h5 Q( D) `5 Z& z7 O  第5 章 使用惩罚线性方法来
/ C, }" I# b. _9 n  ]5 e& O  构建预测模型 .....................155
$ Y4 Q" Q5 u# X3 ?  5.1 惩罚线性回归的Python 包 ..... 155" u" E5 @8 ?0 ?* v; v+ o
  5.2 多变量回归:预测红酒口感 ... 156
! F, i$ x( r2 h/ a! W* X  5.2.1 构建并测试模型以预测红酒: i+ Y) M- S' h, H& H- M8 g
  口感 ....................................157
9 I( g6 ?) j, o  5.2.2 部署前在整个数据集上进行
  g+ T7 A/ f" P3 P  训练 ....................................162
2 o& @7 z5 {3 d; V- z! F! x' Y: ]6 n  5.2.3 基扩展:基于原始属性扩展
% q. I( y9 ?% e. i" O- e; N4 ]  新属性来改进性能 ............1682 O' J% y6 a2 l
  5.3 二分类:使用惩罚线性回归来; i# g9 b! z  d+ x) @" K
  检测未爆炸的水雷 ..................... 1728 ]8 u2 t, n4 h/ i) A
  5.3.1 构建部署用的岩石水雷
" d3 s3 C, N0 t& X) t$ ]  分类器 ................................183
- O! W/ }6 f6 ^7 a  5.4 多类别分类- 分类犯罪现场的! O: i9 r/ @" s. Q
  玻璃样本 ............................. 196
  Y5 i1 M3 ~( g8 V! z  小结 ......................................... 201
' d- G4 e9 S# h& }) O, i# p  参考文献 ........................................ 202
5 J7 x7 o1 T/ U; ?; I# x: a% B  第6 章 集成方法 .................................2033 E1 c) X3 r8 R/ ^
  6.1 二元决策树 .................................. 203; S9 S/ b" g  e  g  j% r
  6.1.1 如何利用二元决策树进行
& _: t! @2 G$ O$ j( f/ h! S% F  预测 ....................................205
# ^1 N: X8 C2 P4 c( [9 L3 \8 B  6.1.2 如何训练一个二元决策树....2076 P+ X1 M/ i+ y5 Y
  6.1.3 决策树的训练等同于8 Z: c& _. S+ z% f' R5 x: i  J. g
  分割点的选择 ....................211% |& J6 K! X, v
  6.1.4 二元决策树的过拟合 ........214: j6 c) C, G0 R
  6.1.5 针对分类问题和类别特征
  |7 p  h& ?# x- I! T. a/ e6 Q  所做的修改 ........................218
( }1 v7 ]; O: `; r2 g  6.2 自举集成:Bagging 算法 ......... 219+ Q$ W$ N$ \+ J( D# s5 V2 G! k  l' u
  6.2.1 Bagging 算法是如何
$ ?4 ^# p6 `4 T# c# b5 T  工作的 ................................2191 f4 ?6 R4 {/ l
  6.2.2 Bagging 算法小结 .............2309 o. X9 A, x$ h3 {2 @' t
  6.3 梯度提升法(Gradient+ J7 F3 D% ~- l
  Boosting) ..................................... 2302 {9 X) |1 w7 z  ^/ F; F# f
  6.3.1 梯度提升法的基本原理 ....230
7 j8 ?! U5 P% U- g( j' ~% T- G  6.3.2 获取梯度提升法的最佳
# `) A6 M+ v8 u" q! Q  性能 ....................................2342 |# C2 Z, G9 S% z/ U( T! I- g
  6.3.3 针对多变量问题的梯度! U/ e! x9 y" O7 |) p3 N1 {& A
  提升法 ................................237
6 g! g. A8 D/ [* g) O% D7 U: l  6.3.4 梯度提升方法的小结 ........2412 R. m% _1 x$ D7 f0 l& ?
  6.4 随机森林 ...................................... 241
3 |* ~# j' C3 S& t  6.4.1 随机森林:Bagging 加上随机
. D6 \( f9 u4 E) ^6 j9 O# N  属性子集 ............................246/ {- ^& c1 g% k. \  Q$ v% k
  6.4.2 随机森林的性能 ................246% x) J1 z  K8 ^, D; E* u
  6.4.3 随机森林小结 ....................2471 n0 E5 C( @" H6 B( r
  6.5 小结 ............................................... 248
% y9 G7 [$ y: F8 u: O6 e6 |9 v% R5 h( a  6.6 参考文献 ...................................... 2489 S0 P1 d  u, ~$ f
  第7 章 用Python 构建集成
/ P2 A% P6 z5 |  H& T  模型 ............................................251
# Q. j, i: t! N1 n  7.1 用Python 集成方法工具包解决
& }8 X5 x" ~' m9 {1 E, @1 H* W0 e% A  回归问题 ...................................... 251
9 A0 V' k* c+ m0 [, n  7.1.1 构建随机森林模型来预测" i! k9 X6 ]2 E' i/ m
  红酒口感 ............................251. B, ~: B/ @' }2 ~
  7.1.2 用梯度提升预测红酒品质 ....258& x4 j, l! R$ _4 a( |7 y
  7.2 用Bagging 来预测红酒口感 .... 266
; ]) C; x+ ]- f3 X7 O  7.3 Python 集成方法引入非数值属性 ............................. 271; }% Z2 Y# {. \8 V" X
  7.3.1 对鲍鱼性别属性编码引入* n8 u' ]. T8 C; M' Z
  Python 随机森林回归% r3 e$ v9 [4 h; b/ @
  方法 ....................................271
7 S/ {8 {  ~5 e3 |( |# V* R# r  7.3.2 评估性能以及变量编码的重要性 ...................274
# h+ ~: @/ Y: |  7.3.3 在梯度提升回归方法中引入4 k0 P6 D( l. x
  鲍鱼性别属性 ....................276
7 x6 n( j, P( J# U1 ~) ]2 S  7.3.4 梯度提升法的性能评价以及4 K  W( x) n* N' S* {3 Q1 W
  变量编码的重要性 ............279( ^9 J1 O, o( Q$ u! F
  7.4 用Python 集成方法解决二分类
1 B6 a) Z# A$ y# Z! Z  问题 ............................................... 282
# d- z: A' @1 U  {9 W0 s  7.4.1 用Python 随机森林方法探测
. y8 {* ~$ T- H3 B9 p+ \/ E4 m  未爆炸的水雷 ....................282
& @* z2 J* m9 Z! j  7.4.2 构建随机森林模型探测未% A1 c6 ]2 P7 f, t" Z* F6 @: ^
  爆炸水雷 ............................283( y: L' E1 X$ D9 b
  7.4.3 随机森林分类器的性能 ....288! g$ `, e# @9 T5 o& D# ?! J& L, Q
  7.4.4 用Python 梯度提升法探测+ y0 ~5 H  `4 i5 d% N
  未爆炸水雷 ........................289
* U; f) [2 B! f  7.4.5 梯度提升法分类器的性能....296
2 M! V$ \! e3 b1 P) o0 U/ {' ]  7.5 用Python 集成方法解决多类别分类问题 ............................ 300
+ e% {2 g, j6 b+ d6 q7 \  7.5.1 用随机森林对玻璃进行分类 ................................3004 }4 E; d  M3 z% ?: @
  7.5.2 处理类不均衡问题 ............304
# X2 g7 M3 e9 \. [: b8 b  7.5.3 用梯度提升法对玻璃进行分类 ..............................306% n5 R1 \6 ]$ M% Y" P' ~
  7.5.4 评估在梯度提升法中使用随机
/ {' @8 o" L: v+ b( }$ k8 T  森林基学习器的好处 ........311
% q8 Y1 Z% M  a/ g5 @1 A  7.6 算法比较 ...................................... 313! Y$ [3 S) {- r5 i$ K
  小结 .......................................................... 315
: C; s; I9 G) _: {7 y  参考文献 ................................................. 3158 Y& v: k$ f/ K4 M- R2 ^* T
游客,本下载内容需要支付1共享币,购买后显示下载链接立即支付

' O! I. \4 @: j( b# _/ Y9 J: H0 H: A2 ]
回复

使用道具 举报

懒得打字嘛,点击快捷回复 【回复乱码 永久禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注0

粉丝39

帖子5061

发布主题
推荐素材更多+
广告位

服务电话

15987183307

QQ:1136111231
关注我们 :

QQ- Archiver-手机版-小黑屋-经典-文库- 与你共享

Powered by ynjie.com Array© 2001-2013 ynjie.com  滇ICP备19007624号-1