在数据规模急速膨胀的大数据时代,数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”:预测体育赛事结果、投放广告、根据作品的风格解决作者归属问题,等等。
( q3 w' X+ r6 R 本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的杰出实践!! T: g+ ^7 o- W* v5 }8 e
内容简介6 D9 G. K! Q* s7 |' Z" h
本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。/ S# m; I8 j, }" x5 f% T8 J
本书面向愿意学习和尝试数据挖掘的程序员。. m5 D* U; i; G! R
作者简介
0 E- X# c/ h! i! x Robert Layton,计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。
: v/ V3 O* F" u) p! ] 目录5 R, j, O9 E" T; ^. J! X
版权信息2 t) f K: l5 e( v P: k
译者序! f& q F3 L. A, h; f' Y
前言
" y5 b) @: ?( E" j" W' h( D. i 第1章 开始数据挖掘之旅. T1 R' P4 R6 V* g( r3 b2 {: g
1.1 数据挖掘简介
+ W8 e# e6 U5 }) h 1.2 使用Python和IPython Notebook
+ b; g( q! c A3 l 1.3 亲和性分析示例: |& s5 O% f8 ~) n* e1 C2 _) s
1.4 分类问题的简单示例* b0 M: w1 I# m" `* S
1.5 什么是分类
: _5 z( W. \5 @ O; x% X' k 1.6 小结% v1 \) X5 G: X
第2章 用scikit-learn估计器分类) ^" S3 d U9 t* {, b
2.1 scikit-learn估计器
$ ]9 O5 P1 ~ H5 l4 F3 s- Q 2.2 流水线在预处理中的应用5 A( e) y) M' \1 D. k" p
2.3 流水线; u8 U7 Z b* H
2.4 小结% {- }9 ]* l z: E8 | b/ p
第3章 用决策树预测获胜球队" N' s, v& w/ F6 o
3.1 加载数据集
9 r7 M2 v5 `; N; w- P* ? 3.2 决策树+ M4 t7 ~1 q" ]- U
3.3 NBA比赛结果预测
, o, _7 e% } v1 n4 g( {* W 3.4 随机森林
" a5 g3 \1 p8 W+ O4 ~" Z5 ^ 3.5 小结) }% r3 K7 ^/ n
第4章 用亲和性分析方法推荐电影
& ?/ y |) B! z* S: D 4.1 亲和性分析5 g* L4 ? N m7 E: R. [+ l3 x1 Q5 T
4.2 电影推荐问题
2 w( b8 p! S* r7 v+ u 4.3 Apriori算法的实现# ]6 Z. _0 [+ ` |, x3 e
4.4 抽取关联规则6 m, {' R' F: `& R
4.5 小结
0 y: I4 n; P6 C/ W1 q! Y {+ _ 第5章 用转换器抽取特征
) k0 B# f# o9 J! g0 F7 D 5.1 特征抽取, s% C$ F( E$ l) K
5.2 特征选择
( H7 c; T7 C3 ^- j" Q- Q1 k 5.3 创建特征
$ Q- H$ S0 L/ }3 S; y 5.4 创建自己的转换器( Z& C, r" z6 m8 s: K& f8 O
5.5 小结/ a" ^3 z- Y( S% N9 W& Z: O3 y
第6章 使用朴素贝叶斯进行社会媒体挖掘
! e) h0 ^- `. j1 p& \3 N+ O* @! G 6.1 消歧" `( j8 X( C5 M* Y! O3 y
6.2 文本转换器, ]( o5 \/ p* N
6.3 朴素贝叶斯 Z) T3 r6 v& R5 D0 M8 x
6.4 应用
9 n1 W4 n1 ?2 x, ] C& W5 G 6.5 小结' n7 U$ Q+ d+ }- ?; b5 P
第7章 用图挖掘找到感兴趣的人
( e# M, E G( ] e1 i 7.1 加载数据集
5 C8 r# o" _$ s0 F2 ] P 7.2 寻找子图
7 ? `* e }& K/ c) S, o1 [ 7.3 小结4 X5 Z) f; ?6 y7 b9 [
第8章 用神经网络破解验证码$ ?" \, k/ d4 {
8.1 人工神经网络5 {. ^' T# S* f1 |# @1 h
8.2 创建数据集
) R" o: `+ w2 h 8.3 训练和分类% @- N- t. O& @, C2 i+ n! s
8.4 用词典提升正确率
* c+ P9 w/ G: A; z2 k1 M 8.5 小结, S& O- y9 {" S$ \
第9章 作者归属问题
+ G: C( `) h+ a 9.1 为作品找作者+ M% \2 I$ d+ u) o( x+ @: O
9.2 功能词/ J& y/ K, k" l/ k5 ]1 N: J
9.3 支持向量机3 O' t# V$ a4 t G* \& i
9.4 字符N元语法
% z1 @3 }2 q8 }6 q 9.5 使用安然公司数据集
% \5 s; x i( Q! {4 z 9.6 小结
9 L0 P; }1 Q# {) O2 G 第10章 新闻语料分类: s7 G+ |7 h$ G" H
10.1 获取新闻文章
" p$ _+ D8 L# C+ b, f" g6 ]5 f$ W 10.2 从任意网站抽取文本
4 e( S" W) ?7 A5 q; v 10.3 新闻语料聚类
' z6 T2 L' y5 @8 T7 m7 O2 O 10.4 聚类融合% B+ b1 J ?4 H
10.5 线上学习
& F, F% X" B8 s& M! a( F 10.6 小结, z- N; q% W. N$ P2 r
第11章 用深度学习方法为图像中的物体进行分类11.1 物体分类
3 I- N6 y/ ?4 f3 o! I) n: h2 d 11.2 应用场景和目标
- J4 u( p( |6 O1 \ 11.3 深度神经网络
2 A, N" O3 I8 |* Q6 W. V5 E) q! S 11.4 GPU优化* `. b4 G0 u. r! g: S4 D" b
11.5 环境搭建
5 V! L7 E+ ^' P: B0 b, k& [ 11.6 应用; i8 x; r+ _' _% b
11.7 小结 F9 s& n7 ]% H* L
第12章 大数据处理) V" R$ A5 e) D* d' l
12.1 大数据) p; W1 a- E; Y8 F+ s
12.2 大数据应用场景和目标! D* A) f1 m0 T- F7 z" D
12.3 MapReduce- v5 E1 _' ?4 _
12.4 应用
( |0 T' K( I8 u3 z' u; x% |- @ 12.5 小结
) T4 x. c; ^! u 附录 接下来的方向$ I7 i. J9 ]& b
游客,本下载内容需要支付 1共享币,购买后显示下载链接立即支付 $ Q, p# q* @% d* T
1 D- }1 ^3 g' Y3 v
|