编辑推荐% g. t9 c8 n3 @9 `& T
数据分析专家撰写,多年企业数据分析培训和咨询的经验结晶。
- M6 k; Q; [4 X; K 实战性强,从“非科班出身”的企业数据分析人员的角度对商业数据分析进行了总结和归纳,运用大量事实和案例来展现“以业务为核心和抓手的数据分析”商业实践。& G: Q& s6 Z1 w( u; \3 e" {
内容简介
, T7 W& x9 A% M+ A; k; t% r 本书是针对于非统计科班出身的企业人员讲述数据分析和挖掘的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实实践应用案例和场景的著作。全书分为三大部分:# y$ o0 P( l& {/ z7 c
第一部分是基础篇(第1章和第2章),主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。+ g/ g4 h, R. m6 H" f0 R
第二部分是制表篇(第3章~第5章),介绍数据的采集原则、数据整理以及常用数据报表的制作方法和技巧。
' q' o8 X- F! K 第三部分是数据分析篇(第6章~第14章),这是本书的重点内容,囊括了从数据扫描、数据标注到异常值分析、回归等常用的、有代表性的功能,并以案例形式展示在数据分析过程中使用上述功能的思路、方法和技巧,指导读者进行实战操练。0 X1 e5 j' i. s4 u1 r
作者简介; p% t7 d/ R- K3 S" K
纪贺元,数据分析专家,从事数据分析与挖掘的培训和咨询多年,曾在通信行业长期从事数据分析与挖掘的建模分析工作。在EXCEL、SPSS、MODELER、EVIWS、VBA、SAS等方面有长期的使用经验,擅长分析模型和算法的优化工作。曾经主持过多个数据分析、数据报表、市场调查项目。
! _) J+ _ a b# _* b8 d) ` 精彩书评
$ m7 z' R3 V7 |! h6 L. A# a! P- M 纪老师曾经在我们公司做过数据报表项目,他的数据思维以及强大的数据编程能力给我很深的印象,因此我坚信纪老师的书也会同样出色。9 d5 | k8 ~' ~- [" ^" w
——天顺风能股份有限公司总经理纪军
6 A+ ^" }# R" J" Q( P2 T* l* h 纪老师的数据分析和挖掘课程在我们涌泉的客户群体中很受欢迎,一个人在授课和写作方面的能力和思维一定是互通的,而且纪老师有长期的企业数据分析和挖掘的实战经验,他的书一定是会受到广大读者的欢迎。% A# U4 S& V9 ?8 r: c& G/ [. n
——上海涌泉咨询管理有限公司总经理孙玉琴
0 L; x+ e/ x) ] 一直以来很想有一本合适的讲解统计分析和数据挖掘的书,但是市面上的书要么艰难晦涩,要么太浅了,真是好不容易看到一本贴近实战的数据分析和挖掘的书。
5 {4 b6 w j: N C" D* ~6 w9 V ——上海思维导图知名培训老师逛逛(李程)
8 f( |+ Y6 G9 V+ G 纪老师的数据分析课逻辑非常清晰、简单易懂,我们同样有理由相信纪老师的书也肯定是很棒的。4 b6 K: F1 [9 D) k5 z4 w
——深圳华润置地资深数据分析师罗杰涛
" N% V2 q* {( V 纪老师曾经来我们阿斯利康公司上过课,大家对其评价都很高,他能够把复杂晦涩的统计挖掘理论讲得比较生动有趣,因此,我们也期待他能够给读者带来一本通俗易懂、开卷有益的书。
& R; H1 O% C. g. f9 l ——阿斯利康数据管理与分析高级经理刘彬
% _. n% C, S" ~: X 目录" F$ ^1 H- z& A# j' g! }5 v' Y
前言
7 ^" w4 P8 h3 M, K. Q7 d/ P 第1章 什么是数据分析1
, p" K2 P7 r2 F$ ]7 d7 a 1.1 一眼就看到结论还需要数据分析吗10 i$ G/ [( p0 K# ~2 K2 m, V
1.1.1 企业数据量2
! b T' H, ~( g0 A5 j3 i 1.1.2 数据复杂度2
3 F' D, G' p, s) M7 _ 1.1.3 数据颗粒度3
8 r: [- m1 V# z9 w 1.2 数据分析能给我们带来什么4% Y6 z- }% d4 l8 i' Z9 N9 f
1.2.1 了解数据的整体状况4
?* T2 f7 z6 e 1.2.2 快速查询数据5
5 `" [4 M3 g; u2 v7 ?' I p: h0 h 1.2.3 数据之间关系的探索5
" e. {8 t: I0 i 1.2.4 业务预测6
4 w1 w% F2 C M5 d, y* [, x 1.3 数据分析的几大抓手6$ [: X1 s. |8 i* S* _
1.3.1 足够多的数据64 m1 m4 E2 U; [
1.3.2 数据质量6
* R- G$ k5 c( m. p- c 1.3.3 合适的工具7
; g+ N4 H0 }6 Z' E, _ 1.3.4 分析结果的呈现7
1 e4 M7 @" K1 y1 n0 o6 Z: o 1.4 数据分析的流程7
7 I, _8 C% w9 n3 ~) P+ U @+ M u 1.4.1 数据采集7
5 H% H- i* @* N. W0 w0 { 1.4.2 数据整理8
g% |1 G" } W* S) U; W( H 1.4.3 制表11
2 p1 X( c* Y% S8 M: {0 B 1.4.4 数据分析11: x" u/ o$ E* @/ |
1.4.5 数据展示(呈现)12
2 K# t/ O# C5 S2 F& c; q( n 1.5 如何成为数据分析高手12$ q: G' H. q/ C) m5 G1 {9 k
1.5.1 “拳不离手,曲不离口”12" k! ?+ l2 C2 [
1.5.2 熟练掌握常用工具12" `. C& s9 `* ?
1.5.3 最好能编点程序13
& t! [/ U" Y& g- L 1.5.4 一定要通晓业务14) b$ }( ]+ e/ k7 f( O! P' L5 a
第2章 数据分析的理论、工具、模型15
) Z: L$ r- I- V# ` 2.1 基本概念和术语15( `% q- D( r0 c6 X1 o( D9 f
2.1.1 基本概念15, P) M+ a {0 Z+ j+ F$ N: J1 l/ ~$ l
2.1.2 术语223 v# D( ]4 W- w' U, T
2.2 选择称手的软件工具26* |" ]2 ~' z5 G
2.2.1 EXCEL27
- V4 T9 M1 h- f" F4 Y8 O7 H) U. i 2.2.2 VBA27( ?- \ D3 D1 X4 E8 _
2.2.3 Access279 Y5 ]& I+ k9 @; i; R4 m
2.2.4 SPSS28
: J- l: }5 Q+ C/ ~ 2.2.5 XLSTAT29( x6 l, L* e0 v# q/ w7 g
2.2.6 Modeler29
, f8 U0 m5 j( `: ~ 2.2.7 R语言30
) J* m$ g6 Z" E, `6 l 2.3 在分析需求和模型之间搭起桥梁30
/ k* {" w% N' t2 I$ n; A# c 2.3.1 识别需求306 x5 `8 {3 R8 j5 j9 j! c; `: ?3 h
2.3.2 分解需求30
( s) L) F' |6 h d# Y9 | 2.3.3 选择工具和模型31
3 E! a* \" Z- j; O: K8 Q 第3章 数据采集与整理32
* C- @, i% u/ A, Y6 _+ {% M- m 3.1 数据采集的几条重要原则32! w4 E7 n) k5 m1 d7 X' U" `; w
3.1.1 要足够“复杂”32! t& p. A9 @% h/ C m8 D7 V
3.1.2 要足够“细”33
( \7 X c3 o& _ j2 B 3.1.3 要有“跨度”33
9 z9 D" ` Y1 Z* _ 3.1.4 要有可行性34
+ U0 r7 W1 D* l' x 3.2 用“逐步推进法”推测需要的数据345 o3 E' S7 N M+ o. H) \4 |9 z
3.3 耗时耗力的数据整理过程35( B! r: T: b: R" y; _7 U
3.3.1 重复、空行、空列数据删除36
# [1 _3 l- @" n5 F 3.3.2 缺失值的填充和分析39
3 d, g# U4 F" }1 W: _* u) S 3.3.3 数据间逻辑的排查45' i; {8 D7 n7 Y- s6 S0 j# p
3.4 数据量太大了怎么办47+ q) c3 |4 i$ x1 W6 s5 K" O2 e
3.4.1 放到数据库中处理47 u! }7 p( c& {, ]# O. R' z
3.4.2 用专业工具处理47
% l+ n& K- V U0 G3 C% B 3.4.3 数据抽样51
: e2 ?* H( T( N3 k' a& `. j 第4章 数据分析的基础:制表(上)53# v6 h7 l9 U( y" b. x3 T
4.1 以数据合并为目标的制表53 L& U2 {2 @* m: N8 N2 T4 t
4.1.1 跨工作表合并53
7 u: h( k4 r( ]6 r 4.1.2 跨工作簿合并55
& g6 M: D0 q# A6 H3 `, r- W 4.2 以数据筛选为目标的制表562 D% O. u* O0 A T
4.2.1 普通数据筛选57; Q( d" D# e6 `" v# t
4.2.2 高级筛选60+ e" l. b' s1 \ y0 H% c
4.2.3 计算筛选62
8 S/ P0 K! |1 [3 x1 ?1 l 4.2.4 函数筛选63
! I" l: {/ h& ?+ x) v. \% K- @ 4.3 以获得概要数据为目标的制表64
/ K% y7 v$ ?# P 4.3.1 分类汇总方法64
, ]+ U) T( M( M% H4 z5 O 4.3.2 数据透视表汇总68, W E" c- s2 G( M* u: p* B( m
第5章 数据分析的基础:制表(下)70 ^0 I6 `. z$ K1 p1 y8 R
5.1 “七个百分比”让你懂得大部分表格类型705.1.1 行总计的百分比70
# b( t. E, i" o, T, Z 5.1.2 列总计的百分比73: x1 j# g2 s6 z
5.1.3 全部总计的百分比74
: o* N8 y3 o- B! Y, T4 T @ 5.1.4 父行(列)的百分比74
: q/ U: C' {' A' p$ J3 _ 5.1.5 累计占比75) v% _9 v1 S! _& r6 ]/ }: Z9 i
5.1.6 环比78
" _$ `7 w* R+ f; c9 r# k9 h! h* Y 5.1.7 同比794 c2 D( s4 _9 M
5.2 分组功能经常让分析峰回路转81
1 t3 t7 M4 G, [+ c3 e k* Q 5.2.1 文本的分组81
/ ]: w7 U8 q/ c y" k4 H 5.2.2 等步长的数据分组831 G4 \7 e4 }6 e. O1 ]( q3 M- L7 b
5.2.3 不等步长的数据分组86
- n8 C8 e$ ~, { 5.2.4 日期型的分组88
. j! T- ?% {6 `$ F A. V+ ] 5.3 随意生成各种派生指标89
b0 k4 {' c1 O+ Z0 \6 ^+ @ 5.3.1 添加字段89- G9 Y7 ~( N. A7 u* F- E3 R
5.3.2 添加项911 b! q* D) i7 U
5.4 从大数据库中挑选要分析的数据:Microsoft Query925.5 强大的SQL97
7 J5 p! D5 G0 y 5.5.1 SQL的基本语法97
2 w& a+ `1 ~/ P, t 5.5.2 SQL的应用97
1 e0 c( F1 c3 a: w: [: P 第6章 数据扫描:给数据做体检100
, y$ K9 C6 Q4 h5 W% h 6.1 在EXCEL中给数据做扫描100
% [( N4 J( v4 s 6.2 SPSS中给数据做扫描103
1 x3 ^- F; c) x 6.3 在Modeler中给数据做扫描1058 W- `, {% e" }+ g+ `1 V5 j
6.4 其他相应的指标1084 h2 r& m4 g; v, s, p$ X2 T! `
第7章 数据标注:给数据上色110
8 [' V) e# n o. [! S8 t7 v3 [3 d" a 7.1 大数据块的整体标注1111 P5 e# N3 k' x8 A
7.1.1 突出显示单元格规则111 k' i& N$ [" s1 S# z9 P2 r: j
7.1.2 特殊数据选取规则112
8 n; j: |5 ?) y2 g0 _& D 7.2 根据业务逻辑在数据中标注上色113* A Q1 F% _! c( W5 \5 _5 l1 }$ B
7.2.1 数据条、色阶、图标集的应用113
/ p. \+ D( n6 X) s1 o" l+ D9 b 7.2.2 规则的理解115
, R* [9 G( i1 p4 m5 [/ O: Y 7.2.3 根据业务需求改变规则118! j8 _' Y* m. q
7.3 采用公式实现复杂强大的数据标注119
$ R& h' n6 {9 E 7.3.1 理解逻辑表达式的含义119
# `$ J% C. _ h* @ 7.3.2 复杂逻辑公式的应用120 ~0 Z2 F7 T ~3 D0 m' I
7.4 如何在一张表格中实现多种标注规则123% K( l; s) ~8 \) [" y% A7 P2 t
7.4.1 多规则的应用123
6 l% R; p4 ]: y5 T) i5 L& Q 7.4.2 如何理解“遇真则停止”125
; _5 @$ V! u; M* \! l 第8章 找到数据中的“特殊分子”127
- X7 n" J( b5 a& {+ H 8.1 什么是异常值127
- x- q0 }7 m/ Z# E 8.2 异常值的判断标准128
5 U, X* q) s9 e4 L4 t( x 8.3 用绘图技巧找到异常值129
( m; ^8 o% E7 k' a5 X, E+ R& |! r 8.3.1 散点图1295 ?1 [4 y z% N0 O# Q
8.3.2 面板图130
4 K$ @7 K/ F/ ? 8.4 用公式函数法发掘异常值135& z5 K/ F" z/ h1 u
8.5 三倍标准差法137
1 a+ ?% u* B" F 第9章 相关分析与决策树140/ W. y8 g" @8 Z/ X5 p
9.1 Pearson相关140; v9 J" k; X2 q4 O7 N+ f
9.1.1 应用场景141$ Q- g e1 [8 I. B. E! q6 V1 U3 I& @
9.1.2 输出指标的解析141
( w/ g; x3 l: U6 j# b 9.2 典型相关分析145
+ q/ o$ k, M7 E6 p 9.2.1 操作步骤1451 c7 M- {; L; J
9.2.2 结果解读147
/ E1 s, n- i2 L$ V! y, x 9.3 决策树1499 T& m! k. u+ A2 L
9.3.1 什么时候需要用决策树149, d% @3 m T) T" _3 G
9.3.2 决策树的操作和指标解释150
4 G; g1 b! s. e! \ 第10章 聚类155
2 U9 }0 B# b. y M9 W. L 10.1 多维度数据的分类怎么办155& \- U+ F1 X! M+ B, ~: r
10.1.1 低维度数据的分类方法1553 Q2 W* c9 v/ x* j) B( c
10.1.2 高维度数据的分类需求1577 b- X) M% j, Y
10.1.3 常用的聚类操作介绍1571 w, y# R; u7 K$ Z
10.2 聚类的烦恼1:如何面对数量级差别大的数据16510.3 聚类的烦恼2:如何判断聚类的质量167
: C; r% A0 G) V 第11章 回归168
# g$ V v5 I, A 11.1 如何寻找现有数据的内在规律168
5 O- y) V) m: g 11.1.1 什么是数据拟合169
* [; D0 i% g# [9 f+ | 11.1.2 多元线性回归171/ M% b/ C( Y2 A( f/ {8 ~1 D a! |
11.2 logistic回归173
$ `3 y" B) K4 W. U$ D. M5 U3 l 11.2.1 回归(客户“买”与“不买”)173% {+ N1 ?& C& e2 R) X
11.2.2 多元logistic回归(多个品牌的选择)17611.2.3 多元有序logistic回归1817 N( @' c' i3 a- o- S: f% l
第12章 关联分析183$ Q) |2 |% W L' Z* ]6 x- D# V$ T
12.1 因果关系的弱化1835 h! p; i& O% l, r5 r
12.2 关联分析的指标1840 l3 b9 m. H2 E' H! B P
12.2.1 支持度184
# w% n W# i# ]5 i& W& X; C 12.2.2 置信度185
+ _ M9 ~; K8 a% A1 l, n; R( b 12.2.3 提升度1856 b+ ^& S# _1 c6 Q1 L% Z. d) ]
12.3 什么样的数据适合做关联分析186
6 C2 E' [$ ]* x 12.3.1 商超数据1868 |& q: i8 r# ?1 X8 F! k
12.3.2 金融数据186
% u& S" h" G, y4 I5 @7 | 12.3.3 生产质量数据187
/ M4 t& u6 X/ P+ w- X, K0 f7 N 12.4 关联分析的具体操作187
! V3 N7 p( ~& _2 F4 R: `- O, q7 ^ 第13章 预测191" A# t2 A' C# Q2 O$ X2 ?% ?
13.1 什么是预测,预测的准确度高吗1919 T! i: T$ O5 _/ e
13.2 移动平滑193
) W# h9 g1 a: ~2 S6 b' T5 d 13.3 指数平滑1940 C6 k6 M( P7 K5 r
13.3.1 二次指数平滑194& p) W; ~+ m7 v$ m! U" H
13.3.2 三次指数平滑195
& x: v4 e) y/ F 13.4 对周期性数据的分解198& l" Y; g' f* u/ C& f; ~; R6 R
13.5 ARIMA预测法201
4 {; e' L7 J) _* w 第14章 高级绘图技巧206( t" U5 ^, y" E2 H! c* R/ R$ C
14.1 怎样才算图画得好206
, L1 B5 Q; c2 k2 S. g 14.2 双轴图的技巧和运用207# |# m6 _* n/ p1 D% [4 n6 H, c
14.3 不同数量级数据的高效对比展示211) w$ Z2 j8 @4 v+ g( X3 T
14.4 数据标签的妙用215
; _; i* H( O( f6 Z+ h) \ 14.5 图形中的重点标注221! L/ M9 J* {9 y) P( ]! C: z! J
14.6 绘图美学—多点审美素养222
' n$ Z3 w1 P& x0 ~/ H4 A$ n! l% A& [ 14.6.1 整体布局222# H% p, X# |) P
14.6.2 线型的选择2233 {" B3 C O& l
14.6.3 色彩对比223
0 b3 Y3 L' Y+ a: R 后记 数据分析经验之我见224
4 ^" L& Y0 t0 [8 U, Y6 R' O: ` 前言/序言
2 {- f" H# a# I 为什么要写这本书
! [9 N/ O! j; o 在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧。! e1 I4 \% ~9 I4 u( D, ~% Q
“理想很丰满,现实很骨感”,原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单。从框架目录的确定、章节内容的选择、语言风格的打磨,到分析结果截图的选择等,每一个环节都需要细细地思量和斟酌。这本书的写作使我从2016年4月到11月的这段时间非常疲劳,颈椎病也复发了,因为在写书的同时,我的数据分析方面的培训并没有停止。; S5 C) m! K* a+ G3 H
我在写作本书的时候,给自己规定了几个原则:6 [# e( E, p6 m- ], q2 J0 e0 V
一是要实用,要能够解决企业工作中的实际问题。9 I& I( w! J2 z8 ?, @7 e
二是要尽可能地降低读者上手的难度,那种操作非常繁复、需要强大坚实的统计分析理论基础,或者需要编程才能实现的功能,我都没有放在本书中。原因很简单,即使本书讲了那些难度比较大的内容,读者也很难真正应用起来。$ i5 I- B! h( S7 d4 D8 V9 E; m
三是语言风格尽可能轻松活泼一点,尽量避免很严肃、很晦涩的专业术语,我很难做到“寓教于乐”,但还是尽己所能让本书的阅读轻松一点吧。
1 a2 e! h/ a: x* v8 ^' B9 O 在本书的写作过程中,我经常提醒自己这三条原则,并且要求自己遵守它们。
! o. B& C) E8 N# N 简言之,给读者带来一本“有用的、上手比较容易的、读起来比较轻松的”数据分析书,这就是我写这本书的原则和动力。
% ]6 i* I# C* r# f 读者对象
$ q# w' }9 B( y 这本书的读者对象是企事业单位中从事数据分析的非统计专业人士:
# o1 Y" U8 t, j1 R9 y) \: B 企业中的市场部相关人员,包括市场分析人员、产品设计和研发人员、销售经理等。
2 C& E7 d: t. F 企业中的生产部人员,包括生产经理、质量控制经理等。
! a- B C3 F) b& W! [3 K1 g 企业中的财务部人员,包括财务总监、财务经理等。; K4 Y& h% Q9 ^$ K" q0 v
企业中其他需要经常和各类数据打交道的管理人员和一般工作人员。: c0 g8 D7 b5 C4 R+ P: D8 Q
如果读者是高校或者科研院所的教师、学生、科研人员,要从事专业学术论文的撰写或者纵向科研项目的研究工作,不建议你将本书作为主要的阅读和学习的书籍,因为使用的工具、模型、方法都会大相径庭,例如撰写学术论文经常要使用Eviews、Stata等专业计量工具,而这些专业计量工具在企业中使用的概率非常低。
- G+ {2 d7 | g2 h2 | 如何阅读本书
5 N' |9 p5 _- X 本书分为三大部分,第一部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。0 K5 o( H8 w# ~7 Z
第二部分制表篇(第3章到第5章)介绍数据的采集、整理以及常用数据报表的制作。0 p! x8 C) j8 r( a
第三部分数据分析篇(第6章到第14章)占据了本书的大部分篇幅,囊括了常用的、有代表性的、实用的功能,包括数据扫描、数据标注、异常值分析、回归等。3 B& X; T8 q9 B, j/ e' \! R( \( Q
正文中所提“案例文件”为本书的配置案例资料,请通过网络自行下载。* J& E5 @$ E! b4 {1 y# \9 c# }. E
勘误和支持
8 K2 u: `5 y. a' {( J2 d1 f 由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你发现本书有错误,或者有其他宝贵意见,请发送邮件到我的邮箱,我很期待能够收到你们的真挚反馈。
4 @9 Z' t5 ^, Y5 ~2 Y 致谢7 ^% V6 ~, t3 p4 O" Q, |& ~
我跟我的家人说,我这本书是以“parttime”的方式写出来的,因为在写书的过程中,我还在四处上课,也做了一些小的咨询项目。9 @, r( i2 c1 T: [7 T
多年以后,如果回顾2016年,我给哪些企业上过哪些课,我未必能记清楚,但是2016年我写作了平生第一本书,这点我不会忘记。3 f: y% V& W: P+ I# ^# \+ H
感谢机械工业出版社华章公司的编辑杨绣国老师,感谢你的魄力和远见,在这一年多的时间中始终支持我的写作,你的鼓励和帮助引导我顺利完成了全部书稿。
- ?: ? y8 s- U/ @ 最后我一定要感谢我的家人,是你们给了我一个温暖的港湾,让我在这一年中几乎不用做家务,专心从事培训和本书的写作,多谢多谢!% \ s6 e* ]) d
谨以此书,献给我最亲爱的家人,以及众多热爱数据分析的朋友。/ V6 M0 C& w w4 P' G% [4 D
纪贺元
4 Y) e5 v: D2 O# g) K/ } 2017年1月于中国上海
3 J6 r) B3 P( {2 u$ Y$ d
: ^7 n d8 r0 J2 y9 a0 _" j# ~7 M$ X1 m
|