开启左侧

数据思维:从数据分析到商业价值 王汉生 大数据≠有商业价值

[复制链接]
  • 地区:中国大陆
  • 格式:PDF
  • 文件大小:15M
  • 时间:
  • 类别:量化
  • 价格:1共享币
  • 提示:本站推荐经典投资资料
  内容简介
' d, ~# F: H7 r; b/ X/ b7 v. t  本书由微信公众号:狗熊会创始人王汉生教授(熊大),及其核心团队联合创作完成。本书可以被看作商业分析(business analytics)领域入门级通俗且有趣的读物,深入浅出,雅俗共赏。适合数据分析师、工程师、产品经理、销售、BD、以及数据企业中高管阅读。% ^( `* S/ j. O5 t- k2 o3 c: F4 G
  本书主要由五章组成。第一章介绍了熊大朴素的数据价值观,解读数据与价值的逻辑关系;第二章介绍了最基本的数据可视化方法(统计图表)的规范与有趣应用;第三章介绍了回归分析,通过精彩案例展示了如何将一个业务问题定义成为一个数据可分析问题;第四章介绍了机器学习,可以看作是第三章技术上的一个重要补充;第五章展示了各种常见的非结构化数据分析(文本、图像)的有趣案例。本书所有案例内容的原始版本、相关数据资源,都可以从微信公众号狗熊会(ID:CluBear)获得。, S: p2 [  V) x, K
  作者简介
- Q$ I9 X( N6 l' J5 D9 y  王汉生,北京大学光华管理学院商务统计与经济计量系系主任,教授,博士生导师。现兼任北京大学商务智能研究中心主任,曾任嘉茂荣聘教授(2014-2015),蓝天环保讲席教授(2015-2016)。他还是微信公众号“狗熊会”创始人、美国统计学会Fellow(2014)、国家杰出青年基金获得者(2016)。
2 s  |* h# }8 `7 j. ^  他主要研究同移动互联网以及量化投资相关的数据分析,包括但不局限于中文文本、网络结构、位置轨迹等;在业界实践方面,他是国内较早从统计数据分析角度关注并研究搜索引擎营销,社交网络数据,以及位置轨迹数据分析的学者。曾担任博雅立方科技有限公司首席科学家(2009—2015),百分点首席统计学家(2015—现在)。此外,与量帮科技、考拉征信、彩虹无线、蓬景数字等众多企业有深度学术合作,合作领域涉及量化投资、互联网征信、车联网、移动设备RTB广告竞价、搜索引擎营销、电子商务等多个重要行业。此外,王汉生教授同腾讯、百度、阿里、奇虎、奥迪、京东、联通等众多企业有短期项目或者培训会议合作。: I2 i" Z. J& |( J& M3 c% R2 S
  目录# x+ C) u) {. W! u% q
  版权信息
* d# i/ V7 e) f" m  序一
; `. A" v. X) c' [  序二
& |$ r! K6 |2 \  序三; l$ C7 p6 q" [8 C/ V: w6 I
  前言
& c1 X7 ?& q- q8 N  狗熊会简介: q& a1 w" v0 @* q0 U6 W6 A
  绪论 大数据时代之“皇帝的新装”
. _9 `+ r, Y6 W7 l  第一章 朴素的数据价值观# {. p- T% Y* W' l+ E! ]
  什么是数据?/ `% M# g+ G3 n# P: m6 _; I  L
  数据的商业价值
) L: j" I' q7 O& N: n7 W- p; j' S  数据到价值的转化:回归分析的“道”与“术”
9 A6 i. h5 \9 s: O  搞清客户需求
+ B7 Q8 o7 Z% d/ v3 D/ E  中国数据科学的风口
( i5 c, e& X7 J6 a- X  第二章 数据可视化
# a& m! t, i1 I  实力派:准确+有效6 U7 o8 ^( y  g
  偶像派:简洁+美观* O2 V0 T6 o5 ]: M  L3 ~% K
  柱状图
! ^$ {' {. K3 c* t4 @  堆积柱状图
) y4 X/ x. j. |, l3 V/ |% M  柱状图之妙用4 m" x0 r, \3 Z- o- Y' m
  饼图( h; q( V# i; w8 `) g
  直方图- v. K* Z8 Z7 d! u
  折线图# M. V+ S0 ?% b' D
  散点图
$ Q3 `  n8 A4 v# D+ {1 N  箱线图
6 V* |7 R$ e9 a: B: I  茎叶图' v) s7 u! Z/ Z' d
  第三章 回归分析1 m# u0 ]$ u* v; [% t& H( |! O5 \) e
  什么是回归分析?
! U/ _/ \9 Z+ Y" o" H  线性回归——北京市二手房房价
; \5 M/ r& Q/ Y- [& y6 o4 T  线性回归——中国电影票房" r7 n! Z$ Q% ^5 b& H& w
  线性回归——线上女装销量预测
! j: G8 R) Y2 x, ]* f2 B- d) i  线性回归——股票投资中的均线策略
% q, X! m& b5 B9 f  0-1回归——某移动通信公司客户流失预警分析0-1回归——车险数据分析与商业价值% X& p* R& z, I' [- I
  0-1回归——点击率预测在R T B广告投放中的应用定序回归——信用卡逾期数据分析
) G2 D; ~- u7 R9 m  计数回归——英超进球谁最强+ c1 s0 Q! D; k% o$ x) e
  生存回归——新产品在架时长研究
+ n8 V; p6 k+ `5 A9 h: n4 F  第四章 机器学习" y. C) I  h( u+ B  U" S; z
  朴素贝叶斯——12345,有事找政府
. o+ L8 O# ^% n  决策树——非诚勿扰3 z3 Z3 ]5 M* P% a; n2 T1 E3 O3 W
  决策树——二手车保值比率那些事儿
$ z+ e( d% z( b  m. v7 Q9 k6 e  回归树与提升算法——世界这么大,想去哪儿看看?
  y2 ^7 s. A4 P4 y& L' V  深度学习——图像自动识别8 k: _* a& ?6 j% T
  深度学习——打麻将
9 `) N# h2 x& K# `4 g- X  K均值聚类——狗熊皮鞋的百度广告投放! y5 R: I6 K& j; _* |6 F8 w( ?5 m
  第五章 非结构化数据& M# Q- W6 i: x8 E9 t5 o" U
  中文文本——小说的三要素:以《琅琊榜》为例中文文本——从用户评论看产品改善! |# E" k8 n/ @, q
  中文文本——空气净化器的好评率影响因素分析中文文本——数据分析岗位招聘情况的影响因素分析中文文本——张无忌最爱谁
2 d7 \: E5 K) D% o  网络结构数据——《甄嬛传》中的爱恨情仇
0 Y0 `& S, L3 `3 Q0 j  图像数据——通过图片识别PM2.50 H) m) j; Y, r
  刷卡数据——互联网征信4 I$ f1 s; i3 N4 m) v' w1 g
  前言, ~; r2 b  N$ u
  市场上已经有那么多关于数据科学(或者大数据)的书了,为什么还要再写一本呢?这是一个很好的问题,我也问过自己八百遍。说老实话,有点稀里糊涂,有点说不清楚。直到有一天,狗熊会公众号(微信ID:CluBear)上发了一篇题为《关于应用型高校“数据科学与大数据技术”专业建设的一些思考》的文章,探讨产业实践之于数据科学教育的重要性。文章发表后,一位热心读者的留言吸引了我的注意力。这位朋友的留言大意是产业实践可以通过参加类似K aggle的数据建模比赛获得。支撑这个观点的一个原因是这种类型的比赛所使用的数据都来自真实的数据产业,有定义清晰的业务问题,所以,通过参加此类比赛,或者接受类似的训练,就可以获得不错的产业实践经验。但是,我的看法有所不同。我对数据产业实践的理解可能更丰富一些。3 M- e% H( c, P! ^
  我认为数据产业实践的核心任务是:让数据产生价值。更准确地说,是在真实的产业环境中,让数据产生可被产品化的商业价值。这个商业价值是一个广义的商业价值,既包括企业的价值,也包括政府的价值。从这个角度看,数据产业实践至少涉及三个关键环节:数据业务定义(把一个具体业务问题定义成一个数据可分析问题)、数据分析与建模(描述统计、数据可视化、回归分析、机器学习)、数据业务实施(流程改造、产品设计、标准制定等)。这三个环节缺一不可。而各种数据建模比赛主要关注的是第二个环节(数据分析与建模)。对于第一个环节(数据业务定义)与第三个环节(数据业务实施)能够提供给大家的训练很少。原因很简单,第一个和第三个环节属于赛事主办方的思考范畴,不需要参赛者再操心。参赛者只要对第二个环节发力就可以了。当然,能够对第二个环节提供优质的训练,这仍然是非常值得称赞的事情。
( q  r0 V. b1 H: o' q  带着对第二个环节无限的尊重,我想说,其实另外两个环节可能更加重要,而且极具挑战性。如果不能把一个业务问题(例如客户价值提升)定义成数据可分析问题,那么任何数据分析都是胡说八道。只有把业务问题准确定义成一个数据可分析问题,数据分析与建模才能有用武之地。最后,即使数据分析得再好、模型建立得再漂亮,如果无法落地成为可被执行的数据产品,那所有的努力也都是白费的。因此,从这个角度看,这两方面更加重要。而这就是狗熊会的核心理念,可能会和很多书籍文章中的看法有所不同。为了方便起见,我称之为朴素的数据价值观。
( i0 h  P* M5 ?, ~, v+ @  朴素的数据价值观认为,数据产业实践不是单纯的数据分析与建模,而是要在一个产业环境下,让数据产生价值。为此,前面提到的三个环节都非常重要,尤其是第一个和第三个。而写作本书的目的就是要同大家分享狗熊会朴素的数据价值观。4 w! g( ^8 w7 I# ~& h
  为了更好地分享,本书大量采用了狗熊会的精品案例。章节内容都是从狗熊会发布的精品案例的微信推文直接润色修改形成的。因此,这些内容继承了狗熊会精品案例的一些有趣的基因:(1)尽最大的努力把业务问题定义清晰;(2)尽最大的努力让数据分析与建模瞄准业务问题;(3)尽最大的努力让最终分析结果有产品化的可能。这三个基因也正好对应了数据产业实践的三个重要环节。为了增加阅读的趣味性,所有案例的写作风格都诙谐幽默,但努力不失科学的严谨。当然,由于各个案例的作者不尽相同,不同章节的写作风格也有所不同,这可能会在一定程度上影响阅读体验,对此,我表示深深的歉意,请大家原谅。同时为了方便读者利用碎片化时间进行阅读,所有案例之间基本上互相独立,因此,大量章节可以独立阅读,而不受制于前后内容的逻辑顺序。此外,特别值得强调的是,为了降低阅读难度,本书几乎不涉及任何数学符号和计算机代码。但是,这并不代表这些案例是虚构的或者肤浅的。事实上,狗熊会精品案例的生产是一个非常艰辛的过程。一个非常有经验的精品案例Leader,带领自己的团队,一年最多生产5个精品案例。不敢说这些案例多么了不起,但确实是创作团队的心血之作。8 a- f2 d& d4 O6 ~
  在内容组织方面,本书从基本理念入手,按照不同的数据分析方法,由浅入深,组织成不同的章节。其中,第一章系统阐述狗熊会朴素的数据价值观。第二章对经典的统计图表做了系统幽默的阐述。其原型来自狗熊会公号的“丑图百讲”系列。第三章系统阐述我们对于回归分析的理解。在“道”的层面,回归分析是一种重要的思想,是一种将业务问题定义成数据可分析问题的能力;而在“术”的层面,回归分析才是我们常见的各种模型。第四章主要讨论传统的机器学习方法,以及最近很火爆的深度学习。最后一章分享了狗熊会这些年来积累的众多非结构化数据分析的有趣案例,其中涉及中文文本、网络结构、图像分析等不同领域。
+ V3 d) G5 l2 D' i3 b; ~. r& R8 U6 v# }  本书由狗熊会的核心创作团队,在熊大的“压迫剥削”下,齐心协力,经过多次讨论、修改而成。参与创作的成员有(按姓名拼音排序):常象宇(政委)、陈昱(昱姐)、黄丹阳(小丫)、刘婧媛(媛子)、罗荣华(康爸)、潘蕊(水妈)、王菲菲(灰灰)、王汉生(熊大)、周静(静静)、朱雪宁(布丁)。创作团队付出了巨大的心血和努力。其中特别要感谢两位朋友:一位是百分点集团的董事长兼C E O苏萌博士,是他的启发与鼓励坚定了我们写作的决心;另一位是中国人民大学出版社的李文重编辑,他为书稿的形成付出了巨大的努力,帮助本书选择书名、安排章节、修改文字。大家为什么愿意做出如此辛苦的努力与付出呢?我想都是基于狗熊会的理念:聚数据英才,助产业振兴。这是狗熊会从创立之初到现在从未改变的理念。4 q. @/ h- _% K8 x+ m
  ●聚数据英才说明狗熊会关注数据科学相关的基础教育,并愿意为之付出卓绝的努力。狗熊会希望通过提供优质的教育素材,帮助年轻人成长,享受数据分析的快乐,而不是痛苦,并在这个过程中实现个人职业的幸福成长。: }; Y7 h# R9 p5 N& e; ^5 ]/ Q4 V
  ●助产业振兴说明狗熊会看重产业实践,并认为这才是产生数据科学知识的源泉。狗熊会立志要通过自己微薄的努力,陪伴数据产业一起成长。狗熊会感激每一位曾经合作过的企业伙伴,是他们的鼓励支持让狗熊会站在了中国数据产业实践的第一线,并因此产生了接地气的研究课题,以及高质量的教学产品。
" e5 B7 E; ?1 B  另外,本书中的引用的图片除特别标注的之外均来自网络,鉴于编者在引用这些图片时无法获知原创作者及出处,在此统一对原创作者表示感谢。
" O: v& {; g0 q  P  最后,把本书献给所有培养过我们的老师,谢谢你们的辛苦栽培。献给我们所有的企业合作伙伴,站在你们的肩膀上,才能看得更远。献给我们的学生,是你们渴望知识的双眼,还有那最美丽的青春年华,让我们重任在肩。献给我们的家人,感谢你们的理解支持,我们才能够努力拼搏,一往无前。祝福我国的数据产业,祝福数据科学教育事业,愿它的每一天都更加美好。祝福狗熊会,愿有更多志同道合的小伙伴,跟我们一起拼搏,“熊”赳赳向前!由于本书写作仓促,疏漏之处难免,请大家多多批评指正!
- L0 S% M, J- j8 s) |. r  王汉生(熊大)
6 Z4 z$ {: [) ?! V$ e  精彩书摘$ A  L9 c9 m3 \2 ^) T% J0 V
  都说今天是数据的时代,到处都在讨论大数据,每个人都说自己在研究大数据,到处都宣称数据可以产生价值,但是,到底什么是数据?什么又是价值?如何实现从数据到价值的转换?其背后的基本方法论是什么呢?熊大通过带领团队多年、填坑无数的经验教训,最终形成了一个相对完整的理论框架,即朴素的数据价值观。
1 Z& R5 L6 ?  R9 ]( u  T  什么是数据?这个看似简单的问题却不易回答。我们可以尝试向不同的人请教,相信会得到很多不同的答案。
( w4 H2 v0 _. E1 e+ A' O2 j9 o  常见的答案有两个:一是数据就是信息。这对吗?完全正确。但这个定义太抽象了。数据和信息都是非常抽样的概念,两者的相互定义,并不令人满意。二是数据就是数字。这对吗?有一定的道理,因为数字是一种最典型的传统数据。例如,GDP,股市的指数,人的身高、体重、血压等,都是数字,也都是数据。因此,我们可以得出其实数字就是数据。但是反过来,数据就是数字吗?未必。
+ @. N2 x2 w# c' v0 J$ n0 {  熊大认为,凡是可以电子化记录的其实都是数据。这里的记录不是靠自然人的大脑,而是通过必要的信息化技术和电子化手段。基于此,数据的范畴就大得多了,远不局限于数字。既然涉及电子化记录,就要谈谈记录数据的技术手段。手机、数码相机、各种工程设备上的探头等,都是记录的技术手段。但这些手段是有时代特征的,不同时代所能够提供的记录的技术手段是不一样的。这就是熊大的数据时代观。
( j- `) L( D0 C3 c. N  在很久很久以前,声音并不是数据。因为当时没有任何技术手段能够把它记录下来。既然不能记录下来,更谈不上分析,怎么说它是数据呢?但是今天,音频设备可以采集声音,然后转化为音频数字信号,进而支撑很多有趣的应用,比如iPhone的Siri、搜狗的语音输入法、微信的语音翻译,等等。由此可见,在可以记录声音的时代,声音是一种数据,而且是一种具有强烈时代特征的数据。
& A% B) @+ D/ k7 r5 B" ]  在很久很久以前,图像也不是数据,因为记录不下来。图像只能是人们肉眼中看到的这个大千世界,如此美妙!但遗憾的是,只是过眼云烟,转瞬即逝,没法记录。今天就不一样了,数码成像技术的成熟让所有的图像都能够记录下来,而且分辨率非常高。在此基础上,人们可以做进一步的分析和建模,进而支撑很多有趣的应用。例如,脸部识别、指纹识别、车牌号识别、美图秀秀,还有医学中大量的医学影像分析。由此可见,在可以记录图像的时代,图像也是一种数据,而且是一种具有强烈时代特征的数据。- h2 U3 H  g; Z: L! m
  类似的例子还有很多。例如,生物信息技术的进步产生了Microarray数据,社交网络的兴起产生了社交链数据,物联网技术的成熟产生了车联网数据。所有这些都是电子化的记录,都是数据。所有这些数据的产生都依赖于一定的技术手段,都有强烈的时代特征。因此,科学研究和商业实践也许可以尝试着思考:第一,在当前以及未来可见的时间内,数据采集的基础技术是否会有一些突破性的变革?如果有,这些变革会发生在哪些方向上?进而带来哪些新的数据?第二,通过对这些新的数据进行分析,能够回答哪些之前不能回答的重大科学问题?是否可以产生一些增量的商业价值?8 z% R- @) D" r
数据思维:从数据分析到商业价值 王汉生 PDF
; J8 B+ k1 e  W9 v% ], V; i; K+ l
游客,本下载内容需要支付1共享币,购买后显示下载链接立即支付

" l& b0 T! d. D+ Y数据思维:从数据分析到商业价值 王汉生 EPUB
6 q7 E  A" I7 k- \
游客,本下载内容需要支付1共享币,购买后显示下载链接立即支付
) x' D5 }- _4 l2 Z' l+ h+ L# H7 ]% h+ }) N
数据思维:从数据分析到商业价值 王汉生AZW3" C* ]3 V7 k6 O) Z6 z% {
游客,本下载内容需要支付1共享币,购买后显示下载链接立即支付

4 s5 Q, W! v( [. i  E! t. o: H9 P$ w# i
4 J1 Q5 ?2 q; Q6 |+ A2 m
回复

使用道具 举报

懒得打字嘛,点击快捷回复 【回复乱码 永久禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注0

粉丝39

帖子5068

发布主题
推荐素材更多+
广告位

服务电话

15987183307

QQ:1136111231
关注我们 :

QQ- Archiver-手机版-小黑屋-经典-文库- 与你共享

Powered by ynjie.com Array© 2001-2013 ynjie.com  滇ICP备19007624号-1