目录
* {/ `: M3 {0 N5 @4 ^ 第一章 总述1篇 数据技术篇第2章 日志采集82.1 浏览器的页面日志采集8) h. E) M" y, ~2 k: v) d; U4 n
2.1.1 页面浏览日志采集流程9
$ H7 X/ U. c; Q7 W4 ^ 2.1.2 页面交互日志采集14
0 Z; x/ m! A6 v 2.1.3 页面日志的服务器端清洗和预处理151 }1 y& P9 r0 u9 x
2.2 无线客户端的日志采集16
9 N' m& d( i6 @2 G 2.2.1 页面事件17
5 G H7 D% y& U) V# w5 |& F 2.2.2 控件点击及其他事件18
( ~# Z0 L! G& q# y! h( z4 O 2.2.3 特殊场景19* z; O6 h0 R6 z9 y5 d) w
2.2.4 H5 & Native日志统一20
8 d) a! A% `' E* W 2.2.5 设备标识22: ]! A4 s, e, _0 B% Q) O1 L
2.2.6 日志传输239 T' r! H' u; T/ M }
2.3 日志采集的挑战24
8 }$ y% Q5 S5 \ 2.3.1 典型场景24
( T6 q* {" W4 J+ k& a" } 2.3.2 保障26第3章 数据同步29
7 ~. l/ x* R" A8 c 3.1 数据同步基础29$ a; `) U+ |- `' H1 f) E: F- I
3.1.1 直连同步302 n2 ?5 U9 b. f) Y2 p% a/ E
3.1.2 数据文件同步30
2 ^) `. w" W3 `8 j% o 3.1.3 数据库日志解析同步31
9 {- ]8 I1 m& h" G. g6 S& g 3.2 阿里数据仓库的同步方式35
1 E* v0 P6 [, Y ]: o& ]. u 3.2.1 批量数据同步352 B. l) `8 s( f4 t( Q) F2 t7 ~
3.2.2 实时数据同步37! H9 I6 @% e0 \% I
3.3 数据同步遇到的问题与解决方案391 }% r3 [, \" _8 W9 a6 K# R! e" v
3.3.1 分库分表的处理39+ ]5 P4 S; G. @
3.3.2 高效同步和批量同步41
$ B( D6 B) {' S+ _" d9 X 3.3.3 增量与全量同步的合并420 v! ~3 R* U% q9 e
3.3.4 同步性能的处理43+ p$ A0 M: U6 V
3.3.5 数据漂移的处理45第4章 离线数据开发48
9 h" K# P O( U W0 M, L# ? 4.1 数据开发平台48" r9 A B& d+ q% `
4.1.1 统一计算平台49; T# s3 b. L) i0 @1 w* [
4.1.2 统一开发平台53# y5 @% A" ^6 H6 e/ y0 E: s
4.2 任务调度系统584 n. Y: i4 S8 V& R/ j
4.2.1 背景58
. {* n3 N9 q# K: p 4.2.2 介绍59# S9 b/ b7 P! D# l; }- }
4.2.3 特点及应用65第5章 实时技术68
7 Q# M6 v; a7 T j# M 5.1 简介69
9 ~, k2 h3 g! N* V: K, ~5 v8 q 5.2 流式技术架构71( Z$ Z g; p6 S3 ?9 Q$ F+ N0 r0 t
5.2.1 数据采集729 o8 E7 d: u& A8 L# @, E
5.2.2 数据处理74
, W1 s0 P! E6 A/ x! [& \8 }; C 5.2.3 数据存储782 ~7 @0 q7 E7 B
5.2.4 数据服务809 p; }. L% l1 o
5.3 流式数据模型80
. P. z$ H" y) ^ J/ O+ k% M3 { 5.3.1 数据分层80
' a" C; D2 \* x9 N- x 5.3.2 多流关联83
" S; k1 ?& O% G6 Z2 {4 p/ z, f9 i5 d 5.3.3 维表使用84
5 s8 ]3 Q1 x* x* K# n# f; v% p 5.4 挑战&保障86! g- [2 s$ d' l$ h4 l
5.4.1 特征86! a$ d' D. k+ W9 ^, P
5.4.2 保障88第6章 数据服务911 l7 Q% J" R/ F+ z
6.1 服务架构演进918 f0 u" J9 R4 ]- k) p
6.1.1 DWSOA92% v& T X& H. x
6.1.2 OpenAPI93) t8 L7 [ r4 }+ ~
6.1.3 SmartDQ94
8 v7 S4 {7 I% |5 q 6.1.4 统一的数据服务层96
9 Z$ b+ G0 Z4 o 6.2 技术架构975 L2 v% q' H* a/ T; E/ V
6.2.1 SmartDQ97
! m) W; u$ h' d+ z" w) q+ j 6.2.2 iPush100& k o+ @& B" P, a1 d0 k+ Z) w
6.2.3 Lego101
" D4 ~" j) I7 E" s; Z 6.2.4 uTiming1023 V/ N6 y7 I$ X" e# t
6.3 实践103
" ^! X! `' o6 S9 Q 6.3.1 性能103
- F( J# x8 L; p 6.3.2 稳定性111第7章 数据挖掘116
& L2 d$ C' q2 x+ o F 7.1 数据挖掘概述116" Q) w, n/ @: B# O( v6 p. N
7.2 数据挖掘算法平台117
$ I% h! o( O3 ^/ R+ u 7.3 数据挖掘中台体系119
3 T- H# G; P/ ^0 k/ G 7.3.1 挖掘数据中台120, |/ j/ h& d. n& ^/ x! F
7.3.2 挖掘算法中台122$ P; O0 Y5 }7 G L6 E$ W! M
7.4 数据挖掘案例123/ f. E5 R' ]1 Q ~5 n
7.4.1 用户画像123
1 z% x- J4 L4 S' {5 u; O% s4 c 7.4.2 互联网反作弊125第2篇 数据模型篇第8章 大数据领域建模综述1308.2 关系数据库系统和数据仓库131- w. j) B. Q4 }7 b
8.3 从OLTP和OLAP系统的区别看模型方法论的选择1323 Q7 a. {" X) B. K
8.4 典型的数据仓库建模方法论1323 l9 S' C) ?# G- e' E4 o
8.4.1 ER模型132
) Q- V" ?- X. Q 8.4.2 维度模型133' [' f1 g7 V6 }$ p" }( @, w
8.4.3 Data Vault模型1344 l, y& }- C7 ?! v5 ]* b
8.4.4 Anchor模型135 |# N8 _1 ^4 e% n2 C3 Z; L
8.5 数据模型实践综述136第9章 数据整合及管理体系138# U9 l% @' |% B3 c4 J w4 `
9.1 概述138
5 G0 V+ u `3 S7 g2 R- [ 9.1.1 定位及价值139/ N# S/ {1 M2 ]. P7 M
9.1.2 体系架构139$ ~( y' J' c) `4 F
9.2 规范定义140
6 K6 L% C+ w) N2 I" I, B 9.2.1 名词术语141* a0 W m( j7 C) ~* p
9.2.2 指标体系141
0 z4 k! B* }4 O4 C: z" j 9.3 模型设计148
9 ]8 m8 q% w1 g& }/ Q* h 9.3.1 指导理论148
8 d2 ?" T9 w; x 9.3.2 模型层次1483 S: K( Q9 n5 I8 w6 ^ w
9.3.3 基本原则150
; i2 @% C! w6 Q 9.4 模型实施1525 E" W$ p a6 z( J& B; Z, J
9.4.1 业界常用的模型实施过程152
; p h; }& t" F 9.4.2 OneData实施过程1540章 维度设计1596 c N. c6 u/ J/ A
10.1 维度设计基础159 p* w' R( ^( B Z8 Z, k7 q1 y0 K J# S
10.1.1 维度的基本概念159
9 N6 a8 }' x3 r" t- n 10.1.2 维度的基本设计方法1606 V7 C% t, G3 [ l' J( c9 l
10.1.3 维度的层次结构162
/ m1 }% v# A& j+ l. S8 c 10.1.4 规范化和反规范化163
* H* N0 j; M3 n! |0 P 10.1.5 一致性维度和交叉探查165" _' f" X1 u2 k2 l* k
10.2 维度设计主题166& z2 v% J! L$ M8 o5 E1 b0 o: s1 D
10.2.1 维度整合166
+ ^: t! g- v! F" w% m r 10.2.2 水平拆分169: n: x$ g1 }' Q' V$ s
10.2.3 垂直拆分170# z& ~" s0 f7 V/ H
10.2.4 历史归档171' E5 ^: ]5 t8 K3 M3 F
10.3 维度变化172
/ Q5 X5 v% ^; q6 A$ v& V 10.3.1 缓慢变化维172
1 P3 o$ ^- T& Y 10.3.2 快照维表174% g( ~3 |# E; b
10.3.3 极限存储175
3 O% E) X6 f- |# k0 x 10.3.4 维度178
) S8 b' P) W, q2 w( R2 B 10.4 特殊维度180
, f& m/ P. J0 g& C- m 10.4.1 递归层次180% X+ M* @: k$ X$ k. B9 k
10.4.2 行为维度184
- u$ v/ |" }+ u1 G. ^6 d' x 10.4.3 多值维度1852 z; E% g+ {0 l8 z% C" H
10.4.4 多值属性187
- u5 m! Q0 e/ }) H 10.4.5 杂项维度1881章 事实表设计190
# G, Q5 s: u* Y; h% |2 ?' r 11.1 事实表基础190
+ V a9 a! P! |+ u' N 11.1.1 事实表特性190
6 F, o# q4 V/ O* j 11.1.2 事实表设计原则191
$ J9 W7 u7 s- l1 S D 11.1.3 事实表设计方法193
& ?: L' _! t4 \4 [! z& z 11.2 事务事实表196
& @+ b4 g Y5 P 11.2.1 设计过程196
0 x7 V1 t& a& F; B0 E 11.2.2 单事务事实表200' k, C" D k$ t1 }, D9 b
11.2.3 多事务事实表202
0 T* p+ W9 x: e: v 11.2.4 两种事实表对比206
$ ]' B8 ?; x0 u! w- i( J 11.2.5 父子事实的处理方式208- H; j! [, I8 h, f3 c: q u- x) t
11.2.6 事实的设计准则209
$ C3 P/ ]( j, L! z8 o4 A 11.3 周期快照事实表210" s2 E {$ ]4 I
11.3.1 特性211% L, l9 ~& O0 x2 g
11.3.2 实例212
$ L2 _$ c. z8 g' h9 u% w# ^ 11.3.3 注意事项217: A+ b8 K& R) Z' Y5 k0 d7 k
11.4 累积快照事实表218
$ c! W0 Z) U4 G- a" ^) H$ l 11.4.1 设计过程218# S7 A" [9 K' @4 }7 r
11.4.2 特点221
' g) q# e5 A$ P7 L a# k 11.4.3 特殊处理223- C* K7 D ?5 \8 ^
11.4.4 物理实现225( W/ M' r8 q4 B& Q K
11.5 三种事实表的比较2272 M* M" U8 d, Q6 Y4 o
11.6 无事实的事实表228
) l# \6 a# c* s# Y8 w7 [ 11.7 聚集型事实表228' d) { Z( y0 Y( y
11.7.1 聚集的基本原则229
; E2 f6 h) l" C 11.7.2 聚集的基本步骤229" m' M+ L$ k% Z$ n
11.7.3 阿里公共汇总层230
; ] R5 j: z: q0 W+ V& d 11.7.4 聚集补充说明234第3篇 数据管理篇2章 元数据236
* C0 T- U: p( D 12.1 元数据概述236
# @9 Q N# n- r; Q6 o! E* D- ?2 F5 t0 z 12.1.1 元数据定义236
( S2 D0 V' x# v% U4 R1 \& V# U& Q 12.1.2 元数据价值237) b- P7 a5 H" C* m! u8 }( N9 h
12.1.3 统一元数据体系建设238* F0 ~/ w/ K, e6 x) O0 p
12.2 元数据应用239+ j- q w; L: V: Q: r
12.2.1 Data Profile239
# S3 y; r5 M3 ?& |0 p9 l- q, V 12.2.2 元数据门户241; J3 ^( X0 t" Q+ r9 X
12.2.3 应用链路分析241: i( w3 |- p' A& \( g4 k& X
12.2.4 数据建模242
( o- h" Z2 F$ S3 q 12.2.5 驱动ETL开发2433章 计算管理245 y; W I- G; w; y
13.1 系统优化245
7 t8 W/ P! m" S" V5 L0 u 13.1.1 HBO246/ n, N& D a! X
13.1.2 CBO249
# M; y. |. q/ D" W8 U 13.2 任务优化256
/ Y# g9 N& f% h/ m% o( l2 c2 X 13.2.1 Map倾斜257! L7 b# v. }) F6 v/ {7 b+ N6 @
13.2.2 Join倾斜261
6 e2 ]. [1 Q5 N 13.2.3 Reduce倾斜2690 q# k; K# ^+ e1 k# c4 G9 s: n' A4 `) j2 c
4章 存储和成本管理275
/ E0 D" `* a2 L 14.1 数据压缩275
8 S/ h. @2 A0 ?' \( l8 P 14.2 数据重分布276" `6 }0 J& w" A5 W; E* z
14.3 存储治理项优化277
# s5 g( T% I O5 M) P7 k 14.4 生命周期管理278
! B+ `2 {8 u4 `% Z1 W 14.4.1 生命周期管理策略278
0 C: g8 Q& K( M5 L# A 14.4.2 通用的生命周期管理矩阵280 X# j& ^, X3 }( D' H4 Y5 A2 h9 n
14.5 数据成本计量283
* I" {, G- ^" d# _! c: L 14.6 数据使用计费2845章 数据质量285
! x& U1 M% N" H9 H- I 15.1 数据质量保障原则285
$ Y1 d: B* ^0 E8 \, O+ n) ? 15.2 数据质量方法概述287
) l/ A) l6 @* I' M9 q" V l- n 15.2.1 消费场景知晓2898 C' x; d' s1 p5 S: q
15.2.2 数据加工过程卡点校验292
" X5 C; R" B7 j e M; Z 15.2.3 风险点监控2951 ]# a6 ] z1 ~7 ~
15.2.4 质量衡量299第4篇 数据应用篇6章 数据应用304
0 y/ i" Y; {, L) C" ]* `, o- W 16.1 生意参谋3059 P/ S9 o+ N; T8 H! G3 [4 N; h
16.1.1 背景概述305& \4 D2 e# K+ U6 B- O
16.1.2 功能架构与技术能力3071 k n9 [1 { s, s/ F4 A
16.1.3 商家应用实践310. ^) N# L* ?' m# \/ G& x/ ^* H
16.2 对内数据产品平台313
) R0 U- G% L( y0 v( U 16.2.1 定位313 C5 @9 u( O3 w& b+ i
16.2.2 产品建设历程3149 e& H( p. |) ^$ e1 N
16.2.3 整体架构介绍317
' Y! c; B% F6 _ 附录A 本书插图索引320
7 P9 k3 }1 V! E# W. A2 ~ [! Q 内容提要
# ]% ~. x+ T& U n5 D 在集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年 购物狂欢节 的24小时中,金额达到了1207亿元人民币,峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——大数据实践》就是在此背景下完成的。本书中讲到的大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由数据技术及产品部组织并完成写作,是分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。9 u, F+ B8 x5 L( K( S- _
作者介绍
9 i, U9 r+ p2 Y- R' m; {3 `' e1 O L 数据技术及产品部是所属的数据业务部门,该部门最为熟知大阿里的整个大数据业务发展。该部门的几位员工结合实践完成本书。主要分析近几年的数据挖掘、分析、应用的探索经历。本书适合所有搞数据研究、数据分析的个人或企业学习参考。- C4 n, S* M5 a9 b8 ?( `
编辑推荐
# [0 I3 ]: M2 b# B; W Alibaba,作为距离大数据近的公司之一,近几年对大数据却鲜有高谈阔论。实际上,Alibaba一开始就自然生长在数据的黑洞中,并且被越来越多、越来越密集的数据风暴裹挟。从需求→设计→迭代→升华为理论,在无数次的迭代进化中,Alibaba对大数据的理解才逐渐成形,慢慢能够在将数据黑洞为我所用的抗争中扳回一局。《大数据之路:Alibaba大数据实践》就是在这个过程中,由Alibaba数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。1 ^" T% W1 J( a" z I
游客,本下载内容需要支付 10共享币,购买后显示下载链接立即支付 0 T7 N/ c) x3 Z; Z- I+ f
4 E, H$ L, S; F4 x# j$ |7 D4 z; i |