开启左侧

从Excel到Python——数据分析进阶指南 王彦平

[复制链接]
  • 地区:中国大陆
  • 格式:PDF
  • 文件大小:10M
  • 时间:
  • 类别:量化
  • 价格:2共享币
  • 提示:本站推荐经典投资资料
  Excel是数据分析中最常用的工具,本书通过Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作。在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过Python完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。
1 G8 G4 I& J6 ~  目录
2 w. C; [; a4 {4 b! S  作者简介
7 C" C2 W. r6 n4 {% n3 V1 _  序
4 v4 {& x; [, k# c7 a) Y  第1章 生成数据表
" |) |( L! [$ T# y0 Y  第2章 数据表检查4 i4 `9 m0 t  o2 h# L/ \
  第3章 数据表清洗9 {  f) \* @1 o* e6 h9 s* G
  第4章 数据预处理
' R, ]+ Q" P6 G  第5章 数据提取+ x3 E: C' J# [* J: ~- x5 p  f
  第6章 数据筛选
9 p* T4 Q! G3 L. g" ^$ M  第7章 数据汇总8 L$ x2 v4 h9 c$ P) n) v
  第8章 数据统计9 V7 A$ D4 u5 f8 C! O. l# @) f
  第9章 数据输出# H) x- U, ~, o; D
  案例 990万次骑行:纽约自行车共享系统分析8 I# z1 z- o; U$ M
  结束语3 W& y2 J( g4 s% |
  欢迎来到异步社区!
+ ^. p9 w, O) ?) u9 ]  S" p1 t  前言
/ x# L. B3 ]4 F1 v9 n' e5 P" i  序
/ m% N" J# b& ~5 W. a; N) ~. w  Excel是数据分析中最常用的工具,本书通过Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作。在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过Python完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。! v/ J9 M1 R5 ^- |% _/ B0 D
  精彩书摘
4 L6 g( a8 P6 P& }, K1 z; I  第1章 生成数据表5 b+ ?9 T% C% C( A7 Y* A, p
  常见的生成数据表的方法有两种,第一种是导入外部数据,第二种是直接写入数据。Excel中的“文件”菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。
0 \8 s" q+ N1 I, a4 [  a& J  Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库,为了方便起见,我们也同时导入numpy库。* ?7 f; j1 J2 ?1 m5 v
  import numpy as np
  ^& @$ d" @8 {, a, n: G  import pandas as pd& O% y+ J! E( `! v) a" i* s; H
  1. 导入数据表( m4 f& ?3 E' e
  下面分别是从Excel和csv格式文件中导入数据并创建数据表的方法。代码是最简模式,里面有很多可选参数设置,例如列名称、索引列、数据格式等。感兴趣的朋友可以参考pandas的官方文档。6 E9 [' u) x( P+ F/ n! t+ S
  df=pd.DataFrame(pd.read_csv('name.csv',header=1))% M; p; r: w3 b- \: L. C( X# ]
  df=pd.DataFrame(pd.read_Excel('name.xlsx'))
7 S4 n# d5 l3 X! w  2. 创建数据表# {8 g8 c( T7 \8 b2 g; T
  另一种方法是通过直接写入数据来生成数据表,Excel中直接在单元格中输入数据就可以,Python中通过下面的代码来实现。生成数据表的函数是pandas库中的DateFrame函数,数据表一共有6行数据,每行有6个字段。在数据中我们特意设置了一些NA值和有问题的字段,例如包含空格等。后面将在数据清洗步骤进行处理。后面我们将统一以DataFrame的简称df来命名数据表。
% g2 V) o  T+ X! q  df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
5 }/ t) ]: W6 C, ^  "date":pd.date_range('20130102', periods=6),
1 a8 N' n2 C0 P1 Y  "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
  S% X3 [1 \3 N, y( |  "age":[23,44,54,32,34,32],
3 o; J! u1 U4 w) d7 x; T  "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
9 E  ^5 o9 A  F. E1 ^- |  "price":[1200,np.nan,2133,5433,np.nan,4432]},6 a! i+ `. ~. h/ Q
  columns =['id','date','city','category','age','price'])
4 i$ ^5 y/ P3 T) {  这是刚刚创建的数据表,我们没有设置索引列,price字段中包含有NA值,city字段中还包含了一些脏数据。
5 g; C; d, E" r' M8 t1 [$ s
游客,本下载内容需要支付2共享币,购买后显示下载链接立即支付

) @8 d' J$ }6 }  d' }  H6 u8 C. `3 }8 h9 \4 @* r
回复

使用道具 举报

懒得打字嘛,点击快捷回复 【回复乱码 永久禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注0

粉丝39

帖子5061

发布主题
推荐素材更多+
广告位

服务电话

15987183307

QQ:1136111231
关注我们 :

QQ- Archiver-手机版-小黑屋-经典-文库- 与你共享

Powered by ynjie.com Array© 2001-2013 ynjie.com  滇ICP备19007624号-1