与你共享街

标题: 精通Python爬虫框架Scrapy [美]迪米特里奥斯考奇斯-劳卡斯 [打印本页]

作者: Money 时间: 2019-9-10 13:18
标题: 精通Python爬虫框架Scrapy [美]迪米特里奥斯考奇斯-劳卡斯
本帖最后由 Money 于 2019-9-10 13:20 编辑

　　编辑推荐
　　Scrapy是一个开源的Python爬虫框架，可以用来轻松提取从页面数据。Scrapy带有丰富的特性，可通过简单的编码或配置来访问，从而可以节省开发人员数周的开发时间，并高效地提取所需数据。Scrapy有一个高度活跃且迅速增长的社区，而且已经成为黑客、创业者和Web爬取专家的首要框架。
　　本书讲解了Scrapy的基础知识，讨论了如何从任意源提取数据，如何清理数据，以及如何使用Python和第三方API进行处理，以满足自身需求。本书还讲解了如何将爬取的数据高效地馈入数据库、搜索引擎和流数据处理系统（比如Apache Spark）。在学习完本书后，你将对数据爬取胸有成竹，并将数据应用在自己的应用程序中。
　　本书内容：
　　使用HTML和Xpath提取所需的数据；
　　使用Python编写Scrapy爬虫，并在网络上进行爬取操作；将数据推送到任意数据库、搜搜引擎或分析系统的方法；配置爬虫，使其下载文件和图形，以及使用代理；创建用来限流数据的高效管道；
　　使用Twitsted实践驱动的API并发处理数百个Item；让爬虫更快速，让内存使用率更高，以及对Scrapy性能进行调优的技巧；使用Scrapyd和Scrapinghub执行大规模分布式爬取操作的方法。
　　收起全部↑
　　内容简介
　　Scrapy是使用Python开发的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓Web站点并从页面中提取结构化的数据。《精通Python爬虫框架Scrapy》以Scrapy 1.0版本为基础，讲解了Scrapy的基础知识，以及如何使用Python和三方API提取、整理数据，以满足自己的需求。
　　本书共11章，其内容涵盖了Scrapy基础知识，理解HTML和XPath，安装Scrapy并爬取一个网站，使用爬虫填充数据库并输出到移动应用中，爬虫的强大功能，将爬虫部署到Scrapinghub云服务器，Scrapy的配置与管理，Scrapy编程，管道秘诀，理解　Scrapy性能，使用Scrapyd与实时分析进行分布式爬取。本书附录还提供了各种软件的安装与故障排除等内容。
　　本书适合软件开发人员、数据科学家，以及对自然语言处理和机器学习感兴趣的人阅读。
　　作者简介
　　Dimitrios Kouzis-Loukas作为一位软件开发人员，已经拥有超过15年的经验。同时，他还使用自己掌握的知识和技能，向广大读者讲授如何编写软件。
　　他学习并掌握了多门学科，包括数学、物理学以及微电子学。他对这些学科的透彻理解，提高了自身的标准，而不只是“实用的解决方案”。他知道真正的解决方案应当是像物理学规律一样确定，像ECC内存一样健壮，像数学一样通用。
　　Dimitrios目前正在使用新的数据中心技术开发低延迟、高可用的分布式系统。他是语言无关论者，不过对Python、C++和Java略有偏好。他对开源软硬件有着坚定的信念，他希望他的贡献能够造福于各个社区和全人类。
　　李斌，毕业于北京科技大学计算机科学与技术专业，获得硕士学位。曾任职于阿里巴巴，当前供职于凡普金科，负责应用安全工作。热爱Python编程和Web安全，希望以更加智能和自动化的方式提升网络安全。
　　目录
　　前言
　　本书内容
　　阅读本书的前提
　　本书读者
　　第1章　Scrapy简介
　　1.1　初识Scrapy
　　1.2　喜欢Scrapy的更多理由
　　1.3　关于本书：目标和用途
　　1.4　掌握自动化数据爬取的重要性
　　1.5　在充满爬虫的世界里做一个好公民
　　1.6　Scrapy不是什么
　　1.7　本章小结
　　第2章　理解HTML和XPath
　　2.1　HTML、DOM树表示以及XPath
　　2.2　使用XPath选择HTML元素
　　2.3　本章小结
　　第3章　爬虫基础
　　3.1　安装Scrapy
　　3.2　UR2IM——基本抓取流程
　　3.3　一个Scrapy项目
　　3.4　抽取更多的URL
　　3.5　本章小结
　　第4章　从Scrapy到移动应用
　　4.1　选择手机应用框架
　　4.2　创建数据库和集合
　　4.3　使用Scrapy填充数据库
　　4.4　创建手机应用
　　4.5　本章小结
　　第5章　迅速的爬虫技巧
　　5.1　需要登录的爬虫
　　5.2　使用JSON API和AJAX页面的爬虫
　　5.3　30倍速的房产爬虫
　　5.4　基于Excel文件爬取的爬虫
　　5.5　本章小结
　　第6章　部署到Scrapinghub
　　6.1　注册、登录及创建项目
　　6.2　部署爬虫与计划运行
　　6.3　访问item
　　6.4　计划定时爬取
　　6.5　本章小结
　　第7章　配置与管理
　　7.1　使用Scrapy设置
　　7.2　基本设置
　　7.3　进阶设置
　　7.4　本章小结
　　第8章　Scrapy编程
　　8.1　Scrapy是一个Twisted应用
　　8.2　Scrapy架构概述
　　8.3　示例1：非常简单的管道
　　8.4　信号
　　8.5　示例2：测量吞吐量和延时的扩展
　　8.6　中间件延伸
　　8.7　本章小结
　　第9章　管道秘诀
　　9.1　使用REST API
　　9.2　与标准Python客户端建立数据库接口
　　9.3　使用Twisted专用客户端建立服务接口
　　9.4　为CPU密集型、阻塞或遗留功能建立接口
　　9.5　本章小结
　　第10章　理解Scrapy性能
　　10.1　Scrapy引擎——一种直观方式
　　10.2　使用telnet获得组件利用率
　　10.3　基准系统
　　10.4　标准性能模型
　　10.5　解决性能问题
　　10.6　故障排除流程
　　10.7　本章小结
　　第11章　使用Scrapyd与实时分析进行分布式爬取11.1　房产的标题是如何影响价格的
　　11.2　Scrapyd
　　11.3　分布式系统概述
　　11.4　爬虫和中间件的变化
　　11.5　创建自定义监控命令
　　11.6　使用Apache Spark流计算偏移量
　　11.7　运行分布式爬取
　　11.8　系统性能
　　11.9　关键要点
　　11.10　本章小结
　　附录A　必备软件的安装与故障排除
　　A.1　必备软件的安装
　　A.2　系统
　　A.3　安装概述
　　A.4　在Linux上安装
　　A.5　在Windows或Mac上安装
　　A.6　系统创建与操作FAQ
　　A.7　有一个无法解决的问题，怎么办
　　欢迎来到异步社区！
　　异步社区的来历
　　社区里都有什么？
　　灵活优惠的购书
　　社区里还可以做什么？
　　加入异步
　　前言
　　让我来做一个大胆的猜测。下面的两个故事之一会和你的经历有些相似。
　　你与Scrapy的第一次相遇是在网上搜索类似“Web scraping Python”的内容时。你快速对其进行了浏览，然后想“这太复杂了吧……我只需要一些简单的东西。”接下来，你使用Requests库开发了一个Python脚本，并且挣扎于Beautiful Soup中，但最终还是完成了很酷的工作。它有些慢，所以你让它整夜运行。你重新启动了几次，忽略了一些不完整的链接和非英文字符，到早上的时候，大部分网站已经“骄傲地”存在你的硬盘中了。然而难过的是，不知什么原因，你不想再看到自己写的代码。当你下一次再想抓取某些东西时，则会直接前往scrapy.org，而这一次文档给了你很好的印象。现在你可以感受到Scrapy能够以优雅且轻松的方式解决了你面临的所有问题，甚至还考虑到了你没有想到的问题。你不会再回头了。
　　另一种情况是，你与Scrapy的第一次相遇是在进行网络爬取项目的研究时。你需要的是健壮、快速的企业级应用，而大部分花哨的一键式网络爬取工具无法满足需求。你希望它简单，但又有足够的灵活性，能够让你为不同源定制不同的行为，提供不同的输出类型，并且能够以自动化的形式保证24/7可靠运行。提供爬取服务的公司似乎太贵了，你觉得使用开源解决方案比固定供应商更加舒服。从一开始，Scrapy就像一个确定的赢家。
　　无论你是出于何种目的选择了本书，我都很高兴能够在这本专注于Scrapy的图书中遇到你。Scrapy是全世界爬虫专家的秘密。他们知道如何使用它以节省工作时间，提供出色的性能，并且使他们的主机费用达到最低限度。如果你没有太多经验，但是还想实现同样的结果，那么很不幸的是，Google并没有能够帮到你。网络上大多数Scrapy信息要么太简单低效，要么太复杂。对于那些想要了解如何充分利用Scrapy找到准确、易理解且组织良好的信息的人们来说，本书是非常有必要的。我希望本书能够帮助Scrapy社区进一步发展，并使其得以广泛应用。
　　本书内容
　　第1章，Scrapy简介，介绍本书和Scrapy，可以让你对该框架及本书剩余部分有一个明确的期望。
　　第2章，理解HTML和XPath，旨在使爬虫初学者能够快速了解Web相关技术以及我们后续将会使用的技巧。
　　第3章，爬虫基础，介绍了如何安装Scrapy，并爬取一个网站。我们通过向你展示每一个行动背后的方法和思路，逐步开发该示例。学习完本章之后，你将能够爬取大部分简单的网站。
　　第4章，从Scrapy到移动应用，展示了如何使用我们的爬虫填充数据库并输出给移动应用。本章过后，你将清晰地认识到爬虫在市场方面所带来的好处。
　　第5章，迅速的爬虫技巧，展示了更强大的爬虫功能，包括登录、更快速地抓取、消费API以及爬取URL列表。
　　第6章，部署到Scrapinghub，展示了如何将爬虫部署到Scrapinghub的云服务器中，并享受其带来的可用性、易部署以及可控性等特性。
　　第7章，配置与管理，以组织良好的表现形式介绍了大量的Scrapy功能，这些功能可以通过Scrapy配置启用或调整。
　　第8章，Scrapy编程，通过展示如何使用底层的Twisted引擎和Scrapy架构对其功能的各个方面进行扩展，将我们的知识带入一个全新的水平。
　　第9章，管道秘诀，提供了许多示例，在这里我们修改了Scrapy的一些功能，在不会造成性能退化的情况下，将数据插入到数据库（比如MySQL、Elasticsearch及Redis）、接口API，以及遗留应用中。
　　第10章，理解Scrapy性能，将帮助我们理解Scrapy的时间是如何花费的，以及我们需要怎么做来提升其性能。
　　第11章，使用Scrapyd与实时分析进行分布式爬取，这是本书最后一章，展示了如何在多台服务器中使用Scrapyd实现横向扩展，以及如何将爬取得到的数据提供给Apache Spark服务器以执行数据流分析。
　　阅读本书的前提
　　为了使本书代码和内容的受众尽可能广泛，我们付出了大量的努力。我们希望提供涉及多服务器和数据库的有趣示例，不过我们并不希望你必须完全了解如何创建它们。我们使用了一个称为Vagrant的伟大技术，用于在你的计算机中自动下载和创建一次性的多服务器环境。我们的Vagrant配置在Mac OS X和Windows上时使用了虚拟机，而在Linux上则是原生运行。
　　对于Windows和Mac OS X，你需要一个支持Intel或AMD虚拟化技术（VT-x或AMD-v）的64位计算机。大多数现代计算机都没有问题。对于大部分章节来说，你还需要专门为虚拟机准备1GB内存，不过在第9章和第11章中则需要2GB内存。附录A讲解了安装必要软件的所有细节。
　　Scrapy本身对硬件和软件的需求更加有限。如果你是一位有经验的读者，并且不想使用Vagrant，也可以根据第 3 章的内容在任何操作系统中安装Scrapy，即使其内存十分有限。
　　当你成功创建Vagrant环境后，无需网络连接，就可以运行本书几乎全部示例了（第4章和第6章的示例除外）。是的，你可以在航班上阅读本书了。
　　本书读者
　　本书尝试着去适应广泛的读者群体。它可能适合如下人群：
　　需要源数据驱动应用的互联网创业者；
　　需要抽取数据进行分析或训练模型的数据科学家与机器学习从业者；需要开发大规模爬虫基础架构的软件工程师；
　　想要为其下一个很酷的项目在树莓派上运行Scrapy的爱好者。
　　就必备知识而言，阅读本书只需要用到很少的部分。在最开始的几章中，本书为那些几乎没有爬虫经验的读者提供了网络技术和爬虫的基础知识。Python易于阅读，对于有其他编程语言基本经验的任何读者来说，与爬虫相关的章节中给出的大部分代码都很易于理解。
　　坦率地说，我相信如果一个人在心中有一个项目，并且想使用Scrapy的话，他就能够修改本书中的示例代码，并在几个小时之内良好地运行起来，即使这个人之前没有爬虫、Scrapy或Python经验。
　　在本书的后半部分中，我们将变得更加依赖于Python，此时初学者可能希望在进一步研究之前，先让自己用几个星期的时间丰富Scrapy的基础经验。此时，更有经验的Python/Scrapy开发者将学习使用Twisted进行事件驱动的Python开发，以及非常有趣的Scrapy内部知识。在性能章节，一些数学知识可能会有用处，不过即使没有，大多数图表也能给我们清晰的感受。

作者: samsonlee888 时间: 2019-9-10 21:23
thks a lot

作者: kitajima8888 时间: 2019-12-9 16:55
谢谢楼主共享

欢迎光临与你共享街 (http://www.ynjie.com/)