python爬虫的工作步骤

发布时间：2020年06月28日 03:56:11 来源：环球青藤点击量：1640

【摘要】当前处于一个大数据的时代，一般网站数据来源有二：网站用户自身产生的数据和网站从其他来源获取的数据，今天要分享的是如何从其他网站获取

当前处于一个大数据的时代，一般网站数据来源有二：网站用户自身产生的数据和网站从其他来源获取的数据，今天要分享的是如何从其他网站获取你想要的数据。

目前最适合用于写爬虫的语言是python，python中最受欢迎的爬虫框架是scrapy,本文围绕scrapy来展开讲解爬虫是怎么工作的。

1.如下图所示，爬虫从编写的spider文件中的start_urls开始，这个列表中的url就是爬虫抓取的第一个网页，它的返回值是该url对应网页的源代码，我们可以用默认的parse(self,response)函数去打印或解析这个源代码

2.我们获取到源代码之后，就可以从网页源代码中找到我们想要的信息或需要进一步访问的url,提取信息这一步，scrapy中集成了xpath,正则(re),功能十分强大，提取到信息之后会通过yield进入到中间件当中。

中间件包括爬虫中间件和下载中间件，爬虫中间件主要用于设置处理爬虫文件中的代码块，下载中间件主要用于判断爬虫进入网页前后的爬取状态，在此中间件中，你可以根据爬虫的返回状态去做进一步判断。

最后我们将yield过来的item，即就是我们想要的数据会在pipeline.py文件中进行处理，存入数据库，写入本地文件，都可以在这里进行，另外，为了减少代码冗余，建议所有与设置参数有关的参数，都写在settings.py中去

分享到：编辑：wangmin

下一篇：认识python中的数字

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

Python编程相关文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

iPhone版

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

Python编程热点排行