scrapy爬虫学习【四】之下载中间件的使用

写在前面

下载器中间件是什么?是用于全局修改Scrapy request和response的一个轻量、底层的系统。
举个例子,当需要挂代理访问某个网站需要修改爬虫的User-Agent或者需要带cookie访问某个网站的时候,下载器中间件的使用就成为了必要!

中间件的使用

激活下载器中间件

要激活下载器中间件组件,需将其加入到 DOWNLOADER_MIDDLEWARES 设置中。该设置是一个字典(dict),键为中间件类的路径,值为其中间件的顺序(order)。如下所示,这里myproject是你项目的名字,middlewares是python脚本文件名(可以保存在项目的某个目录下),CustomDownloaderMiddleware是下载器中间键的名字。

编写自己的下载器中间件

 

此条目发表在爬虫技术分类目录,贴了, , 标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注