分类目录归档:爬虫技术

scrapy爬虫学习【四】之下载中间件的使用

写在前面

下载器中间件是什么?是用于全局修改Scrapy request和response的一个轻量、底层的系统。
举个例子,当需要挂代理访问某个网站需要修改爬虫的User-Agent或者需要带cookie访问某个网站的时候,下载器中间件的使用就成为了必要!

中间件的使用

激活下载器中间[……]

Read more

发表在 爬虫技术 | 标签为 , , | 留下评论

scrapy爬虫学习【三】之shell终端使用

使用scrapy进行爬取网页信息的时候,常常因为xpath等各种错误导致无法正常爬取页面。一边调试代码,一边从log日志中寻找有用的debug线索是一件非常繁琐而且麻烦的事情。因此可以使用shell终端重点调试xpath部分代码,这样可以大大节省codding的时间。

启动终端

[c[……]

Read more

发表在 爬虫技术 | 标签为 , | 留下评论

scrapy爬虫学习【一】之wooyun白帽子精华榜

1.分析

  • wooyun白帽子一共两千多名,白帽子信息的链接如下:wooyun白帽子
    • 它分为精华榜,人气榜以及贡献榜;三个榜单数据是一样的,只是排名顺序不一样。这里选取
      精华榜
      作为数据来源。
    • 精华榜的链接为http://wooyun.org/whitehats/[......]

Read more

发表在 爬虫技术 | 标签为 , | 留下评论