使用scrapy构建爬虫

索引
[隐藏]

新建一个scrapy项目

scrapy会初始化一个项目,项目文件包括:

  • items.py定制需要储存的文件的域,类似于orm
  • pipelines.py管道
  • settings.py设置相关参数
  • spider文件夹 定制爬虫

scrapy爬虫的组成

scarpy抓取一个页面的大致流程:

  1. 下载器下载HTTP响应内容
  2. 下载器传给执行回调函数进行解析
  3. 解析后调度器进行过滤,查重等等
  4. 将数据传给管道,作进一步处理

示例1

爬取www.xinli110.com上的文章标题

声明item

抓取并处理第一个页面

在此之前,首先在 settings.py中将pipeline相关语句取消注释

pipelines.py:

执行后会抓取并打印所有抓取到的网页标题

递归抓取整个网站

示例2

爬取icarus.silversky.moe:666上特定分类的图片

代码

https://github.com/nyanim/icarus-spider

Leave a Reply

电子邮件地址不会被公开。 必填项已用*标注

人姬测试 *