使用scrapy构建爬虫

新建一个scrapy项目

scrapy会初始化一个项目,项目文件包括:

  • items.py定制需要储存的文件的域,类似于orm
  • pipelines.py管道
  • settings.py设置相关参数
  • spider文件夹 定制爬虫

scrapy爬虫的组成

scarpy抓取一个页面的大致流程:

  1. 下载器下载HTTP响应内容
  2. 下载器传给执行回调函数进行解析
  3. 解析后调度器进行过滤,查重等等
  4. 将数据传给管道,作进一步处理

Continue reading “使用scrapy构建爬虫”

Python疑难解答笔记

目录

  1. 格式化输出list, dict等数据结构
  2. 实例方法与类方法
  3. UnicodeEncodeError: ‘ascii’ codec can’t encode

格式化输出list, dict等数据结构

使用pprint模块


Continue reading “Python疑难解答笔记”

Python实现微博与twitter单向同步

关于本项目

我在过去一段时间内都使用的是IFTTT的Recipe进行同步。但是IFTTT的同步有些缺陷:

  1. 不能判断该条微博是原创还是转发,因此转发的微博也会被同步过去,把时间线弄得一团糟
  2. 不能发图,而是将图片以链接的形式替换。访问图片要经过至少两次短连接跳转,体验极差。

为了改善上述两个问题我写了一个简陋的同步程序,用于将新发布的微博同步至twitter。

项目地址:https://github.com/hyriamb/weibo-twitter-sync-bot-public

Continue reading “Python实现微博与twitter单向同步”