原创文章

记第六届中国软件杯决赛

经过7月份的初赛,我们成功晋级了中国软件杯的决赛。9月4号,我们启程前往南京参加决赛。
关于比赛:大学生软件设计大赛官方网站—中国软件杯全国大学生软件设计大赛组委会主办
我们的赛题:安全可靠赛题2:分布式爬虫系统 - 六届赛题 - 大学生软件设计大赛官方网站—中国软件杯全国大学生软件设计大赛组委会主办

第一天 签到

9月4号,正好是学校开学第一天,我们一大早出发前往南京。第一周的课就先翘为敬了。
我们的车次是刚上线运行不久的复兴号,有车载WiFi,看了下IP应该是移动的4G,速度很良心。而且小桌板比和谐号更大,简直是为了车上赶代码量身定制的(误。 (更多…)

Frank
原创文章

使用scrapy构建爬虫

新建一个scrapy项目

[crayon-5ba1a881cd0dc723422871/]scrapy会初始化一个项目,项目文件包括:
  • [crayon-5ba1a881cd0e1508200590-i/]定制需要储存的文件的域,类似于orm
  • [crayon-5ba1a881cd0e2466390588-i/]管道
  • [crayon-5ba1a881cd0e3162396351-i/]设置相关参数
  • [crayon-5ba1a881cd0e4369007535-i/]文件夹 定制爬虫
scrapy爬虫的组成 scarpy抓取一个页面的大致流程:
  1. 下载器下载HTTP响应内容
  2. 下载器传给执行回调函数进行解析
  3. 解析后调度器进行过滤,查重等等
  4. 将数据传给管道,作进一步处理
(更多…)

Frank