经过前面几篇的分析,scrapy的五大核心组件已经介绍了4个:engine,scheduler,scraper […]
分类:Scrapy
scrapy源码分析(十)————Scraper
上一节分析了Scheduler的源码,这一节分析ExecutionEngine的另外一个关键对象Scraper […]
scrapy源码分析(九)———–Scheduler
上一节有几个类还没具体分析,如Scheduler和Scraper,这一节先分析Scheduler的源码。 sc […]
scrapy源码分析(八)——–ExecutionEngine

上一节分析了Crawler的源码,其中关键方法crawl最后会调用ExecutionEngine的open_s […]
scrapy源码分析(七)———— Crawler
上一节讲了CrawlProcess的实现,讲了一个CrawlProcess可以控制多个Crawler来同时进行 […]
scrapy源码分析(六)—————CrawlProcess
上一篇教程中讲到crawl命令最终会执行CrawlProcess的crawl和start方法。这一篇对Craw […]
scrapy源码分析(五)————–execute函数分析
通过前四篇教程,相信大家对scrapy的总流程和核心组件都有了一定的认识。这样再结合源码对总流程进行梳理,应该 […]
scrapy源码分析(四)——-spider篇——网页爬取流程分析(一)
本篇教程中主要介绍爬虫类spider如何分析下载到的页面,并从中解析出链接继续进行跟踪的框架。 源码分析(一) […]
scrapy源码分析(三)———ExecutionEngine(二)一个request的周期
上一篇中讲解了ExecutionEngine的主循环流程,下面就具体讲解下不需要搁置时,如何处理一个reque […]
scrapy源码分析(二)———-ExecutionEngine(一)主循环
ExecutionEngine是scrapy的核心模块之一,顾名思义是执行引擎。 它驱动了整个爬取的开始,进行 […]