Andy's blog

学习本是输入到输出的过程，光有输入没有输出也不行，所以这篇文章主要记录下学习scrapy的过程，以及一些知识点的笔记，俗话说好记性不如烂笔头是有道理的。

本教程是对 http://www.scrapyd.cn/ （scrapy 中文网）的学习过程的记录。其中实例是使用的该教程的实例。

scrapy 全局命令
startproject projectname 创建项目：

eg: scrapy startproject scrapymoney

 

scrapy crawl spidername 运行蜘蛛

eg: scrapy crawl simpleurl

 

scrapy shell url 高度网址为url的网站

eg: scrapy shell  http://www.baidu.com

 

scrapy genspider example example.com 创建蜘蛛模板

eg: scrapy genspider taobao taobao.com

这条命令会在spider目录下创建一个名为taobao.py的文件，里面是name='taobao' start_urls=['http://taobao.com/']的

蜘蛛模板

 

scrapy settings 查看你的设置

eg: scrapy settings --get DOWNLOAD_DELAY # 查看设置的下载延迟时间

 

scrapy runspider 运行蜘蛛

eg: scrapy runspider scrapy_cn.py # 它与crawl的不同之处是，crawl基于项目运行，而runspider则基于单个py文件运行

 

scrapy shell 调试

eg: scrapy shell www.baidu.com

# 当需要高度查看蜘蛛到底有没有正确选中某个元素，我们就可以先打开网址，然后通过response来查看结果

# 例如：response.css("title").extract_first()

 

scrapy fetch 下载页面

eg: scrapy fetch www.baidu.com >d:/baidu.html # 将www.baidu.com 页面下载并保存到d盘的baidu.html文件中

 

scrapy view 查看蜘蛛

scrapy viw www.baiwu.com # 查看蜘蛛爬取的和你看到的是否一致

 

scrapy version # 查看scrapy 版本

scrapy 项目命令
crawl 运行蜘蛛
eg: scrapy crawl spiderexample # 运行名为spiderexample的蜘蛛

check 检查蜘蛛，类似于django中的check

list 显示有多少个蜘蛛

edit 编辑蜘蛛，修改编辑器的环境变量或者编辑 器的设置

parse 用指定的蜘蛛解析url，并打印结果

bench 性能测试，以最大可能的速度爬取

Scrapy