Scrapy

学习本是输入到输出的过程,光有输入没有输出也不行,所以这篇文章主要记录下学习scrapy的过程,以及一些知识点的笔记,俗话说好记性不如烂笔头是有道理的。

本教程是对 http://www.scrapyd.cn/ (scrapy 中文网)的学习过程的记录。其中实例是使用的该教程的实例。

 

scrapy 全局命令
startproject projectname 创建项目:

eg: scrapy startproject scrapymoney

 

scrapy crawl spidername 运行蜘蛛

eg: scrapy crawl simpleurl

 

scrapy shell url 高度网址为url的网站

eg: scrapy shell  http://www.baidu.com

 

scrapy genspider example example.com 创建蜘蛛模板

eg: scrapy genspider taobao taobao.com

这条命令会在spider目录下创建一个名为taobao.py的文件,里面是name='taobao' start_urls=['http://taobao.com/']的

蜘蛛模板

 

scrapy settings 查看你的设置

eg: scrapy settings --get DOWNLOAD_DELAY # 查看设置的下载延迟时间

 

scrapy runspider 运行蜘蛛

eg: scrapy runspider scrapy_cn.py # 它与crawl的不同之处是,crawl基于项目运行,而runspider则基于单个py文件运行

 

scrapy shell 调试

eg: scrapy shell www.baidu.com

# 当需要高度查看蜘蛛到底有没有正确选中某个元素,我们就可以先打开网址,然后通过response来查看结果

# 例如:response.css("title").extract_first()

 

scrapy fetch 下载页面

eg: scrapy fetch www.baidu.com >d:/baidu.html # 将www.baidu.com 页面下载并保存到d盘的baidu.html文件中

 

scrapy view 查看蜘蛛

scrapy viw www.baiwu.com # 查看蜘蛛爬取的和你看到的是否一致

 

scrapy version # 查看scrapy 版本

scrapy 项目命令
crawl 运行蜘蛛
eg: scrapy crawl spiderexample # 运行名为spiderexample的蜘蛛

check 检查蜘蛛,类似于django中的check

list 显示有多少个蜘蛛

edit 编辑蜘蛛,修改编辑器的环境变量或者编辑 器的设置

parse 用指定的蜘蛛解析url,并打印结果

bench 性能测试,以最大可能的速度爬取

 

 

上一篇:cloud torrent 安装

下一篇:bootstrap dropdown menu