学习本是输入到输出的过程,光有输入没有输出也不行,所以这篇文章主要记录下学习scrapy的过程,以及一些知识点的笔记,俗话说好记性不如烂笔头是有道理的。
本教程是对 http://www.scrapyd.cn/ (scrapy 中文网)的学习过程的记录。其中实例是使用的该教程的实例。
scrapy 全局命令
startproject projectname 创建项目:
eg: scrapy startproject scrapymoney
scrapy crawl spidername 运行蜘蛛
eg: scrapy crawl simpleurl
scrapy shell url 高度网址为url的网站
eg: scrapy shell http://www.baidu.com
scrapy genspider example example.com 创建蜘蛛模板
eg: scrapy genspider taobao taobao.com
这条命令会在spider目录下创建一个名为taobao.py的文件,里面是name='taobao' start_urls=['http://taobao.com/']的
蜘蛛模板
scrapy settings 查看你的设置
eg: scrapy settings --get DOWNLOAD_DELAY # 查看设置的下载延迟时间
scrapy runspider 运行蜘蛛
eg: scrapy runspider scrapy_cn.py # 它与crawl的不同之处是,crawl基于项目运行,而runspider则基于单个py文件运行
scrapy shell 调试
eg: scrapy shell www.baidu.com
# 当需要高度查看蜘蛛到底有没有正确选中某个元素,我们就可以先打开网址,然后通过response来查看结果
# 例如:response.css("title").extract_first()
scrapy fetch 下载页面
eg: scrapy fetch www.baidu.com >d:/baidu.html # 将www.baidu.com 页面下载并保存到d盘的baidu.html文件中
scrapy view 查看蜘蛛
scrapy viw www.baiwu.com # 查看蜘蛛爬取的和你看到的是否一致
scrapy version # 查看scrapy 版本
scrapy 项目命令
crawl 运行蜘蛛
eg: scrapy crawl spiderexample # 运行名为spiderexample的蜘蛛
check 检查蜘蛛,类似于django中的check
list 显示有多少个蜘蛛
edit 编辑蜘蛛,修改编辑器的环境变量或者编辑 器的设置
parse 用指定的蜘蛛解析url,并打印结果
bench 性能测试,以最大可能的速度爬取