编写第一个Scrapy爬虫
【项目】 爬取http://books.toscrae.com中的书籍信息
- 创建项目
- 分析页面
- 实现spider
- 运行爬虫(爬取结果保存到csv文件中)
1.创建项目:
scrapy startproject first_example
2.分析页面
- 使用Chrome开发者工具浏览页面
- 在scrapy shell中进行提取数据的实验
使用scrapy shell 命令进入交互式命令行
3.实现Spider
继承scrapy.Spider创建Spider类
通过name属性为Spider命名
通过start_urls设置起始爬取点
实现页面解析函数parse
可以使用scrapy genspider books books.toscrape.com(域) 命令生成books.py文件
1 | class BooksSpider(scrapy.Spider): |
4.运行爬虫
scrapy crawl books -o books.csv
- 本文链接: https://blog.hansong.icu/2021/02/19/scrapy_py/
- 版权声明: 本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。