Scrapy的入门

编写第一个Scrapy爬虫

【项目】爬取http://books.toscrae.com中的书籍信息

创建项目
分析页面
实现spider
运行爬虫（爬取结果保存到csv文件中）

1.创建项目：

scrapy startproject first_example

2.分析页面

使用Chrome开发者工具浏览页面
在scrapy shell中进行提取数据的实验
使用scrapy shell 命令进入交互式命令行

3.实现Spider

继承scrapy.Spider创建Spider类
通过name属性为Spider命名
通过start_urls设置起始爬取点
实现页面解析函数parse

可以使用scrapy genspider books books.toscrape.com（域）命令生成books.py文件

class BooksSpider(scrapy.Spider):
    name = 'books'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        # 1.提取数据
        for sel in response.css('article.product_pod'):
            name = sel.xpath('./h3/a/@title').extract_first()
            price = sel.css('p.price_color::text').extract_first()
            rating = sel.css('p.star-rating').re_first('star-rating (\w+)')
            book = {'name':name,
                    'price':price,
                    'rating':rating,}
            yield book
        # 2.提取链接，产生新的请求
        url = response.css('ul.pager li.next a::attr(href)').extract_first()
        if url:
            url = response.urljoin(url)
            request = scrapy.Request(url,self.parse)
            yield request

4.运行爬虫

scrapy crawl books -o books.csv

Scrapy的入门

Zihuatanejo

编写第一个Scrapy爬虫

1.创建项目：

2.分析页面

3.实现Spider

4.运行爬虫

其他文章

Android ANR（应用无响应）

Aop第三方aspectjrt的使用