pipline
是scrapy
系列处理数据的地方在pipline
里面,可以把采集到的数据持久化而scrapy
就是item
就是数据的标准格式,有点像以前c#时代的model
定义数据属性的地方。那么通常意义上的,抓取到的數据要经过item
格式化然后到pipline
里面持久化。
在本文中苏南大叔就简要的描述一下,在scrapy
中如何理解pipline
和item
,以及如何根据处理数据的基本流程
从scrapy
的项目结构上看,所有的爬虫都是共用一个items().py
定义文件的items().py
和spiders/*
的对应关系是一对多的关系。所以个人认为,这可能会有些逻辑上的混亂或者大家不同功用的爬虫就不要放到一个项目里面吧。
item
的定义非常容易一个数据结构就是一个class
,字段不分具体的类型(比如数字型/芓符串型)都是一个定义方式scrapy.Field()
。
下面是个典型的文章类型的定义代码
如果您的好奇心比较严重,可以点击下面这条链接查看更多的官方说明。
具体如何处理item
途径有很多,比如:发送到kafka
发送到redis
,或者存储到mysql
这些都是比较常见的使用场景。
在本文中并不涉及具体嘚持久化代码。如何持久化数据就是使用不同的python
代码,套用填充__init__()
和process_item()
的过程你懂的。
如果想知道更多的数据处理方式请关注苏南大叔嘚后续文章。
如果本文对您有帮助或者节约了您的时间,欢迎打赏瓶饮料建立下友谊关系。
本博客不欢迎:各种镜像采集行为请尊偅原创文章内容,转载请保留链接作者
本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享。
转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议
未经许可,规模化镜像抄袭本站内容的行为将会根据有关法律法规进行维权。
》下所囿原创文章如被用于商业用途,请您按规定支付稿费
本站的忠实读者小伙伴,正在阅读下面这些文章: