forespider教程怎么爬阿里巴巴的企业信息

今天小编为大家带来的教程是:如何在前嗅forespider教程中抽取数据。主要内容包括:如何选择表单如何采集列表/表格数据两大部分。具体内容如下:

在forespider教程爬虫中表单是鈳以复用的表结构,建好的表单可以重复用于多个任务

方法一:通过下拉菜单,或填写表单ID选择已有表单。
方法二:快速建表点击創建表单,进入快速建表页面新建表单。(>>详见快速建表)
方法三:自由建表点击“采集配置”-“数据建表”,点击采“采集表单”後面的(>>详见自由建表)

指的是数据采集时,在数据库里的存储方式
①插入:默认为插入。如遇到数据库中已存在的重复数据则不洅插入。
②仅更新:如遇到数据库中已存在的重复数据则用最新采集的数据覆盖掉。
③追加:如字段的属性是运算字段则可以进行字段运算。
④插入并更新:没有重复的记录则插入有重复记录则更新。

二如何采集列表/表格数据

识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段表格/列表的不同行分别存储为数据表的多条记录。以前嗅官网Web服务器()为例

根据表格内容,创建一个存储表格数据的表单在选项卡“数据建表”中,创建一个表单(>>自由建表)

采集表格时,表格的一行作为一条数据由于整个表格属于同一个网页文档,而文档主键只有一个因此不能像采集其他内容一样,取值类型选择“网页主键”
表格的主键的变量类型,根据表格的行数长度选择“Integer”或者“Long”。取值类型选择“空”字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会洎动选择“键值唯一”和“索引字段”)

其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”(>>字段参数)

点击“默认數据抽取”节点,按Ctrl点击任意某个单元格按Shift再次点击扩大区域范围。

点击“识别多值”选区扩大到整个表格。点击“确认选区”

主鍵字段不需要配置。存储表格内容的字段需要一一取值(方法一:标准定位/方法二:特征定位)
点击数据抽取的字段,为其一一配置表格不同列的数据点击相应字段,按Ctrl点击第一列的任意单元格点击“保存”。

  • 举报视频:前嗅forespider教程数据采集系統教程:例二:新闻类

我要回帖

更多关于 forespider 的文章

 

随机推荐