本文针对scrapy爬虫在调试完成后,怎样部署到linux服务器,以及使用scrapyd-client上传的相关配置做简单总结
客户端:安装scrapyd-client 配置 爬虫目录下的scrapy.cfg 文件,使用crontable 和curl 两个工具进行定时访问指定url启动爬虫(此操作亦可在服务端配置)
2. 服务器软件安装和配置(centos) :
- 在密码文件位置上 使用命令 htpasswd -c <文件名> <用户名> 进行创建密码文件操作(会有交互式提示输入密码两次)
-
再使用命令 scrapyd 命令启动scrapyd 这样你就可以在 任何地方使用访问http://你的ip:6801 按照提示输入用户名密码访问你的scrapyd的网页统计了(后面client也会使用密码链接这个地址)
-
最后使用 组合键 ctrl+a d三个键 退出screen 这时候你就可以安心退出SSH链接了。
-
然后找到项目的scrapy.cfg文件,修改如下
使用命令 “crontab -e”来编辑linux内置的定时器模块,将上面 3. 的命令复制到对应的命令位置即可
详情请自己搜索crontab用法 简单而且功能很多建议学习
在服务端可以用 127.0.0.1 代替公网网址