用pyspider charles抓取https乱码苹果团的主题标题乱码怎么解决

台湾省 | 炒股 | Legion | 室内设计 | 钢笔 | 历史故事 | 手机摄影 | 小店区 | 四大会计师事务所 | 首次公开募股（IPO） | 文言文 | 网络营销 | 哔哩哔哩 | 保险业 | 期货交易 | 屏幕 | 三国 | 前端开发 | 秦时明月之天行九歌 | 红楼梦（小说） | 电子技术研发 | 手绘 | 赛事 | 背景音乐（bgm） | 视频会议 | 香港购物 | 哲学 | 取名 | 城市规划 | 德州扑克 | 在线教育 | 雅马哈 | 加湿器 | 今日头条 | 金融数学 | 创业团队 | 网络推广 | 冷知识 | 互联网创业 | 文化 | 软件开发 | 写字楼 | 戒指 | 读后感 | 姓氏 | 总决赛 | 智利 | 字体设计 | 图像处理 | 文案 | 高二 | 迅雷（软件） | 欧洲历史 | 刘胡兰 | 海军 | 坦克世界（游戏） | 硬笔书法 | 化妆品 | 塞浦路斯 | 英国 | 华为路由器 | 狼牙山五壮士 | pdf | 服饰搭配 | 网站运营 | 美术生 | 重大疾病保险 | Windows 7 | 江苏银行 | 中国中央电视台 | 西瓜视频 | 耽美小说 | 微信群 | 几米 | O2O | 孔子 | 用户界面 | 百度输入法 | NBA | 地理 | 武术 | 阿富汗伊斯兰共和国 | 图书 | 韭菜 | 风水 | 职业规划 | 股权转让 | 报纸 | 新媒体 | Javascript | 斗鱼直播 | 西游记 | 艺考 | 风水堪舆学 | 战役 | 人口 | 信托 | 女生 | 澳门 | 非洲 | 汉服 | 项目管理 | 户型 | 前女友 | 燕窝 | APK | Adobe Illustrator | 创意 | 主机 | 老挝 | 植物辨识 | 花样姐姐 | 澳大利亚 | 开幕式 | 团队管理 | 索尼 | 神话 | 李时珍 | 日本动漫 | 易纲 | 展会 | youtube | 艺术品 | 舞蹈 | 外汇投资 | 品牌营销 | 大学专业 | 字幕 | 发型 | 热血传奇 | 越南 | 希腊 | 南航 | 现货原油 | Python | 哈萨克斯坦 | 饮酒 | 韩非 | 企业邮箱 | 赵一曼 | 罗永浩 | 水晶 | 西藏自治区 | 雾霾 | 直播 | 亚马逊中国 | 优酷视频 | 固态硬盘 | 交互设计 | 配音 | 蜜蜡 | 投资银行 | 优酷土豆 | 月饼 | 国家开发银行 | 生日 | 手工艺 | 油画 | 谷歌浏览器 | 盈利模式 | 游戏原画设计师 | 女性 | 基金定投 | 衣服 | 洛奇英雄传 | 荆州市 | 债券 | 遵义市 | 视频网站 | 宝马（bmw） | 水果 | 世界杯 | 流氓软件 | 后宫·甄嬛传（书籍） | 表情包 | 漫步者 | 红河哈尼族彝族自治州 | 攀枝花市 | 爱奇艺 | android开发 | 长城 | 微观经济学 | 缅甸 | 易经 | 运动锻炼 | 包装设计 | r（编程语言） | 求职 | 唯品会 | 汽车养护 | 皮肤护理 | ISIS（伊斯兰国） | 亚洲 | 国际物流 | 互联网广告 | ansys | 风景园林 | 苏州市 | 股市 | 康佳 |

你的位置：网站首页 >> 频道首页 >>软件 >>用pyspider charles抓取https乱码苹果团的主题标题乱码怎么解决

用pyspider charles抓取https乱码苹果团的主题标题乱码怎么解决

来源：蜘蛛抓取(WebSpider) 时间：2017-07-14 04:04 标签： pyspider 乱码

问题对人有帮助，内容完整，我也想知道答案
问题没有实际价值，缺少关键内容，没有改进余地
我的问题如下：
我需要抓取一个网站的数据来做一些统计研究，但是这个网站有严格的反抓取策略。
目前看来，利用pyspider框架进行一段时间的抓取后，网站就会禁止我访问。有没有什么好的
办法使得pyspider能够抓取一段时间后停止抓取，然后隔一段时间有恢复抓取的策略呢？
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
IP被封了是么。非常常用的爬虫封禁方法，但是策略不一定是相同的，有的是判断你请求速率，有的判断是多少时间内的请求次数。
具体的推荐你看一篇文章，里面有专门讲如果通过代理服务器IP进行突破IP封禁策略，当然其他的几个方法也非常值得研究
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
1.self.crawl中增加auto_crawl=True，并设置好间隔时间，比如age=60*60这样一个小时后，pyspdier会去自动抓取网页
2.修改webui中的rate/burst，默认是1.0/3,可以改成0.2/3试试，降低抓取频率
3.可以在crawl_config中增加proxy.
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
邦盛反爬虫系统，流式数据平台+设备指纹+人机识别+数据服务，多维度剿杀爬虫，有需求请加我企鹅号：（请备注是反爬虫需求）
该答案已被忽略，原因：
同步到新浪微博
分享到微博？
Hi，欢迎来到 SegmentFault 技术社区！⊙▽⊙ 在这里，你可以提出编程相关的疑惑，关注感兴趣的问题，对认可的回答投赞同票；大家会帮你解决编程的问题，和你探讨技术更新，为你的回答投上赞同票。
明天提醒我
关闭理由：
删除理由：
忽略理由：
推广（招聘、广告、SEO 等）方面的内容
与已有问题重复（请编辑该提问指向已有相同问题）
答非所问，不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因（请补充说明）
我要该，理由是：
扫扫下载 App问题对人有帮助，内容完整，我也想知道答案
问题没有实际价值，缺少关键内容，没有改进余地
在终端窗口使用 pip install pyspider 安装pyspider出错，提示如下：error: could not create '/Library/Frameworks/Python.framework/Versions/2.7/share/doc/pycurl': Permission denied
使用sudo pip install pyspider无法运行求助
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
El Capitan 加入了Rootless机制。重启MAC按住Command+R，进入恢复模式，打开Terminal，禁用就行。命令为：csrutil disable，装完记得enable
分享到微博？
你好！看起来你挺喜欢这个内容，但是你还没有注册帐号。当你创建了帐号，我们能准确地追踪你关注的问题，在有新答案或内容的时候收到网页和邮件通知。还能直接向作者咨询更多细节。如果上面的内容有帮助，记得点赞 (????)? 表示感谢。
明天提醒我
关闭理由：
删除理由：
忽略理由：
推广（招聘、广告、SEO 等）方面的内容
与已有问题重复（请编辑该提问指向已有相同问题）
答非所问，不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因（请补充说明）
我要该，理由是：
扫扫下载 App问题对人有帮助，内容完整，我也想知道答案
问题没有实际价值，缺少关键内容，没有改进余地
1、win10下装anaconda3环境，然后装了pyspider0.3.8（没有手动修复crawl_config不起作用的bug），写了个抓取网页新闻的project，经常调试的时候能抓到新闻，但是点run就没有数据写入数据库，很是奇怪，源码附后，请大神指正。
2、源码如下：
from pyspider.libs.base_handler import *
import time
class Handler(BaseHandler):
crawl_config = {
'headers':{
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36',
@every(minutes=30)
def on_start(self):
self.crawl('/', callback=self.index_page,
fetch_type='js',js_script='''
function() {
setTimeout(document.getElementById('inflistBoxMore').getElementsByTagName('a')[0].click(),5000);
setTimeout(document.getElementById('inflistBoxMore').getElementsByTagName('a')[0].click(),5000);
setTimeout(document.getElementById('inflistBoxMore').getElementsByTagName('a')[0].click(),5000);
def index_page(self, response):
now_day = str(time.strftime('%Y%m%d',time.localtime()))
for each in response.doc('.tit a,.newtit').items():
news_day = ''
if re.search('(2016-\d{2}-\d{2})', str(each.attr.href)) != None:
news_day = re.search('(2016-\d{2}-\d{2})', str(each.attr.href)).group(1)
news_day = re.sub('\-', '', news_day,count=2)
if news_day == now_day:
self.crawl(each.attr('href'), callback=self.detail_page)
@config(priority=2)
def detail_page(self, response):
response.doc('.TRS_Editor & style').remove()
if response.doc('.articleName h1').text() == '':
title = response.doc('title')
title = response.doc('.articleName h1').text()
"1title": title,
"3context": response.doc('.art_contextBox').text(),
"2date": str(time.strftime('%Y-%m-%d %H:%M',time.localtime())),
补充下内容，请作者再帮忙看下，谢谢。1、这个是active taskSUCCESS opinion_hexun_com & data:,on_start 9 seconds ago 0.0+0.00ms +1SUCCESS opinion_hexun_com & data:,on_finished 9 seconds agoSUCCESS opinion_hexun_com & data:,_on_cronjob 27 minutes agoSUCCESS opinion_hexun_com & data:,_on_get_info 36 minutes ago2、detail page 有没有被执行到————————这个要怎么看？3、detail page 是否成功，进去看日志 track.process 中的 result 是否有内容，再看 result 段是否有内容。如果有就是 result 展示页面的问题，你是否使用 mongodb？如果是，默认的 range 有问题，升级到 github master 版本试试。——————————初学小白，抱歉，日志这个在哪里看？报告大神，我没有使用mongodb，使用的是默认的sqlite3。
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
看 active tasks ，任务是否真的运行起来了
detail page 有没有被执行到
detail page 是否成功，进去看日志 track.process 中的 result 是否有内容，再看 result 段是否有内容。如果有就是 result 展示页面的问题，你是否使用 mongodb？如果是，默认的 range 有问题，升级到 github master 版本试试。
如果你的脚本已经 RUN 过了，链接会被去重，使用避免
同步到新浪微博
分享到微博？
Hi，欢迎来到 SegmentFault 技术社区！⊙▽⊙ 在这里，你可以提出编程相关的疑惑，关注感兴趣的问题，对认可的回答投赞同票；大家会帮你解决编程的问题，和你探讨技术更新，为你的回答投上赞同票。
明天提醒我
关闭理由：
删除理由：
忽略理由：
推广（招聘、广告、SEO 等）方面的内容
与已有问题重复（请编辑该提问指向已有相同问题）
答非所问，不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因（请补充说明）
我要该，理由是：
扫扫下载 App

用pyspider charles抓取https乱码苹果团的主题标题乱码怎么解决

我要回帖

更多关于 pyspider 乱码的文章

随机推荐

用pyspider charles抓取https乱码苹果团的主题标题乱码怎么解决

我要回帖

更多关于 pyspider 乱码 的文章

随机推荐

更多关于 pyspider 乱码的文章