然后将获取到的网站代码用cheerio的load方法解析获取一个 $, 使用 $ 获取图片
// 监听end事件,数据获取完毕后触发
切记编写好 ts 文件后我们不能直接运行,需要把ts文件编译成 js 文件才可以执行,在项目根目录下执行 tsc 开始编译代码,然后在 bin 文件夹下自动生成对应的 js 文件
// 打开百度后找到搜索框的id,百度搜索框的id是 kw,并输入哔哩哔哩,然后回车开始查询 // 爬取完第一页后让当前页码加1 // 如果当亲的页码小于等于最大页码,则说明没有爬取结束继续爬下一页数据 // 执行点击下一页的操作 // 递归执行爬取方法 // 保存爬取到的数据信息到TXT文件中 // 如果有错误,则让循环状态变成 false ,继续下一次循环 // 每次循环的时候就来判断对错,如果没有错误则 break 退出 while 循环
node-xlsx 可以将一个二维数组转成 buffer 类型数据的第三方依赖包,将生成的buffer数据写入到 xlsx 文件中即可获得一个有数据的 xlsx 文件
注意:写入的数据必须是一个二维数组,二维数组里面的第一个元素为 xlsx 文件的表头
列宽 10 表示一列可以展示 5 个汉字,10个英文字母,超出的部分将会被遮挡住
写一个公共的生成 xlsx 的方法,这个方法接收我们爬取到的数据,然后将数据处理后存入 xlsx 文件中,方便我们查看
// 将获取到的数据存到excel中
修改原有代码,将原本写到 txt 文件的方法替换成调用生成 xlsx 方法。这里为了方便测试,只让爬虫获取第一页的数据,可根据实例需求获取前几页的数据或者所有页数据
// 如果当亲的页码小于等于最大页码,则说明没有爬取结束继续爬下一页数据 // 执行点击下一页的操作 // 递归执行爬取方法 // 保存爬取到的数据信息到TXT文件中
打开文件查看获取到的数据
WQM按键精灵插件说明书
WQM按键精灵插件作为按键精灵的一个插件,为按键精灵提供对WQM的全方位的控制功能,同时也能够提供对WQM中网页的全面控制功能。
WQM插件提供三类控制命令:WQM全局控制命令、WQM浏览控制命令、页面控制命令,后台键盘鼠标命令,后台找色命令,全局控制命令,JS扩展命令
功能:绑定最后一个正在运行的WQM进程,如果没有找到就启动一个WQM进程并绑定
功能:在托盘区显示一个气泡提示信息;
功能:将WQM窗口设置为指定大小;
4)Save(网页地址,保存的文件路径)
功能:将指定url保存为文件;
参数1:需要保存的网页地址;
参数2:需要保存的文件路径;
功能:当前标签页打开Url指定的网页;此操作是一个阻塞操作,如果网页没有打开,脚本不能继续执行。如果超过全局超时设定,将导致脚本中止;
参数1:需要打开的网页地址
参数2 布尔型:是否强制从服务器读取,默认为读取页面,可能读取本地缓存。
功能:当前标签的网页浏览向后退,