简单自动的爬虫工具 Web Scraper

一直使用power bi 的爬虫工具进行抓取,比较简单。但是效率不高。而且很多时候都网页需要登录 需要改cookie 的很麻烦但是使用chrome 的爬虫工具 简单,学习成本很低

Web Scraper优点

  • 抓取需要登录的数据较方便,因为这个插件是运行在浏览器上的。
  • 只要抓取频率慢一点,被网站屏蔽的概率较小,也因为是浏览器的原因,这就像是真实的用户访问一样。
  • 学习成本低 ,就拿我们经常爬取豆瓣top250 电影来举例学习30分钟就可以迅速实现

Web Scraper缺点

  • 好像并不能做验证码识别
  • 抓取效率较低,相对于爬虫程序来说,Web scraper 没法大并发,快速切换 IP 等,所以大量级的数据抓取用 Web Scrpaer 不适合,慢慢抓大几千网页还是可以。
  • 插件本身是不支持配置定时任务的,云服务提供了这种功能,不过是收费的,到是可以尝试使用 Python 驱动谷歌来进而来操作 web scraper 的定时

Web Scraper 学习教程

https://www.bilibili.com/video/BV1BA411v75C?p=5

相关推荐

批量docx互转md

在项目中经常需要将docx和md文件互相转换 使用条件 可以上 Pandoc 官网 Pandoc 查询其他支持 ...

常见的编码有那些

常见编码 ASCII码 这是美国在19世纪60年代的时候为了建立英文字符和二进制的关系时制定的编码规范,它能表 ...