文章目录[隐藏]
一直使用power bi 的爬虫工具进行抓取,比较简单。但是效率不高。而且很多时候都网页需要登录 需要改cookie 的很麻烦但是使用chrome 的爬虫工具 简单,学习成本很低
Web Scraper优点
- 抓取需要登录的数据较方便,因为这个插件是运行在浏览器上的。
- 只要抓取频率慢一点,被网站屏蔽的概率较小,也因为是浏览器的原因,这就像是真实的用户访问一样。
- 学习成本低 ,就拿我们经常爬取豆瓣top250 电影来举例学习30分钟就可以迅速实现
Web Scraper缺点
- 好像并不能做验证码识别
- 抓取效率较低,相对于爬虫程序来说,Web scraper 没法大并发,快速切换 IP 等,所以大量级的数据抓取用 Web Scrpaer 不适合,慢慢抓大几千网页还是可以。
- 插件本身是不支持配置定时任务的,云服务提供了这种功能,不过是收费的,到是可以尝试使用 Python 驱动谷歌来进而来操作 web scraper 的定时
Web Scraper 学习教程
https://www.bilibili.com/video/BV1BA411v75C?p=5