智能家居

标题: 电商采集的一些策略 [打印本页]

作者: yiniuyun    时间: 2020-8-4 17:04
标题: 电商采集的一些策略

我们在使用爬虫程序爬取一个网站时,经常都会出现频繁访问该网站的警告。因为很多网站它做了反爬措施,它会检测某一段时间某个账号或某个IP的访问次数,如果访问次数过多,不是正常用户行为那么它会禁止你的访问。例如淘宝网站就是很多反爬措施做得比较严的中的一个。
电商尤其是淘宝的反爬机制有较好的,使用selenium登陆淘宝的目标网站会反爬出现滑块,通过抓包分析发现很多网站对selenium都有管理限制,比较重要的是标识 $cdc_asdjflasutopfhvcZLmcfl 、navigator.webdriver等。据此分析js里找到了相关的关键问题:
(, 下载次数: 0)
在控制台下输入window.navigator.webdriver会发现和正常的浏览器打开的有所不同
(, 下载次数: 1)
在面对这些阻止我们进行数据采集的问题时我们可以采取很多的应对措施,比如换很不同的账号,让爬虫程序间隔一定的时间再进行数据采集,但是这些很明显会让我们的工作进程大大的拖延,并不是好的方式,这时我们就选择设置一些代理ip来帮助我们做工作,我们都知道代理的作用,那加上了代理ip便不会出现因为频繁访问而导致禁止访问的现象。代理ip的获取有很多方式,网上有很多免费的可以去爬取一些试试,但是免费的代理使用起来也是很吃力的,也很浪费时间。还有就是直接找代理商提供。但是网络太大了,代理供应商肯定也是参差不齐的,所以找到合适的代理还是需要花点时间的。那为了能更高效的完成工作,建议使用可以试试亿牛云代理,长期使用是很靠谱的。






欢迎光临 智能家居 (https://bbs.mywll.com/) Powered by Discuz! X3.4