未来索引
开启左侧

电商采集的一些策略

[复制链接]
yiniuyun 发表于 2020-8-4 17:04:17 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题

我们在使用爬虫程序爬取一个网站时,经常都会出现频繁访问该网站的警告。因为很多网站它做了反爬措施,它会检测某一段时间某个账号或某个IP的访问次数,如果访问次数过多,不是正常用户行为那么它会禁止你的访问。例如淘宝网站就是很多反爬措施做得比较严的中的一个。
电商尤其是淘宝的反爬机制有较好的,使用selenium登陆淘宝的目标网站会反爬出现滑块,通过抓包分析发现很多网站对selenium都有管理限制,比较重要的是标识 $cdc_asdjflasutopfhvcZLmcfl 、navigator.webdriver等。据此分析js里找到了相关的关键问题:
1589270365953-efedc66a-c076-450f-a5fb-2ae74b996d23.png
在控制台下输入window.navigator.webdriver会发现和正常的浏览器打开的有所不同
1589270372233-0027c085-a8ef-4683-b7f0-09263bc04504.png
在面对这些阻止我们进行数据采集的问题时我们可以采取很多的应对措施,比如换很不同的账号,让爬虫程序间隔一定的时间再进行数据采集,但是这些很明显会让我们的工作进程大大的拖延,并不是好的方式,这时我们就选择设置一些代理ip来帮助我们做工作,我们都知道代理的作用,那加上了代理ip便不会出现因为频繁访问而导致禁止访问的现象。代理ip的获取有很多方式,网上有很多免费的可以去爬取一些试试,但是免费的代理使用起来也是很吃力的,也很浪费时间。还有就是直接找代理商提供。但是网络太大了,代理供应商肯定也是参差不齐的,所以找到合适的代理还是需要花点时间的。那为了能更高效的完成工作,建议使用可以试试亿牛云代理,长期使用是很靠谱的。

智能技术共享平台 - 未来论 http://www.mywll.com/
高级模式
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
推荐阅读 更多
阅读排行 更多
广告位
!jz_fbzt! !jz_sgzt! !jz_xgzt! 快速回复 !jz_sctz! !jz_fhlb! 搜索

智能技术共享平台 - 未来论

关注服务号

进入小程序

全国服务中心:

运维中心:天津

未来之家:天津 青岛 济南 郑州 石家庄

                商务邮箱:xy@mywll.com

Copyright © 2012-2021 未来派 未来论 (津ICP备16000236号-5)