未来索引
开启左侧

python爬虫基础之验证码

[复制链接]
yiniuyun 发表于 2020-5-22 17:42:43 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题

目前,很多网站会采取各种各样的措施来反爬虫,验证码就是其中的一种,比如当检测到访问频率过高时会弹出验证码让你输入,确认访问网站的不是机器人。但是随着爬虫技术的发展,验证码的花样也越来越多,从最开始简单的几个数字或字母构成的图形验证码发展到需要点击倒立人文字字母的,与文字相符合的图片点触型验证码,需要滑动到合适位置的极验滑动验证码,以及以计算题验证码等等,花样百出,让人头大。
图像验证码:这是最简单的一种,也很常见。就比如CSDN登录几次失败之后就会出验证码
1590136010462-78f3c719-bd4b-43df-99ca-4c377aa70cb4.png
解决思路:

  • OCR二值化,去灰度,识别率低。
  • 打码平台(超级鹰,云打码)
  • 深度学习训练,成本高,适用范围小
  • OpenCV,SimpleCV
滑块验证码:需要按住滑块并移到正确的位置
1590136023302-34921a60-ac58-42b4-8f86-c874bcbbf7b2.png
解决思路:

  • selenium
  • 破解加密算法
  • 深度学习训练,标注缺口,识别缺口
点触验证码:需要识别图片中的文字或类型并按序点击
1590136036371-c919ea41-0f30-4377-90ac-bae5c4221ac5.png
解决思路:

  • OCR + 图像匹配(百度识图)
  • 打码平台

计算题验证码:需要给出正确答案
1590136253966-a69de6b2-7221-4a23-986b-ee1994fe3ee2.png
解决思路

  • OCR
  • 打码平台
IP限制问题
  我们可以用最无赖也是最无解的代理ip来解决。直接通过切换访问的代理来突破,这里没有丝毫技术性含量。挂上代理后,去访问目标网站,根据返回的结果判断代理是否还有效。若是无效了,将当前查询目标回滚一次,并切换代理就行了。但是代理还是需要购买高质量的,在百度上搜一下,像亿牛云比较好的代理就会出来。

智能技术共享平台 - 未来论 http://www.mywll.com/
高级模式
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
阅读排行 更多
广告位
!jz_fbzt! !jz_sgzt! !jz_xgzt! 快速回复 !jz_sctz! !jz_fhlb! 搜索

智能技术共享平台 - 未来论

关注服务号

进入小程序

全国服务中心:

运维中心:天津

未来之家:天津 青岛 济南 郑州 石家庄

                商务邮箱:xy@mywll.com

Copyright © 2012-2021 未来派 未来论 (津ICP备16000236号-5)