selenium被检测为爬虫的解决办法

type

Post

status

Published

date

Sep 12, 2022

slug

webdrive-sol

summary

使用selenium框架很容易会被服务器识别为爬虫，整理了几个解决方法

category

技术分享

icon

password

Property

Sep 12, 2022 01:39 AM

有时候，我们利用 Selenium 自动化爬取某些网站时，极有可能会遭遇反爬。

实际上，我们使用默认的方式初始化 WebDriver 打开一个网站，下面这段 JS 代码永远为 true，而手动打开目标网站的话，则为：false

通过这段 JS 脚本或者bot.sannysoft.com区分是爬虫还是人工操作

解决方法1

设置参数 excludeSwitches

Chrome79 之前可以通过配置 ChromeOptions 驱动参数，来达到反反爬的目的。

只需要将参数打开，设置 excludeSwitches 值为 enable-automation 即可。

这个参数是实验性参数，所以右上角会提示：请停用开发者模式运行的扩展程序，不能点击停用。

这样，设置这个参数后：

window.navigator.webdriver 的值就变成 false 了。

解决方法2

mitproxy 拦截

众所周知，mitproxy 可以拦截到网络请求，做其他处理，这里只需要进行 JS 代码注入即可。

然后启动 mitmdump

最后，配置 ChromeOptions 指向 mitmdump代码即可。

解决方法3

cdp 命令(经验证可以)

cdp 全称是：Chrome Devtools-Protocol

通过 addScriptToEvaluateOnNewDocument() 方法可以在页面还未加载之前，运行一段脚本。

如此，我们只需要提前设置：

window.navigator.webdriver 的值为 false 即可。

解决方法4

设置参数

我们可以看到通过在chrome启动的时候加一个disable-blink-features=AutomationControlled的flag就可以实现降维打击，移除掉webdriver的痕迹

解决方法5

参考 https://blog.csdn.net/looker53/article/details/123603109

文章来源参考

https://juejin.cn/post/7073397998671101960

https://segmentfault.com/a/1190000040018335

解决方法1

解决方法2

解决方法3

解决方法4

解决方法5

hivefans

交流频道

加入我们的社群讨论分享