2017年11月聚合文章--反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

[聚合文章] 反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

1.Headers限制

这应该是最常见的，最基本的反爬虫手段，主要是初步判断你是否是真实的浏览器在操作。

这个一般很好解决，把浏览器中的Headers信息复制上去就OK了。

值得注意的是，很多网站只需要userAgent信息就可以通过，但是有的网站还需要验证一些其他的信息，比如知乎，有一些页面还需要 authorization 的信息。所以需要加哪些Headers，还需要尝试，可能还需要Referer、Accept-encoding等信息。

注：本文内容来自互联网，旨在为开发者提供分享、交流的平台。如有涉及文章版权等事宜，请你联系站长进行处理。