11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
我在知乎提了这样一个问题:如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题?,并且 Stackoverflow 上也有类似的问题:github blocks Baidu spider, how can I make it work again。两位知乎答主和Stackoverflow的评论都比较推荐使用 CDN 来解决这个问题。
但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。
近日淘宝网站屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容事件互联网领域受到广泛关注。个人观点是:作为一个网站管理者,淘宝有权决定自己的网页内容是否允许某个搜索引擎抓取,但作为一个公共电子商务平台,涉及到数以百万计用户的利益,出于感情用事或