首页 > 优化 > 关键词  > 网站结构优化最新资讯  > 正文

详细的robots.txt学习方法

2011-11-17 15:14 · 稿源:蛋疼博客

关于这个robots.txt正确的写法,蛋疼博客-老林参考了很多作者的写法、还有百度的文献,发现有的作者解释或者写法太过简单,造成新手不易理解,当然蛋疼博客-老林也不敢保证百分百解释得让你很明白。

robots.txt是以什么形式存在?robots.txt就是一份网站和搜索引擎双方签订的规则协议书。每一个搜索引擎的蜘蛛访问一个站点时,它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,蜘蛛就会按照该协议书上的规则来确定自己的访问范围;如果没有robots.txt,那么蜘蛛就会沿着链接抓取。

请牢牢记住:robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。Disallow后面的冒号必须为英文状态的。

我们先来理解User-agent和Disallow的定义。

● User-agent:该项用于描述搜索引擎蜘蛛的名字。(1)规定所有蜘蛛:User-agent:*;(2)规定某一个蜘蛛:User-agent:BaiduSpider。

● Disallow:该项用于描述不希望被抓取和索引的一个URL,这个URL可以是一条完整的路径。这有几种不同定义和写法:(1)Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;(2)Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;(3)如果Disallow记录为空,说明该网站的所有部分都允许被访问。在robots.txt文件中,至少应有Disallow记录,如果robots.txt为空文件,则对所有的搜索引擎robot来说,该网站都是开放的。

1、国内建站需要用到的常见搜索引擎robot的名称。

有时候我们觉得网站访问量(IP)不多,但是网站流量为什么耗的快?有很多的原因是垃圾(没有)蜘蛛爬行和抓取消耗的。而网站要屏蔽哪个搜索引擎或只让哪个搜索引擎收录的话,首先要知道每个搜索引擎robot的名称。

2、robots.txt文件基本常用写法:

首先,你先建一个空白文本文档(记事本),然后命名为:robots.txt。

(1)禁止所有搜索引擎访问网站的任何部分。

User-agent: *

Disallow: /

(2)允许所有的robots访问,无任何限制。

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

还可以建立一个空文件robots.txt或者不建立robots.txt。

(3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)

User-agent: BaiduSpider

Disallow:/

(4)允许某个搜索引擎的访问(还是百度)

User-agent: BaiduSpider

Disallow:

User-agent: *

Disallow: /

这里需要注意,如果你还需要允许谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。

(5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。

User-agent: *

Disallow: /AAA.net/

Disallow: /admin/

Disallow: .jpg$

Disallow: .rar$

这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“Disallow:/AAA.net/ /admin/”。

  • 相关推荐
  • 大家在看
  • 谷歌:微软 Bing 搜索引擎上最热门的搜索词是「Google」

    据彭博社报道,该律师描述说,「Google」是迄今为止在必应上搜索最多的词。 谷歌正在用这个角度来证明其客户选择使用谷歌搜索而不是竞争对手,而不是因为它是其设备上的默认选项。

  • 放弃 Google 搜索引擎,Firefox 欲用必应替代?

    以「To organize the world's information and make it universally accessible and useful」(整合全球信息,供大众使用,使人人受益)为宗旨,背靠复杂的算法,借助准确的搜索结果为基石,Google 搜索引擎已成为全球最受欢迎和信任的搜索引擎,其比位于第二名 bing 足足高出近90% 的市场份额。

  • Google用首页涂鸦庆祝搜索引擎上线23周年

    Google周一用一个新的涂鸦来庆祝其23岁生日。这幅动画涂鸦的特点是一个分层的生日蛋糕,上面撒着彩虹糖霜,还有醒目的数字23。这个搜索巨头的名字也被糖霜覆盖,同时还有拟人动画效果,闪烁的绿色生日蜡烛取代了"Google"中的"L"。Google公司于1998年9月4日正式成立,由谢尔盖-布林和拉里-佩奇共同创立。1997年,当时还是斯坦福大学研究生的布林,负责带新生佩奇参观校园。第二年,这对好友在他们的宿舍里一起开发了Google的第一个?

  • 隐私搜索引擎DuckDuckGo宣称已达成负碳排放

    主打隐私体验的 DuckDuckGo 搜索引擎,刚刚宣布其在 2008 ~ 2020 年间实现了负碳排放,并承诺在未来几年内加大努力。该公司称,其正在使用黄金标准来抵消其 125% 的上下游排放量,同时希望为致力于发展除碳技术的 Stripe 气候计划提供等量的帮助。在确定需要抵消多少碳排放时,DuckDuckGo 援引了温室气体协议,将排放主要划分成三大范围与附加活动。其中该公司的“碳排抵消包”涵盖了直接排放、购买能源的间接排放、产品与服务器的

  • 微信小程序搜索优化调整 通过搜索爬虫SEO获取流量将有所下滑

    近日,微信团队团队发布了小程序搜索优化调整(SEO)公告。<br/> <br/> 公告称,微信新版本中,通过 “首页-下拉-搜索小程序”、“发现-小程序-搜索小程序”等小程序的搜索入口将不再展示小程序页面的内容结果。开发者通过搜索爬虫 SEO 获取到的流量将有所下滑。

  • [图]Adobe发布Acrobat扩展程序:在浏览器上更好处理PDF文件

    网页浏览器中的原生默认 PDF 阅读器通常功能有限,只能让用户查看下载文件或者做一些简单的操作。当出现一些复杂的任务,如在 PDF 文件中进行编辑或评论时,就需要使用 Adobe Acrobat Reader 等专用软件。今天,Adobe 在 Chrome 和 Edge 浏览器上发布了 Acrobat 扩展程序,让用户直接通过浏览器访问其 PDF 工具。这些将让你在不切换应用程序的情况下填写、签署和标记文件。一旦下载了该扩展,就必须在浏览器的内容设置中把它设置为

  • 停止SEO刷快排,企业网站排名,还稳定吗?

    自从建立蝙蝠侠IT这个博客以来,我们每天都会接触大量的SEO人员和企业主,经常被问及的一个问题就是:

  • Chartbeat:本周Facebook宕机后 新闻网站的流量大幅增加

    据外媒报道,Chartbeat的一项新分析发现,当 Facebook 本周出现宕机时,新闻网站的流量增加了。2018年8月3日,Facebook宕机45分钟。与本周的故障相比,这只是一个小故障:10月4日,Facebook、Instagram和WhatsAppk曾宕机近6小时。三年前,Chartbeat的Josh Schwartz曾写道,45分钟的Facebook故障足以让人们去其他平台阅读新闻。那么这次发生了什么?根据Chartbeat本周提供的来自60个国家的数千家出版商客户的数据,在长达5个多小时?

  • Google正在为Android版Chrome开发每个网站的自动变暗功能

    Android版Google浏览器可以让你自动调暗网站,但该设置对你浏览的所有网站都是全局性质的。这可能并不理想,Google正在研究一种方法,使这一设置改为按网站域名来设置。在Android版Chrome Canary浏览器中,网站设置中有一个新的部分可以启用或禁用"自动变暗网页内容"。该设置与一个新的菜单相关联,可以为网站启用或禁用自动变暗功能。用户可以添加特定的网站,然后选择是否阻止或允许这些网站的自动变暗。要启用该功能?

  • iFixit拆解iPhone 13 Pro:内部结构变化 维修变得更困难

    日前,国外知名维修机构 iFixit 对 iPhone 13 Pro 进行了拆解。虽然苹果在内部结构上的调整在某些方面的维修变得更容易,但总体而言维修变得更加困难。iFixit 表示整个拆解过程存在多个难点,首先是加热和撬开屏幕这步。iPhone 13 Pro 的上部传感器电缆被指出“薄得吓人,而且太短了”,如果稍微不留意可能会带来灾难。幸运的是,其余的旅程也没有明显的困难。今年更大的L型电池仍然是一个痛点,因为它不容易拆卸。好消息是,更换?

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天