首页 > 优化 > 关键词  > robots.txt文件设置最新资讯  > 正文

张栩藩:简单robots.txt规则编写及应用

2011-09-26 14:20 · 稿源:永州新唯美

在网站优化系列中,一个网站的robots.txt文件是必不可少的。很多seo会忽略了robots.txt的重要性,网站上出现了一些404页面或者不想让搜索引擎了解的内容的时候,就会运用到它了。我们下面就谈谈robots.txt一些最实用、最简单的应用。

常见搜索引擎名称:

Baiduspider 百度;

Scooter Vista;

ia_archiver Alexa;

Googlebot 谷歌;

FAST-WebCrawler Fast;

MSNBOT Msn

我们常见的语法中:Disallow该项定义域用来描述希望不被索引的URL路径;allow该项定义域用来描述可以被索引的URL路径,但是由于缺省值是允许索引所以该项定义域会很少使用到。例如我们如果要禁止百度指数抓取,那么我们该怎么写呢?如下:

User-agent:Baiduspider

Disallow:/

讲解:这里user-agent是针对百度蜘蛛的,而谷歌是没有蜘蛛的,谷歌的搜索引擎叫机器人,而disallow禁止了所有“/”目录下的文件,这里的斜杠是根目录(一般是wwwroot下的文件)。

我们如果禁止所有搜索引擎,唯独百度可以抓取改怎么写呢?如下:

User-agent:Baiduspider

Disallow:

User-agent: *

Disallow: /

讲解:这里网站主要针对百度说,我对你是开放的,而对其他所有的除百度意外的搜索引擎都对他们不开放我的目录。这里的“*”是指所有,接下来的disallow禁止了所有根目录的索引。

我们如果禁止搜索引擎读取某个文件夹,如何写呢?如下:

User-agent:*

Disallow:/a/

Disallow:/abc/

Disallow:/data/

讲解:这里网站说明了针对所有的搜索引擎禁止访问我的a文件里面的任何文件,以及abc文件和data文件。这是如果你想禁止包含该文件名以及以该文件名为路径的话,将后面的斜杠去掉,如下:

User-agent:*

Disallow:/a

Disallow:/abc

Disallow:/data

讲解:这里不光禁止了该文件,同时也禁止以该文件命名的url路径对搜索引擎的索引。一般情况下很少运用到。

现在我们有很多网站不能实现静态,很多网站都做了伪静态,但是有部分的动态路径仍被搜索引擎索引了怎么办呢?我们可以添加如下规则:

User-agent:*

Disallow:/*?*

讲解:这里的“*”代表所有带有“?”的路径将会被禁止索引,有的可能变量不是“?”而是“$”,同样道理将“?”替换成“$”就能实现了。

以上我说的这几种都是我们最常见以及最容易忽略的问题。一个好robots.txt规则就能为网站加分,如果没有写好很可能会搜索引擎不抓取。只要我们做好每个小细节的优化,网站的用户体验将会越来越好。

本文由 永州新唯美www.zriq.cn,独家供稿,转载请保留,谢谢合作!

  • 相关推荐
  • 大家在看
  • 谷歌:微软 Bing 搜索引擎上最热门的搜索词是「Google」

    据彭博社报道,该律师描述说,「Google」是迄今为止在必应上搜索最多的词。 谷歌正在用这个角度来证明其客户选择使用谷歌搜索而不是竞争对手,而不是因为它是其设备上的默认选项。

  • 放弃 Google 搜索引擎,Firefox 欲用必应替代?

    以「To organize the world's information and make it universally accessible and useful」(整合全球信息,供大众使用,使人人受益)为宗旨,背靠复杂的算法,借助准确的搜索结果为基石,Google 搜索引擎已成为全球最受欢迎和信任的搜索引擎,其比位于第二名 bing 足足高出近90% 的市场份额。

  • Google用首页涂鸦庆祝搜索引擎上线23周年

    Google周一用一个新的涂鸦来庆祝其23岁生日。这幅动画涂鸦的特点是一个分层的生日蛋糕,上面撒着彩虹糖霜,还有醒目的数字23。这个搜索巨头的名字也被糖霜覆盖,同时还有拟人动画效果,闪烁的绿色生日蜡烛取代了"Google"中的"L"。Google公司于1998年9月4日正式成立,由谢尔盖-布林和拉里-佩奇共同创立。1997年,当时还是斯坦福大学研究生的布林,负责带新生佩奇参观校园。第二年,这对好友在他们的宿舍里一起开发了Google的第一个?

  • 隐私搜索引擎DuckDuckGo宣称已达成负碳排放

    主打隐私体验的 DuckDuckGo 搜索引擎,刚刚宣布其在 2008 ~ 2020 年间实现了负碳排放,并承诺在未来几年内加大努力。该公司称,其正在使用黄金标准来抵消其 125% 的上下游排放量,同时希望为致力于发展除碳技术的 Stripe 气候计划提供等量的帮助。在确定需要抵消多少碳排放时,DuckDuckGo 援引了温室气体协议,将排放主要划分成三大范围与附加活动。其中该公司的“碳排抵消包”涵盖了直接排放、购买能源的间接排放、产品与服务器的

  • Ubuntu Touch OTA-19发布:仍基于Ubuntu 16.04 LTS

    本周二,UBports 发布了 Ubuntu Touch OTA-19 版本更新。这是一款适用于智能手机和平板的 Ubuntu Linux 发行版本。本次 OTA-19 更新依然基于过时的 Ubuntu 16.04 LTS 代码库,后续版本将会过渡到 Ubuntu 20.04 LTS。不过,Ubuntu Touch 团队仍然在努力,毕竟两个发行版本相隔 4 年时间,其中涉及到大量的基础变化。由于仍基于 Ubuntu 16.04 LTS,因此 OTA-19 的更新幅度并不大。Halium 5.1/7.1 设备现在兼容陀螺仪和磁场传感器,消

  • 微软必应和Yandex宣布为搜索引擎行业制定IndexNow快速通知协议

    微软必应和Yandex(俄罗斯最受欢迎的搜索引擎)今天宣布全新IndexNow协议,这是网站所有者通知搜索引擎其网站最新内容变化的一种新方式。网站所有者现在可以做一个简单的ping,让搜索引擎知道一个URL及其内容被添加、更新或删除,而不是等待搜索引擎发现内容已经改变。有了IndexNow,搜索引擎立即知道"已经改变的URL,帮助他们优先抓取这些URL,从而限制有机抓取以发现新内容"。另外,通过通知一个搜索引擎,就等于通知所有采用Ind

  • AMD霄龙Rome平台助力Netflix达成400Gbps带宽 超越Intel与Ampere

    Hardwareluxx 报道称:视频流媒体巨头之一的 Netflix,已利用 AMD 二代霄龙(EPYC)Rome 平台,达成了优于 Intel 和 Ampere 服务器解决方案的 400 Gbps 带宽性能。据悉,该公司在 EuroBSD 2021 会议期间公布了新的数据指标。可知截止 2020 年,Netflix 服务器仅能够达成 200 Gbps 的 TLS 加密带宽。(图 via Hardwareluxx)此外 Netflix 评估了于 2019 年切换到 AMD EPYC 平台的成效,现在看来该公司已实现了他们的目标。据说在转?

  • 十铨公布T-Force CARDEA A440 Pro特别版PCIe 4.0 SSD售价

    十铨(TeamGroup)刚刚公布了专为索尼 PlayStation 5 游戏主机打造的 PCIe 4.0 存储扩展 M.2 SSD 的新品售价。此前发布的 A440 PRO Special Series 定价已揭晓,1TB / 2TB / 4TB / 8TB 版本分别为 189 / 359 / 899 / 1999 美元,约合 1216 / 2310 / 5784 / 12862 RMB 。十铨表示,在索尼 PS5 发布后不久,该公司很快就提供了 T-FORCE CARDE A440 Pro Special Series 扩容产品线。其采用了最新的 PCIe 4.0 x4 接口,以及较内置 PS5

  • Ubuntu 21.10正式发布 迎来GNOME 40桌面以及许多底层改进

    Ubuntu 21.10"Impish Indri"现已正式发布,作为UbuntuLinux的最新半年度更新,同时也是下一个长期支持周期Ubuntu 22.04 LTS之前的最后一个版本。Ubuntu21.10带来了各种各样的改进,最引人注目的是在桌面系统切换到GNOME Shell 40,并在那里提供了许多改进,包括一些主题的完善。在Ubuntu 21.10中还有许多底层的改进可以享受,比如让我们兴奋的内核与编译器的升级以及其他主要软件包版本的升级。Ubuntu 21.10的一些亮点包括:- GNOM

  • [图]Adobe发布Acrobat扩展程序:在浏览器上更好处理PDF文件

    网页浏览器中的原生默认 PDF 阅读器通常功能有限,只能让用户查看下载文件或者做一些简单的操作。当出现一些复杂的任务,如在 PDF 文件中进行编辑或评论时,就需要使用 Adobe Acrobat Reader 等专用软件。今天,Adobe 在 Chrome 和 Edge 浏览器上发布了 Acrobat 扩展程序,让用户直接通过浏览器访问其 PDF 工具。这些将让你在不切换应用程序的情况下填写、签署和标记文件。一旦下载了该扩展,就必须在浏览器的内容设置中把它设置为

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天