首页 > 见闻 > 关键词  > robots.txt最新资讯  > 正文

谷歌开源robots.txt正推动官方网络爬虫标准

2019-07-02 11:07 · 稿源:站长之家

站长之家(ChinaZ.com) 7月2日 消息:据外媒报道,谷歌希望将几十年前的拒绝蜘蛛协议 (REP)变成为官方互联网标准。为了推动该项计划,谷歌正在制作自己的 robots.txt 解析器开源。

venturebeat介绍,早在 1994 年,荷兰软件工程师Martijn Koster就提出了REP标准,它几乎已经成为网站用来告诉自动爬虫程序的哪些部分不应该被处理的标准。例如谷歌的网页抓取机器人Googlebot(类似百度蜘蛛)在为网站建立索引时会扫描robots.txt文件,以检查应该忽略哪些部分的特殊说明。它最大限度地减少了无意义的索引,有时会隐藏敏感信息。此外,这些文件并不仅仅用于给出直接的爬行指令,还可以填充某些关键字,以改善搜索引擎优化,以及其他用例。

不过,谷歌认为需要对其爬虫技术进行改进,该公司正在公开寻找用于解码robots.txt解析器,试图建立一个真正的网络爬行标准。理想情况下,这将从如何揭开robots.txt文件神秘面纱,并创造更多通用格式。

谷歌倡议向国际互联网工程任务组提交自己方法,将“更好地定义”爬虫应该如何处理 robots.txt,并减少一些意外。

该草案并不完全可用,但它将不仅适用于网站,还包括最小文件大小、设置最大一天缓存时间以及在服务器出现问题时让网站休息。

举报

  • 相关推荐
  • 全国首个!深开鸿发布基于开源鸿蒙机器人操作系统M-Robots OS

    今日,深开鸿宣布,正式发布全国首个基于开源鸿蒙的分布式异构多机协同机器人操作系统M-RobotsOS1.0。深开鸿CEO王成录在发布会上指出:操作系统是机器人产业的魂,决定了机器人的智能化水平和生态扩展性。王成录强调,我们的目标不是替代现有系统是面向未来多机协同场景,构建全新架构。

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • 对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

    谷歌在GoogleCloudNext25大会上,开源了首个Agent开发套件—ADK。这也是OpenAI之后第二家大厂发布的标准化智能体SDK。谷歌刚开源ADK几天在Github已经超过5000颗星,非常受开发者的欢迎。

  • 为了反爬虫 GitHub部署新规则:使用中文可能被限制访问

    据报道,GitHub部署了新的风控规则,会检查用户浏览器请求头的语言部分,如果检测到用户使用的是中文(仅限zh_CN),则可能会触发访问限制。不过GitHub并非全面封禁中文用户,而是将多个条件整合触发限制,首先会检查常规规则(如黑名单IP和UA),再检测IP地址质量。只有当这两个条件全部通过后,才会检查语言部分是否包含zh_CN,如果用户IP质量没问题,通常不会触发语�

  • 不止春晚“秧Bot” 宇树科技新专利可演民族舞

    快科技4月18日消息,近日,宇树科技申请的一种机器人和机器人控制方法”专利公布。据天眼查披露的专利摘要显示,宇树科技的新发明属于机器人设备技术领域,该专利可用于大规模人形机器人舞蹈表演,特别是可以进行民族舞表演。该专利机器人包括机器人本体和旋转表演件,机器人的本体上设有用于装配旋转表演件的手臂和用于抛动表演道具的抛出电机,旋转表演件装�

  • 谷歌版MCP”来了,开源A2A,不同厂商Agent也能协作

    “谷歌版MCP”来了!谷歌推出A2A协议,即Agent2Agent,能让AIAgent在不同生态系统间安全协作无需考虑框架或供应商。不同平台构建的AIAgent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。从各大厂最近动作来看,芜湖,不愧是Agent元年。

  • REDMI Turbo 4 Pro官宣下周发布:同档无敌

    快科技4月18日消息,王腾刚刚正式宣布,REDMI Turbo4Pro将于下周发布。他还介绍,K80系列全面升档以后,产品力横扫同档,而Turbo4Pro是全面进阶的产品,预计将替代原本K80的位置。王腾强调,Pro,代表着更高规格、更高标准、更强体验,我们的目标就是打造一款同档无敌的全面Pro”准旗舰。REDMI Turbo4Pro将实现性能、质感、续航大幅跃升。性能方面,REDMI Turbo4Pro将行业首发搭载高�

  • AI日报:阿里新模型Qwen3即将来袭;GitHub开源MCP服务器;Runway发布Gen-4 Turbo

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Qwen3即将来袭:阿里云新模型相关支持已正式合并至vLLM代码库阿里云的Qwen3模型即将发布,标志着其在AI领域的又一重要进展。新推出的AI听歌报告能够精准识别用户音乐偏好,场景

  • TRON又一里程碑:孙宇晨推动华人公链ETF向美国SEC提交上市申请

    Canary Capital Group向美国证券交易委员会(SEC)提交申请……