首页 > 见闻 > 关键词  > robots.txt最新资讯  > 正文

谷歌开源robots.txt正推动官方网络爬虫标准

2019-07-02 11:07 · 稿源:站长之家

站长之家(ChinaZ.com) 7月2日 消息:据外媒报道,谷歌希望将几十年前的拒绝蜘蛛协议 (REP)变成为官方互联网标准。为了推动该项计划,谷歌正在制作自己的 robots.txt 解析器开源。

venturebeat介绍,早在 1994 年,荷兰软件工程师Martijn Koster就提出了REP标准,它几乎已经成为网站用来告诉自动爬虫程序的哪些部分不应该被处理的标准。例如谷歌的网页抓取机器人Googlebot(类似百度蜘蛛)在为网站建立索引时会扫描robots.txt文件,以检查应该忽略哪些部分的特殊说明。它最大限度地减少了无意义的索引,有时会隐藏敏感信息。此外,这些文件并不仅仅用于给出直接的爬行指令,还可以填充某些关键字,以改善搜索引擎优化,以及其他用例。

不过,谷歌认为需要对其爬虫技术进行改进,该公司正在公开寻找用于解码robots.txt解析器,试图建立一个真正的网络爬行标准。理想情况下,这将从如何揭开robots.txt文件神秘面纱,并创造更多通用格式。

谷歌倡议向国际互联网工程任务组提交自己方法,将“更好地定义”爬虫应该如何处理 robots.txt,并减少一些意外。

该草案并不完全可用,但它将不仅适用于网站,还包括最小文件大小、设置最大一天缓存时间以及在服务器出现问题时让网站休息。

举报

  • 相关推荐
  • ROBOT PHONE登场:荣耀为AI终端开了自进化的未来新局

    ​十年前,AI还停留在算力、模型与数据此消彼长的层面。如今,技术的发展早已超乎想象。 2025年上半年,Google DeepMind重磅推出的AlphaEvolve揭示了一个重要趋势:AI开始拥有“自我成长”的能力。 AlphaEvolve是一种典型的“自进化系统”,它结合了Gemini模型的创造性问题解决能力,以及自动化评估器(Evaluator)的反馈学习机制,能够判断“什么是好的”,并据此不断自我优化。 �

  • “全球Robotaxi第一股”文远知行:港股上市临近,商业化进程加速

    文远知行通过港交所聆讯,正式进入港股上市冲刺阶段,将构建“美股+港股”双资本平台。作为全球自动驾驶标杆企业,其产品已在7个国家获自动驾驶牌照,在11国30城开展测试运营,安全运营超2200天。技术层面,预测算法误差控制在0.2米内,感知模型延迟小于10毫秒,系统检测精度达99%。成本大幅下降,单车成本降至几十万元,二季度营收同比增长60.8%,自动驾驶网约车业务猛增836.7%。近期获准在北京开展夜间道路测试,向全天候服务网络迈出关键一步。随着技术成熟与商业模式验证,万亿级自动驾驶市场正迎来规模化运营拐点。

  • 卢伟冰:REDMI K系列持续向上 Turbo系列会逐步接棒K系列

    小米集团总裁卢伟冰转发博主对Redmi K90 Pro的评测,称K系列将通过科技创新持续提升体验,Turbo系列将逐步接棒。Redmi产品经理表示Turbo系列将在性能和性价比上带来惊喜。今年1月发布的Turbo 4起售价1999元,4月发布的Turbo 4 Pro同样1999元起。卢伟冰强调,随着小米高端化发展,K系列定位将持续上探,去年独立的Turbo系列正是为承接K系列上移后的定位空间。据悉,Redmi Turbo 5将于今年第四季度登场,首发联发科天玑8500,定位高性能、长续航,并升级金属中框和大R角设计,质感大幅提升。

  • 苹果前员工因名叫“三星”走红网络:最终他选择改名

    苹果前员工因撞名三星走红网络,他最终选择改名。 据媒体报道,2012年,一位名叫Sam Sung的苹果零售店员工意外走红,因他的名字Sam Sung跟苹果竞争对手三星的英文(Samsung)字母一致,而且二者的发音接近。 Sam Sung在接受采访时详细讲述了那段经历以及自己最终决定改名的原因。2012年,有人在社交平台上发布了Sam Sung的苹果工作名片,相关内容迅速传播开来。苹果方面随即�

  • 数据智能体 TabTabAI 正式上线,零门槛上手,让 “数据分析” 人人可用

    AI数据智能体TabTabAI正式上线,以“零门槛交互+全流程自主处理”为核心优势,打破数据分析技术壁垒。该工具通过自然语言对话,支持多源数据采集、智能处理、深度洞察与可视化,让普通职场人无需编程背景即可完成复杂分析任务。其多智能体协同架构与自动化能力,覆盖从数据收集到决策建议的全链路,助力用户将原始数据高效转化为精准决策依据,真正实现“人人都是数据分析师”。

  • 锐捷极简以太彩光网络4.0再添新翼,“超融合”方案创新而来

    锐捷发布“极简以太彩光4.0-超融合方案”,针对高职院校宿舍高密接入场景,实现“一套架构、超聚/超融双模式融合”设计。方案延续极简理念,核心侧部署超融合模块,弱电间采用无源融合设备,接入侧配备Wi-Fi 7光无线接入点,支持单设备接入11264间宿舍。具备四大创新:融合时分复用技术提升接入密度;统一以太网二层架构简化运维;有线无线一体化OAP提升部署灵活性;核心多场景融合部署适配不同业务需求。该方案不仅破解宿舍网络建设难题,更展现全光网络在医疗、普教等场景的适应能力。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 宝藏新品登场!WIKO Hi MateBook 14锐龙版预售:颜艺双全,福利拉满

    WIKO Hi MateBook 14锐龙版于10月24日开启预售,起售价4999元。配备14英寸2.8K OLED触控屏,支持120Hz刷新率、100% sRGB色域及专业级色准,搭载AMD锐龙7 H255处理器与Radeon 780M显卡,性能强劲。设计上采用波点艺术键盘与1.32kg轻薄机身,支持AI智慧功能及跨设备协同,内置70Wh电池满足全天移动办公需求,兼顾高颜值与实用性,适合职场人士与创作者。

  • 享受专属赛道体验服务!雷军:小米Ultra Club对所有Ultra车主开放

    小米汽车今日宣布,小米Ultra Club面向所有Ultra车主开放入会。 车主入会后可享:赛道服务、赛道专场体验、官方专属活动及专属顾问1对1服务。目前赛道服务已覆盖12个城市,车主们可结合自身需求选择加入。

  • 雷军:智能网联汽车不是零和博弈 呼吁共同抵制网络水军、黑公关

    2025世界智能网联汽车大会,今日于北京召开。小米集团董事长雷军出席并发表演讲。 雷军表示,小米宣布造车四年半时间,产品上市也有一年半的时间,截止目前为止,我们交付了大概40万辆汽车。 智能化方面,小米YU7的智能化配置非常高,而且我们下决心全系一个配置,全系标配700Tops算力、全系标配激光雷达、4D毫米波雷达。大幅度的提高了辅助驾驶系统的体验和安全性�

今日大家都在搜的词: