首页 > 见闻 > 关键词 > robots.txt最新资讯 > 正文

谷歌开源robots.txt正推动官方网络爬虫标准

2019-07-02 11:07 · 稿源:站长之家

谷歌 (2)

站长之家(ChinaZ.com) 7月2日 消息:据外媒报道,谷歌希望将几十年前的拒绝蜘蛛协议 (REP)变成为官方互联网标准。为了推动该项计划,谷歌正在制作自己的 robots.txt 解析器开源。

venturebeat介绍,早在 1994 年,荷兰软件工程师Martijn Koster就提出了REP标准,它几乎已经成为网站用来告诉自动爬虫程序的哪些部分不应该被处理的标准。例如谷歌的网页抓取机器人Googlebot(类似百度蜘蛛)在为网站建立索引时会扫描robots.txt文件,以检查应该忽略哪些部分的特殊说明。它最大限度地减少了无意义的索引,有时会隐藏敏感信息。此外,这些文件并不仅仅用于给出直接的爬行指令,还可以填充某些关键字,以改善搜索引擎优化,以及其他用例。

不过,谷歌认为需要对其爬虫技术进行改进,该公司正在公开寻找用于解码robots.txt解析器,试图建立一个真正的网络爬行标准。理想情况下,这将从如何揭开robots.txt文件神秘面纱,并创造更多通用格式。

谷歌倡议向国际互联网工程任务组提交自己方法,将“更好地定义”爬虫应该如何处理 robots.txt,并减少一些意外。

该草案并不完全可用,但它将不仅适用于网站,还包括最小文件大小、设置最大一天缓存时间以及在服务器出现问题时让网站休息。

  • 相关推荐
  • 大家在看
  • 爬虫大战! 看邦盛科技如何反爬抓“虫”?

    如果把互联网想象成一个很大的蜘蛛网,百度或谷歌(不是日常黑哦)就是上面的大“蜘蛛”,这只“蜘蛛”一刻不停的在网上寻找“食物”(互联网上的各种信息),然后把它们存到“冰箱”里以备后用。当用户在百度中搜索车票时,百度就会立即将“冰箱”中的购票网站提供给你,然后你就愉快的买到了车票。问题来了,既然爬虫这么优秀,为什么还要反爬虫呢?时间很快过去,有一天你要去旅游,于是用百度找到了那个购票网站,但这时你发现网站?

  • 三星电子与电信运营商Telus达成5G网络设备供应协议

    6月19日消息,据国外媒体报道,同华为、爱立信等电信设备供应商一样,三星电子也是全球为数不多的能向电信运营商提供5G设备的厂商,他们近日又获得了一份5G网络设备供应协议。三星电子新获得的,是来自电信运营商Telus的5G网络设备订单。Telus是加拿大的一家电信运营商,他们已经在加拿大多个城市推出了5G商用网络,他们选定三星电子为5G基础设施设备的供应商。从外媒的报道来看,与Telus签订合同,是三星电子过去7个?

  • 谷歌开发类AirDrop应用Nearby Share:支持Windows/Mac/Chrome OS

    据外媒报道,谷歌已经为Android开发了一个类似于Airdrop的文件共享服务。尽管多次泄露,但该公司仍未宣布其这个全新的本地文件共享服务。这使得许多Android OEM厂商如三星、OPPO、OnePlus、Realme、小米和其他厂商都推出了自己的快速文件共享协议。不过,看起来谷歌的文件共享服务比其他协议拥有一个关键优势,那就是它可以在运行Windows、macOS、Linux乃至Chrome OS的PC上运行。

  • 除域名外,谷歌Chrome 85将隐藏详细的URL地址

    谷歌正加紧实施新的计划,以在Chrome中隐藏除域名以外的所有URL地址。据外媒报道,Chrome的Dev和Canary 通道(V85)中出现了一些新的特性标志,它们修改了地址栏中网址的外观和行为。

  • 亚马逊员工跳槽谷歌遭起诉 称其违反亚马逊竞业禁止协议

    近日,亚马逊前营销主管莱恩·霍尔因跳槽到谷歌被老东家亚马逊起诉。亚马逊云服务部门AWS周一在诉状中称,霍尔跳槽到谷歌云部门违反了和亚马逊的竞业禁止协议,可能泄露AWS的商业机密。因为亚马逊的诉讼,霍尔目前还没有正式入职谷歌。

  • P40 Pro传50GB文件只要十几分钟 华为揭秘:打破TCP协议限制

    换手机最痛苦的一件事大概就是倒资料了,如果微信用的比较多,那文件总量动辄几十甚至上百GB。这么多文件在两台手机之间传输很费时,但华为EMUI 10.1手机快得很,50GB文件十几分钟就传完了。用

  • 谷歌Pixel 4 Android 11降级Android 10出bug:面部识别不能用

    6月15日消息,上周Android 11 Beta 1正式上线,谷歌Pixel机型率先尝鲜。考虑到这是Beta版Android 11,系统方面不够稳定,不少Pixel用户升级到Android 11之后选择降级回到Android 10,然而在降

  • 谷歌Pixel尝鲜!Android 11 Beta 1发布

    6月11日消息,谷歌正式推出Android 11 Beta 1。当前谷歌Pixel 2、Pixel 2 XL、Pixel 3、Pixel 3 XL、Pixel 3a、Pixel 3a XL、Pixel 4、Pixel 4 XL等机型可以尝鲜Android 11 Beta 1。对话通知

  • Android 12曝光:谷歌欲全面抛弃对32位的支持

    因为32位的固有限制,不少主流操作系统已经切换到64位环境,比如iOS 11、macOS Catalina等,Windows 10也自v2004版本开始停止向OEM分发32位系统。下面,该Android了。据开发者爆料,Android

  • 继Edge之后 谷歌将减少Chrome在Win10上的内存占用

    对于一款市占比超过60%份额的浏览器来说,谷歌仍然在不遗余力的优化Chrome,这确实是个好消息。据外媒报道称,Chrome程序员Bruce Dawson也在其公司的浏览器中添加了一个补丁,从而让Chrome可以

  • 共奏音乐:谷歌推Chrome实验应用Shared Piano

    据外媒报道,谷歌推出了一项名为Shared Piano(共享钢琴)的Chrome新实验,它可以让多人同时弹奏一架数码钢琴。这些音调将被记录下来并以彩色列的形式呈现出来。谷歌希望能实现一个人演奏歌曲的一部分另一个人可以演奏另一部分--或如果一位演奏者有一个“房间”的演奏者,每个人都可以为最终的杰作做出贡献。

  • 谷歌意外推送Android 11 Beta更新,新功能泄露

    据Android Police 消息,谷歌日前已推迟原定于本周举行的 Android 11 Beta 发布活动,但有少数用户的 Pixel 4 XL 手机上提前收到了 Android 11 Beta 更新,于是一些新功能被泄露出来

  • 谷歌推出Android新功能:“呼叫验证”可减少垃圾电话

    据外媒PhoneArena消息,谷歌开发出了一项新的Android功能——“呼叫验证”,该功能可以帮助用户确定是否需要接听电话。

  • 出于隐私考虑:苹果拒绝在Safari部署16个Web API

    据外媒报道,苹果本周表示,它拒绝在Safari浏览器上实施 16 项新网络技术(Web API),因为这些技术为用户指纹识别开辟了新途径从而对他们的隐私构成威胁。这 16 项技术具体如下:

  • 安卓手机新功能对标苹果AirDrop 谷歌开发NearbyShare

    近日,有外媒报道称,谷歌已经为Android开发了一个类似于Airdrop的文件共享功能“Nearby Share”,可支持附近的Android设备之间快速无线传输文件。据悉谷歌文件显示,该共享服务可在Windows、macOS、Linux乃至Chrome OS的PC上运行。

  • 正式回归!索尼首席动画师:《蜘蛛侠:平行宇宙2》已开始制作

    对于那些期待《蜘蛛侠》续集的影迷来说,新作正在来的路上了。索尼首席动画师Nick Kondo今日(6月9日)发推,表示自己已经投身于《蜘蛛侠:平行宇宙2》的制作之中。在今年4月底的时候,官方

  • 黑、白易引发争议 谷歌Chrome将不再使用“黑名单”一词

    在美国、欧洲等西方国家,BlackLivesMatter运动愈演愈烈,这件事不仅会影响人们的生活,连科技行业也要受到波及。谷歌现在就决定放弃Chrome浏览器的两个单词——Blacklist黑名单、Whi

  • Google因拒绝为新闻付费 遭出版商攻击

    DoNews 6月19日消息(记者 刘文轩)据彭博社报道,出版商贸易组织News Media Alliance在一份提交给美国司法部的报告中称,Google使新闻机构在没有获得足够报酬的情况下出让其新闻内容。美国司法部目前正在调查Google可能的违反反垄断法的行为。新闻媒体联盟表示,Google严重依赖新闻内容来吸引流量和推动其广告业务,但由于它是一家拥有着强大权力的在线平台,新闻机构很难与这家公司就新闻内容许可证一事展开实际的谈判。知情人士

  • 拒绝宕机!Intel携手ZStack将F.T.技术推向生产应用

    企业数字化、智能化转型还在继续,新基建浪潮已经来临。新基建不仅是国家长期的战略部署,更是拉动中国经济新的增长点。云计算作为新基建的基础,必将迎来前所未有的发展契机!全面推行数字经济的过程中,老旧的IT应用不可能完全被取代,必然对底层的计算、存储、网络提出更高的要求,在特殊场景中,例如ETC,业务的连续性变成首要考虑的问题,然而现实情况是,如果没有在应用层进行相应改写,云平台层面是无法实现容灾的。针对这?

  • 谷歌删除了106个恶意Chrome扩展 下载次数超3千万

    日前,谷歌已经删除了 106 个收集敏感用户数据的恶意Chrome扩展,这是一共被发现 111 个Chrome问题扩展的一部分。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议

热文

  • 3 天
  • 7天