首页 > 优化 > 关键词  > SEO最新资讯  > 正文

搜索引擎蜘蛛抓取页面过程图解

2012-02-06 16:30 · 稿源:seowlyx.co

学习seo的人经常在网上看到一句话:搜索引擎蜘蛛跟浏览器差不多,都是抓取页面。那么到底哪些一样哪些不一样?Ethan就通过浏览器帮助大家理解搜索引擎蜘蛛怎样抓取页面。

首先看一张图,是用firebug(firefox浏览器的一个著名插件)记录下来的浏览器抓取我网站的情况。

针对图中标识,Ethan解释如下。

1.http协议开始,HTTP协议是典型的请求/响应模式,客户端请求服务器,然后客户端和服务器建立临时通道,然后服务器返回响应。这里浏览器是一种客户端程序,搜索引擎蜘蛛也是一种客户端程序。客户端向服务器发送请求行,然后是请求头信息。图中左上角有“GET www.***.com”,反映了请求行的内容,真正的请求行是下面这行,firebug没有明示:

“GET / HTTP/1.1”

这行的格式是:

请求方法(get、post等)+一个空格+请求的URL(这里“/”表示首页)+一个空格+http协议版本(现在通常是HTTP/1.1,就是http协议1.1版)

记住这个格式,我们在服务器日志里还会看到这种格式的数据。

请求行后面紧跟着请求头信息,其中第一行是host字段,指明了服务器是www.***.com,这是个域名,通过DNS域名解析,变成ip地址,也就是服务器的物理地址。

2.ip地址,后面冒号加80,表明访问的是服务器的80端口。服务器一直处于待命状态,侦听80端口,一旦发现有符合HTTP协议的头信息发过来,就和客户端建立一个临时通道,然后进行内部处理,并把结果通过临时通道返回给客户端。在这个处理的同时,服务器还可以接受其它HTTP请求。

3.客户端开始接收响应信息,最先过来的是状态行,真正的状态行是下面这行,firebug没有明示:

“HTTP/1.1 200 OK”

这里的200就是状态码,表示网页顺利打开。

4.然后客户端收到响应头信息。

5.最后客户端收到响应主体,也就是html代码。

6.注意这里浏览器和搜索引擎蜘蛛不同,浏览器会对html代码进行处理,呈现出我们看得懂的网页;搜索引擎蜘蛛则只负责抓取,把html代码存在数据库里,自己快速去抓取下一个网页。搜索引擎在各地都有蜘蛛服务器,每个服务器同时放出很多蜘蛛,日夜不停地抓取网页。

7.注意响应头信息里有一行gzip,表示html代码经过了gzip压缩。不过没有关系,浏览器和搜索引擎蜘蛛都可以解压缩gzip文件。

8.html代码的大小,如果不压缩,远不止6k。搜索引擎对网页文件大小有个上限,一种说法是128k(未压缩),超过128k的内容不再抓取。

9.注意User-Agent,正是请求头信息里的这个字段,告诉服务器抓取网页的是浏览器还是搜索引擎蜘蛛。有的服务器为了不让百度蜘蛛抓取,会封禁百度蜘蛛的User-Agent,参见百度站长俱乐部发布的百度Spider User-Agent字段更新通知。

本文为www.seowlyx.com的站长梁波(Ethan)原创,转载请注明,谢谢!

举报

  • 相关推荐
  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。

  • 女子车上发现人脸蜘蛛:浓妆艳抹 眼影口红都有

    6 月 29 日,辽宁一位女子在车外意外发现一只外形奇特的蜘蛛,其背部花纹酷似化妆后的人脸,引发关注。 经相关领域专家鉴定,该蜘蛛俗名为斑络新妇,属于络新妇属品种。专家解释称,此类蜘蛛的背部花纹呈现人脸状是自然进化的结果,主要用于威慑天敌或迷惑捕食者。针对公众关心的安全性问题,专家明确表示,斑络新妇性情温和,以小型昆虫为食,其毒液对人类无实

  • 科技共襄,技术共享!知乎与比亚迪仰望启动“智解中国技术”战略互访

    知乎与比亚迪仰望开启"智解中国技术"战略互访,通过"硬科技+软传播"新模式探索科技向上路径。双方以"科技共襄,技术共享"为核心理念,在深圳比亚迪总部和知乎总部开展双场活动,构建知识生态与技术实践的深度链接。比亚迪展示云辇智能车身控制系统等核心技术,知乎则通过创作者将专业参数转化为用户可感知的场景价值。此次合作开创"技术-

  • 火山引擎究竟想要什么?

    火山引擎的名字里没有云。 这件事在以前是个需要解释的事情。2020年底,字节内部的关键决策会议上,正式决定让火山引擎对外提供服务、进入真实的市场,而在这个最初的会议上,字节希望这个技术平台不只是“又一个云计算厂商”。于是干脆从名字就不带云。 在火山引擎进入这个市场的时刻,云计算正处于焦灼的互卷阶段。这是一个需求旺盛的市场,也是一个充满诱惑

  • AI日报:腾讯元宝升级一句话搜索图片视频;微信支付MCP上线;谷歌在全球推出 Veo 3

    【AI日报】今日AI领域重要动态:1)腾讯元宝升级,支持一句话搜索呈现图文视频;2)微信支付MCP上线,AI与支付结合开启商业新纪元;3)谷歌Veo3视频生成模型向Pro/Ultra会员开放,新增"照片生成视频"功能;4)开源DeepSeek R1增强版推理效率提升200%;5)美图WHEE推出"一句话修图"功能;6)芯片公司Ambiq申请美国IPO,受益生成式AI需求;7)昆仑万维开源奖励模型Skywork-Reward-V2;8)Kyutai发布超低延迟开源语音合成技术;9)Figma拟以200亿美元估值登陆纽交所;10)字节跳动开源Trae-Agent智能开发工具。

  • 全国首个外卖新规发布:无堂食商家应实时展示食品加工过程

    近日,重庆市市场监管局对外发布了《无堂食外卖经营服务规范》团体标准,这也是全国首个聚焦无堂食外卖全链条服务的团体标准。 针对相关问题,该标准中对无堂食外卖经营服务的各个环节进行了相关规定。 在经营场所方面,标准中明确要求商家应具备与经营规模相适应的加工场所,且场所布局应合理,能上网公示食品加工过程。

  • 泡泡玛特王宁曾回应身价:从不把这个当作成功 更享受过程

    近日,泡泡玛特王宁38岁1500亿的身价成为大家热议的重点。 据媒体报道,此前王宁在接受采访时也回应过自己身价的问题。 王宁曾坦言:我从来不把这个当作成功。” 他表示:我一直说我的人生理想就是等我老了以后,我会对我的孙子讲说,你爷爷是一个有故事的人。虽然很多人把结果当作一个奋斗目标,但我并不认为结果有什么样的意义。” 王宁解释到:我更享受让我

  • AI之下,搜索获得“无限内容池”

    搜索引擎诞生20余年,其核心一直考验对于海量信息检索、分析、匹配以及呈现的能力。它一头是搜索技术,一头是内容池。 不夸张的说,如果搜索的能力是“巧妇”,可检索分析匹配的内容则是“米”,甚至在后搜索时代,搜索能力之间的差距在减小,用户有了更多的选择,但内容的数量和质量却参差不齐,用户搜索的体验大打折扣。 为了满足给用户更好的搜索体验,百�

  • 力量解限,键启豹发力!八位堂×《解限机》Retro 87黑豹联名键盘震撼登场

    八位堂与《解限机》联名推出Retro87黑豹机械键盘,售价699元。键盘采用87键布局,融入黑豹机甲元素设计,配备凯华Pro机械轴体,支持三模连接和RGB灯效。产品主打"外观性能双突破",双层消音结构降低噪音,4000mAh电池续航达300小时。首发预购赠送限定周边,将游戏科幻美学与工业艺术结合,打造收藏级桌面装备。这款联名键盘既满足游戏需求,也体现了科技与美学的融合。

  • 百度搜索,跳出“框”外

    以AI为“黄金配方”,百度搜索已经悄然生长出了“肌肉”。用户侧最直观的感受是,曾经熟悉的搜索框变“大”了。 “大”从表面看是搜索框所能承载的内容和能调用的工具变多。例如,过去做旅行计划得靠“亲子出游”“漂流”“一天”等关键词堆砌,现在只要用自然语言提需求即可。