百度VIP大讲堂QA集锦：抓取、建库、解析

2014-12-16 09:52 · 稿源：站长之家

编者按：《VIP大讲堂》是百度站长平台于2014年为站长们解答建站、运营等问题而开设的讲堂，仅VIP俱乐部成员可报名参加。通过《VIP大讲堂》，站长们可以从百度官方了解到比较新的百度技术动态、以及百度对待站点的态度等内容，还可以学习到关于搜索引擎优化、建站、内容建设、安全等多方面的内容。近日，百度站长平台发布了VIP大讲堂上海站的QA内容，主要包括Spider抓取、优先建库、以及网页解析三个方面。

主要QA内容如下：

问：为什么收录量像坐过山车一样的，还有为什么有些网页今天在明天就没了？

答：百度会周期建库，且每个库的收录量是恒定的，你老是有新增，肯定会再从库里淘汰一些，反正总是保持那个库是满的。在建库的过程中，你会感觉有波动。具体的怎么筛，哪个页面会留下哪个页面会淘汰，这个策略是有很多的，他随着时间的变化，收录的标准策略也是在发生微调。

问：我们站点使用CDN加速会不会比较容易造成蜘蛛无法抓取？因为有时候修改掉他绑定的什么东西。

答：如果要修改掉一定要通知到上一级，现在不存在这个问题，现在你如果修改掉也可以解析掉，之前可能会存在这个问题。

问：你们百度自己也有一个CDN加速，对抓录排名有没有影响？

答：在使用CDN加速这个问题上，我们对所有站点一视同仁。但我建议你使用技术能力强的CDN服务商，保证站点的稳定和速度，百度会更喜欢。

问：刚才您说IP上的站点数不能太多，那CDN这种情况怎么办？

答：CDN的情况另说，如果我们识别出来是CDN的话不会受站点数量的影响，如果你是提供独立IP的话会有这样一些问题。

问：还是IP上站点数量的问题，如果是主域跟二级域名呢？也受数量限制？

答：我说的是独立域名。当然质量比较好的二级域名也可以认为是独立域名。

问：多个域名，他有相同的一些内容，怎么建库？

答：如果是多域名在同一个主域下面有相同内容的话，不可能所有都建库，而且被建库的那个可能不是你希望的那个，所以尽量不要有相同的内容。

问：刚才讲的IP如果是多域名的话，好几百个IP域名，现在我们也用了CDN，按照刚才的说法，单个IP最多抓多少？1000万是说对站点还是对IP？

答：对IP，但1000万是我举例，不是实际的数据，这个数据不会分享出来的。

问：现在我的网站被很多蜘蛛爬，我想只让百度蜘蛛爬，百度蜘蛛IP多少？能设白名单么？

答：百度蜘蛛IP是不断变的，现在网上的确有一些白名单的说法，暂时是有较的，但不保证今后不会变，所以建议站点还是通过ua进行判断，我们百度站长平台上有相关的文章，你可以找一下。

问：如果我写robots只想禁掉动态链接的话，会不会影响动态参数前面正常链接的抓取？

答：不会的，你原来的页面还在，肯定会抓。

问：比如我们一个域名www.abcde.com，我们想把带？号的url全部禁掉，首页我们不要禁掉，怎么弄？

答：?前面有个*，后面再有个*就可以了。

问：我想了解，如果我现在收录有5万，大概多长时间才能把我原来收录5万重新抓取一遍？

答：不同站点不好说，一个是你站点做的很好，知名度很响更新很快质量很好就会快；如果你的站点默默无闻，贡献很少，可能就会很慢。

（接上个问题）

问：就是差不多的情况，大概。

答：这个没有人能估出来。

问：百度站长平台上有数据提交的工具，我们实时提交，你们也会实时抓取吗？

答：不会，他会有一层判断。现在只是通知你提交成功，后面什么时候抓，什么时候建库没有，我们正在研究要不要把这个分享出来。

问：我网站有一些列表页，都没有链接，担心百度抓不到

答：现在百度站长平台的站内搜索工具有一个绿色收录通道，在那里提交种子页，我们就知道的。

（接上个问题）

问：提交种子页面必须要用站搜？

答：是的。

问：如果说页面里url特别多的话，蜘蛛会不会有选择性的进行抓取？

答：不会，他都会一个不漏给你提出来，但会把JS、CSS这样的链接给过滤掉。但请注意，全部抓取过来之后会进行筛选，并不是所有都会建库。

问：现在很多网站都有自己的站内搜索，都会产生站内搜索结果页，百度不喜欢搜索结果页的话，我们用这个会不会对我们有影响？只是不喜欢还是对我们网站会有惩罚

答：蜘蛛会去抓，抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量不好问题不大，如果整体质量较差，有可能受到惩罚。

问：新出的时效性文章当时没有被收录，后期是否还会被收录？

答：会

问：站点每天比较高爬虫多少次？

答：这个其实说不好，有的站点我们一天会抓一两千万，有的站点只抓几个、几十个，看你的规模和质量，而且这个抓取量也是会根据网站的情况进行调整的。

问：我们的页面本身就很大，会不会解析不出来？

答：页面本身很大倒没问题，赶集、安居客这些量都很大，没有问题。我刚才说的例子，你每次都follow出来新链接，随机把后面的参数去掉都不影响这个网页的正常访问，这种肯定有问题的。

问：刚才说对URL的长度有要求，那对每一段、就是目录名的长度有没有要求

答：没有要求，我们是要求url从www开始到结束，总长度不超过1024个字节。

问：站内重复内容是怎么判断的？文本内容一样结构不一样，算不算重复？

答：算重复

问：假设是整个页面全是Flash，如果我把一些栏目或者比较新的内容隐藏掉，不影响美观隐藏掉，如果用hidden属性能不能提取出来？CSS可不可以？

答：hidden可以提出来，但如果是注释就不会管。CSS不可以。

问：页面大小不超过1兆，是指页面压缩以前还是以后。

答：指页面压缩以后，不要超过1兆

问：我网站的信息已经过时了，但网页返回的是200，会受惩罚？为什么呀？

答：用户在搜索结果里点了你的结果，导流导到你的网站，但没什么可看的，对用户没有用，百度当然不喜欢。

问：现在我们很多网站，为了让用户觉得有意思，内容没了就放一张图片，写一些有意思的话，什么“工程师去哪啦”之类的，对百度友好不？

答：较好不要用，我知道站点是想让百度当内容死链来识别，但内容死链识别起来是有准确率和召回率风险的。

问：我们团购网站的确会有过期团购的页面，会受惩罚吗

答：如果量特别大、点击量很大的话肯定会有惩罚的。有些可以当内容死链被分析出来，如果分析不出来，会被一些其他的策略挖出来，会有这样的问题。

问：刚才说资讯内容页面，上面有个发布时间好，那如果页面上没有时间呢？

答：那我们往往是按当时抓取的时间来做判定。

问：评论里面时间重要吗。

答：百度更重视主体内容的时间，评论不算主体内容。

问：我们是个平台，很多产品其实只是一个型号变更了，其实颜色都是一模一样的，对蜘蛛而言仅仅只是几个字符，会被识别为重复吗

答：如果是一个产品的结构化信息的话，应该不会被认为是重复。如果你是简单内容摘要的方式进行介绍的话，可能会存在重复问题。

问：静态URL和动态URL区别大吗？

答：不大，我们现在认为静态和动态都一样的，因为从url上面他能够识别出来，但是抓取回来的东西不太一样。所以现在认为无论你是静态还是动态，我们都认为同样都是url来对待。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
百度员工在飞机上全程一个姿势赶PPT火了当事人：别上价值

快科技3月20日，近日一位小哥在飞机上全程一个姿势赶PPT的视频火了，点赞高达18万，评论超1.3万条。

飞机上工作 PPT制作百度智能云
百度推出AI视频创作模型D&S-AI Video 由百度智能云一念提供支持

百度智能云与迪思传媒合作开发的AI视频创作模型D&S-AlVideo正式上线，并集成至迪思AI智链。D&S-AIVideo凭借其强大的计算与数据分析能力，可以实现对海量视频素材的智能拆分与标签配置，并依托迪思AI智链的生文模型，实现视频的一键生成。迪思传媒已经将一念用于营销活动中，如只需告诉一念“帮我生成一个，大模马自达CX-50的视频宣传文案”型即可生成脚本、深度理解内容、进行画面抽取、匹配音乐、字幕、配音，5分钟内生成一支符合短视频平台的竖版创意视频。

百度智能云 AI视频创作模型 D&S-AlVideo
爱企查原来是百度旗下商查利器？年度短剧带您揭晓

蒙面大瞎面试结局成谜?看神算子如何洞悉真相扭转乾坤?高端局风起云涌到底何方神圣?00后如何打败职场马屁精成为反卷翘楚?3月25日，爱企查年度短剧重磅上线。进入爱企查视频号即可观看。四幕故事交织，悬念与反转不断。【求职招聘】——破局“盲盒式”招聘求职不再两眼一抹黑信息爆炸时代，求职者可能面临更多的选择和机会，但难辨真假的繁杂招聘信息，同步增加了�

求职招聘人力资源市场蒙面面试
荐阿里、百度双双出手，大模型长文本时代终于到来？

AGI时代，越来越近了。全民Long-LLM时代终于到来。在大模型长文本技术的支持下，AGI时代将在不久后真正到来。

AGI 人工智能大模型工具
百度正式发布文心大模型4.0工具版

文心大模型4.0的工具版正式问世。这款大模型在通用能力上取得了显著进步，特别是在代码生成、解释和优化等方面，已经达到国际先进水平。文心大模型4.0的工具版的发布，将为广大用户带来更加便捷、高效的AI体验，助力各行各业实现智能化升级。

百度AI 大模型4.0 代码生成
法行宝体验入口百度AI法律服务平台使用地址

法行宝是一款集成了人工智能技术的法律服务平台，旨在为用户提供专业的法律意见和文书参考。通过预设问题引导用户提供必要信息，结合《中华人民共和国民法典》等相关法律法规，生成详细的法律意见书。要获取更多详细信息并开始使用法行宝，请访问法行宝官方网站。

法行宝
百度何俊杰：文心智能体平台，让人人可开发、人人可经营、人人可获益

4月16日，Create2024百度AI开发者大会在深圳举行。百度创始人、董事长兼首席执行官李彦宏以“人人都是开发者”为题发表演讲，为全球开发者带来“组团出道”的文心大模型系列以及AgentBuilder、AppBuilder、ModelBuilder三大“开箱即用”的AI开发工具。百度欢迎所有企业、开发者、生态伙伴，共同把握智能体带来的新机遇，开辟下一个流量黄金时代。

百度AI开发者大会李彦宏文心大模型
百度网盘推出AI创意生成工具“超能画布”

百度网盘近日推出了一款名为“超能画布”的AI创意生成工具，专为人像摄影量身打造。这款工具凭借其独特的图像大模型和智能人脸融合算法，让摄影师们能够通过简单的操作，实现创意的无限延伸。超能画布还提供了灵感联想、风格模型、追加风格、高级设置等功能，帮助用户更好地创作出符合自己需求的作品。

百度网盘 AI创意生成工具人像摄影
百度发布新一代智能计算操作系统！定名万源

在今天的2024百度CreateAI开发者大会上，百度集团执行副总裁、百度智能云事业群总裁沈抖宣布，百度新一代智能计算操作系统万源正式发布。在内核层面，万源可将现有的算力资源发挥到极致，并且能自由选择不同芯片组合。已经成为AI原生时代的智能计算操作系统，为用户提供极简的开发体验、智能的系统内核，和高效的异构算力。

人工智能智能计算操作系统百度
苹果迈入AI时代！曝国行版iPhone 16 AI功能由百度提供

苹果与百度公司已达成合作协议，百度将为iPhone内置的生成式人工智能大模型提供技术支持。苹果生成式人工智能大模型的合作伙伴包括谷歌、百度、OpenAI等公司。预计在今年6月份的WWDC上，iOS18将正式亮相，届时苹果将公布部分生成式AI功能的详情。

苹果百度人工智能

mistral-common:Mistral模型工具集

mistral-common是一套帮助您处理Mistral模型的工具。它不仅包含文本到token的转换，还增加了工具解析和结构化对话。目前发布了三个版本的tokenizer，分别适用于不同的模型集合。

自然语言处理 Mistral模型 tokenizer

Spline AI 3D Generation:快速生成三维模型的AI工具

AI 3D Generation是Spline推出的一款3D设计工具，它支持文本到3D生成和图像到3D生成，允许用户通过简单的文本提示或2D图像自动创建出详细且精确的3D模型。该工具具有生成变体与混合、直观且适合初学者、创建独特的3D库、平台集成与实时协作、易于集成和发布等功能。

3D设计 AI生成文本到3D

FocuSee:轻松录屏软件会自动跟踪光标移动美化录屏效果

FocuSee 自动跟踪光标移动，应用动态缩放效果，为您节省宝贵时间和额外的努力。适用于演示，教程，推广视频等多种场景。

屏幕录制视频制作自动化编辑

Ai-to-pptx:使用AI技术来自动生成PPTX 支持在线修改

Ai-to-pptx 是一个使用 AI 技术 (ChatGpt 和 Gemini) 制作 PPTX 的助手，支持在线修改和导出 PPTX。主要功能包括使用 ChatGPT 等大语言模型生成大纲、允许用户再次修改内容、选择不同模板、在线修改 PPTX 的文字、样式、图片等，支持导出 PPTX、PDF、PNG 等多种格式。价格为付费，商业授权价格为 22000 元人民币或 3000 美元。

PPTX AI 技术在线修改

CodeQwen1.5:开源代码助手，高效编程新选择

CodeQwen1.5是一个基于Qwen语言模型的代码专家模型，拥有7B参数，支持92种编程语言，最长支持64K的上下文输入。它具备代码生成、长序列建模、代码修改和SQL能力等，旨在提高开发人员的工作效率，简化软件开发流程。

代码生成长序列处理代码优化

PixArt-Sigma:4K文本到图像生成的扩散变换器

PixArt-Sigma是一个基于PyTorch的模型定义、预训练权重和推理/采样代码的集合，用于探索4K文本到图像生成的弱到强训练扩散变换器。它支持从低分辨率到高分辨率的图像生成，提供了多种功能和优势，如快速体验、用户友好的代码库和多种模型选择。

AI图像生成文本到图像 4K分辨率

InstantMesh:高效3D网格生成框架

InstantMesh是一个基于LRM架构的前馈框架，用于从单张图像高效生成3D网格。它支持低内存GPU环境，并能生成具有纹理映射的3D网格模型。

3D建模图像处理机器学习

MagicClothing:基于LDM的服装驱动图像合成AI

MagicClothing是一种基于潜在扩散模型（LDM）的新型网络架构，专门用于服装驱动的图像合成任务。它能够根据文本提示生成穿着特定服装的定制化角色图像，同时确保服装细节的保留和对文本提示的忠实呈现。该系统通过服装特征提取器和自注意力融合技术，实现了高度的图像可控性，并且可以与ControlNet和IP-Adapter等其他技术结合使用，以提升角色的多样性和可控性。此外，还开发了匹配点LPIPS（MP-LPIPS）评估指标，用于评价生成图像与原始服装的一致性。

AI 图像合成服装设计

FireCrawl:无需站点地图，一键抓取网站所有子页面

FireCrawl 是一款由 Mendable.ai 开发的开源项目，它能够无需站点地图即可抓取任何网站的所有可访问子页面，并将这些内容转换为干净、格式化的Markdown文档。它特别适合数据科学家、机器学习工程师、内容创作者和市场分析师使用，以从网站内容中提取有价值的信息。FireCrawl 能够处理使用JavaScript动态渲染的内容，提供API服务，支持自托管，并与多种开发者工具和框架集成。

数据抓取内容转换动态内容处理

Atlas:下一代电动机器人

Atlas是波士顿动力公司开发的一款先进的人形机器人，它结合了数十年的研究和实际经验，旨在解决当今工业领域中最艰巨的挑战。新一代的Atlas机器人是全电动的，比以往的液压版本更强大，动作范围更广，能够更高效地完成各种任务。Atlas机器人配备了新的AI和机器学习工具，如强化学习和计算机视觉，以确保它们能够适应复杂的现实世界情况。此外，Atlas将与波士顿动力公司的Orbit™软件集成，该软件提供了一个集中的平台来管理整个机器人车队、站点地图和数字化转型数据。

人形机器人 AI 机器学习

Stable Diffusion 3 API:先进的文本到图像生成系统

Stable Diffusion 3是一款先进的文本到图像生成系统，它在排版和提示遵循方面与DALL-E 3和Midjourney v6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器(MMDiT)架构，使用不同的权重集来改善图像和语言的表示，从而提高文本理解和拼写能力。Stable Diffusion 3 API现已在Stability AI开发者平台上线，与Fireworks AI合作提供快速可靠的API服务，并承诺在不久的将来通过Stability AI会员资格开放模型权重以供自托管。

百度VIP大讲堂QA集锦：抓取、建库、解析

今日大家都在搜的词：

热文

站长商机