首页 > 优化 > 关键词  > 百度站长平台最新资讯  > 正文

百度VIP大讲堂QA集锦:抓取、建库、解析

2014-12-16 09:52 · 稿源:站长之家

编者按:《VIP大讲堂》是百度站长平台于2014年为站长们解答建站、运营等问题而开设的讲堂,仅VIP俱乐部成员可报名参加。通过《VIP大讲堂》,站长们可以从百度官方了解到比较新的百度技术动态、以及百度对待站点的态度等内容,还可以学习到关于搜索引擎优化、建站、内容建设、安全等多方面的内容。近日,百度站长平台发布了VIP大讲堂上海站的QA内容,主要包括Spider抓取、优先建库、以及网页解析三个方面。

主要QA内容如下:

问:为什么收录量像坐过山车一样的,还有为什么有些网页今天在明天就没了?

答:百度会周期建库,且每个库的收录量是恒定的,你老是有新增,肯定会再从库里淘汰一些,反正总是保持那个库是满的。在建库的过程中,你会感觉有波动。具体的怎么筛,哪个页面会留下哪个页面会淘汰,这个策略是有很多的,他随着时间的变化,收录的标准策略也是在发生微调。

问:我们站点使用CDN加速会不会比较容易造成蜘蛛无法抓取?因为有时候修改掉他绑定的什么东西。

答:如果要修改掉一定要通知到上一级,现在不存在这个问题,现在你如果修改掉也可以解析掉,之前可能会存在这个问题。

问:你们百度自己也有一个CDN加速,对抓录排名有没有影响?

答:在使用CDN加速这个问题上,我们对所有站点一视同仁。但我建议你使用技术能力强的CDN服务商,保证站点的稳定和速度,百度会更喜欢。

问:刚才您说IP上的站点数不能太多,那CDN这种情况怎么办?

答:CDN的情况另说,如果我们识别出来是CDN的话不会受站点数量的影响,如果你是提供独立IP的话会有这样一些问题。

问:还是IP上站点数量的问题,如果是主域跟二级域名呢?也受数量限制?

答:我说的是独立域名。当然质量比较好的二级域名也可以认为是独立域名。

问:多个域名,他有相同的一些内容,怎么建库?

答:如果是多域名在同一个主域下面有相同内容的话,不可能所有都建库,而且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。

问:刚才讲的IP如果是多域名的话,好几百个IP域名,现在我们也用了CDN,按照刚才的说法,单个IP最多抓多少?1000万是说对站点还是对IP?

答:对IP,但1000万是我举例,不是实际的数据,这个数据不会分享出来的。

问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么?

答:百度蜘蛛IP是不断变的,现在网上的确有一些白名单的说法,暂时是有较的,但不保证今后不会变,所以建议站点还是通过ua进行判断,我们百度站长平台上有相关的文章,你可以找一下。

问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取?

答:不会的,你原来的页面还在,肯定会抓。

问:比如我们一个域名www.abcde.com,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄?

答:?前面有个*,后面再有个*就可以了。

问:我想了解,如果我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍?

答:不同站点不好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;如果你的站点默默无闻,贡献很少,可能就会很慢。

(接上个问题)

问:就是差不多的情况,大概。

答:这个没有人能估出来。

问:百度站长平台上有数据提交的工具,我们实时提交,你们也会实时抓取吗?

答:不会,他会有一层判断。现在只是通知你提交成功,后面什么时候抓,什么时候建库没有,我们正在研究要不要把这个分享出来。

问:我网站有一些列表页,都没有链接,担心百度抓不到

答:现在百度站长平台的站内搜索工具有一个绿色收录通道,在那里提交种子页,我们就知道的。

(接上个问题)

问:提交种子页面必须要用站搜?

答:是的。

问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取?

答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。

问:现在很多网站都有自己的站内搜索,都会产生站内搜索结果页,百度不喜欢搜索结果页的话,我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩罚

答:蜘蛛会去抓,抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量不好问题不大,如果整体质量较差,有可能受到惩罚。

问:新出的时效性文章当时没有被收录,后期是否还会被收录?

答:会

问:站点每天比较高爬虫多少次?

答:这个其实说不好,有的站点我们一天会抓一两千万,有的站点只抓几个、几十个,看你的规模和质量,而且这个抓取量也是会根据网站的情况进行调整的。

问:我们的页面本身就很大,会不会解析不出来?

答:页面本身很大倒没问题,赶集、安居客这些量都很大,没有问题。我刚才说的例子,你每次都follow出来新链接,随机把后面的参数去掉都不影响这个网页的正常访问,这种肯定有问题的。

问:刚才说对URL的长度有要求,那对每一段、就是目录名的长度有没有要求

答:没有要求,我们是要求url从www开始到结束,总长度不超过1024个字节。

问:站内重复内容是怎么判断的?文本内容一样结构不一样,算不算重复?

答:算重复

问:假设是整个页面全是Flash,如果我把一些栏目或者比较新的内容隐藏掉,不影响美观隐藏掉,如果用hidden属性能不能提取出来?CSS可不可以?

答:hidden可以提出来,但如果是注释就不会管。CSS不可以。

问:页面大小不超过1兆,是指页面压缩以前还是以后。

答:指页面压缩以后,不要超过1兆

问:我网站的信息已经过时了,但网页返回的是200,会受惩罚?为什么呀?

答:用户在搜索结果里点了你的结果,导流导到你的网站,但没什么可看的,对用户没有用,百度当然不喜欢。

问:现在我们很多网站,为了让用户觉得有意思,内容没了就放一张图片,写一些有意思的话,什么“工程师去哪啦”之类的,对百度友好不?

答:较好不要用,我知道站点是想让百度当内容死链来识别,但内容死链识别起来是有准确率和召回率风险的。

问:我们团购网站的确会有过期团购的页面,会受惩罚吗

答:如果量特别大、点击量很大的话肯定会有惩罚的。有些可以当内容死链被分析出来,如果分析不出来,会被一些其他的策略挖出来,会有这样的问题。

问:刚才说资讯内容页面,上面有个发布时间好,那如果页面上没有时间呢?

答:那我们往往是按当时抓取的时间来做判定。

问:评论里面时间重要吗。

答:百度更重视主体内容的时间,评论不算主体内容。

问:我们是个平台,很多产品其实只是一个型号变更了,其实颜色都是一模一样的,对蜘蛛而言仅仅只是几个字符,会被识别为重复吗

答:如果是一个产品的结构化信息的话,应该不会被认为是重复。如果你是简单内容摘要的方式进行介绍的话,可能会存在重复问题。

问:静态URL和动态URL区别大吗?

答:不大,我们现在认为静态和动态都一样的,因为从url上面他能够识别出来,但是抓取回来的东西不太一样。所以现在认为无论你是静态还是动态,我们都认为同样都是url来对待。

举报

  • 相关推荐
  • 大家在看
  • mistral-common:Mistral模型工具集

    mistral-common是一套帮助您处理Mistral模型的工具。它不仅包含文本到token的转换,还增加了工具解析和结构化对话。目前发布了三个版本的tokenizer,分别适用于不同的模型集合。

  • Spline AI 3D Generation:快速生成三维模型的AI工具

    AI 3D Generation是Spline推出的一款3D设计工具,它支持文本到3D生成和图像到3D生成,允许用户通过简单的文本提示或2D图像自动创建出详细且精确的3D模型。该工具具有生成变体与混合、直观且适合初学者、创建独特的3D库、平台集成与实时协作、易于集成和发布等功能。

  • FocuSee:轻松录屏 软件会自动跟踪光标移动美化录屏效果

    FocuSee 自动跟踪光标移动,应用动态缩放效果,为您节省宝贵时间和额外的努力。适用于演示,教程,推广视频等多种场景。

  • Ai-to-pptx:使用AI技术来自动生成PPTX 支持在线修改

    Ai-to-pptx 是一个使用 AI 技术 (ChatGpt 和 Gemini) 制作 PPTX 的助手,支持在线修改和导出 PPTX。主要功能包括使用 ChatGPT 等大语言模型生成大纲、允许用户再次修改内容、选择不同模板、在线修改 PPTX 的文字、样式、图片等,支持导出 PPTX、PDF、PNG 等多种格式。价格为付费,商业授权价格为 22000 元人民币或 3000 美元。

  • CodeQwen1.5:开源代码助手,高效编程新选择

    CodeQwen1.5是一个基于Qwen语言模型的代码专家模型,拥有7B参数,支持92种编程语言,最长支持64K的上下文输入。它具备代码生成、长序列建模、代码修改和SQL能力等,旨在提高开发人员的工作效率,简化软件开发流程。

  • PixArt-Sigma:4K文本到图像生成的扩散变换器

    PixArt-Sigma是一个基于PyTorch的模型定义、预训练权重和推理/采样代码的集合,用于探索4K文本到图像生成的弱到强训练扩散变换器。它支持从低分辨率到高分辨率的图像生成,提供了多种功能和优势,如快速体验、用户友好的代码库和多种模型选择。

  • InstantMesh:高效3D网格生成框架

    InstantMesh是一个基于LRM架构的前馈框架,用于从单张图像高效生成3D网格。它支持低内存GPU环境,并能生成具有纹理映射的3D网格模型。

  • MagicClothing:基于LDM的服装驱动图像合成AI

    MagicClothing是一种基于潜在扩散模型(LDM)的新型网络架构,专门用于服装驱动的图像合成任务。它能够根据文本提示生成穿着特定服装的定制化角色图像,同时确保服装细节的保留和对文本提示的忠实呈现。该系统通过服装特征提取器和自注意力融合技术,实现了高度的图像可控性,并且可以与ControlNet和IP-Adapter等其他技术结合使用,以提升角色的多样性和可控性。此外,还开发了匹配点LPIPS(MP-LPIPS)评估指标,用于评价生成图像与原始服装的一致性。

  • FireCrawl:无需站点地图,一键抓取网站所有子页面

    FireCrawl 是一款由 Mendable.ai 开发的开源项目,它能够无需站点地图即可抓取任何网站的所有可访问子页面,并将这些内容转换为干净、格式化的Markdown文档。它特别适合数据科学家、机器学习工程师、内容创作者和市场分析师使用,以从网站内容中提取有价值的信息。FireCrawl 能够处理使用JavaScript动态渲染的内容,提供API服务,支持自托管,并与多种开发者工具和框架集成。

  • Atlas:下一代电动机器人

    Atlas是波士顿动力公司开发的一款先进的人形机器人,它结合了数十年的研究和实际经验,旨在解决当今工业领域中最艰巨的挑战。新一代的Atlas机器人是全电动的,比以往的液压版本更强大,动作范围更广,能够更高效地完成各种任务。Atlas机器人配备了新的AI和机器学习工具,如强化学习和计算机视觉,以确保它们能够适应复杂的现实世界情况。此外,Atlas将与波士顿动力公司的Orbit™软件集成,该软件提供了一个集中的平台来管理整个机器人车队、站点地图和数字化转型数据。

  • Stable Diffusion 3 API:先进的文本到图像生成系统

    Stable Diffusion 3是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E 3和Midjourney v6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器(MMDiT)架构,使用不同的权重集来改善图像和语言的表示,从而提高文本理解和拼写能力。Stable Diffusion 3 API现已在Stability AI开发者平台上线,与Fireworks AI合作提供快速可靠的API服务,并承诺在不久的将来通过Stability AI会员资格开放模型权重以供自托管。

  • 奇布塔:AI一站式儿童有声绘本创作平台

    奇布塔是基于人工智能生成技术的绘本创作平台,提供各种风格的有声绘本创作功能,帮助用户创作优质的绘本内容。定价灵活多样,定位于绘本创作者和儿童阅读者市场。

  • VASA-1:实时生成逼真语音驱动人脸

    VASA-1是由微软研究院开发的一个模型,专注于实时生成与音频相匹配的逼真人脸动画。该技术通过深度学习算法,能够根据输入的语音内容,自动生成相应的口型和面部表情,为用户提供一种全新的交互体验。VASA-1的主要优势在于其高度逼真的生成效果和实时响应能力,使得虚拟角色能够更加自然地与用户进行互动。目前,VASA-1主要应用于虚拟助手、在线教育、娱乐等领域,其定价策略尚未公布,但预计将提供免费试用版本供用户体验。

  • Stable Diffusion 3 Free Online:AI创造性视觉的突破性AI

    Stable Diffusion 3是Stability AI推出的最新创新,为创造性图像生成带来突破性的AI。它提供了改进的文本到图像生成算法、多模态能力和用户友好的许可证,免费使用SDXLTurbo.ai。革新设计、动画、游戏等领域,提升文本到图像生成、多模态能力和用户友好的许可证。探索、创造、转化。

  • Platen.ai:AI写作,超越人类能力

    Platen.ai是一款AI写作工具,针对SEO进行优化,能够生成优化的内容,提高有机流量。它集成了作家、研究员和专业的SEO专家的功能,能够根据关键词生成高效的内容。使用Platen.ai,您只需输入关键词,即可轻松生成符合品牌声音和受众需求的SEO优化内容。

  • Ohai:AI增强角色扮演

    Ohai是一个AI增强的角色扮演平台,为用户提供与心爱角色进行有趣的互动故事和私密的一对一聊天。

  • Wikipedia Article AI:快速创建维基百科页面

    Wikipedia Article AI是一个易于使用的工具,几乎可以立即创建维基百科文章。它基于AI技术,根据维基百科的要求生成高质量的、经过事实核实的文章。价格相对于人工撰写的维基百科文章要便宜很多。

  • ZeST:图像材质迁移技术

    ZeST是由牛津大学、Stability AI 和 MIT CSAIL 研究团队共同开发的图像材质迁移技术,它能够在无需任何先前训练的情况下,实现从一张图像到另一张图像中对象的材质迁移。ZeST支持单一材质的迁移,并能处理单一图像中的多重材质编辑,用户可以轻松地将一种材质应用到图像中的多个对象上。此外,ZeST还支持在设备上快速处理图像,摆脱了对云计算或服务器端处理的依赖,大大提高了效率。

  • CleeAI:最准确可信赖的AI搜索引擎

    CleeAI是市场上最准确的AI搜索引擎,通过实时爬取网络提供快速准确的结果。即刻获取您需要的答案,将搜索时间缩短为零。

  • Sonauto :利用AI创作流行歌曲

    Sonauto 索纳托是一款结合人工智能技术的音乐创作平台,用户可以通过该平台轻松创作出流行歌曲。产品功能包括旋律生成、歌词创作、曲风选择等,旨在简化音乐创作流程,让音乐爱好者和专业人士都能快速创作出高质量的音乐作品。优势在于AI的高效算法和丰富的音乐素材库,支持用户进行个性化创作。定价方面,Sonauto 索纳托提供免费试用和付费订阅服务,以满足不同用户的需求。

今日大家都在搜的词: