首页 > 经验 > 关键词  > 百度收录查询最新资讯  > 正文

百度收录抽查

2011-12-08 10:45 · 稿源:feixiaomi.com

很久没写什么东西了,简单写下,

1 百度收录的site查询是估值,灰常的估

2 最佳查询方式是进行定期抽查

3 去年年中时让邱森写了个简单的爬虫程序,用来抓取url+查询收录自动化实现,简单说下设计需求

a 指定一个url,作为开始抓取的起始点

b 指定一个必填字符串,一个选填字符串,在抓取过程中遇到url中包含上述两个字符串的,则进行记录,生成一个txt或csv文档,储存在指定位置

c 指定一个抓取和抽查的url条数,比如1000条

d 自定义百度的搜索结果页面采集规则

e 针对于抓取到的指定的url,采集百度搜索这些url结果页面,根据自定义的采集规则来判断是否收录

附上一个配置及说明

#爬取URL

SeoTool.CrawlUrl=https://www.tianya.cn/new/publicforum/articleslist.asp?pageno=2&stritem=funinfo∂=0&nextarticle=2010-10-11+9%3A38%3A41&strsubitem=&strsubitem2=

<!– 此处一般指定列表页第二页作为起始页,权值稍低,比较有参考价值–>

#爬取URL字符集

SeoTool.CrawlCharset=gbk <!– 指定页面编码–>

#包含字符串1,必填

SeoTool.CrawlKey1=funinfo/ <!– 必填字符串–>

#包含字符串2,选填

SeoTool.CrawlKey2=.shtml <!– 选填字符串–>

#爬取数量

SeoTool.CrawlCount=1000 <!– 抓取页面数量,为避免内存报错,我一般选1000–>

#TXT文件路径,以 / 结尾

SeoTool.CrawlTextPath=D:/收录抽查/ <!– 抓取的url的txt文件储存位置–>

#TXT文件名

SeoTool.CrawlTextFile=20101011娱乐八卦.txt <!– 该txt文件名称–>

#是否生成CSV文件:0,不生成;1,生成。 <!– 想要个csv也可以–>

SeoTool.CrawlCSV=1

#TXT文件路径,以 / 结尾

SeoTool.CrawlCsvPath=D:/收录抽查/ <!– 收录抽查结果也会生成txt文件,3个哦–>

#TXT文件名

SeoTool.CrawlCsvFile=a.csv <!– csv的储存位置–>

#分析使用的搜索引擎 <!– 百度搜索结果页面的采集规则,前两天百度刚改版,还没修改这个规则->

SeoTool.AnalyticSE=https://www.baidu.com/s?wd=

#分析时的开始标记

SeoTool.AnalyticStartTag=把百度设为主页

#分析时的结束标记

SeoTool.AnalyticEndTag=以下是网页中包含

#定义收录标记

SeoTool.AnalyticIncludeTag=

#定义未收录标记 <!– 采集结果有三种状态,未收录,收录,状态不明,熟悉百度搜索结果的可以不深研究了–>

SeoTool.AnalyticNoIncludeTag=抱歉

#TXT文件路径,以 / 结尾

SeoTool.AnalyticTextPath=D:/temp/analytic/

#收录的URL地址TXT文件

SeoTool.AnalyticIncludeTextFile=include.txt

#未收录的URL地址TXT文件

SeoTool.AnalyticNoIncludeTextFile=noinclude.txt

#分析出现歧义的文件

SeoTool.AnalyticAmbiguityTextFile=ambiguity.txt

收录抽查的好处有以下几点:

针对于海量数据的流量趋势判断

随时关注权值变化

随时预期长尾流量

随时关注真实收录趋势

附上天涯社区的2张百度收录变化图

天涯娱乐八卦版块百度收录变化趋势

详细数据如下

可以看到,2010年10月11日左右的收录值急剧下降,最低时平均千条帖子的收录不到50%

原因:对比该时间段内的热点事件为“小月月事件”,这是一个非常悲催的事件,天涯2010年最热门的事件非其莫属,但是,由于程序底层架构不能支持过大流量,导致天涯在全国各省市,各时间段均遇到了访问过慢,不能访问,服务器500等问题,看似火爆的流量点,带来的反而是整体pv在40%左右的下降

同理,在用户不能正常访问的同时,Baiduspider的抓取也遇到问题,最低值时导致收录数量下降40%+,由于是抓取的周数据,真实情况可能会更低,通过收录抽查能及时的发现该问题,另外,百度收录抽查可同样配合google管理员工具中的googlebot抓取来使用。

ps:但解决不解决所发现的问题,就需要看技术人员,运维人员和老板的脑力了。

原文地址:https://www.feixiaomi.com/seo/2011/583/

举报

  • 相关推荐
  • 国内有哪些AI工具导航网站?2025年最全AI工具导航网站盘点

    本文介绍了国内主要AI工具导航网站,帮助用户快速找到合适的AI资源。重点推荐了AIbase、AI工具集、人工智能导航和AI导航站等平台,这些网站收录了上万种AI工具,涵盖聊天助手、办公、视频、编程、写作、图像等多个领域。文章分析了各平台特色:AIbase规模大、分类全;AI工具集界面简洁更新快;人工智能导航提供综合学习资源;AI导航站有智能推荐系统。建议用户根据需求选择内容丰富、分类清晰、体验良好的导航网站,并关注更新和社区互动,以充分利用AI工具提升效率。

  • AI 工具导航网站哪个好?超全 AI 工具导航网站推荐指南

    本文介绍了当前主流AI工具导航平台的特点和优势,帮助用户快速找到合适工具。重点推荐了5个平台:Futurepedia收录3000+工具,分类细致并提供实测指南;Insidr.ai含500+工具,适合专业用户查找;AI Parabellum对4500+工具进行深度测评;Product Hunt适合发现前沿新品;AIBase覆盖13000+工具,支持多维度筛选。特别推荐AIBase因其工具覆盖广、分类细、更新快、界面友好,并提供详细使用教程和API文档,是寻找AI工具的一站式解决方案。

  • AI 工具多到头疼?AI 工具大全看这个网站就够了

    本文针对AI工具过多、难以筛选的问题,推荐了多个优质AI工具导航平台。文章首先指出当前AI工具数量庞大、信息碎片化严重,普通用户难以快速找到优质工具。随后重点推荐了Insidr.ai、Futurepedia.io、Toolify.ai等国际平台,以及国内平台AIbase,这些平台收录了数千款主流AI工具,覆盖写作、图像生成、编程、办公自动化等各类场景,支持分类检索、工具评测和对比功能。文章特别

  • 最全AI工具导航网站盘点:国内优质AI工具导航平台深度解析

    本文介绍了国内主流AI工具导航网站,帮助用户在海量AI工具中精准定位所需。随着AI技术发展,优质导航网站不仅能系统性分类各类工具,还能提供实时更新的评测和使用指南。重点推荐了5个平台:AIbase(收录超1万工具)、AI工具集(注重实用性评估)、优设AI导航(设计师专用)、AI导航网(创新性工具推荐)、AI工具网(智能搜索匹配)。建议用户根据工具收录量、分类体�

  • 在线 AI 工具大盘点:哪个生图更好用?超实用导航网站推荐

    文章介绍了当前在线AI工具在各领域的广泛应用,重点分析了写作、设计和教育三大领域的代表性工具。写作方面,ChatGPT和豆包能快速生成各类文本内容;设计领域,Adobe Firefly和Canva通过AI简化创作流程;教育工具如松鼠Ai提供个性化学习方案。文章还对比了Midjourney、Stable Diffusion和文心一格等生图工具的优劣,最后推荐AIbase导航网站帮助用户快速找到合适工具。这些AI工具显著

  • 国内MCP服务器搜索引擎有哪些?MCP服务网站推荐

    在人工智能技术飞速发展的今天,AI模型与外部工具和服务的交互能力正逐渐成为推动技术进步的关键因素。今天,我们聚焦于一个新兴的、极具潜力的平台——AIbase(https://mcp.aibase.cn/),它为全球的AI开发者和研究人员提供了一个前所未有的MCP(Model Context Protocol,模型上下文协议)服务器集合平台,助力AI技术的进一步发展。 MCP协议是一种开放标准协议,旨在允许AI模型与外部

  • 樱花动漫网站运营者被捕 被判2年3个月:因侵犯著作权

    据日本内容海外流通协会消息,中国知名动漫网站“樱花动漫”的运营者于2023年10月14日被四川省成都市公安局正式立案调查,涉及刑事案件。经过一年多的司法程序,2024年12月13日,四川省成都市天府新区人民法院对该案作出一审判决:运营者因侵犯著作权罪被判处有期徒刑2年,并处罚金人民币1万元;同时,因伪造私文书罪被判处有期徒刑7个月,并处罚金人民币5000元。两罪并�

  • 重回两位数增长、小游戏站上C位,游戏行业引擎变了

    ​变化巨大是从业者的体感,而产业数据验证了这一点。 2025年7月31日,中国国际数字娱乐产业大会(CDEC)在上海浦东嘉里酒店召开,对外发布《2025年1-6月中国游戏产业报告》。2025年上半年,国内游戏市场实际销售收入1680亿元,同比增长14.08%,上一次两位数的增长还要回到2020年。

  • 拥抱AI变革,点燃算网引擎:2025开放数据中心大会定档

    2025年开放数据中心大会(ODCC)将于9月9-11日在北京国际会议中心举行。作为算力产业年度盛会,本届大会以"拥抱AI变革,点燃算网引擎"为主题,汇聚政产学研各界专家,探讨算力产业前沿趋势。大会将设置十余个分论坛、4000平米展区,展示计算、存储、液冷等创新技术,50+科技巨头将带来核心产品与解决方案。自2014年创办以来,ODCC已发布300余项行业标准,见证并推动了算力产业的高速发展。本届大会将继续发挥桥梁作用,促进数实融合与生态协同,打造创新成果落地的"孵化器"。

  • 大模型时代企业查询第一站——水滴信用企业数据查询MCP

    水滴信用推出企业数据查询MCP平台,通过大模型技术实现企业数据查询的智能化升级。该平台整合3.7亿市场主体数据,覆盖工商、司法、知识产权等六大类1000+维度信息,支持自然语言交互和跨域关联分析。目前已应用于银行风控、证券投研、供应链管理等核心场景,显著提升商业决策效率。作为央行备案征信机构,水滴信用凭借权威数据源和专业团队,正推动企业征信服务进入AI普惠时代,降低高价值商业情报获取门槛,促进透明可信的商业环境形成。

今日大家都在搜的词: