首页 > 动态 > 关键词  > 百度搜索引擎最新资讯  > 正文

《百度搜索引擎网页质量白皮书》完整版正式上线

2014-08-07 16:45 · 稿源: 站长之家

站长之家(Chinaz.com)8月7日消息   此前,百度站长平台在《百度网页搜索质量白皮书》纲要中简单地从内容质量、网页浏览体验和可访问性三个角度阐述了百度的评判标准。而近日,《百度搜索引擎网页质量白皮书》完整版终于正式上线了!

百度搜索引擎网页质量白皮书完整版内容如下:

1 引言

网页质量是一个网页满足用户需求能力的衡量,是搜索引擎确定结果排序的重要依据。 在网页资源内容与用户需求有相关性的基础上,内容是否完整、页面是否美观、对用户是否 友好、来源是否保障专业等因素,共同决定着网页质量的高低。

对于搜索引擎来说,给用户呈现的网页质量直接影响了最终的搜索效果和用户的需求满 足;而对于广大的站长来说,整体网页质量的提高有助于在搜索引擎中获得良好的排序和展 现,从而吸引更多用户,获得更多流量。

百度搜索综合用户对不同网页的实际感受,制定了一套评判网页质量的标准,基于这个 标准,在百度搜索的收录、排序、展现环境进行调整,给高质量的网页更多的收录、展现机 会,同时对一些影响用户体验、欺骗搜索引擎的恶劣低质网页进行打压。

目前互联网上的网页,仅有 7%可以达到高质量标准,百度作为比较大的中文搜索引擎, 希望从互联网生态角度出发,跟站长们一起努力建立良好的互联网生态圈,更好地为网民服 务,也让内容优质的网站得到更好的发展。

此外,搜索引擎之前相对封闭,一直以来,站长需要通过不断的摸索发现搜索引擎对网

页的判断标准,指导站点内容的建设。此次推出《网页质量白皮书》,目的是开放百度在网 页质量方面的判断标准,给站长提供参考,希望有更多、更优质的内容产生,满足搜索引擎 用户的需求,同时为站长带来流量,实现共赢。

2 衡量网页质量的维度

百度搜索引擎在衡量网页质量时,会从以下三个维度综合考虑给出一个质量打分。下面 会一一介绍这些影响网页质量判断的维度特征:

内容质量  

浏览体验  

可访问性

一个访问流畅,内容质量高且浏览体验好的网页具有较高的质量;反之,任何一个维度 出现问题,都会影响网页的整体质量。下面我们具体介绍下这三个维度。

2.1 衡量网页质量的维度——内容质量

网页主体内容是网页的价值所在,是满足用户需求的前提基础。百度搜索引擎评价网页 内容质量主要看其主体内容的好坏,以及主体内容是否可以让用户满意。

不同类型网页的主体内容不同,百度搜索引擎判断不同网页的内容价值时,需要关注的 点也有区别,如:

首页:导航链接和推荐内容是否清晰、有效。

1、 文章页:能否提供清晰完整的内容,图文并茂更佳。

2、 商品页:是否提供了完整真实的商品信息和有效的购买入口。

3、 问答页:是否提供了有参考价值的答案。

4、 下载页:是否提供下载入口,是否有权限限制,资源是否有效。

5、 文档页:是否可供用户阅读,是否有权限限制。

6、 搜索结果页:搜索出来的结果是否与标题相关。

百度搜索引擎考量网页内容质量的维度非常多,最为重要的是:成本;内容完整;信息 真实有效以及安全。下面我们通过举例来感受一下百度搜索引擎是如何对网页的内容质量进 行分类的,请站长对比自己站点的页面,站在搜索引擎和用户的角度为自己打分:

1、内容质量好:

百度搜索引擎认为内容质量好的网页,花费了较多时间和精力编辑,倾注了编者的经验和专业知识;内容清晰、完整且丰富;资源有效且优质;信息真实有效;安全无毒;不含任何作弊行为和意图,对用户有较强的正收益。对这部分网页,百度搜索引擎会提高其展现在用户面前的机率。例如:

专业医疗机构发布的内容丰富的医疗专题页面;

佼佼者工程师发布的完整解决某个技术问题的专业文章;

专业视频网站上,播放清晰流畅的正版电影或影视全集页面;

知名 B2C 网站上,一个完整有效的商品购买页;

保障新闻站原创或经过编辑整理的热点新闻报道;

经过网友认真编辑,内容丰富的词条;

问答网站内,回答的内容可以美好解决提问者的问题。

2、内容质量中:

内容质量中等的网页往往能满足用户需求,但未花费较多时间和精力进行制作编辑,不 能体现出编者的经验和专业知识;内容完整但并不丰富;资源有效但质量欠佳;信息虽真实 有效但属采集得来;安全无毒;不含作弊行为和意图。在互联网中,中等质量网页其实是一 个比较大的数量集合,种类面貌也繁杂多样,百度搜索引擎在评价这类网页时往往还要考虑 其它非常多因素。在这里,我们仅部分举例来让各位感受一下:

论坛类网站里一个普通的帖子;

一个普通的问答网页;

没有进行任何编辑,直接转载其它网站的新闻;

无版权信息的普通电影播放页

采集知名小说网站的盗版小说页。

 3、内容质量差:

百度搜索引擎认为主体内容信息量较少,或无有效信息、信息失效过期的都属于内容质 量差网页,对用户没有什么实质性的帮助,应该减少其展现的机会。同时,如果一个网站内 该类网页的占比过大,也会影响百度搜索引擎对站点的评级,尤其是 UGC 网站、电商网站、 黄页网站要尤其重视对过期、失效网页的管理。例如:

已下架的商品页,或已过期的团购页;

已过有效期的招聘、交易页面;

资源已失效,如视频已删除、软件下载后无法使用等。

举报

  • 相关推荐
  • 大家在看
  • JASCO:音乐生成模型,结合文本和音频条件进行控制。

    JASCO是一个结合了符号和基于音频的条件的文本到音乐生成模型,它能够根据全局文本描述和细粒度的局部控制生成高质量的音乐样本。JASCO基于流匹配建模范式和一种新颖的条件方法,允许音乐生成同时受到局部(例如和弦)和全局(文本描述)的控制。通过信息瓶颈层和时间模糊来提取与特定控制相关的信息,允许在同一个文本到音乐模型中结合符号和基于音频的条件。

  • prism-alignment:探索大型语言模型的偏好和价值观对齐。

    prism-alignment 是一个由 HannahRoseKirk 创建的数据集,专注于研究大型语言模型(LLMs)的偏好和价值观对齐问题。数据集通过调查问卷和与语言模型的多轮对话,收集了来自不同国家和文化背景的参与者对模型回答的评分和反馈。这些数据对于理解和改进人工智能的价值观对齐至关重要。

  • LoRA Studio:探索多样化的AI模型。

    LoRA Studio 是一个在线平台,提供多种AI模型供用户探索和使用。这些模型涵盖了从动漫风格到抽象艺术的不同领域,可以用于生成艺术作品、设计元素等。平台的主要优点包括模型多样性、用户友好的界面以及创意的无限可能性。

  • Unstract:无代码LLM平台,用于结构化非结构化文档。

    Unstract是一个无代码的LLM(大型语言模型)平台,它允许用户通过简单的无代码方法启动APIs和ETL管道来处理非结构化文档。它支持从多种云文件/对象存储系统中读取复杂文档,并将结构化数据写入流行的数据仓库和数据库。Unstract利用大型语言模型的能力,超越了传统的RPA(机器人流程自动化),实现了机器到机器的自动化。

  • Woy AI:2024年顶级AI工具目录

    Woy.ai是一个AI工具目录,提供2024年最新的AI工具列表。它为技术爱好者、开发者和企业提供了一个平台,以发现和利用人工智能的最新进展。

  • Sparkpage:AI驱动的新型网页,重构信息互动。

    Sparkpage 是由 Genspark 推出的革命性网页形式,致力于通过 AI 技术改善用户在线获取信息的方式。它通过内容蒸馏和整合,提供无商业影响和编辑偏见的丰富、可靠信息。内置的 AI 助手能够动态响应用户查询,提供个性化的见解和信息。

  • Helix Free User Persona Generator:生成用户画像,助力市场洞察

    Helix是一个专注于用户画像生成的在线工具,能够帮助企业或个人快速理解目标受众的特征和需求。它通过分析用户数据,生成详细的用户画像,帮助产品或服务更好地定位市场和用户。

  • Promoted:提升市场搜索、推荐和原生广告的排名

    Promoted是一个专注于市场搜索、推荐和原生广告排名的解决方案,通过先进的机器学习技术和大型语言模型搜索相关性AI技术,显著提升转化率和广告质量。它为市场平台提供了统一的搜索、推荐和广告服务,帮助企业实现更好的匹配和更高的收益。

  • Index-1.9B-Pure:轻量级大语言模型,专注于文本生成。

    Index-1.9B-Pure是Index系列模型中的轻量版本,专为文本生成而设计。它在2.8T的中英文语料上进行了预训练,与同等级模型相比,在多个评测基准上表现领先。该模型特别过滤了所有指令相关数据,以验证指令对benchmark的影响,适用于需要高质量文本生成的领域。

  • Index-1.9B-Character:19亿参数规模的角色扮演模型,支持few shots角色定制。

    Index-1.9B-Character是由Index团队自主研发的大型语言模型,专注于角色扮演领域,拥有19亿参数规模。该模型支持用户通过上传角色对话语料实现快速的角色定制,具备较高的角色一致性、对话能力和角色扮演吸引力。在CharacterEval权威benchmark评估中,整体均分排名第九,表现优于同量级模型。

  • Index-1.9B-Chat:基于19亿参数的对话生成模型

    Index-1.9B-Chat是一个基于19亿参数的对话生成模型,它通过SFT和DPO对齐技术,结合RAG实现fewshots角色扮演定制,具有较高的对话趣味性和定制性。该模型在2.8T中英文为主的语料上预训练,并且在多个评测基准上表现领先。

  • Llama3-70B-SteerLM-RM:70亿参数的多方面奖励模型

    Llama3-70B-SteerLM-RM是一个70亿参数的语言模型,用作属性预测模型,一个多方面的奖励模型,它在多个方面对模型响应进行评分,而不是传统奖励模型中的单一分数。该模型使用HelpSteer2数据集训练,并通过NVIDIA NeMo-Aligner进行训练,这是一个可扩展的工具包,用于高效和高效的模型对齐。

  • ComfyUI.org:开源AI工具,推动AI民主化。

    ComfyUI是一个开源AI模型,致力于推动AI工具的民主化和开源化。它由一个团队创建和维护,旨在为AI社区提供易于使用、安全和可靠的工具。ComfyUI支持通过各种工具,如节点管理器、节点注册表、命令行界面、自动化测试和公共文档来支持其生态系统。团队相信开源模型将在长期内胜过封闭模型,并致力于通过社区驱动的方式推动AI工具的发展。

  • Hedra:创造实验室,打造下一代人类叙事产品

    Hedra是一个创新的创造实验室,专注于将基础模型转化为产品,以驱动下一代的人类叙事技术。它提供了一个平台,让用户能够创造具有表达力和可控性的人物角色视频,并构建能够捕捉想象力的虚拟世界。Hedra的使命是通过提供完整的创意控制,让用户想象世界、角色和故事。

  • L4GM:4D重建模型,快速生成动画对象

    L4GM是一个4D大型重建模型,能够从单视图视频输入中快速生成动画对象。它采用了一种新颖的数据集,包含多视图视频,这些视频展示了Objaverse中渲染的动画对象。该数据集包含44K种不同的对象和110K个动画,从48个视角渲染,生成了12M个视频,总共包含300M帧。L4GM基于预训练的3D大型重建模型LGM构建,该模型能够从多视图图像输入中输出3D高斯椭球。L4GM输出每帧的3D高斯Splatting表示,然后将其上采样到更高的帧率以实现时间平滑。此外,L4GM还添加了时间自注意力层,以帮助学习时间上的一致性,并使用每个时间步的多视图渲染损失来训练模型。

  • Grazias:自动化收集和分享客户反馈。

    Grazias是一个免费的在线工具,用于自动化收集客户的推荐信,并集中管理这些推荐信,同时可以方便地在任何地方分享。它提供了一系列功能,包括简单的表单收集、自定义表单、自动跟进邮件以及详细的分析和图表,帮助企业更好地管理和利用客户反馈。

  • Olvy AI:客户反馈的智能管理助手

    Olvy AI是一个先进的客户反馈管理平台,它通过AI技术整合来自不同渠道的客户声音,包括调查、访谈、评论、支持票据和销售电话等,帮助企业快速获取洞察力。它通过自动化和智能化的方式,将客户反馈转化为可操作的见解,帮助企业做出更明智、更快速的决策。Olvy AI的主要优点包括提高团队生产力、节省时间、提供精准的数据驱动见解,以及保持与用户需求的紧密联系。

  • Aware:智能孕期社区应用

    Aware.ai Pregnancy App是一个为孕妇设计的智能社区应用,通过AI技术为孕妇提供个性化的社区推荐和资源。它通过匹配孕妇的背景和孕期目标,帮助她们找到合适的社区和资源,分享孕期故事和经验,并通过一对一连接获得其他孕妇的见解和建议。

  • VidAU:AI驱动的视频和音频生成平台,简化内容创作。

    VidAU AI Video & Audio Creator是一个AI驱动的视频和音频生成平台,它通过简化从构思到制作的整个内容创作过程,使得用户能够轻松创建引人入胜的视频。平台提供多种AI工具,包括视频更换、视频翻译、字幕翻译和去除、AI虚拟形象发言人以及文本转音频等功能,帮助用户提升视频内容的质量和吸引力。VidAU支持120多种语言的视频翻译,覆盖150多个国家,能够节省90%以上的视频制作时间。

  • The Prompt Report:系统性调研生成式AI的提示技术

    The Prompt Report 是一份系统性调研报告,专注于生成式人工智能(GenAI)的提示技术。它通过结合人类和机器的努力,从多个数据库中处理了4797条记录,提取出1565篇相关论文。报告提供了58种基于文本的技术,并补充了多模态和多语言技术的广泛集合。其目标是提供一个易于理解和实施的提示技术目录,并回顾了作为提示扩展的代理,包括评估输出和设计有助于安全性和安全性的提示的方法。此外,报告还应用提示技术在两个案例研究中进行了实践。

今日大家都在搜的词: