站长之家首页 > 优化 > 搜索引擎算法最新资讯 > 正文

从算法角度去了解关键词与文章的相关性

2011-06-30 15:31 · 稿源:gzrlw.net

一般来说,一个词语或短语能否成为文章的关键词,主要取决于这个词语或短语反应文章中心思想能力的大小。关键词与文章之间的相关性,也主要是为了说明任选的一个词语和短语,对于指定的文章,它反应这篇文章的中心思想或主题意思的能力有多少。关键词的抽取受到词语在文章中出现的位置,出现的频率以及词语的语义特征的影响。那么,搜索引擎到底是如何判断关键词和文章之间的相关性呢?在这里,笔者从自己的一些观点出发,产生了一些想法,应该抛砖引玉,得到大家的指点。

个人认为,搜索引擎应该是从以下几步来如何分析关键词和文章性的:

第一:搜索引擎首先对要分析的网页进行净化处理

网页净化主要是去掉网页中大量无用的广告、导航栏等网页模板噪声以及无意义的内容,如JavaScript脚本,CSS标记等内容。至于搜索引擎采用的是何种算法,则不为我们所知,但是个人估计应该是对网页进行划分为不同的快,通过衡量网页块的重要程度来判断出包含主题内容的块,然后提取出该块的内容,至于搜索引擎如何判别网页快的重要程度,那是另外一个课题。

第二:针对提取出的内容进行分词处理

个人认为,搜索引擎可能采用了某种算法,对内容先进行了词语粗分阶段,先得出N个概率最大的切分结果;然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视其为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。并进行记录。

第三:对初步分词的结果进行去除无意义的词语

搜索引擎通过对第二步的分词结果进行分析,去除一些语气词和形容词等非实意词和一些单词,同时还考虑到单字词所表达的信息不够完整也应当滤除。去除停用词通过建立一个停用词列表来实现。这样,通过去除这些无意义的词之后,剩下的就是有意义的,值得分析的词汇了。

第四:对关键词的权重进行确定分析

在完成对文章分词切分和净化工作之后,就要将文章所有关键词进行分析了,笔者的想法是搜索引擎将文本表示成Ⅳ维特征向量,每一维分量由关键词及其权重组成。一般认为,关键词在文中的权重的确定,主要由三部分组成,词频,位置和词义共同影响决定。而词频和位置对词语或短语的影响可以通过确定的算法加以确定,词义权重也有固定的算法进行分析计算。搜索引擎利用设定好的算法对上述关键词进行了计算和分析。从而得到最后的结果。

笔者认为,搜索引擎通过上面的步骤进行分析后,得到最后的结果,而笔者在这里谈谈自己对搜索引擎具体的分析方式,只是个人见解:

第一:搜索引擎基于关键词位置的权重

在文档中,关键字所在的位置对于搜索引擎判断某个关键字在页面的权重起到很重要的作用。比如说域名被搜索引擎认为是网站最固定的因素,例如:域名里面含有DVD关键字的域名,在用户检索关键字DVD的时候具有先天的优势。标题是网站的最宝贵的资源,搜索引擎认为标题是在浏览器标题栏里而显示,因为要显示给用户,所以它是文件最重要和最简洁的摘要。适当突出关键字在标题的比重非常有利于排名的提高。

第二:搜索引擎基于关键词出现的频率

网页中不同关键词的总数,这是一个很重要的方面。个人认为虽然关键词出现的位置和词频大小对关键词权重影响很大,但是词频大并不能决定该词语适合作为关键词。举个简单的例子,我们在一篇文章中对“美国’’进行优化,出现的词频很大,出现的位置也很重要,但是这个词还是不能赋予较高的权重,因为“美国’’也广泛的出现在其他的文献中,在这些文献中,“美国“也存在频率大和所在位置也比较重要。因此,对那些词频较高但又不适合作为关键词的词语赋予的权重应该较低。

第三:文档中重要关键词之间的距离

个人分析,文档中重要关键词之间的距离应该也是衡量关键词与文章的相关性的一个重要方面。

笔者认为,搜索引擎在进行以上一系列的处理之后,从而针对这个关键词给该文章一定的评分,当用户搜索某个关键词时,该评分高的文章排在前面的机会就大很多,当然这是排除了外链的影响。以上是个人对搜索引擎的一些观点,不一定正确,希望能和大家一起学习,最后,文章版权归属:广州人流医院 :http://www.gzrlw.net/,欢迎大家转载,但是请大家转载的时候保留链接,谢谢大家的理解和合作!

  • 大家在看
  • 相关推荐
  • 什么是SERPS?9步骤教你了解谷歌搜索引擎结果页

    搜索引擎结果页面(SERP)是谷歌和其他搜索引擎根据用户的搜索查询显示的页面,它们由自然搜索结果以及付费搜索这两种结果组成。那么SERP是如何帮助网站建设者提升用户访问量呢,我们通过几个步骤让大家直观了解它的具体运作。

  • NVIDIA发布音频工具:借助AI算法为RTX电脑实现主动降噪

    日前,NVIDIA发布RTX Voice软件,专门为配置了RTX显卡(GeForce、Quadro)的电脑提供主动的背景降噪支持。这个降噪可不是减低显卡噪音,而是提升相关用户在语音聊天、音频录制方面的质量,NVIDIA表示自己利用了人工智能技术来保证降噪效果。

  • 谷歌最新算法更新:做SEO提升页面排名的秘诀在这里

    站长之家注:本文主要跟大家分享谷歌更新最新算法后对搜索引擎结果页面(SERP)排名的影响,以及站长们该如何优化页面内容,让网页出现在“People Also Ask”框(PAA)位置,更好的为站点引流。相信不少人会认为SEO已经过时了,实际上它只是换成另外一种形式发挥作用。在过去的一个月,谷歌最新核心更新在其服务器上全面推出,企业也感受到了更新带来的影响。在大多数情况下,算法的更新会导致网站流量的突然下降。矛盾的是,保持领先?

  • 虹软推出最新人脸识别算法:戴上口罩也能精准识别

    在人工智能技术迅猛发展的当下,人脸识别应用已日趋成熟,但在此次疫情中却也面临了全新挑战——口罩下的人脸该如何完成识别?基于原有的人脸识别算法,佩戴口罩会大大影响人脸识别准确率,如果为了刷脸脱掉口罩,则又会增加感染风险。针对这一实际需求,为了更好的助力复工复产期间的疫情防控,虹软视觉开放平台推出了口罩相关的人脸识别相关算法,包含“口罩佩戴检测算法”和“戴口罩时的人脸识别算法”,全力支持合作伙伴和开发?

  • 教育APP需要打造“内容”和“技术”双引擎

    2019 年暑期K12 教育行业的生源争夺战还历历在目, 2020 年春天又迎来了疫情“黑天鹅”,在“停课不停学”的号召下,教育行业出现了意料之外的爆发。在线教育模式的发展,离不开互联网技术、无线移动设备、大数据等信息科技带来的变革,新兴技术将带动用户体验、服务内容和消费场景的变更,而APP作为教学场景的应用载体,更是增速迅猛,这背后存在一些可以关注的点。教育APP市场百花齐放,有何内在逻辑?据艾瑞数据统计,中国在线?

  • 公众号文章新增“搜索”组件 可在文章内直接搜索历史消息

    微信又更新了!近日,微信公众号文章新增了“搜索”组件,用户可直接在文章内搜索公众号历史消息。组件左上角标有公众号头像和“公众号推荐搜索”引导字眼,用户点击后将进入搜索界面。有了这个功能,用户可以快速搜索号内关联内容,便于查找历史消息。

  • 揭秘巨量引擎寻求突破传统营销边界的举措

    在2020年的商业计划领航秀上,巨量引擎营销中心总经理做了一次主题演讲。在演讲中,他提到了一些关于巨量引擎寻求突破传统营销边界的举措和助力品牌营销突围的先进方法,展示了巨量引擎如何与品牌协力驱动营销,发现更多突破性增量的可能性。一场晚会,突破拉新场景的边界与浙江卫视合作,每年如期上演的“抖音美好奇妙夜”已经成为品牌营销IP,不断发掘引爆全民娱乐文化潮流,引领短视频的商业化创新。抖音美好奇妙夜通过活动、音

  • Socionext成功测试载有DNN引擎的低功耗AI芯片

    SoC 设计与应用技术领导厂商Socionext Inc.(以下“公司”)宣布成功发开一款集成有量化深度神经网络(DNN)技术的原型芯片,可为小型、低功耗边缘计算设备提供先进的AI处理。受日本新能源与产业技术综合开发机构(NEDO)委托,Socionext参与了以《先进的低功耗AI-Edge LSI技术开发》为课题的项目研究,成功完成了结合量化DNN技术的芯片测试,并确认了其运行和性能。该测试芯片搭载有“量化DNN引擎”,能以高速、低功耗执行深度学习推理?

  • 关注算法安全新兴领域,清华团队RealAI推出业界首个AI模型“杀毒软件”

    近日,清华大学AI研究院孵化企业RealAI(瑞莱智慧)正式推出首个针对AI在极端和对抗环境下的算法安全性检测与加固的工具平台——RealSafe人工智能安全平台。该平台内置领先的AI对抗攻防算法,提供从安全测评到防御加固整体解决方案,目前可用于发现包括人脸比对等在内的常用AI算法可能出错的极端情形,也能预防潜在的对抗攻击。业界首个针对AI在极端和对抗环境下的算法安全性检测与加固的工具平台“对抗样本”成新型病毒,算法安全?

  • 外媒解说如何在Google搜索3D动物并盘点可搜索名单

    ​据外媒报道,在 2019 年I/O大会上,Google宣布将在搜索中加入增强现实(AR)对象。现在一年过去了,这个搜索引擎上已经有一堆的3D动物,用户可以用AR在Google上查看。 为了方便访问,Google将其3D动物和其他AR对象放在了搜索的顶部。例如,搜索“tiger(老虎)”将会显示一个Google Search Knowledge Panel(谷歌搜索知识面板)。

  • 2020成都汽车消费节,发动引擎即刻出发

    在全面抗击疫情取得重大阶段性胜利之际,第 9 届成都汽车消费节暨第 5 届房车生活节将于 5 月21- 24 日在成都世纪城新会展中心重装开幕。疫情当前,共克时艰,待到柳咽新蝉之时,让我们在一个安全的环境里再相会!作为成都国际车展CDMS姊妹篇、成都上半年最大的车展。展出规模还是熟悉的配方 5 万平米,将亮相超 80 个乘用车、房车、新能源品牌。底价购车、玩转房车、农场采摘、精品民宿、度假胜地等,吃喝玩乐买买买,来成都汽车消

  • 分析引擎2.0已来,神策数据再刷行业标准!

    2020 年初,疫情让许多创业公司紧急刹车,这无疑是一次极限压力测试。它让所有企业都知道,“黑天鹅”随时都会来,反脆弱能力很重要。 神策数据的反脆弱能力源于夯实的基本功。在过去的 5 年里,神策数据服务了 1000 余家企业。依托底层数据采集、建模、分析、应用的标准化的用户分析体系,神策数据使得超过EB级别的海量数据能够高效处理,并以秒级的响应速度,服务并驱动千余家企业的发展。 期间,神策数据定义了公认的行业最高?

  • 华为新一代智慧屏 X65 正式发布:售价 24999 元,三大画质算法加持

    华为智慧屏 X65 采用最新一代 OLED 显示屏,整机厚度仅有 24.9 毫米,搭载华为最新自研鸿鹄旗舰芯片,拥有 DTM、LDCI、MEMC 三大画质算法,并针对每个画面都独立逐帧优化,确保画面清晰流畅,华为称出厂前针对 GAMMA 值、色温、色准逐台调校,力求每一帧色彩精准。

  • 妩媚的春天,躁动的搜索市场

    春天是复苏的季节,空气中氤氲着的都是“荷尔蒙”的味道。如果说“躁动”是春天的符号,那么搜索市场无疑正处“春天里”,草长莺飞间演绎着一处“三家欲分晋”。据外媒报道称,华为搜索(HUAWEI Search)App现已在海外测试上线,需安装华为移动服务(Huawei Mobile Services,简称HMS)的最新版本方能使用。

  • 互融云 金融小程序定制开发服务:打造企业营销新引擎

    小程序和其他产品的发展一样,也经历了从无到有、从有到优,从优到廉的过程。目前看小程序市场处于,从有到优的阶段,放眼看去,可能有几千家小程序商城开发服务商,但是做优、做廉、作出特色的小程序开发商却寥寥无几。如果你是门外汉,可能很难分辨到底什么才是好的小程序,因为好像大多数开发商的小程序产品都一样,不知道有哪些细节需要去考虑,一个有瑕疵的小程序,在后续的运营过程中,缺点会陆续爆发,那些从没注意的坑都会

  • 百度发布六大线下行业复苏搜索大数据报告:2月日均搜索热度增长110%

    今天,百度发布《六大线下行业复苏搜索大数据报告》。报告显示, 2 月开始,大多数行业需求逐步回升。生产制造、房产装修、招聘、企业服务等 4 个行业复苏较快, 2 月的日均搜索热度比春节期间增长均达到110%以上;旅游行业受疫情影响较大,目前仍未见明显拐点,搜索热度仍处于较低水平。

  • 百度Apollo正式发布“ACE交通引擎”,在北京、长沙等10余个城市落地

    4月9日,今日百度Apollo正式对外发布“ACE交通引擎”,首次披露Apollo智能交通解决方案,也是国内外第一个车路行融合的全栈式智能交通解决方案,系统解读百度在人工智能、自动驾驶、车路协同方面的业务规划。

  • 搜索效果更强!Google上线冠状病毒信息专题网站

    近日,Google上线了一个新页面,开始为搜索与冠状病毒相关术语的人们提供更多增强的信息卡。最有价值的是信息标签,用于介绍症状,预防,全局信息和本地相关信息。

  • 再见!百度搜索正式下线熊掌ID业务

    近日,百度熊掌ID官方发布公告称:站点品牌曝光功能即日起因业务调整下线。后续我们将通过算法挖掘优质站点进行站点名称展示,并逐步开放申请入口,请您持续提升网站内容质量,以便获得相应权益。

  • 麦克维尔:WXE磁悬浮离心式冷水机组稳定开启“新基建”节能引擎

    信息时代,数据为王。在大数据逐渐普及的今天,几乎所有应用创新都离不开数据的计算和存储,数据中心的重要性愈发凸显。在近期召开的中共中央政治局常务委员会会议上,中央明确提出要加快5G网络、数据中心等新型基础设施建设进度。这是近年来,数据中心首次被列入加快建设的条目,数据中心作为“新基建”中的一个亮点,引起了各行业的高度关注。数据中心能耗的不断降低,是行业一致追求的目标,其中空调系统是大家一直关注的重点。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议