首页 > 优化 > 关键词 > 搜索引擎最新资讯 > 正文

搜索引擎是如何判断文章的原创度的?

2015-08-11 10:05 · 稿源:冯耀宗

总有人在说自己的文章被抄袭,然后抄袭者收录了,自己的却没有被收录,我曾经我也这样想,甚至我使用屏蔽右键、屏蔽复制等手段来克制抄袭者的恶意竞争行为,对此,我今天我有不同的看法,也有不同的观点。

未收录不代表未抓取

确实,为了SEO的发展,自己辛辛苦苦写了两篇原创文章,被一个大型网站抄袭秒收录,而自己的站点却不收录,这是一件非常让人尴尬的事情,那么真的不收录,就不是原创了吗?

很多朋友是这样认为的,自己的文章没有被收录,而抄袭者的却收录了,所以百度判断自己抄袭了别人的文章,所以自己权重也就一直上不来,排名一直没有。其实这是一个错误的观点,我曾在百度排名规则的文章中提到,百度收录是需要经过抓取-识别-释放这三个流程。其中在释放的流程中,需要判断整体网站的质量,当整体网站质量过关,收录相对较快,当整体网站信誉度没有达到百度的标准,百度将会暂时保留你的文章,不被释放出来。

不被释放出来,但是已经经过了抓取和识别这两个流程,在这里特别的说一下抓取的流程,当网站建立以后,提交到搜索引擎,搜索引擎基本每天都会来抓取,大家可以试着安装百度云加速后台可以统计出抓取的页面,如果抓取不够,也可以在百度站长平台中设置抓取频率和sitemap自动推送,这样抓取的是完全没有压力。设置方法如下:

打开【百度站长平台】点击左侧导航【我的网站】-【站点管理】-【添加网站】-输入网站域名,根据自身条件验证网站。

然后点击左侧导航【页面抓取】-【链接管理】-提交方式选择【sitemap】,然后将自己的网站地图提交上去,更新时间更具你网站的更新时间来设置,比如网站每天更新一篇文章,那么就填写1天,论坛、门户可能添加的比较多。

另外在把sitemap地图写到robots里面,抓取基本是完全没有问题,那么接下来就进入识别系统,每一个页面抓取了,就一定会进行识别对比,是否会出现重复,与互联网的内容重复度有多少,从而判断出页面的原创度。那么在已经判断出原创度的时候,再来谈收录,先收录谁不代表谁就是原创了!

如何判断文章的原创度?

并不是你网站有文章,是你自己写的,就一定会被搜索引擎认为这是一篇原创文章,因为其中还有很多技术方面的问题,搜索引擎还未能解决。

记得我曾经在一个网站每天更新一篇文章,一篇文章的字数只有100字左右,但是文章页面非常简单,简单到整个页面没有JS、CSS、HTML代码,只有文字,但收录却非常好,而有一些网站,用JS、CSS、html代码把网站修饰的非常漂亮,但是发布的文章却不收录,这让我开始觉得代码与原创度有直接关系。

我忘记了,在哪里看到过这样的一句话“搜索引擎只能识别200KB以内的内容”,对于一个网站而言,200KB算是很大了,我的博客只有30KB左右,所以我博客在搜索引擎中抓取是完全没有压力,如果你的网站有超过200KB,我觉得你是应该要优化了。

这和网站的文件大小有什么关系呢?好,我们来看看,搜索引擎在抓取一个页面的流程是从头到底,任何一个页面都有一个共同点,那就是头部一样、底部一样,唯一不一样的就是文章内容,那么搜索引擎在抓取头部有10KB左右是一模一样的,到中部文字的时候只有2KB是不一样的,而底部又有10KB是一模一样的,那么还会认为这是原创文章吗?

这里还得给大家灌输一个理念,那就是搜索引擎是不认识字的,他只有把这个汉字放到他的数据库去对比,当一对比一个新文章页面的时候,总共22KB的页面,居然有20KB一模一样,就算是写了原创文章,也会被列入到伪原创的列表中去。

经过我3年的SEO优化加测试,我对原创文章的判断得出了这样的一个理论,当一个页面比较大的时候,一个页面的不同点至少占页面的1/3,那么写多少文字呢,比如你页面有10KB,那么至少的写3KB的文字,剩下的7KB相同,这些才不容易被列入到伪原创的列表中。当然,这是我个人得出的理论,并没有完全的证据和理论来证明。

为什么抄袭者的网站更容易收录?

那么还有一个问题来了,既然要抓取、识别、释放这么复杂的流程,为何抄袭我们网站的内容还先收录呢,这是大家很纠结的这个问题,我也纠结了很久,直到有一天,我自己做了一个平台,每天让自媒体人发布非常原创内容的时候,我才总结出来,为何越抄袭越容易收录!

在谈论抄袭者网站为何会收录块的时候,我觉得咱们先要搞清楚新闻内容是收录流程,新闻内容相对普通的内容收录较快,因为新闻内容具有时效性,所以必须当场发当场收录,然后释放出来,不然拖到第二天在收录的话,这个新闻可能不热了,关注的人也就少了,百度从而失去了这个体验。

而抄袭者的网站与新闻内容类似,通常抄袭者的网站是抄袭过多篇文章,其中有直接抄袭原创者,也就抄袭二手文章,抄来抄去,互联网同样的文章就非常多了,当一篇文章被互联网多次抄袭,这就意味着这篇文章比较热门,不热门怎么会这么多人抄袭呢?最终就出现了一个热点效应,收录的门槛也就降低了。所以就出现了抄袭者抄袭了你的文章,比你还先收录。

防止抄袭最好的办法

什么禁止右键、禁止复制这些方法都弱爆了,对方要抄袭、要采集,你这么点技术禁止,对他来说是完全没有作用,况且人家采集是直接从代码中采集,并非实际来到了你的网站,而且还会让你的读者觉得你网站体验就严重问题,所以我非常不建议使用这些方法来禁止抄袭者,我也是这方面的过来人,现在我是用这些方法来对策的。

当我今天把文章写出来后,不管是否收录明天将会把文章通过投稿的形式发布出去,通过投稿的形式,对方会完全的尊重并且保留你的版权,即使没有留下链接版权,至少也会留下品牌词的版权。

投稿成功以后,当抄袭者在此抄袭这篇文章的时候,互联网已经有很多此文章了,第一他会觉得互联网文章太多,不会再次抄袭了,因为他想抄原创文章,第二就算他抄袭了,互联网你投了这么多文章,最终公认的版权是你的,并且多个页面有URL直接指向你的页面,这也是给你这篇文章做了一个最好的外链。

总结:其实对于抄袭者并不是很可怕,对我们来说,应该是一件好事情,当他们抄习惯了,自然会帮我们做到推广的作用。

来源:久闻网,地址:http://www.360zimeiti.com/plus/view-5070-1.html

  • 相关推荐
  • 大家在看
  • 分析师认为苹果应该收购DuckDuckGo搜索引擎 以向谷歌施压

    伯恩斯坦公司(Bernstein)分析师Toni Sacconaghi在分享的一份研究报告中表示,苹果应该收购一家搜索引擎公司,向谷歌施加压力。

  • 谷歌前广告主管正在打造一款无广告的搜索引擎

    据外媒报道,Sridhar Ramaswamy于 2013 年成为谷歌广告和商务高级副总裁。他领导着这个价值 1150 亿美元的分支机构达五年之久,该机构负责通过AdSense在搜索、YouTube和网站上出现的广告。但因受够了谷歌的暴利和客户与广告商之间的利益冲突,Ramaswamy选择离开谷歌并创建了自己的搜索引擎。

  • 百度回应腾讯告老干妈涉某搜索引擎:手里的瓜突然不香了

    7月1日,随着贵阳警方发布了腾讯与老干妈千万广告费纠纷案是因为3人伪造印章与腾讯签合同,也让这件事情真相大白。但网上传闻“腾讯状告老干妈拖欠广告费提及某搜索引擎”,对此百度官方回应称“手里的瓜突然就不香了”。

  • 谷歌向苹果支付数十亿美元,使其成为Safari的默认搜索引擎

    英国监管机构周三发布了有关苹果Safari浏览器和谷歌搜索引擎交易的调查报告。英国竞争和市场管理局(CMA)最新报告显示, 2019 年,谷歌共向英国支付了 12 亿英镑(约合 15 亿美元)的费用,成为英国各种移动设备上的默认搜索引擎,其中,绝大部分付给了苹果公司。

  • 谷歌英国向苹果交了15亿美元“保护费” 成Safari默认搜索引擎

    据路透社报道,英国监管机构正在审查苹果和谷歌之间的一项长期协议,该协议涉及苹果设备将谷歌设置为默认搜索引擎。

  • 信息流优化策略与SEO搜索排名,有关联吗?

    最近,在和SEO你问我答群里小伙伴,私下交流的时候,总是在说一些流量获取的问题,而最为常讨论的情况就是SEO流量与信息流平台的流量。

  • 排名超百度,这个搜索APP什么来头?

    搜索引擎行业风云变幻,各路人马登场亮相。今年 3 月,华为针对海外市场的搜索引擎HUAWEI Search开始内测。与此同时,经过半年多的测试,脱胎于网页版的头条搜索也上线了自己的APP。

  • 如何将访客转化为潜在客户?这个8个网站优化策略了解下

    你是否已经将自己的网站优化到最佳状态了呢?通过优化来产生潜在客户是转化网站已经获得的流量的最好方法之一。然而,如果你认为在网站的主页上添加几个“点击这里”的CTA策略(注:Callto Action,行动呼吁),就能获取更多的潜在客户,很遗憾的说,这个想法大错特错。

  • 官抖直播,真能成为销售增长新引擎?

    当携程CEO梁建章、网易丁磊、格力董明珠纷纷走进直播间,并频传销量捷报;当寺库、妃鱼、唯品会为代表的电商平台选择扎根在抖音并开启高频直播,以寻求新流量渠道的获客和变现机会;

  • 百度搜索将严格控制搜索结果中的APP调起行为

    2020 年 3 月,百度搜索资源平台发布了《百度APP移动搜索落地页体验白皮书5.0》。近期百度搜索发现部分站点频繁出现强制用户调起APP的行为,严重影响了用户的搜索体验。

  • 记录“向往的小米生活”,巨量引擎如何让综艺IP效应最大化?

    当代年轻人的生活节奏越来越快,对娴静自得的生活状态总是持以特别的向往和期待。 5 月 8 日,《向往的生活》第四季正式上线,这个号召大家回归自然,放慢生活节奏的综艺节目自上线起即倡导不一样的生活方式,激起广大用户关注。作为此季的首席合作伙伴,小米 10 期望与“蘑菇屋”一起记录各种美好过往,更希望在拍摄场景中传递产品本身的优势功能。为了将IP效应最大化,小米联合巨量引擎,借助抖音和今日头条强大的内容传播影响力

  • 支付宝宣布搜索板块新增数十万金融类搜索关键词

    今日,支付宝宣布搜索板块新增数十万金融类搜索关键词,搜索股票名称、基金名称等关键词,可直接获取股票及理财信息查询、模拟交易、股票分析、研报资讯、理财交流、基金购买等金融服务。

  • 论道汽车效果广告,巨量引擎×金投赏炉边会开启“增效”密钥

    2020 年,汽车行业面临全新变局。存量市场竞争加剧,有效线索成本高企,投放预算进一步压缩,重重压力下,车企将营销关注点转向“效果”这个关键词上。效果广告在汽车行业仍是一个新概念,对比教育、快消等成熟行业还有着非常大的增长空间。“巨量引擎现在做效果广告营销是生意驱动型,希望真正帮助企业生意有成长,效能有增加。在汽车领域,不仅仅是帮助主机厂,也帮助主机厂的渠道、经销商们一起去提升生意能力。”在 6 月 12 日

  • VE视频引擎推出跨平台的视频剪辑解决方案

    据艾瑞、极数等咨询公司发布的中国短视频行业报告显示。国内的短视频用户数已达 8 亿之多,并且用户数还处在一个持续增长的过程中。在如此庞大的市场规模下,必然会产生海量的PGC(专家生产内容),UGC(用户生产内容)视频内容。PGC生产内容的方式需要专业的视频拍摄团队按照剧本拍摄,然后拍摄后的视频交付视频后期团队进行视频剪辑、视频包装。UGC生产内容是方式主要是用户拍摄一段生活场景视频。然后通过视频剪辑的APP去完成二次编

  • 支付宝搜索板块升级:新增数十万金融类搜索关键词

    6月16日消息,支付宝今日宣布,搜索板块迎来重要升级——新增数十万金融类搜索关键词,以往用户获取金融服务需进入到理财页面才可以。据介绍,现在用户上支付宝搜索股票名称、基金名称等关键词,即可一步直达获取股票及理财信息查询、模拟交易、股票分析、研报资讯、理财交流、基金购买等金融服务。据支付宝搜索产品运营负责人袁怀宾透露,目前50%通过支付宝搜索框获取服务的用户,搜索的都是金融类服务。“金融服务是

  • 快手磁力引擎再发力 欲助力商业伙伴获百亿营收

    2019 年 10 月,快手在北京举行2019 Fe+新商业峰会,正式宣布将快手营销平台全面升级为“磁力引擎”,全力冲刺社交新商业。 2018 年是快手商业化元年,快手在首届“Fe+商业峰会”上正式发布了快手营销平台。依托快手的大数据和技术优势,快手生态中的老铁们就像一块巨大的磁铁,让技术和商业产生了化学反应。 时隔一年,快手营销平台正式升级为“磁力引擎”。从字面上看,它是链接万物、具有高黏性和强定力的巨大力场。实际上,这

  • 华为开源数据虚拟化引擎openLooKeng:统一SQL接口

    华为在开源软件上又迈出了坚定一步,正式宣布开源数据虚拟化引擎openLooKeng,开源社区官网(https://openlookeng.io)同步上线。openLooKeng致力于为大数据用户提供极简的数据分析体验,让用户

  • 斑马仓携手数字化改革,成为家装行业贴地起飞的强引擎

    互联网家装发展至今,早已褪去过去的狂热和追捧,进入到客观和理性的阶段。但是不论如何,互联网家装仅仅是一种获客的工具和手段,没有了用户和流量,互联网家装模式必然会遭遇困境,一切都是零。因此,我们必须要思考一种有别于互联网家装的进化新模式。其实,模式很简单,还是回归到家装行业本身,通过解决家装行业本身的痛点和难题,达到供给端的升级和改造,从而找到满足用户新需求的方式和方法。痛点可以总结为:1、准入门槛低,竞争白热化2

  • 字节跳动推出企业技术服务平台“火山引擎 ”

    6月22日消息,字节跳动企业技术服务平台“火山引擎”官网上线,字节跳动在企业服务领域的布局开始慢慢地揭开其神秘的面纱。据介绍,“火山引擎”是字节跳动旗下企业级智能技术服务平台,依托字节跳动的大数据、人工智能等技术能力,以及增长理念与方法论,为客户提供技术产品与解决方案。字节跳动火山引擎负责人肖默表示:字节跳动作为一家全球化互联网公司,在过去8年中迅速成长,在这一过程中,不断积累的技术能力、

  • 抖音手机号码怎么搜索好友

    抖音平台怎么用手机号码搜索好友的抖音账号,通过手机号码就可以直接搜索电话联系人的抖音账号是怎么做到的,这里我们一起看下用手机号码就可以搜索好友抖音的方法。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议

热文

  • 3 天
  • 7天