首页 > 优化 > 关键词  > 搜索引擎最新资讯  > 正文

搜索引擎系统预处理:网页净化与元数据提取

2009-11-12 10:00 · 稿源:20ju

《搜索引擎系统预处理:网页净化与元数据提取》文章已经归档,站长之家不再展示相关内容,下文是站长之家的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:

如果不去除原始网页中的噪声内容,检索系统必然对噪声内容也建立索引,从而导致仅仅因为查询词在某张网页的噪声内容中出现,而把该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关...

在网页分类领域,由于噪声内容与主题无关,训练集中的噪声内容会导致各个类别的特征不够明显,而待分类网页中的噪声内容则会导致改网页类别不明显,因而影响了网页自动分类的效果...

因此,在净化后的网页上作信息提取不仅可以排除噪声信息对信息提取的干扰,提高信息提取的准确性,而且可以使得网页中的结构简单化,提高信息提取的效率...

随着web上的研究与应用的发展,单纯的网页内容已经不能满足需求,网页元数据得到越来越多的广泛使用...

针对从HTML网页中提取语义信息,早期的方法是:针对某一类具体网页,人工提取该类的网页中的内容组织模式...

......

本文由站长之家用户“20ju”投稿,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完整的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请联系作者获取原文。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天