首页 > 优化 > 关键词  > 正文

搜索引擎中网络爬虫的设计分析

2007-09-05 01:05 · 稿源:http://www.foyuange.com

《搜索引擎中网络爬虫的设计分析》文章已经归档,站长之家不再展示相关内容,下文是站长之家的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里? 1)网络爬虫高度可配置性。 2)网络爬虫可以解析抓到的网页里的链接 3)网络爬虫有简单的存储配置 4)网络爬虫拥有智能的根据网页更新分析功能 5)网络爬虫的效率相当的高 那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢? 1)url 的遍历和纪录 这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如: cat [what you got] tr \" \\n gawk '{print $2}' pcregrep ^http:// 就可以得到一个所由的 url 列表 2)多进程 VS 多线程 各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。 3)时间更新控制 最傻的做法是没有时间更新权重,一通的爬,...

......

本文由站长之家用户“http://www.foyuange.com”投稿,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完整的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请联系作者获取原文。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词: