谈谈互联网论坛的定点网站深入挖掘机制

2012-12-13 09:35 稿源:langlemachinery.com  1条评论

作为互联网论坛信息监控系统核心技术之一,定点网站深入挖掘技术智能模拟互联网终端网页浏览行为与人机对话交互方式,全文遍历、选择获取系统目标站点入口网页所含超链接对应内容。监控系统根据目标论坛具体结构,采用同类分组、周期轮询的方式,多进程实现定点网站深入挖掘机制,最终完成针对可获取站点87%左右的信息提全率。

监控系统统筹考虑目标论坛页面请求与周期轮询的间隔时延,在有效隐藏系统自身“网络机器人”式的信息获取行为、避免遭遇目标论坛封禁的基础上,实现对于中等讨论热烈程度目标论坛平均15分钟左右的信息提取时延。

连网论坛信息监控采用重复模式匹配技术对于每份获取内容进行关键信息提取操作,系统首先提取内容发布人、发布时间、URL、标题等获取内容关键信息,进而针对每份获取内容进行主题信息分析及内容快照,最终实现对于来自异构目标站点发布内容的归一化存储,基于异构数据归一化存储机制,监控系统立足于统一的发布内容数据存储空间开放目标站点热点查询功能。

监控系统同时提供当前热点及历史热点查询操作,其中当前热点查询是针对系统最近15万条获取记录展开,全面呈现新近热点在系统目标站点中的讨论情况,而历史热点查询操作则是对于系统所有获取记录展开。

以上,重点说了作为信息内容安全管理的重要应用系统---网络舆情预警系统。该类系统服务于国家对于网络媒体信息内容管理,尤其是舆情监测与引导的需求,通过在信息获取、信息分析与知识发现,以及舆情预警等核心环节的技术突破,实现对于网络公开发布与传输信息的获取及留情工作信息智能化发现,从而实现对于国家网络舆情工作的技术支持,进而实现对于和谐网络社会建设的基础支撑。

由于网络舆情监测与预瞥系统的复杂性与多样性,本文主要讨论了一般意义上的网络舆情监测与预警系统所必须解决的技术问题,从中不难发现讨论的信息内容安全技术体系。

在这里,希望可以让广大读者更深入和更具体地领会网络舆情监测与预警系统的含义。

本文为原创文章,若有转载请注明http://www.langlemachinery.com/

有好的文章希望站长之家帮助分享推广,猛戳这里我要投稿

相关文章

相关热点

查看更多

关闭