首页 > 传媒 > 关键词  > 页面关键词分布最新资讯  > 正文

美数“页面关键词”提取技术的实践与效果

2016-11-23 16:44 · 稿源: 站长之家用户

互联网时代,网络方便了人们生活的同时,海量的网络数据信息也成为潜力巨大的价值资源。尤其对营销者来说,当前企业拥有的数据已经不足以支撑其日益准确、有效的营销需要。因此,从互联网这个庞大的非结构化数据库中有针对性的采集、提炼和分析出有价值的信息,已成为其洞察消费者、制定正确营销策略的迫切诉求。

基于此,美数科技推出“页面关键词”提取技术,利用爬虫抓取用户浏览页面行为,再通过算法快速的把不规则页面进行结构化处理,从而进一步挖掘出有价值的数据来指导广告主进行准确投放。

“页面关键词”提取的核心价值

  1、提高人群画像的准确度和丰富性

数字营销时代,广告从媒介购买转为对受众购买的阶段,准确营销渐成主流。而准确营销的核心是用户画像。所谓用户画像,即通过用户线上浏览行为、搜索行为、购物行为等,来勾勒出一个用户的商业全貌,以帮助广告主从广泛的受众中准确定位目标人群。而美数“页面关键词”提取技术,正是基于全方位整合用户网上浏览页面行为以后,提取关键词来高度概括页面主题,进而细粒度地推断、刻画出受众对某件事、某领域的兴趣程度,甚至反映受众的真实三观。从而提高人群画像的准确度和丰富性,更好的满足广告主对人群数据采集和洞察的需求。

 2、根据页面内容做广告定向投放

试想一下,最近你的新房亟待装修,当你正在浏览一篇《菜鸟必看装修攻略》的时候,正好在页面下方看到某家装品牌推送的绿色环保涂料产品广告,这是不是会戳中你的 G 点,甚至引起你的购物冲动?美数“页面关键词”提取技术,正是为后期美数DSP 进行“页面关键词”定向投放做准备。即通过分析每个页面的文字、语言、主题、结构等元素,提取关键词,再将企业的推广信息投放在具有对应关键词的受众当前浏览页面上。诸如上例,某家装企业为其产品设定了“装修”关键词,系统会在所有具有该关键词的网页上展示该客户的广告。

 “页面关键词”提取的实施步骤

备注:在实际操作过程中,“页面关键词”提取技术的流程和应用到的算法复杂且高深,小编在下文只选取其中几种算法做个入门级介绍,以期让读者对该技术有个初步认知和了解。

首先步:正文提取

如果把完成“关键词”提取比作烹制一道美味菜肴,那可以说:正文提取则是做菜前的必需步骤——选菜。因为再出色的厨师也无法将带有黄叶、烂叶和泥巴的菜做成美味。因此,能不能有效、准确的将一个页面的正文抽取出来,是影响后续提取关键词的首要前提。

如何提取正文?一种“基于行块分布函数的通用网页正文抽取”算法,可以实现较好的效果。众所周知,大多数网页中除了包含正文外,还包含许多噪声信息,如网站的导航信息、相关链接和广告以及一些脚本语言等。而行块分布算法可以对抓取回来的页面进行清洗、去噪和结构化分析,进而有效、准确地定位页面正文。

(算法思路流程图)

  第二步:分词处理

提取出正文以后,在进行文本主题提炼之前,有一个步骤必不可少,即要先对文档进行分词处理。所谓的分词(Word Segmentation),就是将连续的字序列(一句话)按照一定的规范重新组合成词序列的过程。分词是后续进行文本挖掘的基础,即对于一篇文章,成功的进行分词,才可以达到电脑自动识别文章内容含义的效果。

现有分词算法种类繁多,而我们重点应用的是实验证明出效果更好、错误率更低的“逆向比较大匹配算法”(简称RMM法)。即从句子(或文章)末尾开始处理,每次匹配不成功时去掉前面的一个汉字。

 算法应用思路:

(1)循环的读入每一个句子S;

(2)设句子的字数为n;

(3)设置一个比较大词长度,即要截取的词的比较大长度max;

(4)从句子中取n-max到n的字符串subword,去词库查找是否有该词。如果有就走5,没有就走6;

(5)记住subword,从n-max付值给n,继续执行4,直到n=0;

(6)将max-1,再执行4。

举个栗子:

输入例句:S1=“装修省钱小窍门” ;

定义:比较大词长MaxLen=3;S2= “”;分隔符 = “/”;

假设存在词表:…,装修,省钱,小窍门,…;

逆向比较大匹配分词算法过程如下:

(1)S2=“”;S1不为空,从S1右边取出候选子串W=“小窍门”;

(2)查词表,“小窍门”在词表中,将W加入到S2中,S2=“小窍门/”,并将W从S1中去掉,此时S1=“装修省钱”;

(3)S1不为空,于是从S1左边取出候选子串W=“修省钱”;

(4)查词表,W不在词表中,将W最左边一个字去掉,得到W=“省钱”;

(5)查词表,“省钱”在词表中,将W加入到S2中,S2=“ 省钱/ 小窍门/”,并将W从S1中去掉,此时S1=“装修”;

(6)查词表,“装修”在词表中,将W加入到S2中,S2=“ 装修/ 省钱/ 小窍门/”

并将W从S1中去掉,此时S1=“”;

(7)S1为空,输出S2作为分词结果,分词过程结束。

第三步:关键词提取

如何知道用户兴趣点、关注点在哪里?我们需要分析出文章的主题,即知道用户到底“看了什么”!那么,完全不加以人工干预,如何才能准确做到提取出页面关键词,概括主题特征?应用 TF-IDF,一种用于资讯检索与数据挖掘的常用加权技术算法。

这种算法通过计算 TF,即词频,和 IDF,即逆文档频率以后,用 TF*IDF 得到了一个词的 TF-IDF 值。此值越大,代表某个词对文章的重要性越强。最后,选取排在最前面的几个词,来作为文章的关键词。

 算法应用思路:

(1)计算词频

例:假如一篇文件的总词语数是100个,而词语“装修”出现了3次,那么“装修”一词在该文件中的词频就是3/100=0.03。

(2)计算逆文档频率

例:如果“装修”一词在1,000份文档出现过,而我们历史积累的文档总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。

(3)计算TF-IDF

例:(接上例)TF-IDF 值为 0.03 * 4=0.12。

  “页面关键词”提取的实际效果

目前,美数通过爬虫技术,以每日抓取主流网站 500 万+ 优质页面(日均覆盖 20 亿 PV)的量级开展页面关键词提取;并进一步将关键词进行行业分类标签管理,词库已包罗 10万+ 热频词。在当下准确化、个性化推荐大行其道的时候,美数“页面关键词”提取技术以全面、准确、真实的用户浏览行为数据信息为基础,实现了全景式、丰富化用户画像描述的同时,也帮助广告主和代理商深入洞悉受众浏览行为及场景,让广告展示的时机刚刚好,从而减少对用户的干扰。从目前的运营反馈结果来看,将该技术应用到实际广告投放中,到达率可提高 20% 左右,全面提升了展示广告的效果!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 业界首例中国电信完成长距跨DC分布式无损智算推理网络技术验证

    中国电信广东公司联合中国电信研究院在智算网络领域实现重大突破,成功完成DeepSeek-671B满血版长距跨数据中心分布式无损计算推理网络技术验证。该成果为企业按需扩容算力及推理数据本地化存储提供了突破性技术方案,标志着中国电信在智算网络技术创新上迈出关键一步。

  • 从“同质化”到“价值创造”,LED行业迎来转型关键点

    LED封装行业在成本高压与政策东风交织下掀起自救式涨价潮。2025年8月木林森率先调价,东山精密、晶台光电等企业跟进,形成近十年规模最大、节奏最密集的涨价。行业长期陷于低价竞争恶性循环,政策层面新《反不正当竞争法》禁止低于成本倾销,推动行业从价格战转向价值竞争。头部企业凭借供应链和技术优势加速整合,中小企业面临生存压力。此次涨价是成本压力下的短期反弹,也是行业告别内卷、转向高质量发展的关键信号。

  • 网站整体与页面关键词分布

    在我们选择好自己网站的目标关键词与一部分长尾关键词之后,这个时候我们就将这些关键词合理的安排在网站之中,这个就叫做关键词分布,我们需要把合适的关键词放在合适的位置上,这样才更利于我们的优化工作的展开。

  • 中国茶快消化迎来关键载体:小罐茶焖泡系列即将上市

    中国茶产业正经历结构性变革,传统泡茶方式难以适应现代快节奏生活。新兴的"焖泡"茶饮方式成为介于传统冲泡与即饮茶之间的"第三极",小罐茶率先布局该领域,通过"茶品×茶具"一体化生态实现从产品到生活方式的跨越。其创新包括:获得红点设计奖的专用焖泡杯、针对年轻群体的模块化轻资产门店体系,以及标准化拼配工艺确保品质稳定。这种模式重构了茶产业底层逻辑,将茶还原为日常生活方式。小罐茶的实践证明传统文化可通过系统性创新融入现代生活肌理。未来中国茶将突破单一文化输出维度,以更开放姿态走向全球舞台。

  • 聚焦制造业智能化转型 中国科学技术大学依托昇腾突破知识增强大模型关键技术

    中国科学技术大学宋骞团队基于昇腾平台开发了工业知识图谱构建框架和大模型增强推理技术。该研究通过融合领域小模型与大语言模型,构建了"初始识别-知识抽取-知识引导反思"三阶段框架,显著提升了知识抽取准确性。在智能运维系统应用中,团队采用ETL架构处理多模态数据,结合RDF语义网技术构建知识图谱,并研发故障智能预测诊断模块。同时创新性地提出知识增强与过滤框架,利用PLM嵌入空间降低计算负担,有效提升知识增强的灵活性。研究成果显著提升了工业设备智能运维水平,实现了核心技术的自主创新适配,为构建安全高效的现代工业体系提供关键技术支撑。

  • AI CRM如何跨越落地鸿沟?场景驱动与数据闭环成关键

    销售易发布中国首款AI CRM产品NeoAgent,标志着CRM行业进入智能化变革。该产品基于腾讯混元大模型+DeepSeek开源模型,提供多场景智能解决方案。AI CRM的核心价值在于数据驱动,通过构建统一客户数据平台,实现销售全流程智能化。目前已在客户服务、销售助理等场景落地,其中销售助理Agent可提升70%事务性工作效率。企业应用AI需关注数据基础与场景适配性,销售易通过"场景需求-产品供给-使用反馈-快速迭代"的闭环模式,推动AI CRM持续进化。在Agentic AI时代,数据能力成为企业智能化转型的关键竞争力。

  • 深信服超融合智能运维实战|数据库卡慢处置的一次关键事件

    西南某线缆制造企业基于深信服超融合平台运行Oracle RAC数据库,面临业务扩展期IT运维人力紧张、预算有限且缺乏专业DBA的困境。企业部署了400核CPU、6TB内存资源,运行120+台虚拟机承载OA、财务、生产管理、ERP等核心系统。主要问题包括:数据库性能监控不足,频繁出现卡慢现象;内存不足导致大量使用Swap,SGA缓存命中率仅67%;PGA内存消耗达上限。通过智能运维服务诊断发现系统内存配置不合理,建议方案包括:扩容虚拟机内存至220GB以上;配置大页内存;调整数据库文件系统IO策略为direct I/O;优化SGA为160G、PGA为20G。实施后数据库性能显著提升,运维效率提高60%以上,故障修复时间缩短50%。该案例展示了智能运维在资源优化、性能诊断方面的价值,助力企业突破传统运维困境。

  • VMware替代关键技术:深信服超融合存储中的外置存储链路亚健康检测与隔离技术

    文章探讨了外置存储在超融合架构中的关键作用及其亚健康问题对业务的影响。外置存储能优化数据读写效率,但亚健康状态会导致系统性能下降,如医疗影像延迟、银行交易卡顿等。深信服超融合HCI6.11.1推出"外置存储链路亚健康检测与隔离技术",通过"监测-隔离-恢复"闭环管理,实现毫秒级异常检测、智能隔离风险路径和动态恢复。相比传统方案,该技术在内核层实现精准监测,资源占用低,支持FC、iSCSI等多种协议,并提供灵活的配置选项。该方案能显著提升存储可靠性和业务运行效率,未来将持续优化超融合技术,助力企业应对数字时代的存储挑战。

  • ISC.AI 2025周鸿祎:应对“超级黑客”威胁 安全智能体成破局关键

    8月6日,360集团创始人周鸿祎在ISC.AI2025大会上提出"ALL IN AGENT"战略,强调AI时代需要安全智能体应对"超级黑客"威胁。安全智能体以安全大模型为核心大脑,配合工具调用等实操功能,能精准复制人类安全专家能力,实现安全防护从量变到质变的突破。周鸿祎回顾360二十年深耕安全领域的历程,指出当前企业面临安全人才短缺和AI黑客威胁双重挑战。360已实现全线产品智能化,通过自主研发的"智能体工厂"打造安全智能体解决方案,帮助政企单位快速弥补人才短板。安全智能体不仅是传统安全的补充,更是重构数字安全体系的核心力量。

  • OPPO Find X9 Ultra关键参数曝光:1.5K极窄直屏+骁龙8 Elite 2芯片

    OPPO Find X9 Ultra目前测试1.5K LIPO极窄直屏,搭载高通骁龙8 Elite 2旗舰平台。 对比上代,OPPO Find X9 Ultra进一步缩窄屏幕边框,该机采用全新的LIPO屏幕封装工艺,中文名为低注射压力包覆成型”。

今日大家都在搜的词: