首页 > 传媒 > 关键词 > 资讯阅读最新资讯 > 正文

资讯阅读的“贴心管家”:浅谈达观数据个性化推荐引擎

2017-07-06 11:27 · 稿源:站长之家用户投稿

移动互联网的兴起让我们能够更加简单和方便地获取信息,但更多的选择也带来更多的困扰??面对这些层出不穷的信息和服务带来的困扰,个性化推荐技术迅速崛起。达观数据在这方面做了很多提升推荐质量、推荐效率和系统可靠性的工作,并为企业客户提供了包括私有化部署、SaaS等灵活的接入方式。目前,达观数据个性化推荐引擎已经服务几百家企业,对改善用户体验、增加用户停留时长和粘性、提高用户转化都有显著的效果。

互联网越发展,越需要个性化推荐

随着互联网时代的到来,新闻资讯行业中,有三大核心特点日渐突出。

一是资讯更新极其频繁且层出不穷,全国各地乃至全球,每时每刻都在产生五花八门、包罗万象的资讯,诸如娱乐八卦、国内国际民生、前沿技术解读、行业动态等等。不仅种类繁多,而且数量极大。日积月累,数据量更是到了令人咋舌的地步。

二是用户群体十分庞大,移动互联网时代的到来,让人们史无前例的感受到了获取信息是是如此的简单快捷。手指一触,便能打开信息的大门。用户浏览新闻资讯时,用户行为也多种多样,包括点击、深度阅读、转发、评论、点赞、不喜欢、收藏等。

三是用户兴趣变化也很剧烈,用户阅读口味随着一天当中时间段的不同、心情的差异,对新闻资讯也有明显的阅读便好。所以在新闻资讯的业务场景中,信息过载和物品长尾的问题尤其严重。

当个人所接受的信息超过了个人所能有效处理的范围,会致无所适从,这种现象称为“信息过载”;同,如此多样丰富的信息中,大部分是冷门信息,没有曝光的机会,这就是物品的“长尾问题”。对于处于移动互联网的今天,这两个问题异常突出。在大量的实践中发现,个性化推荐能够有效解决上述两个问题。在    新闻资讯行业中,个性化推荐引擎不仅随处可见,而且个性化推荐的内容被放置在非常醒目的流量入口位置。这和新闻资讯的实际业务场景密不可分。

新闻资讯中的个性化推荐是根据用户的历史行为数据进行深层兴趣点挖掘,让每一个用户都感觉到有一个私人的贴身管家在照顾自己,从大量的新闻资讯中找出自己最感兴趣的推荐给他。这样的话,不仅满足了用户本质的信息诉求,改善了用户体验,显著提升了用户粘性和停留时长。同时大量的新闻资讯也有了曝光的机会,找到自己的受众群体,避免了流量的浪费。最终对于企业而言,也最大化了自身利益。

达观数据个性化推荐技术实现

如何在海量数据中挖掘用户的兴趣偏好、如何保证推荐结果的精准性、如何快速准确的响应用户兴趣的变化?这些对于企业都是巨大的挑战。达观数据在这方面做了很多提升推荐质量、推荐效率和系统可靠性的工作,下面结合我们的实践做一些介绍。

在新闻资讯行业中,如何进行精准个性化推荐呢?首先从新闻资讯信息说起。新闻资讯自身有很多丰富的信息,一般包括标题、分类、标签、发布时间、作者、是否原创、字数等信息。同时结合用户历史行为数据,可以生成“动态信息”以评估文章本身的质量或者热门程度。这些动态信息可以是全局的,也可以是细分维度的,比如基于一段时间的用户点击行为得到新闻资讯的点击次数,从高得到低排序得到点击维度上的热门排行榜。当然,如果将用户的各种行为进行加权计算处理,可以得到新闻资讯的全局热门榜单。同时,也可以动态生成每篇资讯的点击数、分享数、收藏数、点赞数等用以生成资讯画像,用于后续的推荐算法中。

快速解决冷启动问题

当一个用户到来时,如果这个用户之前没有任何行为数据,这时的推荐就要面临用户“冷启动”问题。解决方法也有很多,首先可以考虑基于用户的人口统计学信息进行推荐,包括性别、地域、职业、婚否等,比如上海的话推荐一些上海的新闻资讯、男生推荐一些体育资讯、职业是互联网行业的话推荐一些科技资讯等。其次可以引导用户选择自己的兴趣标签和分类,比如对娱乐感兴趣的话可以推荐一些明星八卦。当然还可以在新用户启动时,推荐各种各样的高质量新闻资讯,让用户用自己的手进行投票,然后实时更新推荐结果迎合用户的阅读兴趣。

以往因为技术的原因,为一个新用户建立冷启动模型可能需要好几天,但结合我们前面说的这些方法,我们现在已经可以在几秒内就迅速为新用户建立模型。

如果用户是一个老用户,也就是用户有历史行为数据,那么还可以结合这些数据挖掘用户的兴趣偏好,形成用户画像。用户画像通过对海量的用户行为数据进行深入的分析和挖掘,从多个维度来描述用户的基础属性、标签及兴趣点等,清晰并且准确地勾勒出用户的轮廓概貌。这些数据帮助应用方更好了解用户行为路径,明确用户流失情况和原因,为应用方的产品功能优化决策提供可靠参考依据。

多维度结合,立体预测用户行为

用户画像中有多种维度衡量用户的兴趣偏好,比如偏好的新闻资讯列表、偏好的类别列表、偏好的标签列表、偏好的新闻作者列表、兴趣相似的用户列表等。

用户偏好生成过程中,还需要考虑两个因素:行为类型和兴趣周期。在新闻资讯阅读过程中,用户行为类型有很多。用户看到了一篇新闻,可能是用户感兴趣的,就点击了,然后看了一点觉得很不错,就沉浸下来进入深度阅读阶段直到看完整篇资讯,最后觉得写得太好了,不仅点赞还收藏了这篇文章。像深度阅读、点赞、收藏等和用户兴趣的正向的行为,生成偏好时应当加强,最后在推荐时要多推荐一些类似文章。像不喜欢、不点击等和用户兴趣反向的行为,生成偏好时应当削弱,推荐时也要尽可能少推荐。

另外一点就是兴趣周期,一般来说分三个层次,分别是长期兴趣、短期兴趣和实时兴趣,对应的时间间隔的不同。一般长期兴趣是取最近 3 个月或者半年的用户行为数据进行分析挖掘生成,短期兴趣则是最近一周时间间隔内,而实时兴趣则是最近N分钟之内的行为挖掘。长期兴趣主要处理用户一直存在的兴趣偏好,短期兴趣主要是处理用户正在变化的或者正在养成的兴趣,而实时兴趣主要是迎合用户的猎奇心理,当然实时兴趣也会是长期兴趣和短期兴趣的持续。

了解用户的心理之后,还有一些具体的事项也需要注意。比如,在一次推荐结果中,推荐的数量一般是 8 到 10 个,除了考虑用户兴趣之外,还需要权衡推荐结果的多样性、时效性等,比如避免推荐同一个作者、类别或者标签下的多篇新闻,新文章要优先推荐等。

机器学习,显著提升推荐效率

简单的生成用户偏好的方法是基于概率统计,也可以基于机器学习中的分类、聚类等生成。比如用户点击了 10 篇新闻资讯,有 7 篇是关于科技的, 2 篇是关于汽车的, 1 篇是娱乐的,则可以得到用户对科技、汽车、娱乐三个类别的偏好程度分别是0.7、0.2、0.1。

有了用户的偏好和偏好程度数据,就可以“投其所好”,就可以基于内容进行推荐了,主要形式有“含有相同标签的其它资讯”、“同分类的其它资讯”、“相同作者的其它资讯”等。比如用户偏好体育,那就推荐时增加体育类新闻的曝光。如果用户偏好C罗,那就推荐时增加C罗新闻的数量。

个性化推荐中很重要的一种方法是基于相似用户的推荐,相似用户的思想体现的是“物以类聚,人以群分”,基于群体智慧,利用已有大量用户群过去行为数据来预测当前用户最可能感兴趣的东西。具体来说,找到和你兴趣偏好相似的用户,把这部分用户喜欢看的新闻资讯推荐给你。比如小达在推荐系统相关的文章,小达和小观是相似用户,就可以这篇推荐系统相关的文章推荐给小观。相似用户的计算,主要是看用户喜好文章的重合程度。

举个例子,上表中第一行对应的新闻编号,共有 9 篇新闻资讯。第二行到第五行的第一列对应用户名称,后面各列表示用户对各篇新闻是否喜欢, 1 表示喜欢, 0 表示不喜欢。从上表可以看出,小达和小观共同喜欢的新闻有 7 篇,和小数共同喜欢的有 2 篇,和小据共同喜欢的有 1 篇。所以,相对小数和小据,小达和小观的阅读口味更加接近,二者喜欢看的新闻资讯互推的话,推荐准确度就会高很多。当然,在实际业务场景中,计算用户相似度的时候影响的因素非常多。比如过于冷门的资讯会导致相似用户很稀疏,需要过滤或者降权处理;过于热门的资讯会导致很多用户都有相似度,并不能实际反应用户的实际阅读兴趣,也需要过滤或者降权处理。

上述基于领域的相似用户的计算方法,具有很好的解释性。同样也适用于计算新闻资讯的相似度,也就是看各个物品之间被用户喜欢的共同用户数量。除此之外,还有一些方法把新闻资讯和用户映射到相同的隐语义空间中,对应一些无法解释的东西称为隐含因子。对于新闻资讯而言,隐含因子可以用来衡量新闻是正面还是负面的、正常新闻还是三俗的等多种维度。

模型融合,进一步提升推荐效果

综上所述,生成个性化推荐结果的方式有很多种。俗话说“尺有所短、寸有所长”,如果能把每种方式的优点都结合起来,就能得到更好的效果。在算法设计中,这个环节就是“模型融合”,将多个单一推荐算法的结果进行融合。

融合方式有很多,已经有一些完全自动化并且智能的融合机制,比如LR(Logistic Regression),该方法综合用户维度特征(如人口统计学信息、兴趣偏好)、资讯维度特征(如标签、类别、作者)和用户的行为数据(如点击、点赞、收藏)等多种数据,来预测用户对新闻资讯的感兴趣程度,也就是一个介于 0 到 1 之间的数值,越接近于 1 表示表示用户越感兴趣。

模型融合的方式现在已经普遍应用在机器学习的各个分支中,但是不同的融合方式效果有显著的差别。我们达观数据在具体的实践中使用的是独立开发的“双层叠加算法”,这一算法具有较强的普适性,已经在数百家知名企业的业务中得以应用。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 人民阅读携手阅文集团构建“阅读认知实验室”

    6 月 2 日,人民日报数字传播有限公司与阅文集团正式签署战略合作协议。双方将依托阅文集团数字内容与多元渠道优势,联合构建“阅读认知实验室”,推动“人民阅读”平台转型升级,发起重点领域的“网络文学创作计划”,探索新媒介语境下网络文学创作的现实主义传统重建,推动网络文学发展,打造网络文艺精品,助力全民阅读成为社会新风尚。 人民日报数字传播有限公司董事长兼总经理徐涛表示,移动互联带动网络文学的快速发展,为?

  • “资讯大池塘”娱乐领域排行榜,百家号分类应该怎么选

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。资讯大池塘是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列427249名,娱乐分类排名位列116672名,领先了61.8%的百家号。 资讯大池塘百家号概况 资讯大池塘的简介为资讯大池塘,趣事如水川流不息,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过68篇的游戏内容,最近该

  • “梨花说资讯”社会领域排行榜,百家号分类应该怎么选

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。梨花说资讯是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列176502名,社会分类排名位列19385名,领先了84.2%的百家号。 梨花说资讯百家号概况 梨花说资讯的简介为分享生活,分享故事和开心,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过841篇的游戏内容,最近该作者

  • “大娱乐资讯吧”娱乐领域排行榜,百家号分类应该怎么选

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。大娱乐资讯吧是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列841000名,娱乐分类排名位列211177名,领先了24.7%的百家号。 大娱乐资讯吧百家号概况 大娱乐资讯吧的简介为给你带来最新鲜最准确的娱乐资讯!,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过1094篇的游戏

  • “亿点资讯”自媒体权重排名,做自媒体怎么从零开始?

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。亿点资讯是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列706226名,社会分类排名位列72696名,领先了36.8%的百家号。 亿点资讯百家号概况 亿点资讯的简介为亿点资讯,连通你我,连通世界,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过17篇的游戏内容,最近该作者创?

  • 得物App——获取第一手潮流资讯,结交潮流圈同道好友

    如果做一个街头采访,问:看人最先看哪里?接近一半的的年轻人都会说“鞋子”。这不是随便说的数据,因为小编之前问了身边的十个朋友,有 5 个都说是“鞋子”, 3 个说“穿搭”, 2 个说“身高”。由此可见,现在的年轻人们,在工作、学习之余,常常会关注和提升自己的就是外形,穿搭就显得尤为重要了(鞋子也为穿搭的一部分啦)。夏天一来,又到了穿短袖、短裤、裙子的季节,如何搭配好这些衣服同样是现在年轻人们考虑的事情。一?

  • 微软Edge浏览器PDF阅读器迎重要更新:流畅、安全、方便…

    尽管微软的Edge浏览器已经为PDF阅读器提供了注释和编辑支持等功能,但微软似乎想要进一步的提高Edge浏览器内置的PDF阅读器使用体验。6月17日,据外媒报道,微软宣布Chromium版Edge浏览器中的P

  • ​今日头条上线京东618专属频道,掌握一手好物资讯共赴全民热爱

    京东 618 购物狂欢的大幕已经全面拉开,这个由京东首创的全民购物节,今年迎来了第 17 个生日。作为黑天鹅事件后首个最大的全民购物盛宴,此次京东 618 可以说是承载上半年全国消费力爆发的重要节点。为方便用户群体轻松发现并拔草京东 618 心仪好物,秉承“信息创造价值”初衷的今日头条联手京东,首次开放今日头条APP频道第五位,定制京东 618 专属频道页面,于 6 月 16 日- 18 日,面向头条海量高购物需求用户群体,展现京东 61

  • “顺联动力市场资讯”科技领域排行榜,百家号分类应该怎么选

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。顺联动力市场资讯是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列864170名,科技分类排名位列41201名,领先了22.6%的百家号。 顺联动力市场资讯百家号概况 顺联动力市场资讯的简介为带你发现最新资讯,了解行业动态,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过9篇

  • 懂你才算懂光: 2020版WiT智能阅读台灯上市

    人行一世,花在“懂得”上的精力实在太多,小小年纪就要去理解数学家推算出来的公式和文学家凝聚心力写出的文章,成长过程中要去理解人际关系人情世故,长大了就连买个手机买台电脑,也得去理解各项参数的意义。“我懂得很多了。那谁来懂我呢?”那么,给自己一个被懂得的机会吧!2020版WiT智能阅读台灯,从配件到功能全面升级,设计更懂你,提供WiT、Genie和Floor三种版本可供选择。一盏好灯不仅构建着家居环境,也呵护着使用的你

  • 半年时间实现独立阅读原版书,多亏了鲸鱼外教培优原版精读教学

    儿子在鲸鱼外教培优才学习了不到半年的时间,英语水平已经有了明显的提升,不仅听说读写这些语言基础能力有了巨大提升,还积累了丰富的学科知识,对很多学校里还没有学到的知识都有了一定了解。其实在鲸鱼之前他也去过其他机构学习,不过我们当地的机构使用的教学方法比较传统,可能对他应试还有一定帮助,但是完全不能满足听说学习,阅读原版书也会有一定障碍,最重要的是,因为教学方法传统,儿子学起来觉得很痛苦,进步十分缓慢

  • “初夏的阅读时光”百家号有什么作用?企业品牌必须知道的推广渠道

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。初夏的阅读时光是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列656576名,情感分类排名位列27964名,领先了41.2%的百家号。 初夏的阅读时光百家号概况 初夏的阅读时光的简介为我是垂眉摆渡翁,却偏偏独爱侬,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过30篇的游戏?

  • 每周阅读新闻时间不超过8分钟,《卫报》、BBC如何让年轻用户“看见”?

    现代传媒体系正朝着技术化、服务化、视频化的方向加速演进,媒介、内容、渠道和受众的定义正在改写——在新的媒介关系链条中,从前的受众演化成今天的用户,内容转化成产品,制作升级为运营——受众用户化,并建立以用户和数据为核心的运营体系,才能有效地延续和放大传统媒体的影响力。

  • “疯狂娱乐资讯”百家号娱乐领域收入排名,做自媒体月收入有多少

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。疯狂娱乐资讯是当前百家号中的原创号普通号,目前账号百家号权重为2,综合排名位列68188名,娱乐分类排名位列13460名,领先了93.9%的百家号。 疯狂娱乐资讯百家号概况 疯狂娱乐资讯的简介为草根自媒体人,对娱乐消息相当敏感。,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过1629篇

  • 小步在家早教:3岁前如何给孩子阅读启蒙?99%的父母都做错了

    和孩子亲子共读,你是否遇到了这些问题:市面上绘本那么多,怎么选?买了很多书,孩子都不爱看怎么办?好多书没有文字,该怎么讲给孩子听?……有的家长平时没时间,或者担心自己讲不好,喜欢用故事音频代替亲子共读;还有的家长把各种大奖绘本搬回家,孩子却看都不看……也许很多家长都没意识到,我们选的绘本和讲的方式都可能是错的,这些方式都只会降低孩子的阅读兴趣。而阅读可以提升孩子的语言能力、想象力、认知能力等等。美

  • “市场阅读者”推广价格预估,靠谱的自媒体推广平台

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。市场阅读者是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列680658名,财经分类排名位列15210名,领先了39.1%的百家号。 市场阅读者百家号概况 市场阅读者的简介为站在巨人的肩膀上学习,才更有效率,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过32篇的游戏内容,最?

  • 人民日报携手阅文集团、中福会成立“中国儿童数字阅读中心”

    6 月 15 日,由人民日报社、中国福利会指导,人民日报数字传播公司旗下“人民阅读”平台、中福会出版社、阅文集团共同发起的“中国儿童数字阅读中心”在中国福利会少年宫正式揭牌成立。同时,旨在鼓励支持儿童文学创作主体,推动儿童文学优质内容供给的“中国儿童文学扶持计划”正式启动。活动以“阅读·未来”为主题,十二届全国政协副主席、中国福利会主席王家瑞现场宣布“中国儿童文学扶持计划”启动。人民日报社副总编辑许正中

  • “阅读小说乐尚传媒”推广价格预估,靠谱的自媒体推广平台

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。阅读小说乐尚传媒是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列713532名,娱乐分类排名位列187111名,领先了36.1%的百家号。 阅读小说乐尚传媒百家号概况 阅读小说乐尚传媒的简介为推小说我们是专业的,可以一起探讨。,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超

  • “东东星军事资讯台”百家号怎么赚钱?百家号收益赚钱排行榜

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。东东星军事资讯台是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列109078名,军事分类排名位列1071名,领先了90.2%的百家号。 东东星军事资讯台百家号概况 东东星军事资讯台的简介为东东星军事资讯台 为您提供全面的军事资讯,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布?

  • e星球展会资讯丨把握“新基建”风口红利,打造新一轮5G产业革命关键要素

    有着中国电子行业风向标之称的 2020 年慕尼黑上海电子展即将于 7 月3- 5 日在国家会展中心(上海)盛大召开,四展联动,预计展出近160, 000 平米总面积以及近3, 000 家参展商齐聚现场。 2020 年慕尼黑上海电子展将全方位聚焦包括5G在内的多个行业热点,并将从它们出发,开辟各类精彩专题活动,为业内人士提供行业资讯以及前沿技术发展趋势!5 月 27 日, 2020 珠峰高程测量登山队成功登顶。现场的高清视频画面,通过中国移动5G网

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议