首页 > 传媒 > 关键词 > 达观数据最新资讯 > 正文

达观数据是如何基于用户历史行为进行精准个性化推荐的?

2017-06-20 16:38 · 稿源:站长之家用户投稿

在DT(data technology)时代,网上购物、观看视频、聆听音乐、阅读新闻等各个领域无不充斥着各种推荐,个性化推荐已经完全融入人们的日常生活当中。个性化推荐根据用户的历史行为数据进行深层兴趣点挖掘,将用户最感兴趣的物品推荐给用户,从而做到千人千面,不仅满足了用户本质的信息诉求,也最大化了企业的自身利益,所以个性化推荐蕴含着无限商机。

号称“推荐系统之王”的电子商务网站亚马逊曾宣称,亚马逊有20%~30%的销售来自于推荐系统。其最大优势就在于个性化推荐系统,该系统让每个用户都能有一个属于自己的在线商店,并且在商店中能招到自己最感兴趣的商品。美国著名视频网站Netflix曾举办推荐系统比赛,悬赏 100 万美元,希望能将其推荐算法的预测准确度提升10%。美国最大的视频网站YouTube曾做过实验比较个性化推荐和热门视频的点击率,结果显示个性化推荐的点击率是后者的两倍。

达观数据拥有雄厚的研发推荐系统的技术积累,曾在ACM、CIKM、KDD、Hackathon等国际竞赛的获奖,在内容推荐,文本挖掘、广告系统等方面申请有超过三十项国家发明专利。本文从数据处理、用户行为建模到个性化推荐,分享达观数据在个性化推荐系统方面积累的一些经验。(达观数据联合创始人 于敬)

1.数据收集及预处理

推荐系统的本质其实就是通过一定的方式将用户和喜欢的物品联系起来。物品和用户自身拥有众多属性信息进行标识。

1)物品属性

用户表示推荐系统的主体,自身属性包括人口统计学信息以及从用户行为数据中挖掘分析得到的偏好等。

3)用户行为

用户行为分析

在数据采集的过程中,难免会出现一些脏数据,在使用数据前需要进行清洗。过滤掉关键字段为空、数值异常、类型异常等数据;用户id包括cookie、手机号、email、注册id等,需要进行映射得到用户唯一id;以及数据去重等操作。另外,还有“人为”的脏数据,如作弊、刷单等行为,这些数据也需要清除,否则会严重影响后续算法的效果。达观数据在反作弊方面也做了很多工作,可有效筛选各种行为上的作弊情况。

2.用户行为建模

基于用户历史行为的进行挖掘分析,得到刻画用户本质需求的一组属性集合,即得到用户模型,个性化推荐的准确性很大程度上依赖于对用户属性刻画的准确性。达观数据采用了多种方式进行量化,主要包括显式用户偏好分析和隐式用户兴趣点挖掘。

1)显式用户偏好分析

除了结合物品信息进行分析计算得到的显式偏好外,还有一部分隐式兴趣点需要挖掘,这部分主要用于细分用户群体,进行有针对性的进行更有效的推荐。划分群体的准则要根据具体的业务需求而定,比如是否是高价值用户、是否价格敏感、是否对大牌情有独钟、大神用户和小白用户的区分、喜欢热门流行还是偏小众的等等。借助机器学习中的分类(如SVM)和聚类(如k-means)算法可有效解决用户群体的划分问题,牵涉到的训练和测试数据需要先根据一些规则粗略得到候选集,在结合人工标记的进行筛选。除了可以从行为数据中抽取特征外,也可以从物品和用户的属性数据中抽取特征。经过模型的训练、预测和后处理,从而将用户划分到不同的群体。

3)协同过滤的基石

 相似度计算方法对推荐效果的影响

相似度的计算很多种方法,如余弦相似度、皮尔逊相关度等,曾经使用mahout做过的一个不同相似度度量方法下的对比测试结果,测试中score的计算使用的是绝对差值的平均,越小越好。本次测试结果表明,在基于用户的协同过滤中,使用皮尔逊相关度的计算方法,推荐效果最好。

其实不同的相似度计算方法有各自的优缺点,适用不同的应用场景,可以通过对比测试进行选取。在实际业务中,相似度的计算方法都有很多变种,比如是否考虑去除冷门物品和热门物品的影响。毕竟过于冷门和过于热门的物品对衡量用户间的相似度时区分度不好,这时就需要进行剪枝。这种基于K近邻的选取相似用户的方法,相似度的阈值设置对结果影响很大,太大的话召回物品过多,准确度会有下降。

4)时间维度上的考量

3.个性化推荐的实践经验

以用户模型和物品属性数据为载体,结合多种推荐算法和效果优化策略,个性化推荐系统将用户最感兴趣的物品精准推荐给当前用户。不同算法有自己的应用场景,所以根据业务需要、数据的丰富程度、效果衡量指标等选择合适的推荐算法,然后根据推荐结果进行不断迭代,最终完成符合预期效果的个性化推荐系统。

主要过程是将用户的信息特征和物品对象的特征相匹配的过程,从而得到待推荐的物品集合。通过用户模型中的类别、标签、品牌等各维度的偏好数据,在全量物品列表中寻找与之匹配的用户感兴趣的物品列表,并给出用户感兴趣的程度。根据挖掘的兴趣点,对部分用户进行有针对性的推荐,为其“量身定制”推荐结果,满足其特有的需求。基于内容的推荐方法,优点是能保证推荐内容的相关性,并且根据内容特征可以解释推荐结果,而且对新物品的推荐是也能有很好的考量。缺点是由于内容高度匹配,导致推荐结果的惊喜度较差,而且对新用户不能提供可靠的推荐结果。

2)基于协同过滤的推荐

当用户的行为数据较少同时又有明确的需求时,协同过滤和基于内容的推荐效果不尽人意,但是基于知识的推荐可以帮助我们解决这类问题。这种方法不需要用户行为数据就能推荐,所以不存在冷启动问题。推荐结果主要依赖两种形式,一是用户需求跟物品之间相似度,一种是明确的推荐规则。实际应用主要是以强规则为主。

4)补足策略

单一算法有各自的优缺点,并不能满足实际的线上需求。为了提供最优质的个性化推荐服务,保证推荐结果的多样性、新颖性和惊喜度,需要融合多个推荐算法,进行混合推荐。常见的混合方法有以下几种:

  a)  加权式混合

不同推荐算法的结果需要归一化在相同的范围内,并且各个算法的权重之和为1。

  b)  交叉式混合

  c)  切换式混合

主要是将不同的推荐算法进行排序,后面的推荐算法对前面的不断优化,最终得到一个多级优化下的推荐结果。

  e)  分级混合

达观数据在实践中充分利用了各种混合方法来提高推荐效果,并取得了优异的成效。例如基于加权式和分级混合的流程是,首先通过权重的大小来衡量每种推荐算法结果的好坏,产生待推荐的物品集合,在合并的时候,将优先使用好的推荐算法的结果。实践中则是各种指标综合权衡,整个过程也要复杂很多。(达观数据 于敬 陈运文)

6)重排序

排序学习的流程

对于已标注的训练集,首先选定LTR方法,确定损失函数,以最小化损失函数为目标进行优化即可得到排序模型的相关参数,这就是学习过程。预测过程将待预测结果输入学习得到的排序模型中,即可得到结果的相关得分,利用该得分进行排序即可得到待预测结果的最终顺序。LTR分按点(pointwise)、按对(pairwise) 和按表(listwise) 三种方法,涉及到的常见模型有LR(Logistic Regression)、SVM、DT(Decision Tree)。

关于排序模型的选择,LR 算法主要适用于特征数很多、样本量很大的情况。如果是样本量很大,但是特征比较少的情况时,建议使用DT的算法。主要是因为在特征数较少时,对应的问题往往是非线性的,此DT算法可以发挥自身的优势。另外,SVM在解决非线性分类问题是效果也非常好。相对于另外两种方法,按表的方法往往更加直接,它专注于自己的目标和任务,直接优化排序结果,因此往往效果也是最好的。

经过多个推荐算法的处理,最终得到待推荐物品的结合,使用少量维度的特征进行排序过于简单,效果也大打折扣。基于推荐算法得到的相关特征,结合物品和用户的特征进行组合,可以得到各种特征,并且有些特征是正相关有些是负相关,需要不断优化。借助机器学习方法得到了最终的物品排序,呈现给用户。

4.结束语

本文从构建用户模型到个性化推荐,介绍了达观数据的一些实践经验。个性化推荐系统能有效解决信息过载和长尾物品两个方面的问题,不仅提供了极佳的用户体检,满足了用户的信息需求,也帮助了企业挖掘其中蕴含的无限商机。

达观数据一直致力于为企业提供优质的大数据服务,经过多年的摸索,目前在个性化推荐系统研发和效果提升方面已经积累了丰富的实战经验。当然新技术也在不断出现,深度学习的兴起也给个性化推荐效果的提升带来了更大的契机和想象空间,达观数据也在这方面进行不断探索,后续有机会再跟大家一起分享。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • AI落地最新前沿,达观数据携多款机器人新品将亮相世界人工智能大会

    备受关注的“ 2020 世界人工智能大会云端峰会”即将拉开帷幕。此次峰会由上海市政府主办。世界人工智能大会自从 2018 年以来成功举办了两届,伴随着上海人工智能产业发展从起步到壮大,已成为行业内具有一定国际影响力的品牌活动。本届大会在上海市经济和信息化委员会及相关委办局、区政府的指导下,国内文本智能处理领军企业达观数据携手浦东青联将举办“智能时代,‘语’你同行”行业论坛。 疫情之下,各行各业对线上自动化与?

  • 数据化运营,Smartbi助力商业银行打造“数据王国”

    在国内,银行的信息化一直是走在各个行业的前列,BI在银行也有着悠久和广泛的应用。BI可以辅助银行管理者和业务人员的经营决策,提高银行的科学管理水平,是银行信息化不可或缺的一部分,也是银行实现数字化转型的必要手段。银行的BI建设伴随着业务和技术的发展,是一个逐步摸索、不断成熟的过程。刚开始可能只建设某一个部门的一部分报表,在取得一定的成效后,再逐步推广到更多的部门,建设更多的主题,采用更多的可视化方式,支

  • 罗永浩直播数据在哪看 罗永浩直播数据统计

    罗永浩的直播带货数据一直都被很多网友们关注,尤其是他第一场直播的时候就已经获得了1.68亿的销售额,直播间观看人数更是达到了4800万,在如今的直播带货领域可以说是十分顶流。

  • 云测数据:场景化AI数据 破解智能家居“伪智能”

    据IDC的数据研究报告显示,近5年内智能家居市场将以14.9%的复合增长率增长。得益于物联网、人工智能、5G等新型技术的飞速发展,智能家居在短短数年间就已经相继渡过了“自动化”、单品智能化”、“物联网+家居场景”三个阶段,进入了当前的“人工智能+家居场景”的“智能”阶段,开启了智能家居对人的思维和意识的学习与探索。现阶段的智能家居融合了IoT、人工智能、边缘计算等信息技术,以前影视片段中一声令下就能控制所有家具电器、?

  • 快手回应主播带货数据疑似造假:数据接口调试不到位

    针对快手主播带货数据疑似造假一事,快手回应称,快手对数据做假零容忍,一经查实严肃处理。此前快手平台上的主播小伊伊与寺库的直播带货数据遭到了网友的质疑。

  • 华为开源数据库能力 开放openGauss数据库源代码

    今日,华为正式宣布开源数据库能力,开放openGauss数据库源代码,并成立openGauss开源社区,社区官网(opengauss.org)同步上线。

  • 数据中台变革在即 阿里云数据中台升级瞄准行业化

    6 月 9 日,在 2020 阿里云线上峰会上,阿里云发布了新一代数据中台,重点发布核心产品矩阵“2+2”升级,并同步推出了四大行业数据中台。据了解,这是阿里云数据中台首次对外宣布升级。记者尝试通过产品矩阵升级和行业数据中台发布来解读背后的信号。从大数据基础能力延伸到精细化业务赋能过去,阿里云数据中台主要围绕两款产品来为企业提供数据中台服务——Dataphin和Quick BI。Dataphin的能力重点主要是智能数据体系的构建及管理

  • 人工智能+大数据,新浪舆情通用更“智能”的数据助力决策

    人工智能技术的应用早已深入人们的生活,语言翻译、智能音箱、导航系统、城市安防系统之中都能有人工智能技术的参与,在推动国家治理、优化企业运营策略的过程中,也能见到人工智能技术的应用。近年来,政企机构越来越重视聆听新媒体平台上的声音,并通过大数据分析和数据简报等方式挖掘信息价值,洞察民意以辅助自身决策。随着数字基础设施建设的逐步加速,互联网信息将成倍增长,并且以更复杂多样的形态和方式出现,人工智能技术

  • 快手回应小伊伊带货数据疑似造假:1.05亿是真,数据接口的“锅”

    昨日,针对“快手”小伊伊直播带货数据涉嫌造假”一事,快手回应称,小伊伊与寺库的专场直播成交额由寺库快手小店后台数据统计得出,确实为1.05亿。由于本场直播快手小店与寺库的数据接口调试不到位,造成前后端数据显示不一致。6月7日晚,粉丝数量高达3632万的快手一姐“小伊伊”联手寺库开启奢侈品专场直播。其快手小店战报显示,23点30分,小伊伊成交额超1亿。然而很快,有网友对快手平台网红?

  • 快手回应主播带货数据疑似造假:没造假 数据接口调试不到位

    昨日,针对“快手小伊伊直播带货数据涉嫌造假”一事,快手回应称,感谢大家的关注和监督,快手对数据做假零容忍,一经查实严肃处理。小伊伊与寺库的专场直播成交额由寺库快手小店后台数据统计得出,确实为1. 05 亿。

  • 李开复谈互联网巨头拿走个人数据:应该惩罚用数据做坏事的企业

    在6月20日的极客公园联合bilibili举办的Rebuild2020的对话上,谈及“个人隐私”,创新工场董事长李开复表示,联网巨头拿走个人数据赚钱,用户获得授权和分成仍是理想主义,用户拿回自己的数据会发现在电商平台搜不到自己想要的东西了,社交媒体获得不到推荐的好友了,推荐你的餐馆不靠谱了

  • 苹果发布App Store生态商业数据,完整数据报告汇总

    6月16日苹果公司发布了App Store生态商业数据,这份数据报告中苹果指出2019年App Store商店全球范围促成 5190 亿美元商业交易,淘宝、京东、苏宁易购等零售类 app 完成了 2680 亿美元销售。

  • 为什么快手要投资百亿自建数据中心?

    在快手前,华为、阿里和苹果等公司的 11 个数据中心项目已在乌兰察布落地,总投资规模达到 357 亿元,服务器规模 150 万台,“南贵(阳)北乌(兰察布)”的数据中心格局已经形成。快手百亿投资数据中心,将进一步促进乌兰察布大数据产业发展,给当地在GDP、招商、就业、城市建设规划与税收上带来直接好处。作为视频与AI头部企业,快手在乌兰察布的数据中心也将专用于大数据与AI,因此将给当地大数据产业带来更多想象空间。

  • 关于数据库的高可用高可靠,华为RDS有话说

    不知从何时起,“6·18”成为了“购物节”,这种全民狂欢式购物对电商行业是一个巨大挑战。 618 大促毫秒必争,短时间的高并发会给数据库带来巨大压力。面对暴涨的业务、暴增的订单,企业该如何确保数据库稳定性和可靠性呢?不要担心,华为云数据库的这份应对策略,时刻为您保驾护航。对于数据库来说,可用性和可靠性是永恒的话题。数据库管理员会按照业务的不同要求选择不同的策略保证系统正常运作,其中包含数据库本身内核提供的?

  • U盘坏了数据怎么恢复?简单又有效恢复见解

    U盘坏了数据怎么恢复?U盘作为一种存储介质,在使用过程中有着很大的优势,而且在和电脑连接时,如果不小心误删除其中文件的话,所删除的文件也都不会经过回收站,而是直接被系统所隐藏。那么对于这种现象来说,要想找回丢失数据的话,我们又该如何恢复呢?怎样才能找回丢失的文件呢?下面嗨格式数据恢复大师就为大家介绍下,目前比较常见的几款U盘数据恢复软件,以及哪款软件比较好?对于U 盘自身故障,造成 U 盘在电脑中无法读取

  • 民航业数字观察:营销需升级,中台靠数据

    每一次危机过后,都给行业以“刮骨疗伤”、“转型升级”的契机。对民航企业来说,疫情的影响同样带来了冲击、反弹、恢复的进程。从全球三分之二的客机停飞、分析机构预测2. 2 万亿元的损失,到国内航班在 5 月份恢复到 5 成水平,中国民航企业经历了冰火两重天。 民航产业这个引领行业发展数十年的传统行业,如何在数字化的今天重新走在时代前头? 6 月 6 日,腾讯云TVP闭门会邀请了交通行业的从业者和技术专家一起,探讨了航企的数

  • 抖音开放平台推出公开数据服务

    近日,抖音开放平台宣布推出公开数据服务。接入服务的开发者可以为用户提供抖音热点数据、视频公开数据、星图榜单、生活服务数据等服务,为视频创作和账号运营提供更多支持。

  • 和鲸《数据科学教育白皮书》,实现专业高效建设

    至今,数据科学与大数据相关专业在全国范围内广泛开设。截至 2019 年 3 月 25 日,全国 34 个省级行政区中有 29 个省级行政区的 481 所(截至 2019 年 6 月 15 日,全国普通高等本科学校总数为 1265 所)院校成功新增备案数据科学与大数据技术专业,其中有个别院校开设了两个不同学位的数据科学与大数据技术专业。 我国高职院校对大数据专业人才的培养相应度同样保持高水平。据统计, 2017 年获批 64 所职业院校, 2018 年获批 21

  • 直播带货爆火公式详解:这2个数据又关键又难实现

    在流量红利逐渐趋紧的大环境下,流量稀缺性更是引发了各大平台的争夺战,随之出现了电商平台内容化、内容平台电商化、社交平台电商化等有趣的现象,而腾讯直播恰好踩中了在社交平台+内容电商的大方向。

  • 直连官方数据源,用车轮查违章更高效

    随着社会的发展和人们生活水平的提高,私家车进入千千万万的普通百姓家,对于有车一族来说,往往买车容易养车难,除去维修保养外,查违章和交罚款也成为了众多车主的必修课。的确,如今出行的压力和路况的复杂,让违章成为无法避免的事实。但是如果车主无法及时查询和处理违章情况,将会给自身带来比较麻烦的影响。那么,如何做到快速查询和缴纳罚款,是很多车主关心的问题,车轮APP的出现帮助了亿万车主轻松解决上述烦恼。据了解?

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议

热文

  • 3 天
  • 7天