首页 > 传媒 > 关键词 > 七牛云最新资讯 > 正文

七牛云数据科学系列论坛嘉宾陈超:七牛云机器数据分析平台 Pandora 最佳实践

2020-10-07 17:51 · 稿源:站长之家用户投稿

9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,七牛云产品与研发副总裁陈超为我们带来了主题为《七牛云机器数据分析平台 Pandora 最佳实践》的精彩演讲。以下是演讲实录。

嘉宾简介

陈超,七牛云产品与研发副总裁,负责七牛云的产品规划与研发体系,近年来专注于机器视觉、分布式计算与机器学习等领域,有非常丰富的分布式计算系统及大规模机器学习系统的设计与实现经验,在分布式数据库方面也有深入研究。

今天为大家带来的演讲主题是《七牛云机器数据分析平台 Pandora 最佳实践》,在介绍 Pandora 之前,我们可以先了解七牛云目前的整体架构。依下图所示,图中最下面一横是七牛云 cloud 的部分,包括直播云、实时音视频云、摄像头的监控云,其中所有的数据都汇聚到脱胎于对象存储的异构数据湖中。数据湖之上是视觉数据的分析平台以及机器数据分析平台。我们今天讲的 Pandora 就隶属于机器数据的分析平台。

什么是机器数据

我们对它有个简单的定义:机器数据是任何机器或者系统所产生的数据。比如说服务器产生的数据、传感器产生的数据、还有各种应用产生的数据,包括网络设备等等。机器数据的一个特点,它是由大量的时序的非结构化的数据组成的。对于我们处理定义的机器数据来讲,没有预先定义好的 schema,并且它的数据格式特别多,而且很难预测和定义,也就是说很难说预知是什么样的格式进来,或者说我预先定义好它的格式。

Pandora 的特点和采集流程

Pandora 定位作为一个机器数据的实时分析平台,它有哪些特点呢?

第一是 Pandora 原生支持 schema free 的数据。也就是说可以随时动态地添加删除字段,Pandora 更进一步地原生支持了 schema on read 的能力,所以产生的数据怎么样,进 Pandora 就是怎么样,不需要经过任何的这个加工。同时我们支持模型加速的功能。通过 SPL 分层持久化、列式存储、CodeGen、向量计算等技术对数据模型进行迭代优化。

第二个特点是云原生的架构,Pandora 的整个体系可以避免 ETL 加工带来的预处理建模困难,同时计算(动态资源)和存储(静态资源)分离,降低成本,提高计算弹性,另外完整的热-温-冷数据生命周期管理,可以大幅降低存储成本。

第三,是我们比较有特色的一个点:SPL 强大的分析表达能力。支持丰富机器学习命令,满足大量机器数据分析及 AI 场景;同时支持 SPL 实时计算,结果导出对接系统,完成业务闭环

第四点是我们有一个强大的系统扩展能力。也就是说你可以把 Pandora 看成一个 os,在其中可以利用 Pandora 的各种原生能力,去打造你自己的 APP 生态系统,SDK 支持对于平台的可视化系统、业务组织形式进行可插拔扩展。同时 Pandora 不仅可以支持 SQL,更能够通过 Python, Go+ 等扩展 SPL 计算能力;另外支持平台图表能力输出,能够集成到业务系统,完成数据价值输出。

下面是 Pandora 的全景图。从大数据分析的角度来看,先收集,然后处理、清洗,最后再分析和应用,是所有大数据厂商的通用做法。Pandora 在其中有一点是独特之处,就是 Pandora 支持原始数据格式的实时索引,也就是说除了分析之外,可以同时支持检索服务。整个检索和分析被统一到 SPL 的分析引擎里面,能够同时支持检索和分析服务。意味着用户不用在意是检索还是分析,可以一站式解决。

Pandora 的数据采集管理流程如下图所示,通过这样的流程,只要有数据产生,都可以有一个非常方便的方式来取得。

Schema On Road

在数据取得之后,就是 Pandora 的重头戏——Schema On Read。我们可以从这张图上可以看到 Pandora 的不同之处。Pandora 可以在原始数据直接上传后,在分析时进行动态解析。也就说只需要一份原始数据,我们多种数据模型就能解答不同用户的所有问题。这样的优势在于你可以针对各种数据进行各种建模。针对变化的数据格式,只要在 Pandora 里做一些小小的变化便可完全兼容。这是纯粹的日志系统做不到的。

SPL:机器分析数据的标准语言

SQL 是我们机器数据分析的标准语言。通过一行的 SQL 的命令,便可以检索,分析,可视化告警。支持对原始数据进行直接处理,并且专为时序数据做了优化,大家可以看到我们之前对机器数据定义的时候,包括大量的时序可以结构化数据,所以给了我们很大的优化空间。

另外我们在数据湖里做了多存储引擎,并且可以接各种各样的存储引擎。最后我们写了一个公式 SPL = SQL + Unix Pipeline,也就是说通过 SPL 我们可以做搜索,我们甚至可以写解析的条件,但是又不用像写代码麻烦。

通过提供机器数据分析高级语言,支持复杂的搜索、聚合以及关联分析的能力,处理能力更加强大。支持各种数学运算、关联分析、事务分析、预测分析等。在事务分析中,可以分析连续相互关联的事件集合,这也是 Pandora 特别适合安全场景的原因。

目前我们把 SPL 的能力也集成到了 platform 里,用户可以非常简单地去做数据接入,特征激活、算法的建模、效果展示、价值应用等,都可以在其中完成。

Pandora 扩展应用

有了 SPL 能力以后,Pandora 支持用户在上面沉淀自己的知识。所以我们的理念是,Pandora 不是一个 platform,我们更希望它在传递价值。也就是说希望以 app 的形式,能将知识沉淀在 Pandora 的 App Store 里。Pandora 的 App Store 作为完整产品架构不可获取的一部分,形成了从数据接入到数据展示的完整链路。

存储架构:数据全生命周期管理

面对数据量较大的,并且强调实时处理的情况,我们在 Pandora 的存储架构中,构建数据的全生命周期管理。

在成本和性能的双重考虑下,我们在连贯的过程中,实现计算与存储的完全解耦,资源应需而变;数据可实现历史数据长期存储,积累的海量历史数据可以支持未来的机器学习、AIOps 等场景。

同时 Pandora 也在努力与七牛云的存储进行对接,使大家在直接对七牛云云存储进行分析时,也能享受到尽可能高的性能。

技术点分享

我们做了正向索引与倒排索引以及行列混合存储,也支持分层的存储和 On Read、CodeGen、向量化。TimeSeries 的优化可以反映到计算引擎中,让用户体验到更快的性能和更稳定的服务。

Pandora 案例

01 某大型保险公司

主要用于对信息系统整体日志进行全生命周期智能管理,实现对日志的统一采集,合并处理,集中存储,关联分析与智能管理。适用于解决运维开发领域的三大场景:

IT 运维,安全审计,业务运营分析;可提供包括线上监控、运维数据支撑、问题诊断、故障预警,资源监测、用户行为审计、规则提取、归档、攻击溯源、业务走势分析等服务。

02 某顶尖手机制造企业

第二个案例是某顶尖手机制造企业监控诊断和根因分析。手机在出厂前都要有一个测试的过程,但每次测试的时会产生很多很多的测试的数据,来反映手机的故障情况。在没有制造系统知识的时候,需要员工要去看,非常复杂。在 Pandora 的赋能下,手机的制造厂商可以远程监控我们的这个车间的生产质量,并且很快地定位到故障原因。

03 某领军半导体企业

下面是半导体的企业案例,半导体的产业链非常长,在源头是一个叫做单晶炉的设备,用来提炼单晶硅。Pandora 可以帮助单晶硅做健康度的检查,也就说我们可以及时发现单晶炉的故障,在故障发生时及时报警,避免原材料无谓的投入,及时止损。从图中我们可以看出,Pandora 通过多个维度做分析,通过单晶炉里面的传感器收集数据,对设备进行生产监控和预测性维护。

04 智能网联车分析

最后一个案例是智能网联车,Pandora 可以判断车子的数据,比如什么时候打了方向盘,什么时候踩了刹车等等,在 Pandora 里都可以一目了然。

大家可以通过以上几个案例看出,Pandora 所针对的数据,都是由机器产生的、非常不规则的、带有 time stamp 的数据。所以我们在金融、制造业、车联网等等都有比较有意思的应用。Pandora 也希望通过大数据、AI 手段,为更多相关产业赋能,实现产业升级。

数据科学系列论坛第二期预告

10 月 20 日,七牛云主办的「云加数据,智驱未来」数据科学系列论坛第二期将邀请七牛云数据科学家周暐、支流科技 CEO温铭、eBay Spark committer王玉明等业界专家围绕大数据及数据分析进行专业分享及深度探讨,敬请关注!

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 七牛云入选「投资界硬科技TOP100」

    2020年9月9日,「投资界硬科技TOP100」榜单在西安2020全球创投峰会盛大发布,上海七牛信息科技有限公司(七牛云)入选该榜单。该榜单由清科投资界发起,旨在挖掘近三年有融资经历的未上市公司,评选出100家具有行业风向标意义,支撑中国科技创新和产业升级的优秀硬科技企业。“硬科技”概念由来已久。它区别于由互联网模式创新构成的虚拟世界,属于由科技创新构成的硬核世界,需要长期研发投入、持续积累才能形成的原创技术,具有极高技术门?

  • 七牛云数据科学系列论坛嘉宾马洪宾:大数据分析的云原生趋势

    七牛云「云加数据,智驱未来」数据科学系列论坛嘉宾马洪宾:大数据分析的云原生趋势9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,Kyligence 创始合伙人 & 研发副总裁马洪宾为我们带来了主题为《大数据分析的云原生趋势》的精彩分享。嘉宾简介马洪宾,Kyligence 创始合伙人 & 研发副总裁,Apache Kylin 核心开发者及项目管理委员会成员 (PMC)。专注于大数据相关的基础架构和平台设计。在?

  • 七牛云数据科学系列论坛嘉宾黄东旭:TiDB 在实时数据分析中的最佳实践

    9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,PingCAP 联合创始人兼 CTO 黄东旭为我们带来了主题为《 TiDB 在实时数据分析中的最佳实践》的精彩分享。以下内容根据演讲整理。MySQL 作为单机数据库,当数据量增加时必然涉及到分库分表等操作去换取水平扩展能力,这时候的复杂度将会呈现几何倍的上升。TiDB 五年前的初心是想设计一个替换 MySQL 分库分表的方案,因此 TiDB 最早的目的是想?

  • 特斯拉信心保障计划下线:不能七日内退车了

    据报道,10月16日特斯拉突然终止执行并下架了特斯拉信心保障计划,以后购车不再享受该政策,意味着消费者购买了特斯拉的电动车不能在7天内随意退还了。具体来说,根据特斯拉之前的信心保障政策

  • 中国电商SaaS赛道七年:生死疲劳,乱象与危机

    2013 年的那场著名的阿Q之战中,淘宝封杀微信。狠人白鸦知道机会来了:他兴奋地找朋友喝了一夜的酒,然后瞄准了微信电商生态被迫独立这一风口,把有赞从一个不涉及交易、“淘宝客”模式的引流平台升级成一个全方位介入交易、提供技术支持的平台,一战成名。

  • 迪士尼将在美裁员2.8万人 超七成为兼职员工

    当地时间 9 月 29 日,美国主题乐园迪士尼宣布将在其公园、体验和产品部门裁员2. 8 万人,占乐园员工总数25%。据悉,被裁员工中大约67%为兼职员工,部分高管及全职工也在名单中。

  • 好生活、享实惠 七彩云南·诺享会®开启云南消费新时代

    “这个夏天我们全家能过上‘缤纷夏日’,多亏了诺享会。”热衷网购的昆明本地人刘先生最近对电商APP——七彩云南·诺享会?很感兴趣。通过这个平台,他低价吃上了云南的特色食物,订到超低价的欢乐世界门票,还顺带去泡了古滇温泉,带家人度过了愉快的一天。在刘先生看来,如此方便又实惠的APP确实太少了,以前他都是常规购物用淘宝、京东,买生鲜水果去超市……随着现在电商平台的增多,功能和服务是完善了,但又出现了各平台良莠?

  • “不忘初心 科技兴国” 王东临特邀出席中国南湖院七星论道讲坛

    近日,中国电子科技南湖研究院(简称“中国南湖院”)七星论道讲坛在浙江嘉兴召开,国际顶级密码学专家、中国十大青年科学家、首届中国杰出工程师王东临教授应邀担任主讲嘉宾,与一百余位包括中国工程院院士、中国杰出工程师在内的相关领域专家共同探讨区块链在“新基建”中的重要作用。九十九年前,浙江嘉兴南湖一艘平凡的小船,承载着大无畏的革命先驱者和中华民族改写命运的希望,孕育和见证了中国共产党的庄严诞生。九十九年斗

  • 小阿七、饭思思、吴岱林等千万级网红“操盘手”YY的爆款方法论

    “那女孩对我说,说我保护她的梦,说这个世界上,对她这样的不多……”广州街头,一个穿着格子衬衫的女孩坐在地上唱着《那女孩对我说》,含泪的眼眸闪闪发光,尽管身形瘦瘦小小,声音中却饱含巨大的穿透力与无尽深情,旁观者都被她深深感动。

  • 全国七城联动 一加 8T Pop-up快闪活动正式启动报名

    9月28日,一加手机宣布将于10月17日举办一加 8T Pop-up 快闪活动,并于今日正式启动报名,用户登陆一加官网活动页面即可报名参加。一加 8T Pop-up 将在北京、深圳、上海、重庆、武汉、南京、昆明七座城市同步展开活动,用户在活动现场可体验并抢先购买一加 8T 手机,现场购机还可获赠Pop-up专属限定礼盒、参与抽奖活动还有机会赢取一加 8T 。用户还可参与加油同城活动,与一加产品经理面对面沟通。一加手机一直坚持打?

  • 斩获双金!第七届媒介360营销传播奖时趣再赢荣誉

    2020年9月18日,第七届媒介360营销传播奖在上海成功举办。时趣此次报选的两个案例:A+燃烧计划—美赞臣的CRM精准营销及帮宝适独家冠名母婴综艺两个案例,分别获得营销传播专案奖-医药保健类金奖,及泛娱乐营销奖-IP营销金奖两大殊荣。营销传播专案奖-医药保健-金奖A+燃烧计划—美赞臣的CRM精准营销美赞臣希望通过一场CRM营销,最大化利用品牌的私域流量,激活会员并提高会员在CRM体系中的互动,提升会员用户的生命周期价值。时趣通过洞察?

  • 马上金融人工智能技术一举夺得七项权威认证

    近日,马上消费金融(以下简称“马上金融”)自主研发的 7 项人工智能科研成果,获得了中国信息通信研究院专家组一致肯定,高分通过了中国人工智能产业发展联盟权威认证。本次参评项目覆盖了马上金融在自然语言处理、语音和视觉领域的先进人工智能技术和应用场景实践,反映了马上金融在人工智能方面自主研发能力的不断提升,标志着马上金融的自然语言处理技术服务平台、中文语音合成、中文语音识别、人脸检索、人证核验、文本客服及?

  • 多2座贵两万块!特斯拉Model Y七座版下月投产 年内交付

    自从特斯拉解散了美国的公关团队后,特斯拉官方对外公布发言,公布最新消息的重任,就落到了Twitter坐拥数千万粉丝的网红CEO埃隆马斯克身上。如今来看,马斯克也没有辜负众望,通过自己的影响

  • 共建世界级测试标准,腾讯牵头七家单位成立“软件测试能力认证联盟”

    2020年10月13日,腾讯联合阿里巴巴、华为、软通动力、北京大学、南京大学和同济大学共七家单位,在2020腾讯品质峰会上共同发起成立“软件测试能力认证联盟“(The Certification Board of Software Testing Competency,CBSTC)。这是国家5G和新基建战略指导下,国内成立的首个专注于软件测试能力认证的联盟机构。随着互联网软件开发和测试能力逐渐融合,未来的软件测试将不再只是测试工程师的工作,而将融入所有软件研发人员的职

  • 七国集团草案:监管没到位 反对Facebook推出Libra稳定币

    10月13日消息,据国外媒体报道,全球七大经济体的金融领导人认为,Facebook的Libra稳定币尚未准备好推出,因为监管还没到位。七国集团(G7)发布的一份声明草案显示,全球七大经济体的金融领导人将在当地时间周二表示,他们反对Facebook推出Libra稳定币,直到这种加密货币得到适当监管为止。外媒称,该草案是为美国、加拿大、日本、法国、英国、意大利和德国的财政部长和央行行长将要参加的会议准备的。银行家们提醒说

  • DNF礼遇特权第七季挑战希洛克奖励汇总 礼遇特权第7季奖励有哪些

    DNF在22日上线了礼遇特权的第七季挑战希洛克的内容,这个活动大家都很清楚了,那么这赛季的礼遇特权有哪些奖励呢?下面就来为大家分享一下。

    dnf
  • 文思海辉金融连续七年稳居银行业CRM解决方案子市场榜首

    从量到质,由广及深,大数据在经历高速发展后,已与银行业务深度耦合,各大商业银行逐步由大规模向高质量转变,从分散管理向归集化管理推进,以大数据为驱动,深入推进业务模式转型、挖掘客户价值,实现精准营销。 大数据时代,差异化营销和个性化服务是银行维系客户的重要方向。伴随着社交平台兴起和移动化趋势的盛行,多渠道下的碎片化数据越来越丰富,为了更好的整合内外部数据,贯彻以客户为中心的服务理念,促进客户信息规范

  • 47名主播被列入黑名单封禁5年 第七批主播黑名单完整名单

    【47名主播被列入黑名单封禁5年】据中国演出行业协会网络表演(直播)分会官微消息,根据《互联网文化管理暂行规定》《网络表演经营活动管理办法》《互联网直播服务管理规定》等相关法律法规,按照《网络表演(直播)行业主播“黑名单”管理制度》《黑名单认定工作流程》规定,中国演出行业协会网络表演(直播)分会现向社会公布第七批主播黑名单,被列入黑名单的主播将在行业内禁止注册和直播,封禁期限 5 年。现将名单公布如下:

  • 四年成功复制七家小米生态链企业,谷仓爆品学院做对了什么?

    会有第二个小米出现吗?在十周年纪念发布会之后,小米迎来股价暴涨创新高的好消息,一时间再度引起了大众对“小米现象”的广泛讨论。小米成立后,快速用新模式颠覆了传统手机产业并用极短时间跻身行业前列。如此耀眼的成绩之下,很多企业都想成为第二个小米,于是纷纷模仿小米的价格、风格设计、营销方式等,但事实证明,这些表象的复制并不能成就“小米第二”。面对不幸折戟的模仿者们,很多人片面地认为,小米的成功并不具备可复

  • 如何发挥数据的价值?:“七牛云Niu Talk ”云加数据智驱未来!

    领跑关键优势——数据驱动决策近日,由国内知名的云计算及数据服务提供商七牛云出品的“七牛云 Niu Talk”论坛首期举行。该系列论坛以数据科学为主题,用全新的视角,联合国内各大专注数据研发企业,从不同维度解读当下数据科学的力量。首期“七牛云Niu Talk ” 论坛邀请了业内知名数据公司 Zilliz 、PingCAP、Kyligence、支流科技、Databricks 等领军企业,就企业所遇到的数字化渠道日益强烈的偏好,对网络健康和网络安全的要求越来越高

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签