首页 > 传媒 > 关键词  > 阿里云最新资讯  > 正文

阿里云揭秘开源大数据十年演进之路,并开源两款AI项目

推广 · 2021-10-29 17:54 · 稿源: 厂商投稿

近日,2021云栖大会开源大数据与AI行业实践论坛上,阿里巴巴开源委员会副主席、阿里云开源大数据平台负责人王峰首次公开阿里云开源大数据技术的十年演进之路。同时,经历阿里巴巴自身业务千锤百炼的两款AI“神兵”宣布开源——大规模稀疏模型训练引擎DeepRec和多模态向量检索引擎Proxima,帮助搜索、广告等AI业务大幅提效。

开源大数据:进击的十年演进之路

王峰介绍了阿里云开源大数据平台在过去十年间的技术演进历程,并分享了数据湖、实时化、云原生、智能化等技术趋势。阿里巴巴一直坚持自研和开源双轨制平行发展模式,在自研的基础上积极拥抱开源生态。早在2009年,基于 Apache Hadoop 构建第一代大数据平台-云梯,并从 2016 年开始大力推动 Apache Flink 社区的发展,激发社区生态的繁荣和多元化。至2020年,Flink已连续三年在用户和开发者邮件列表活跃度蝉联第一。

随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,帮助万千企业聚焦自身核心业务优势,缩短大数据开发周期、简化运维难度,更轻松的投入到业务创新。

重磅开源:DeepRec和Proxima

基于业界常见的开源深度学习框架Tensorflow、PyTorch,针对稀疏模型仍具有局限性的问题,阿里巴巴高级技术专家刘童璇在会上宣布大规模稀疏模型训练引擎DeepRec即将开源。DeepRec针对稀疏模型在分布式、图优化、算子、Runtime等方面进行了深度的性能优化,同时提供了动态弹性特征、动态弹性维度、自适应弹性特征、多Hash弹性特征等在阿里集团内搜推广业务中沉淀的稀疏功能。高效助力技术升级,提升模型效果和模型迭代效率,大幅提高搜索、推荐、广告场景的训练速度,缩短模型迭代周期。

阿里巴巴达摩院资深技术专家肖允锋带来多模态向量检索引擎Proxima的正式开源。Proxima是阿里巴巴达摩院自研的向量检索内核,可实现对语音、图像、视频等非结构化数据的检索,广泛应用于阿里巴巴和蚂蚁集团内的众多业务,如淘宝搜索、优酷视频搜索、阿里妈妈广告检索等。同时,还深度集成在各类大数据和数据库产品中,为其提供向量检索的能力。开源项目地址:

https://github.com/alibaba/proximabilin

坚定拥抱开源,共建社区繁荣

在坚定拥抱开源的道路上,阿里巴巴一直强调希望能为开源社区作出更多贡献,带动社区繁荣发展,并实现社区多元化,让开源技术能普惠更多行业和场景。在此期间,阿里巴巴组织了上万人群参与Flink等开源技术讨论、联合举办超过百场社区活动、引入国际盛会Flink Forward等。

目前,阿里巴巴已经成为 Apache Flink 社区全球最大的贡献者和推动者,阿里云开源大数据团队也培养出30名以上Apache 顶级项目 Committer 、 PMC Member 和多名 ASF Member,参与了十多个Apache Top Level Project的建设。阿里云也与Spark、Elasticsearch等开源社区展开了深入的合作。

12月4-5日,作为开源大数据领域的顶级盛会之一,Flink Forward Asia 2021再次重磅来袭,聚集全球40+行业一线厂商和80+干货议题,打造专属于开发者的技术盛宴。大会议程已上线,点击链接即可免费报名。

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,文章为企业广告宣传内容,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天