首页 > 传媒 > 关键词  > 大数据最新资讯  > 正文

百度沈志勇:百度大数据引擎要为工业界输入价值

2014-08-18 16:28 · 稿源: 站长之家用户

“预测只是我们的入手点,我们要做的,其实是一个在线智能系统,这个系统可能包括监控、异常检测、诊断、预测等等。我们希望把这个系统运用到各种场合,比如运维和运营,让系统来模拟人的分析与决策过程。”8月16日,百度研究院大数据实验室科学家沈志勇老师在第53期百度技术沙龙上说。

大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据被认为是下一个创新竞争和生产力的前沿,基于大数据的预测技术层出不穷。本期百度技术沙龙,在百度负责大数据的预测与其他相关应用研发的沈志勇为大家带来了主题为《大数据与预测》的技术分享。

百度业内领先的大数据技术和沈志勇老师精彩的演讲使得车库咖啡座无虚席,虽然店内进行了加座,但还是不能满足听众们的需求,很多技术人员是站着听完了沈志勇老师的分享。

沈志勇老师在现场风趣的表示,其实可以根据汪峰的歌词做一个大数据主题模型,这样从中随机抽取,谁都可以轻松写出汪峰风格的歌词。

从问答到预测 大数据要关注明天

沈志勇和他的团队基于机器学习,近期主要关注预测的事情。因为预测可以作为决策和计划的依据。比如我明天想要出游,那我会看看明天的天气预报,来参考明天要不要出去,是在室内玩,还是去室外玩。又或者如果一个人能知道明天的股票价格,那他就能因为比别人有更多的信息优势而获益。

百度研究院预测的内容,大致可分为定性和定量两种。如果还是拿之前的例子,那么定量就是股票价格,定性就是明天的天气情况。

在大数据预测的方法层面,百度研究院用的最核心最多的方法是时序分析。百度目前推出的旅游预测就是根据时序分析来进行预测的。

在谈及百度旅游预测时,沈志勇还分享了一个小故事:在测试百度语音助手的初期,它可以回答很多问题,但是有一天,百度技术人员发现它回答不了诸如“明天故宫有多少人”这种问题。尴尬之余,百度的技术人员意识到不能只看今天,要看明天的情况,所以就有了旅游预测。

除了时序分析,因果相关分析和模拟分析也是在大数据预测时常用的方法。因果是比相关性更强的参考,而模拟可以直接演绎将来的情况。

时势造英雄 机遇与挑战并存的大数据时代

百度是国内最早进行大数据技术研究的公司之一。百度研究院专门成立了大数据实验室BDL,由世界机器学习顶级学者张潼教授领衔。沈志勇表示,自己所在的BDL部门正为百度大数据引擎,尤其是其中的百度大脑部分做一些大数据相关的工作。“百度天生就是一个大数据公司,大数据技术之于百度就像空气,如果没有大数据技术,百度根本难以运转。现在业界很多公司都需要大数据,可是自己又做不了,所以我们想把大数据技术拿出来推动整个行业的发展。”

大数据这个词目前非常火,火的甚至有点意外。由于大数据如此受关注,所以每个人看它的角度都会不一样。决定这个角度的往往是自己的知识背景。目前业内很喜欢把大数据和云计算联系到一起,不过沈志勇和他的团队主要关注的是在大数据上的机器学习。

沈志勇认为,当下是一个机遇与挑战并存的时代,大数据使整个社会都有了数据意识。现在大家都知道怎么样采集和记录,把数据都写下来或通过各种各样的方式记下来。这是好事,对机器学习来讲有了更加广阔的数据源,对于算法来讲也可以有更多的数据。可是,数据越来越多就会引发数据处理的问题,多元数据往往会带来很多问题,这就是挑战。

“幸运的是在整个过程中,别的技术也在发展。随着我们计算能力的拓展,模型学习理论的发展,我们可以处理或者学习很多复杂的模型。这说明很多条件都已经成熟了,形成了一个时势造英雄的态势。”沈志勇表示。

景点预测和高考预测 殊途同归的大数据预测

谈完预测方法的概览后,沈志勇还跟大家分享了两个基于大数据预测的百度产品案例:景点预测和高考作文预测。

景点预测是一个非常典型的基于时序分析的预测。如何猜测明天某个景点有多少人?首先我们要了解这个景点一般有多少人、往年这个时候有多少人、明天什么天气,然后把这些因素都综合起来考虑。沈志勇的团队把这些因素都细分划出来,然后再加上人们在百度对该景点的搜索次数。最后把所有因素综合在一起建模,就能准确的总结出一个景点客流量的规律。

相比于旅游预测,高考作文预测要更为复杂。即使是指教多年的高考名师也不可能猜中作文题目是什么。所以当沈志勇和相关的同学接到这个项目时,仔细思考了如何去预测高考作文,最后还是找出了预测可能性:高考这种大范围的考试,具有选拨性质,所以它对作文的提醒、方向和写的内容会有限制。

“如果是一个有经验的人,比如说一个语文名师怎么做这件事情,首先需要接触过大量的优秀的作文范文。其次,要预测今年的作文题目,他要把握一下时代的脉搏。而我们要做的就是模拟这个思考过程,即在对高中生作文范文集这个语料库上做一些归纳性建模,比如说,主题模型。我们把把学到的模型与时事趋势相结合,就能预测出大概方向。”沈志勇说。

最后沈志勇老师对此次分享做了总结,他认为预测只是百度研究院大数据实验室的入手点,他们最终会利用大数据作出一个在线智能系统,帮助模拟人的分析决策过程。

本期百度技术沙龙,有超过300名观众参加,他们在沈志勇老师结束分享后纷纷向沈老师请教关于大数据预测的技术问题,为百度技术沙龙营造了良好的学习氛围。据悉,百度技术沙龙是由百度组织策划的线下技术交流活动,也是目前国内资历最老、规模最大的技术分享盛会,旨在中高端技术人员的各位提供一个自由交流的平台。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 百度网盘上线知识问答功能:你的数据会自己“说话”了

    ,百度网盘宣布上线知识问答”功能,变成活的知识库”。 据了解,百度网盘通过AI技术整合用户在网盘中的数据,如学习资料、生活照片、办公文件等多源信息,形成结构化知识库。 它帮助用户快速查找”、问答”、创作”,实现知识的长期沉淀与高效复用。 从存储工具到知识中枢,百度网盘实现了从被动存储”到主动管理”的升级,构建你的第二大脑”。 它支持多模�

  • 每日互动AI一体机GAI Station:安全融合大模型与大数据 高效驱动企业业务增长

    文章介绍了GAI+Station智能工作站如何解决大模型产业应用中的安全与效率难题。该产品采用"本地小模型+云端大模型"混合部署模式,确保敏感数据不出域的同时调用大模型能力,支持27+文档格式解析和8大模型能力,可快速构建企业知识库。其特色包括:1)数据安全可控,原始数据本地处理;2)深度整合业务流与数据库,提升决策效率;3)预置16大权威知识库,支持行业定�

  • 最重要的搜索阵地,百度想誓死守住

    AI搜索的东风刮过两年,百度终于下决心,对自家搜索引擎“动刀子”。 7月2日,百度宣布开启十年来最大一次搜索改版,正式将搜索框改版成支持千字输入的“智能框”,从“给链接”跨越到了“给答案”。另外靠着智能体,百度搜索也进入了“解决任务”的阶段,并集成了AI写作、AI图片/视频生成等一系列服务。 当然,这还不够。在阿里夸克、字节豆包等产品不断往自家�

  • TDBC大会揭幕:百度智能云再造数据与AI新连接,激活大模型生命线

    中国通信标准化协会等机构联合主办的"TDBC2025可信数据库发展大会"在京召开。会上公布了上半年"可信数据库"评估测试结果,百度智能云向量数据库VectorDB成为国内首批完成测试的向量数据库产品。该测试覆盖稠密向量检索、多向量检索、标量向量融合检索三种场景,评估指标包括索引构建时间、QPS、延迟、资源占用等多个维度。百度智能云总架构师朱洁指出,超过50%的AI项目时间消耗在数据治理环节,提出构建"智能数据基座"实现数据统一管理,形成"Data+AI+App"闭环。百度智能云通过湖仓一体架构提升AI训练数据效率,智能调度CPU/GPU算力优化资源分配,预计到2028年多数生成式AI应用将直接基于企业数据平台构建。

  • 沃莱科技「体脂秤×围度尺×跳绳」:让体重管理从“减肥焦虑”到“数据掌控”

    沃莱科技推出"健康黄金三角"智能健身方案:P7Max八电极体脂秤精准测量8项核心指标,误差仅±2mm的W5智能围度尺追踪腰臀腿变化,鸿蒙智选智能跳绳S2实时监测燃脂心率。三款产品通过Fitdays+App实现数据联动,形成"运动-监测-调整"闭环,解决传统健身效果难量化问题。其中P7Max体脂测量与DEXA金标准相关性达0.985,W5可捕捉毫米级围度变化,跳绳S2配备动态心率算法确保运动处在最佳燃脂区间。该方案突破体重单一维度评估,实现体脂健康可视化追踪与科学管理。

  • 百度搜索,跳出“框”外

    以AI为“黄金配方”,百度搜索已经悄然生长出了“肌肉”。用户侧最直观的感受是,曾经熟悉的搜索框变“大”了。 “大”从表面看是搜索框所能承载的内容和能调用的工具变多。例如,过去做旅行计划得靠“亲子出游”“漂流”“一天”等关键词堆砌,现在只要用自然语言提需求即可。

  • 领先OpenAI三个月,百度文库GenFlow领跑通用Agent领域,2.0版本8月上线

    百度文库即将在8月发布GenFlow2.0版本,该版本具备更强大的多模态能力,支持生成多种内容形态,大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent,百度文库早在4月就已上线GenFlow1.0,实现全场景覆盖和全链路调度。GenFlow基于MoE架构,在成本、性能和效率上占优,能快速生成PPT、研报等多样化内容,且依托百度14亿专业文档资源,内容质量更可靠。此外,GenFlow还能调用用户个人数据实现个性化定制,并提供内容后期编辑功能,灵活性更高。

  • 开源技术规模化落地 百家企业实践成果引领产业变革

    7月23日,开放原子开源基金会发布150余个开源项目应用案例,覆盖电力、通信、医疗、教育、金融等10余个关键行业。案例涉及中国南方电网、中国移动、京东集团等100余家单位,展示了开源技术在产业升级中的推动作用。其中开源鸿蒙系统已在金融、教育等领域落地应用,设备总量超11.9亿台;开源欧拉系统装机量突破1000万套。这些案例标志着开源技术实现从代码研发到规模�

  • 世俱杯“绿色赛场”的科技赋能:科龙空调低碳技术定义节能新高度

    科龙空调作为2025年FIFA世俱杯官方指定空调,在青岛举办全民沙滩足球赛致敬顶级赛事。活动现场设立"低碳科技体验区",展示静省电Max等节能产品,让大众体验赛事同款绿色科技。科龙通过将高效节能技术应用于观赛场景,实现顶级赛事与家庭环境的无缝连接。其静省电Max系列APF值达5.5,超国家一级能效标准30%,8月还将推出能效超6.0的旗舰产品。科龙贯彻全生命周期环保理念,采用R32环保冷媒,搭载双排冷凝器等创新技术,并通过AI智能调控实现精准节能。这一系列举措深化了体育IP合作价值,以"科技为民"理念连接顶级赛事与美好生活。

  • AI日报:12306 MCP Server上线;百度推AI搜索助手Tizzy.ai;ChatGPT录音模式面向Plus用户开放

    【AI日报】今日AI领域重要动态:1)百度推出无广告智能搜索助手Tizzy.ai,整合影视资源与深度思考功能;2)12306开源火车票查询引擎上线,采用FastAPI架构实现秒级响应;3)ChatGPT向Plus用户全面开放录音功能,支持实时记录与内容总结;4)开源SaaS模板FireGEO助力快速构建现代化Web应用;5)国产工具ReadMeX可一键生成高质量GitHub文档;6)百度AI助手新增视频通话功能,支持方言识别;7)Jacky