首页 > AI头条  > 正文

谷歌DeepMind计划整合Gemini与Veo,打造智能全能助手

2025-04-13 10:53 · 来源: AIbase基地

在人工智能领域不断创新的谷歌,近日宣布了一项激动人心的计划。谷歌 DeepMind 的首席执行官 Demis Hassabis 在播客节目 Possible 中透露,公司将把其 Gemini AI 模型与 Veo 视频生成模型进行整合。这一举措旨在提升 Gemini 对物理世界的理解能力,助力开发出一个真正能够在现实生活中为用户提供帮助的通用数字助手。

Hassabis 指出,从一开始,Gemini 模型就被设计为一个多模态系统,能够处理多种类型的数据和信息。他表示:“我们的愿景是构建一个能够整合各种媒体形式的助手,这样它才能更好地理解和与世界互动。” 目前,Gemini 模型已经能够生成图像、文本和音频,展示出强大的多模态能力。

image.png

值得注意的是,整个 AI 行业正在向 “全能” 模型发展,许多公司都在探索类似的方向。例如,OpenAI 的 ChatGPT 不仅可以处理文本对话,还能生成艺术风格的图像。此外,亚马逊也计划推出一款全新的 “任意到任意” 的模型,旨在实现更高水平的多模态功能。

Hassabis 透露,Veo 模型的训练数据主要来自谷歌旗下的 YouTube 平台。通过分析大量 YouTube 视频,Veo 能够有效学习世界的物理规律。他指出:“Veo2通过观看大量的视频,能够更好地理解现实世界的运作方式。” 这表明,Veo 在训练过程中所使用的数据不仅丰富,而且具有实际应用价值。

谷歌在去年已扩大了其服务条款,以便获取更多的 YouTube 内容用于 AI 模型训练,确保模型的多样性和准确性。这样的数据获取策略无疑将为 Gemini 和 Veo 的结合提供坚实的基础,使得即将推出的智能助手能够更全面、更深刻地理解和响应用户的需求。

随着技术的不断进步,谷歌的这一计划预示着 AI 助手将不再局限于单一任务,而是能够在多个领域提供实用的支持,为用户的生活带来更多的便利。

  • 相关推荐
  • AI日报:通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔;谷歌发布Gemini 2.5 Flash-Lite 稳定版

    本文介绍了AI领域多项重要进展:1)谷歌发布Gemini 2.5 Flash-Lite稳定版,平衡速度与成本;2)腾讯混元ASR语音大模型接入ima平台;3)阿里开源Qwen3-Coder编程大模型;4)360将推智能眼镜和AI录音笔;5)夸克健康大模型通过医师评测;6)零一万物发布企业级大模型平台;7)Hedra推出低成本AI视频代理;8)Gemini2.5革新图像理解能力;9)Meta推出创新文本处理模型AU-Nets;10)苹果AI团队或寻求第三方合

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • INDEMIND:停止堆功能,扫地机器人需要回归第一性原理

    文章批评当前扫地机器人行业过度追求"花哨"功能而忽视核心清洁能力的问题。厂商为差异化竞争不断叠加视频通话、机械手等创新功能,却导致产品复杂化、故障率上升,用户体验未获实质提升。指出行业应回归本质,聚焦感知、规划、决策三大核心能力升级,解决避障不佳、覆盖率低等基础痛点。介绍INDEMIND公司通过立体视觉技术构建三维语义地图,实现厘米级障碍

  • 果粉期待五年新品终于有消息!苹果HomePod mini 2有望今年底发布

    苹果于2020年10月推出了第一代HomePod mini,凭借其小巧的体积、出色的音质以及对Siri语音助手和HomeKit智能家居控制的支持,赢得了众多果粉的喜爱。 不过自发布以来,HomePod mini的核心硬件一直维持在五年前的水平,这让许多用户对其升级换代充满期待。 据Mark Gurman最新透露,苹果计划在今年底推出第二代HomePod mini,预计发布时间将在9月iPhone发布会之后至11月之间。 新一代产�

  • 办公娱乐两不误!会参谋MINI主机,打造智能家庭工作站与娱乐中心

    随着远程办公普及,迷你PC市场需求激增。会参谋推出LP1C基础版和LP5C升级版两款迷你主机:LP1C搭载英特尔N100处理器,重不足500g,支持4K输出,满足日常办公需求;LP5C采用i5-12450HX处理器,性能提升200%,支持双4K显示,适合专业创作。两款产品覆盖从基础办公到高性能需求场景,通过差异化配置精准满足不同用户需求,重新定义轻量化办公设备标准,展现智能办公领域创新实力。

  • REDMI Pad 2定位千元大平板 王腾:老人看剧、小朋友学习都合适

    今日,REDMI推出全新平板电脑REDMI Pad 2,目前已在小米商城、电商平台开启预约,将于8月1日正式开售。 官方暂未公布新品价格,但根据REDMI品牌总经理王腾介绍,这是一款千元大平板,放在家里给老人看剧、小朋友学习都非常合适。 作为参考,2022年发布的初代REDMI Pad起售价1299元(4GB 128GB),2024年发布的REDMI Pad Pro起售价1499元(6GB 128GB)。

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • AGM L1 Pro 智能手表重磅发布,户外与健康防护全能担当

    AGM推出全新智能手表L1Pro,主打户外实用功能。核心亮点是离线地图功能,支持全国范围地图下载,5米内精准定位,适合登山骑行等户外场景。配备100种运动模式,实时监测心率、血氧、睡眠等健康数据。具备5ATM防水和1.5米防摔能力,通过军规认证。提供碎屏/进水免费保修服务,首发价仅599元,性价比突出。这款手表集精准导航、全面运动监测和耐用防护于一身,是户外爱好者的高性价比之选。

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • 刷屏世俱杯的RGB-Mini LED有多能打?央视拆机探秘看球黑科技

    海信在2025世俱杯期间展示了其RGB-Mini LED电视技术,通过红绿蓝三原色独立背光光源实现更纯净色彩和更高能效。相比传统电视需要二次色彩转换,该技术直接呈现原色,解决了拖影、色偏等问题,能效提升20%以上。海信通过自主研发的AI画质芯片和RGB背光芯片,攻克了三原色同步控制等技术难题。该技术已应用于85-116英寸大屏电视,成为行业认可的下一代显示方向,标志着中国显示技术从跟随到引领的跨越。

今日大家都在搜的词: