首页 > 业界 > 关键词  > Mirasol3B最新资讯  > 正文

DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据

2023-11-16 10:34 · 稿源:站长之家

**划重点:**

1. 🌐 Google DeepMind发布Mirasol3B,致力于改善对长视频输入的理解。

2. 🎥 Mirasol3B采用先进的多模态学习,同时处理音频、视频和文本数据。

3. 🤔 对于应用于实际场景的可行性存在疑问,但该技术在YouTube等领域可能带来革命性的变化。

站长之家(ChinaZ.com)11月16日 消息:Google DeepMind日前悄然宣布了其人工智能研究的重大进展,推出了一款名为“Mirasol3B”的新型自回归模型,旨在提升对长视频输入的理解能力。该新模型展示了一种颠覆性的多模态学习方法,以更综合和高效的方式处理音频、视频和文本数据。

image.png

Google Research的软件工程师Isaac Noble和Google DeepMind的研究科学家Anelia Angelova共同撰写的博客文章中指出,构建多模态模型的挑战在于模态的异构性。他们解释说:“一些模态可能在时间上同步(例如音频、视频),但与文本不对齐。此外,视频和音频信号中的大量数据远远大于文本,因此在将它们结合在多模态模型中时,视频和音频通常无法完全消耗,需要进行不成比例的压缩。对于更长的视频输入,这一问题变得更加严重。”

多模态学习的新方法

为了解决这一复杂性,Google的Mirasol3B模型将多模态建模解耦为分开的自回归模型,根据模态的特性处理输入。“我们的模型包括一个用于时间同步模态(音频和视频)的自回归组件,以及一个用于不一定时间对齐但仍然是序列的模态(例如标题或描述)的单独的自回归组件,”Noble和Angelova解释道。

Google可能会探索在YouTube等领域应用该模型的可能性。作为全球最大的在线视频平台之一,YouTube是公司的主要收入来源之一。该模型理论上可以用于提升用户体验和参与度,例如生成视频的字幕和摘要,回答问题并提供反馈,创建个性化推荐和广告,以及让用户使用多模态输入和输出创建和编辑自己的视频。

例如,该模型可以基于视觉和音频内容生成视频的字幕和摘要,并允许用户通过关键词、主题或情感搜索和过滤视频。这有望提高视频的可访问性和可发现性,帮助用户更轻松快速地找到他们想要的内容。

该消息在人工智能社区引起了浓厚的兴趣和激动,同时也有一些怀疑和批评。一些专家赞扬了该模型的多功能性和可扩展性,并对其在各个领域的潜在应用寄予厚望。但也有人质疑为何没有提供代码、模型权重、训练数据甚至API。这引发了关于该技术在实际应用中的可行性的讨论。

这一宣布标志着人工智能和机器学习领域的重要里程碑,展示了Google在开发前沿技术方面的雄心和领导地位。然而,这也为AI的研究人员、开发者、监管机构和用户提供了一项挑战和机会,需要确保该模型及其应用符合社会的道德、社会和环境价值观和标准。

举报

  • 相关推荐
  • 保守了?谷歌DeepMind CEO:媲美人类的AI将在5至10年内实现

    据CNBC报道称,谷歌旗下人工智能实验室DeepMind首席执行官戴密斯·哈萨比斯在周一的新闻发布会上预测,能够与人类竞争的人工智能即将出现,虽然各方面都能赶上人类的AI的落地还有很长的路要走,但成为现实也只是时间问题已。哈萨比斯表示:“目前,人工智能在某些领域表现非常出色,但尚未达到能够像人类一样执行所有复杂功能的阶段。哈萨比斯则认为“没人知道ASI何时会出现”、“一旦人工智能拥有了人类级别的思维能力,其影响将难以想象。

  • L40S显卡助力Deepseek大模型训练与推理:超强性能,精确高效

    随着深度学习技术的不断发展,AI模型规模的不断扩大,越来越多的应用场景需要处理大规模的计算任务。Deepseek等大语言模型不仅要求高效的计算能力对显存、带宽和系统稳定性提出了极高要求。如果您正在寻找一款能够加速大规模AI模型。

  • DeepSeek给的压力太大,前国产大模型之光Kimi变阵

    DeepSeek的横空出世无异于是AI界的一次“小行星撞地球”,直到现在它的连锁反应还在继续,不仅是AI硬件厂商英伟达,云服务提供商阿里云、AWS、微软Azure,乃至社交巨头微信都卷入了这个漩涡。如今曾在去年春季冒头的国内AI独角兽Kimi,也不得不收缩战线。

  • 联想今年内发布基于个人云部署的DeepSeek大模型,小天将达到L3级智能体水平

    2月25日,"AI与繁星共闪耀"联想YOGAAIPC新品品鉴活动在云南弥勒成功举办。联想重磅推出全球首款部署Deepseek端侧大模型的AIPC——联想YOGAAIPC元启新品,其中包括YOGAAir14AuraAI元启版、YOGA36014AuraAI元启版、YOGA36014AI元启版、YOGAAirXAI元启版笔记本,及YOGAAir32、YOGA27一体电脑,共计六款新品。联想也表示,联想一直以开放的姿态,积极拥抱与行业内各家大模型厂商的合作,和行业伙伴们一起共建天禧生态,推动人工智能技术的快速落地,让AI普惠之光点亮更多人的智能化未来。

  • LG发布韩国首款开源推理AI模型,韩媒声称:数学比Deepseek强!

    18日,LG公开了韩国首个推理型AI大模型——一种像人类一样经过逻辑性和阶段性的思考过程后得出答案的AI模型——它与从已学习的数据中寻找答案的传统模型有所不同。来自中国的Deepseek以低成本、高性能震惊全世界,甚至撼动了“AI先锋”OpenAI的地位。LG计划逐步以B2B的形式扩大服务。

  • 360发布DeepSeek大模型一体机,打通大模型落地“最后一公里”

    以DeepSeek为代表的大模型爆发式发展,持续降低AI使用门槛,助推政企单位AI应用加速落地,大模型私有化部署需求持续增长。传统部署方式面临硬件适配复杂、安全风险大、运维成本高等挑战。360不断优化和完善产品能力,持续助力政企单位数字化转型和智能化升级。

  • AI日报:DeepSeek辟谣R2于3月17日发布;腾讯发布超大模型Hunyuan-TurboS;Pika上线视频交换功能

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、腾讯发布Hunyuan-TurboS:首款超大型混合Transformer-MambaMoE模型震撼登场腾讯在X平台上推出了Hunyuan-TurboS,这是一款被称为首款超大型Hybrid-Transformer-MambaMoE模型的AI产品。这一进展标志着

  • 超过DeepSeek、o3,双思维模型Claude 3.7来了

    今天凌晨2点,著名大模型平台Anthropic发布了首个双思维模型——Claude3.7Sonnet。Claude3.7提供了标准和扩展两种思考模式:标准思考是无需进行复杂的推理过程,就能立刻提供答案,例如,当用户询问“巴黎的埃菲尔铁塔有多高?”,会迅速给出324米。在标准和扩展思考模式下,Claude3.7Sonnet的定价与之前的版本保持一致,输入每百万token收费3美元,输出每百万token收费15美元。

  • DeepSeek第三弹:开源DeepGEMM!

    今天上午9点,DeepSeek继续履行开源周承诺,发布了开源DeepGEMM。该帖子一经转发,立即引来了2.1万阅读量,足以见其在国内外受到追捧的热度。本次开源属于DeepSeek开源周”的第三项项目,此前已发布FlashMLA和DeepEP。

  • “复制”DeepSeek,量化巨头为何能成大模型顶流?

    又成AI大模型圈顶流?据媒体最新报道,幻方量化的老对手的九坤投资,携手微软团队成功复现DeepSeek-R1首次发现了语言混合会显著降低推理能力等问题。有投资人调侃道,“以后找大模型项目,是不是得先去量化机构排队拿号?”一些关注AI领域的风投的第一反应是:“什么?梁文峰见不到,难道我们要找关系拜访王琛了?”王琛,正是九坤投资的创始人,也是最近风投圈关注的又一