首页 > 业界 > 关键词  > Mirasol3B最新资讯  > 正文

DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据

2023-11-16 10:34 · 稿源:站长之家

**划重点:**

1. 🌐 Google DeepMind发布Mirasol3B,致力于改善对长视频输入的理解。

2. 🎥 Mirasol3B采用先进的多模态学习,同时处理音频、视频和文本数据。

3. 🤔 对于应用于实际场景的可行性存在疑问,但该技术在YouTube等领域可能带来革命性的变化。

站长之家(ChinaZ.com)11月16日 消息:Google DeepMind日前悄然宣布了其人工智能研究的重大进展,推出了一款名为“Mirasol3B”的新型自回归模型,旨在提升对长视频输入的理解能力。该新模型展示了一种颠覆性的多模态学习方法,以更综合和高效的方式处理音频、视频和文本数据。

image.png

Google Research的软件工程师Isaac Noble和Google DeepMind的研究科学家Anelia Angelova共同撰写的博客文章中指出,构建多模态模型的挑战在于模态的异构性。他们解释说:“一些模态可能在时间上同步(例如音频、视频),但与文本不对齐。此外,视频和音频信号中的大量数据远远大于文本,因此在将它们结合在多模态模型中时,视频和音频通常无法完全消耗,需要进行不成比例的压缩。对于更长的视频输入,这一问题变得更加严重。”

多模态学习的新方法

为了解决这一复杂性,Google的Mirasol3B模型将多模态建模解耦为分开的自回归模型,根据模态的特性处理输入。“我们的模型包括一个用于时间同步模态(音频和视频)的自回归组件,以及一个用于不一定时间对齐但仍然是序列的模态(例如标题或描述)的单独的自回归组件,”Noble和Angelova解释道。

Google可能会探索在YouTube等领域应用该模型的可能性。作为全球最大的在线视频平台之一,YouTube是公司的主要收入来源之一。该模型理论上可以用于提升用户体验和参与度,例如生成视频的字幕和摘要,回答问题并提供反馈,创建个性化推荐和广告,以及让用户使用多模态输入和输出创建和编辑自己的视频。

例如,该模型可以基于视觉和音频内容生成视频的字幕和摘要,并允许用户通过关键词、主题或情感搜索和过滤视频。这有望提高视频的可访问性和可发现性,帮助用户更轻松快速地找到他们想要的内容。

该消息在人工智能社区引起了浓厚的兴趣和激动,同时也有一些怀疑和批评。一些专家赞扬了该模型的多功能性和可扩展性,并对其在各个领域的潜在应用寄予厚望。但也有人质疑为何没有提供代码、模型权重、训练数据甚至API。这引发了关于该技术在实际应用中的可行性的讨论。

这一宣布标志着人工智能和机器学习领域的重要里程碑,展示了Google在开发前沿技术方面的雄心和领导地位。然而,这也为AI的研究人员、开发者、监管机构和用户提供了一项挑战和机会,需要确保该模型及其应用符合社会的道德、社会和环境价值观和标准。

举报

  • 相关推荐
  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 2025 PMI项目管理大会|多个活动板块首发,早鸟报名通道开启

    自2008年起,PMI项目管理大会汇聚数百位国内外顶尖企业代表、行业领袖与专家,分享洞见与实践,启发数十万参与者。当前,生成式AI、大数据等前沿科技正重塑商业生态与项目管理模式。2025年大会以“智驱万象,项启新篇”为主题,聚焦科技带来的颠覆性变革与机遇,通过行业趋势、跨界交流等多维度活动,打造最具影响力的共创平台,推动合作突破边界。报名已开启,微信搜索“2025PMI项目管理大会”即可参与。

  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • REDMI与Bose达成合作:REDMI K90 Pro Max要做行业第一音频

    Redmi与声学巨头Bose达成深度合作,基于Bose 60年声学技术积淀,在K90 Pro+Max机型上实现重大突破:创新集成立体声扬声器系统,通过增大发声单元体积与优化腔体结构,动态范围提升30%,瞬态响应速度提高50%,实现零失真输出。该机还搭载骁龙8 Gen3处理器、7560mAh硅碳负极电池、100W快充及专业影像系统,经2000小时专业调音达到行业领先水准,旨在重新定义移动设备音频标准,即将开启全球预售。

  • 陈奕迅喜提REDMI K90 Pro Max:担任REDMI声学大使

    10月21日,陈奕迅宣布成为Redmi声学大使,并透露Redmi K90 Pro Max将搭载2.1立体声系统,首次在手机中实现低音带。该机配备两颗超线性扬声器及超大独立低音单元,由Redmi与Bose联合调音,实现低音饱满、细节丰富、人声清晰。新品将于10月23日亮相,开启移动声学新时代。

  • REDMI K90 Pro Max外观公布:后置BOSE认证扬声器

    Redmi K90 Pro+ Max将于10月23日发布,采用全新“流金白”配色,机身无渐变处理,金属边框与相机模组同色,呈现简约高级感。后摄模组采用一体金属火山口设计,与小米17系列风格呼应;右侧圆形结构疑似独立扬声器,获BOSE调校认证。正面延续大R角超窄边框,实现四边等宽视觉效果。首次搭载潜望式长焦镜头,主摄配备5000万像素1/1.3英寸超大底传感器并支持OIS防抖。起售价预计突破4000元,直接对标小米17标准版竞争。

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

  • REDMI新代言人明天公布:出道30年 暗示陈奕迅

    REDMI K90系列将在10月23日发布,这次除了产品重磅之外,还将迎来新的代言人。 REDMI官方今天发布预告称,新的乐坛新朋友,明天见。

  • 红米REDMI K90 Pro Max定档10月23日发布

    Redmi K90 Pro+ Max将于10月23日发布,这是该系列首款Pro Max机型。新机采用横向大模组设计,右侧配有圆形结构,功能未知。影像系统大幅升级,搭载5000万像素1/1.3英寸主摄,支持OIS光学防抖,并首次配备潜望长焦镜头。品牌总经理卢伟冰表示,K系列将突破价格限制,直接与小米竞争,定位4K价位市场。分析认为,K90 Pro+ Max可能在某些方面超越小米17标准版,加剧两者市场竞争。

  • REDMI K Pad“流金白”新配色外观公布:8.8寸3K LCD、可单手握持

    今日REDMI官方宣布,REDMI K Pad 全新配色流金白”将于10月23日(下周四)19点与REDMI K90同场发布。 据悉,该平板采用金属漆喷涂工艺,超细纳米级云母颗粒及金属颗粒,色彩、色泽呈现层次更加丰富。 同时,金属漆涂层有效隔绝空气和水分,防腐蚀更耐磨。 据了解,REDMI K Pad是小米史上首款8.8英寸性能小平板,可单手握持,轻松放入口袋或小包。该平板于今年6月26日首发,首�

今日大家都在搜的词: