DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据

2023-11-16 10:34 · 稿源：站长之家

**划重点:**
1. 🌐 Google DeepMind发布Mirasol3B，致力于改善对长视频输入的理解。
2. 🎥 Mirasol3B采用先进的多模态学习，同时处理音频、视频和文本数据。
3. 🤔 对于应用于实际场景的可行性存在疑问，但该技术在YouTube等领域可能带来革命性的变化。

站长之家（ChinaZ.com）11月16日消息:Google DeepMind日前悄然宣布了其人工智能研究的重大进展，推出了一款名为“Mirasol3B”的新型自回归模型，旨在提升对长视频输入的理解能力。该新模型展示了一种颠覆性的多模态学习方法，以更综合和高效的方式处理音频、视频和文本数据。

Google Research的软件工程师Isaac Noble和Google DeepMind的研究科学家Anelia Angelova共同撰写的博客文章中指出，构建多模态模型的挑战在于模态的异构性。他们解释说:“一些模态可能在时间上同步（例如音频、视频），但与文本不对齐。此外，视频和音频信号中的大量数据远远大于文本，因此在将它们结合在多模态模型中时，视频和音频通常无法完全消耗，需要进行不成比例的压缩。对于更长的视频输入，这一问题变得更加严重。”

多模态学习的新方法

为了解决这一复杂性，Google的Mirasol3B模型将多模态建模解耦为分开的自回归模型，根据模态的特性处理输入。“我们的模型包括一个用于时间同步模态（音频和视频）的自回归组件，以及一个用于不一定时间对齐但仍然是序列的模态(例如标题或描述)的单独的自回归组件，”Noble和Angelova解释道。

Google可能会探索在YouTube等领域应用该模型的可能性。作为全球最大的在线视频平台之一，YouTube是公司的主要收入来源之一。该模型理论上可以用于提升用户体验和参与度，例如生成视频的字幕和摘要，回答问题并提供反馈，创建个性化推荐和广告，以及让用户使用多模态输入和输出创建和编辑自己的视频。

例如，该模型可以基于视觉和音频内容生成视频的字幕和摘要，并允许用户通过关键词、主题或情感搜索和过滤视频。这有望提高视频的可访问性和可发现性，帮助用户更轻松快速地找到他们想要的内容。

该消息在人工智能社区引起了浓厚的兴趣和激动，同时也有一些怀疑和批评。一些专家赞扬了该模型的多功能性和可扩展性，并对其在各个领域的潜在应用寄予厚望。但也有人质疑为何没有提供代码、模型权重、训练数据甚至API。这引发了关于该技术在实际应用中的可行性的讨论。

这一宣布标志着人工智能和机器学习领域的重要里程碑，展示了Google在开发前沿技术方面的雄心和领导地位。然而，这也为AI的研究人员、开发者、监管机构和用户提供了一项挑战和机会，需要确保该模型及其应用符合社会的道德、社会和环境价值观和标准。

（举报）

相关推荐

关键词：

DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
2025 PMI项目管理大会|多个活动板块首发，早鸟报名通道开启

自2008年起，PMI项目管理大会汇聚数百位国内外顶尖企业代表、行业领袖与专家，分享洞见与实践，启发数十万参与者。当前，生成式AI、大数据等前沿科技正重塑商业生态与项目管理模式。2025年大会以“智驱万象，项启新篇”为主题，聚焦科技带来的颠覆性变革与机遇，通过行业趋势、跨界交流等多维度活动，打造最具影响力的共创平台，推动合作突破边界。报名已开启，微信搜索“2025PMI项目管理大会”即可参与。

项目管理前沿科技行业趋势
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
REDMI与Bose达成合作：REDMI K90 Pro Max要做行业第一音频

Redmi与声学巨头Bose达成深度合作，基于Bose 60年声学技术积淀，在K90 Pro+Max机型上实现重大突破：创新集成立体声扬声器系统，通过增大发声单元体积与优化腔体结构，动态范围提升30%，瞬态响应速度提高50%，实现零失真输出。该机还搭载骁龙8 Gen3处理器、7560mAh硅碳负极电池、100W快充及专业影像系统，经2000小时专业调音达到行业领先水准，旨在重新定义移动设备音频标准，即将开启全球预售。
陈奕迅喜提REDMI K90 Pro Max：担任REDMI声学大使

10月21日，陈奕迅宣布成为Redmi声学大使，并透露Redmi K90 Pro Max将搭载2.1立体声系统，首次在手机中实现低音带。该机配备两颗超线性扬声器及超大独立低音单元，由Redmi与Bose联合调音，实现低音饱满、细节丰富、人声清晰。新品将于10月23日亮相，开启移动声学新时代。

陈奕迅 REDMI声学大使 2.1立体声
REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

Redmi K90 Pro+ Max将于10月23日发布，采用全新“流金白”配色，机身无渐变处理，金属边框与相机模组同色，呈现简约高级感。后摄模组采用一体金属火山口设计，与小米17系列风格呼应；右侧圆形结构疑似独立扬声器，获BOSE调校认证。正面延续大R角超窄边框，实现四边等宽视觉效果。首次搭载潜望式长焦镜头，主摄配备5000万像素1/1.3英寸超大底传感器并支持OIS防抖。起售价预计突破4000元，直接对标小米17标准版竞争。
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
REDMI新代言人明天公布：出道30年暗示陈奕迅

REDMI K90系列将在10月23日发布，这次除了产品重磅之外，还将迎来新的代言人。 REDMI官方今天发布预告称，新的乐坛新朋友，明天见。

REDMI K90系列陈奕迅代言
红米REDMI K90 Pro Max定档10月23日发布

Redmi K90 Pro+ Max将于10月23日发布，这是该系列首款Pro Max机型。新机采用横向大模组设计，右侧配有圆形结构，功能未知。影像系统大幅升级，搭载5000万像素1/1.3英寸主摄，支持OIS光学防抖，并首次配备潜望长焦镜头。品牌总经理卢伟冰表示，K系列将突破价格限制，直接与小米竞争，定位4K价位市场。分析认为，K90 Pro+ Max可能在某些方面超越小米17标准版，加剧两者市场竞争。

REDMI K90Pro Max
REDMI K Pad“流金白”新配色外观公布：8.8寸3K LCD、可单手握持

今日REDMI官方宣布，REDMI K Pad 全新配色流金白”将于10月23日（下周四）19点与REDMI K90同场发布。据悉，该平板采用金属漆喷涂工艺，超细纳米级云母颗粒及金属颗粒，色彩、色泽呈现层次更加丰富。同时，金属漆涂层有效隔绝空气和水分，防腐蚀更耐磨。据了解，REDMI K Pad是小米史上首款8.8英寸性能小平板，可单手握持，轻松放入口袋或小包。该平板于今年6月26日首发，首�

REDMI K Pad

今日大家都在搜的词：

热文

3 天
7天

DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据

DeepSeek开源3B OCR模型：长文本识别达97%精度

2025 PMI项目管理大会|多个活动板块首发，早鸟报名通道开启

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

REDMI与Bose达成合作：REDMI K90 Pro Max要做行业第一音频

陈奕迅喜提REDMI K90 Pro Max：担任REDMI声学大使

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

REDMI新代言人明天公布：出道30年暗示陈奕迅

红米REDMI K90 Pro Max定档10月23日发布

REDMI K Pad“流金白”新配色外观公布：8.8寸3K LCD、可单手握持

今日大家都在搜的词：

热文

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

天猫双11今晚8点开卖品类券每人可领万元

余承东官宣华为路由X3 Pro 采用“日照金山”设计

REDMI K90 Pro Max本周四发布卢伟冰：给4K档一点小小的震撼

REDMI K90 Pro Max搭载小米17同款光影猎人950超大底主摄

苹果天猫双11今晚开卖 iPhone17pro天猫官旗首次降价

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

火车免费坐？12306今起又上新功能：积分可兑换车票

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

王腾首次回应下一步计划：称在考虑些创业项目

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

知乎崩了上热搜：网页端完全无法进入 App端也未能幸免

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

华为nova Flip S小折叠手机开启预售：3488元起

天猫双11今晚8点开卖品类券每人可领万元

站长商机