微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

2023-11-15 16:01 · 稿源：站长之家

要点:
微软Azure AI推出的MM-Vid整合了GPT-4V与专用工具，能解读长达一小时的视频并为视障人士提供解说。
MM-Vid通过将长视频分解成连贯叙述，结合GPT-4V的多模态理解能力，实现对真实世界视频的全面理解。
实验证明MM-Vid在任务如问答、多模态推理、人物识别、音频描述等方面表现出色，具备在交互式环境中持续接收流视频帧输入的能力。

站长之家（ChinaZ.com）11月15日消息:近期，微软Azure AI发布了MM-Vid，这是一项结合GPT-4V与专用工具的创新，致力于解读长视频并为视障人士提供更好的体验。

目前，人工智能在长视频理解领域所面临的复杂挑战，包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作流程，包括多模态预处理、外部知识收集、视频片段描述生成和脚本生成等四个关键模块。通过GPT-4V，MM-Vid能够生成连贯的脚本，为后续任务提供全面的视频理解。

项目地址:https://multimodal-vid.github.io/

实验证明MM-Vid在多个任务上都取得了显著的成果，包括有根据的问答、多模态推理、长视频理解、多视频情景分析等。特别是在人物识别和说话人识别方面，通过采用视觉prompt设计，MM-Vid展现出更高的质量和准确性。

而MM-Vid在交互式环境中的应用，如具身智能体和玩视频游戏，证明其在持续接收流视频帧输入方面的有效性。

综合而言，微软的MM-Vid在大型多模态模型领域取得了显著进展，成功地将GPT-4V与专用工具集成，为视频理解提供了更强大的解决方案，不仅满足了常规视频理解的需求，还为视障人士提供了更丰富的体验。这一创新有望推动视觉领域的发展，使得语言模型在多模态环境下的应用更加广泛。

（举报）

相关推荐

关键词：

微软

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

本期AI日报聚焦多项AI领域重要进展：1) Midjourney推出首款视频生成模型V1，支持21秒视频生成；2) OpenAI CEO确认GPT-5将于今夏发布；3) Google上线语音对话搜索功能Search Live；4) OpenAI开源客户服务代理框架；5) MiniMax发布智能代理Agent；6) 恶意工具WormGPT出现新变种；7) OpenAI推出企业版ChatGPT折扣；8) DeepSite V2支持3D网页动画生成；9) AI工具可秒变PPT；10) 比亚迪与字节跳动合作开发动力电池技术；11) 马斯克否认xAI巨额亏损传闻。

AI日报 Midjourney 视频生成模型
荐长视频到了系统性能力重建时刻？

过去两年，长视频行业整体进入深度调整周期:用户增长趋缓、制作成本居高不下、流量红利逐步衰退，平台之间从“比拼数量”转向“拼内容质量”与运营效率。与此同时，泛滥的短剧也在进一步侵蚀长视频的基本盘。如何在内容上坚持长期主义，同时在组织与成本控制上实现机制创新，成为所有平台必须面对的现实命题。在这场变革风暴中，各家平台路径分化——有人从

长视频行业内容质量提升短剧影响
荐当「优酷原创」成为长视频精品内容新坐标系

全网正被一股“藏海效应”给统治着。作为优酷史来最高热度，《藏海传》在社交媒体上掀起了大面积剧情解析潮、视频二创潮。这也让人好奇:内容供给日趋饱和的当下，什么样的作品能够真正打动观众? 优酷副总裁关旭接受采访时正式提及“优酷原创”厂牌的推出——高度顺应观众审美需求，以强叙事、系列化、国际视野驱动“好故事”。当前长视频行业正处于从规模化

藏海传优酷原创长视频行业
荐阿里系“更名”虎鲸、爱奇艺财报拐点：长视频打响“拉新赛”？

长视频的2025，依旧是一场向“短”的冒险。今日（5月28日）优酷推出“优酷原创”新厂牌，旨在追求“好故事”;4月的世界·大会上，爱奇艺对“长短之变”的科技赋能与内容迭代都进行了更具体的落地;腾讯上线“火星短剧社”小程序入口;芒果TV春招会上一口气发布了88部待播剧集，剧集存在感意外地强...... Q1的业绩总结已经告一段落。阿里大文娱（现已更名为“虎鲸文娱”

长视频短视频影视行业
OpenAI奥特曼：GPT5预计今年夏季发布

OpenAI创始人奥特曼在最新播客中透露，GPT-5预计今夏发布，具体日期未定。 GPT-5将是生成式AI能力的重大升级，《商业内幕》称其远超GPT-4，早期测试者认可进步显著。 GPT-4于2023年3月发布，较上一代GPT-3.5有了显著提升。上月初，奥特曼发文向GPT-4告别。目前GPT-4o已经完全替代了GPT-4，前者于2024年5月14日发布，其中o”代表omni”，意为全能”。

GPT-5发布生成式AI升级奥特曼播客
Intel至强6处理器又上新了：与NVIDIA AI GPU珠联璧合

英特尔推出三款至强6系列AI专用处理器，采用P-Core性能核设计，支持PCT和SST-TF睿频技术，最高128核。新品专为AI系统优化，能动态分配CPU资源，显著提升GPU在高强度AI运算中的性能。其中6776P处理器已用于NVIDIA最新DGX B300 AI加速系统。新品还支持MRDIMM内存、CXL技术，PCIe通道数增加20%，并具备AMX高级矩阵指令集和FP16精度运算能力，专为最大化系统稳定性和AI工作负载设计。

Intel至强6系列 AI系统CPU 高性能计算
Baidu Steamer-I2V推动视频生成技术突破，擎舵平台赋能原生创意营销

百度推出全球领先的视频生成模型Baidu Steamer-I2V，以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化，能将静态图像转化为连贯动态视频。百度营销平台迎来2周年，已服务超13万家企业，日均生产素材超10万+。在"AI驱动营销全链路升级"主题下，百度与核心代理商共同探讨AIGC技术突破与创意升级，推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势，同时突破创意边界，实现营销效果飞跃。未来百度将优化模型性能，拓展应用场景，推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

AI营销视频生成模型百度Steamer-I2V
RTX 5060/Ti重启黑屏有救了！NVIDIA发布紧急固件更新

快科技5月25日消息，NVIDIA近期针对RTX 5060和RTX 5060 Ti显卡发布了一项紧急固件更新，旨在解决部分用户在重启系统时遇到的黑屏问题。这一问题自RTX 5060系列显卡发布以来一直困扰着部分用户，尤其是在系统重启时，显卡无法正常显示图像，导致用户无法正常使用。此次更新并非通过驱动程序发布，而是直接对显卡的vBIOS进行更新，NVIDIA强调，只有遇到黑屏问题的用户才需要更新固件，正常使用的设备无需进行此操作。NVIDIA的技术文档显示，黑屏问题可能是由于特定主板的BIOS/UEFI版本与新显卡的兼容性冲突所致。如果用户的主板不支持UEFI启

NVIDIA RTX 5060
日本内容产业的新宠：揭秘Vidu征服东京的三大法宝

生数科技旗下AI视频生成平台Vidu在全球范围内快速扩张，尤其在日本动漫市场表现亮眼。其旗舰产品Vidu Q1模型在VBench评测中位居榜首，能快速生成高质量动漫风格视频，极大提升创作效率。平台已覆盖200多个国家和地区，用户超2500万。Vidu通过文生视频、图生视频等功能，结合丰富模板库，实现"秒级创作"，解决日本动漫行业制作周期长、人力成本高等痛点。典型案例�

AI内容创作多模态生成生数科技
影像更菁彩！华为 Pura80 系列全系搭载HDR Vivid菁彩影像！

华为Pura80系列于6月11日发布，搭载行业首创"一镜双目"双焦段切换式长焦结构，实现超大底与双长焦完美结合。全系配备HDR Vivid影像技术，支持最高10000nits亮度范围，突破传统影像亮度限制。该技术通过动态元数据技术实现实时优化，结合AI实时HDR功能，能精准还原火焰等高反差场景。同时支持Audio Vivid声技术，构建全感官体验。Pura80系列已与主流视频平台深度适配，用户可畅享HDR内容。作为2025年超高清发展年的旗舰机型，该系列通过HDR Vivid和广色域技术，带来专业级光影革命。

华为 Pura80 系列

热文

3 天
7天

微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

荐长视频到了系统性能力重建时刻？

荐当「优酷原创」成为长视频精品内容新坐标系

荐阿里系“更名”虎鲸、爱奇艺财报拐点：长视频打响“拉新赛”？

OpenAI奥特曼：GPT5预计今年夏季发布

Intel至强6处理器又上新了：与NVIDIA AI GPU珠联璧合

Baidu Steamer-I2V推动视频生成技术突破，擎舵平台赋能原生创意营销

RTX 5060/Ti重启黑屏有救了！NVIDIA发布紧急固件更新

日本内容产业的新宠：揭秘Vidu征服东京的三大法宝

影像更菁彩！华为 Pura80 系列全系搭载HDR Vivid菁彩影像！

热文

京东618战报公布：订单破22亿单下单用户同比增加超100%

孟羽童回应一手好牌打得稀烂：不纠结过去

刘强东点外卖给骑手1000元小费：此前达达已完成私有化

小米618全渠道累计支付金额破355亿元：刷新历年大促纪录

字节小米位列中国全球化品牌前二中国全球化品牌50强出炉

SpaceX回应星舰爆炸：无人员伤亡及周边危害

理想i8已到最后筹备阶段将于7月下旬发布

站长商机