首页 > 业界 > 关键词  > 微软最新资讯  > 正文

微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

2023-11-15 16:01 · 稿源:站长之家

要点:

  • 微软Azure AI推出的MM-Vid整合了GPT-4V与专用工具,能解读长达一小时的视频并为视障人士提供解说。

  • MM-Vid通过将长视频分解成连贯叙述,结合GPT-4V的多模态理解能力,实现对真实世界视频的全面理解。

  • 实验证明MM-Vid在任务如问答、多模态推理、人物识别、音频描述等方面表现出色,具备在交互式环境中持续接收流视频帧输入的能力。

站长之家(ChinaZ.com)11月15日 消息:近期,微软Azure AI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。

目前,人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作流程,包括多模态预处理、外部知识收集、视频片段描述生成和脚本生成等四个关键模块。通过GPT-4V,MM-Vid能够生成连贯的脚本,为后续任务提供全面的视频理解。

image.png

项目地址:https://multimodal-vid.github.io/

实验证明MM-Vid在多个任务上都取得了显著的成果,包括有根据的问答、多模态推理、长视频理解、多视频情景分析等。特别是在人物识别和说话人识别方面,通过采用视觉prompt设计,MM-Vid展现出更高的质量和准确性。

而MM-Vid在交互式环境中的应用,如具身智能体和玩视频游戏,证明其在持续接收流视频帧输入方面的有效性。

综合而言,微软的MM-Vid在大型多模态模型领域取得了显著进展,成功地将GPT-4V与专用工具集成,为视频理解提供了更强大的解决方案,不仅满足了常规视频理解的需求,还为视障人士提供了更丰富的体验。这一创新有望推动视觉领域的发展,使得语言模型在多模态环境下的应用更加广泛。

举报

  • 相关推荐
  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • 长视频到了系统性能力重建时刻?

    过去两年,长视频行业整体进入深度调整周期:用户增长趋缓、制作成本居高不下、流量红利逐步衰退,平台之间从“比拼数量”转向“拼内容质量”与运营效率。 与此同时,泛滥的短剧也在进一步侵蚀长视频的基本盘。如何在内容上坚持长期主义,同时在组织与成本控制上实现机制创新,成为所有平台必须面对的现实命题。 在这场变革风暴中,各家平台路径分化——有人从

  • 当「优酷原创」成为长视频精品内容新坐标系

    全网正被一股“藏海效应”给统治着。作为优酷史来最高热度,《藏海传》在社交媒体上掀起了大面积剧情解析潮、视频二创潮。 这也让人好奇:内容供给日趋饱和的当下,什么样的作品能够真正打动观众? 优酷副总裁关旭接受采访时正式提及“优酷原创”厂牌的推出——高度顺应观众审美需求,以强叙事、系列化、国际视野驱动“好故事”。 当前长视频行业正处于从规模化

  • 阿里系“更名”虎鲸、爱奇艺财报拐点:长视频打响“拉新赛”?

    长视频的2025,依旧是一场向“短”的冒险。 今日(5月28日)优酷推出“优酷原创”新厂牌,旨在追求“好故事”;4月的世界·大会上,爱奇艺对“长短之变”的科技赋能与内容迭代都进行了更具体的落地;腾讯上线“火星短剧社”小程序入口;芒果TV春招会上一口气发布了88部待播剧集,剧集存在感意外地强...... Q1的业绩总结已经告一段落。阿里大文娱(现已更名为“虎鲸文娱”

  • OpenAI奥特曼:GPT5预计今年夏季发布

    OpenAI创始人奥特曼在最新播客中透露,GPT-5预计今夏发布,具体日期未定。 GPT-5将是生成式AI能力的重大升级,《商业内幕》称其远超GPT-4,早期测试者认可进步显著。 GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。上月初,奥特曼发文向GPT-4告别。 目前GPT-4o已经完全替代了GPT-4,前者于2024年5月14日发布,其中o”代表omni”,意为 全能”。

  • Intel至强6处理器又上新了:与NVIDIA AI GPU珠联璧合

    英特尔推出三款至强6系列AI专用处理器,采用P-Core性能核设计,支持PCT和SST-TF睿频技术,最高128核。新品专为AI系统优化,能动态分配CPU资源,显著提升GPU在高强度AI运算中的性能。其中6776P处理器已用于NVIDIA最新DGX B300 AI加速系统。新品还支持MRDIMM内存、CXL技术,PCIe通道数增加20%,并具备AMX高级矩阵指令集和FP16精度运算能力,专为最大化系统稳定性和AI工作负载设计。

  • Baidu Steamer-I2V推动视频生成技术突破,擎舵平台赋能原生创意营销

    百度推出全球领先的视频生成模型Baidu Steamer-I2V,以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化,能将静态图像转化为连贯动态视频。百度营销平台迎来2周年,已服务超13万家企业,日均生产素材超10万+。在"AI驱动营销全链路升级"主题下,百度与核心代理商共同探讨AIGC技术突破与创意升级,推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势,同时突破创意边界,实现营销效果飞跃。未来百度将优化模型性能,拓展应用场景,推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

  • RTX 5060/Ti重启黑屏有救了!NVIDIA发布紧急固件更新

    快科技5月25日消息,NVIDIA近期针对RTX 5060和RTX 5060 Ti显卡发布了一项紧急固件更新,旨在解决部分用户在重启系统时遇到的黑屏问题。这一问题自RTX 5060系列显卡发布以来一直困扰着部分用户,尤其是在系统重启时,显卡无法正常显示图像,导致用户无法正常使用。此次更新并非通过驱动程序发布,而是直接对显卡的vBIOS进行更新,NVIDIA强调,只有遇到黑屏问题的用户才需要更新固件,正常使用的设备无需进行此操作。NVIDIA的技术文档显示,黑屏问题可能是由于特定主板的BIOS/UEFI版本与新显卡的兼容性冲突所致。如果用户的主板不支持UEFI启

  • 日本内容产业的新宠:揭秘Vidu征服东京的三大法宝

    生数科技旗下AI视频生成平台Vidu在全球范围内快速扩张,尤其在日本动漫市场表现亮眼。其旗舰产品Vidu Q1模型在VBench评测中位居榜首,能快速生成高质量动漫风格视频,极大提升创作效率。平台已覆盖200多个国家和地区,用户超2500万。Vidu通过文生视频、图生视频等功能,结合丰富模板库,实现"秒级创作",解决日本动漫行业制作周期长、人力成本高等痛点。典型案例�

  • 影像更菁彩!华为 Pura80 系列全系搭载HDR Vivid菁彩影像!

    华为Pura80系列于6月11日发布,搭载行业首创"一镜双目"双焦段切换式长焦结构,实现超大底与双长焦完美结合。全系配备HDR Vivid影像技术,支持最高10000nits亮度范围,突破传统影像亮度限制。该技术通过动态元数据技术实现实时优化,结合AI实时HDR功能,能精准还原火焰等高反差场景。同时支持Audio Vivid声技术,构建全感官体验。Pura80系列已与主流视频平台深度适配,用户可畅享HDR内容。作为2025年超高清发展年的旗舰机型,该系列通过HDR Vivid和广色域技术,带来专业级光影革命。