首页 > 业界 > 关键词  > Video-LLaVA最新资讯  > 正文

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

2023-11-23 13:47 · 稿源: 新智元公众号

【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 可灵AI发布全新2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • “奥迪助手”来了!全新AUDI车型接入豆包大模型

    2025年4月24日上海车展期间,上汽奥迪发布全新A5L Sportback和首款量产车型E5 Sportback。同时推出与火山引擎合作开发的"奥迪助手"智能交互系统,基于豆包大模型实现自然对话体验。该系统将搭载于两款新车,并同步部署在车载端和手机APP端,支持跨设备对话记录同步。火山引擎为系统提供大模型技术支持,实现语音指令控制、车辆功能讲解等智能服务,并整合抖音、汽水音乐等内容生态。上汽奥迪表示,该合作将助力品牌打造更智能、个性化的产品矩阵。

  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • 李想AI Talk第二季来了:理想VLA司机大模型是从动物到人类的进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。

  • 能理解海豚声音!谷歌开发全新AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • 酒仙桥论坛 | 大模型 “燃料荒” 如何破?可信数据打造智能时代底座

    · 首届酒仙桥论坛, 6 天 11 场分论坛“AI 马拉松”持续热跑中,聚焦人工智能“产业创新应用、生态发展和数智未来”,政、产、学、研多方力量共议AI黄金发展期的机遇与挑战,搭建务实对话桥梁,加速科技创新和产业创新融合。4月17日上午,酒仙桥论坛可信数据服务专场顺利召开。在这场以“可信数据服务”为焦点的分论坛上,产学研专家从行业洞察与业务实践出发,围�

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • AI日报:OpenAI下周或发布GPT-4.1系列;Pika全新AI视频功能Twists;商汤科技日日新V6震撼发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版OpenAI即将发布GPT-4.1系列及o3系列,标志着其在多模态和推理能力上的重大进展。新加坡在AI技能学习上投入的时间显著高于其他亚太国家,显示出其在AI人才培养方面的竞争力。

  • 山石网科发布全新Open XDR解决方案:开启安运营范式

    山石网科发布全新Open XDR解决方案,以"开放融合、AI赋能、智慧运维"为核心理念,突破传统安全架构局限。该方案通过南北向开放架构实现全领域数据采集与异构设备联动,打破数据孤岛;集成云端/本地AI大模型,降低安全运维门槛,实现日志精准解读和威胁深度分析;创新"案件调查"功能构建完整攻击链路,结合可视化剧本编排实现闭环安全运维。方案支持多源数据接入和无代码插件扩展,构建灵活可扩展的安全生态,助力企业从被动防御转向主动研判,为数字化转型提供智能化安全运营保障。

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。