北邮、南洋理工推沙雕视频数据集FunQA 用算法学习喜剧

2023-09-11 15:04 · 稿源：站长之家

要点:
1.FunQA是一个包含4365个反直觉视频和312万个文本问答的新数据集。
2.FunQA包含3个子集:幽默视频HumorQA、创意视频CreativeQA和魔术视频MagicQA。
3.FunQA设计了时间戳定位、详细描述、反直觉推理等任务，对模型的理解力提出深入挑战。

站长之家（ChinaZ.com）9月11日消息:来自北京邮电大学、新加坡南洋理工大学及艾伦人工智能研究所的学者们提出了FunQA，一个全新的高质量视频问答数据集，用于测试和提高AI模型对反直觉视频内容的理解能力。

论文地址:https://arxiv.org/abs/2306.14899

FunQA包含总时长近24小时、来自3种反直觉艺术类型的4365个短视频，以及312万条人工注释的视频问答对。它由3个子集组成:幽默视频集HumorQA、创意视频集CreativeQA和魔术视频集MagicQA。这些具有反直觉特点的视频可以对模型的理解力产生深入的挑战。

项目地址:https://funqa-benchmark.github.io/

与现有视频QA数据集相比，FunQA有以下特点:

1. 专注反直觉领域，测试模型对非常规事件的理解力。

2. annotation丰富，每个问答平均34词，远超其他数据集。

3. 创新探索幽默感理解，需要模型学习幽默原理。

4. 强调深度时空推理，如通过常识判断幽默反差。

5. 设计了时间戳定位、详细描述、反直觉推理等任务考察模型的视觉编码、语义表达和逻辑推理能力。

FunQA的具体组成如下:

1. HumorQA:来自脱口秀和模仿秀的1335个幽默视频。

2. CreativeQA:来自创意短视频平台的1465个反常识创意视频。

3. MagicQA:来自网络平台的1565个难以理解的魔术视频。

针对每个子集，FunQA设计了3个核心任务:

1. 反直觉时间戳定位:找到视频中关键反直觉事件的时间点。

2. 详细视频描述:用语句描述视频内容。

3. 反直觉推理:解释视频中反直觉的原因。

此外还有视频标题生成等扩展任务。

在多个模型上进行测试表明，当前模型在FunQA任务上的表现普遍不佳，关键原因包括:

1. 难以准确理解长视频内容和上下文信息。

2. 缺乏推理“常识”，无法理解违反直觉的内容。

3. 不同类型视频的理解能力差异很大。

4. 评估指标不足，难以测量深度理解。

研究者因此提出，后续工作可以从提升模型大小、改进数据质量、优化训练策略等方面入手，以提高模型在FunQA任务上的表现。总体而言，FunQA提供了一个全新且富有挑战的视频理解基准，可以推动计算机视觉研究的发展。

（举报）

相关推荐
大家在看

关键词：

FunQA

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
南洋理工推动画自动填色技术BasicPBC 动画制作效率大大提高

新加坡南洋理工大学的S-lab团队近日宣布，他们开发出了一项创新的动画自动填色技术——BasicPBC。这项技术能够自动为动画中的线条图进行着色，极大地简化了动画制作中繁琐的手动上色步骤。这对于提高动画的质量和观感，有着非常重要的意义。

BasicPBC AI头条
谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别

在线文本识别模型取得了显著进展，但数学表达识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了MathWriting，一个专注于在线手写数学表达的数据集，包含230k人工编写和400k合成样本，超越了类似IM2LATEX-100K的离线HME数据集。未来的研究可以专注于优化训练/验证/测试分割以及开发针对数学表达的语言模型。

MathWriting 谷歌AI AI头条
「天工SkyMusic」跨界喜剧，用实验音乐探索笑声与旋律的碰撞

4月11日，昆仑万维「天工SkyMusic」宣布将跨界喜剧，联合庞博、天放、雷淞然等知名喜剧人，共同开启一次音乐与喜剧深度融合的创作实验，探索二者碰撞后的全新艺术表达，从呈现一场双重享受的听觉盛宴。回溯音乐史上那些脑洞大开的实验音乐，从大胆采用环境声音，到运用录音室技术进行音乐拼贴，再到利用磁带与电子合成器开创电子音乐潮流，每一次先锋实验都拓宽了音乐表达的可能性，重塑音乐创作的边界。4月17日，「天工SkyMusic」将面向全社会免费开放，邀请所有怀揣音乐梦想、渴望挥洒创意的用户，一起参与这场探索音乐创作可能的实验，用AI技术的力量共享音乐创作的乐趣与成就。

音乐喜剧实验
不止是音乐生成！Udio还可以创作喜剧、演讲、电台广播等

Udio的发布引发了网友的关注，上线当天还网站一度被网友挤崩。有网友又发现了新的“华点”。个人娱乐和放松:普通用户可以使用Udio来创作个人喜欢的音频内容，如ASMR和自然音效，用于放松和娱乐。

Udio AI头条
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
谷歌推Scenic：可识别视频内容并生成详细描述

Scenic是谷歌推出的模型，一个专注于计算机视觉领域的代码库，主要用于研究基于注意力的模型。该库提供了一系列共享的轻量级库，解决训练大规模视觉模型时常见的任务，并包含了几个使用这些库的问题特定训练和评估循环的项目。只有当功能被证明在许多模型和任务中广泛有用时，才可能将其上游到Scenic的共享库中。

Scenic AI头条
谷歌将推全新AI视频工具Google Vids 集多种功能一体

有消息称Google将推出一款集多种功能于一体的AI视频工具——GoogleVids。这款工具旨在帮助用户轻松创作故事板，并通过AI技术协助编辑内容，选择适合的场景、图片和音乐，自动生成一个完整的类似PPT的宣讲视频。GoogleVids将于6月份登陆GoogleWorkspace，届时用户将能够更加便捷地使用这一工具，为自己的工作和学习带来更多便利。

GoogleVids AI头条
红狮智富：PCE数据公布黄金再受打压？一文学习PCE

近日美国PCE通胀数据即将公布，该数据属于个人消费支出，从3月的非农数据来看，明显劳动力市场还是火热的，同时小时薪资增速的上涨，也意味着市场上消费者有更多的消费资金。鉴于此前公布的美国3月CPI数据超过市场预期，投资者降低了对美联储降息的押注，如果本周五的PCE数据维持在高位，那么会进一步强化市场对于美联储降息后撤的预期。红狮智富建议投资者和决策

美国经济 PCE数据消费支出
旷视科技算法量产助力解决“多重”难题，AIoT 市场算法供给面临 5 大挑战

随着人工智能、深度学习等新技术不断推出和演进，越来越多的行业进行智能化升级、智能化创新，实现降本增效。火焰检测、工业质检、零件计数、危化品检测、通行管理、明厨亮灶、高空抛物检测、普洱茶茶饼识别、破皮速冻水饺检测……这些“五花八门”的AI算法，伴随着数字化转型的热潮，进入了日常生产生活。旷视希望通过AI算法生产的标准化以及AI生产力平台的构建，大幅降低算法生产的成本和门槛，让更多人可以参与进来，促进算法在更多行业的落地，加速AI与实体经济的深度融合。

人工智能深度学习智能化

今日大家都在搜的词：

热文

3 天
7天

北邮、南洋理工推沙雕视频数据集FunQA 用算法学习喜剧

今日大家都在搜的词：

热文

站长商机