首页 > 业界 > 关键词  > FunQA最新资讯  > 正文

北邮、南洋理工推沙雕视频数据集FunQA 用算法学习喜剧

2023-09-11 15:04 · 稿源:站长之家

要点:

1.FunQA是一个包含4365个反直觉视频和312万个文本问答的新数据集。

2.FunQA包含3个子集:幽默视频HumorQA、创意视频CreativeQA和魔术视频MagicQA。

3.FunQA设计了时间戳定位、详细描述、反直觉推理等任务,对模型的理解力提出深入挑战。

站长之家(ChinaZ.com)9月11日 消息:来自北京邮电大学、新加坡南洋理工大学及艾伦人工智能研究所的学者们提出了FunQA,一个全新的高质量视频问答数据集,用于测试和提高AI模型对反直觉视频内容的理解能力。

image.png

论文地址:https://arxiv.org/abs/2306.14899

FunQA包含总时长近24小时、来自3种反直觉艺术类型的4365个短视频,以及312万条人工注释的视频问答对。它由3个子集组成:幽默视频集HumorQA、创意视频集CreativeQA和魔术视频集MagicQA。这些具有反直觉特点的视频可以对模型的理解力产生深入的挑战。

image.png

项目地址:https://funqa-benchmark.github.io/

与现有视频QA数据集相比,FunQA有以下特点:

1. 专注反直觉领域,测试模型对非常规事件的理解力。

2. annotation丰富,每个问答平均34词,远超其他数据集。

3. 创新探索幽默感理解,需要模型学习幽默原理。

4. 强调深度时空推理,如通过常识判断幽默反差。

5. 设计了时间戳定位、详细描述、反直觉推理等任务考察模型的视觉编码、语义表达和逻辑推理能力。

image.png

FunQA的具体组成如下:

1. HumorQA:来自脱口秀和模仿秀的1335个幽默视频。

2. CreativeQA:来自创意短视频平台的1465个反常识创意视频。

3. MagicQA:来自网络平台的1565个难以理解的魔术视频。

针对每个子集,FunQA设计了3个核心任务:

1. 反直觉时间戳定位:找到视频中关键反直觉事件的时间点。

2. 详细视频描述:用语句描述视频内容。

3. 反直觉推理:解释视频中反直觉的原因。

此外还有视频标题生成等扩展任务。

在多个模型上进行测试表明,当前模型在FunQA任务上的表现普遍不佳,关键原因包括:

1. 难以准确理解长视频内容和上下文信息。

2. 缺乏推理“常识”,无法理解违反直觉的内容。

3. 不同类型视频的理解能力差异很大。

4. 评估指标不足,难以测量深度理解。

研究者因此提出,后续工作可以从提升模型大小、改进数据质量、优化训练策略等方面入手,以提高模型在FunQA任务上的表现。总体而言,FunQA提供了一个全新且富有挑战的视频理解基准,可以推动计算机视觉研究的发展。

举报

  • 相关推荐
  • 三下乡投稿视频媒体平台|学习 强国央视频人民视频投稿

    文章介绍了高校如何在权威媒体平台高效投放宣传视频的三大推荐渠道:1)"学习 强国"平台,适合党政类内容;2)央视视频平台,作为国家级5G新媒体平台;3)人民日报旗下人民视频。建议通过第三方服务机构【猎媒传播】投稿,可1-3天快速审核发布。视频要求MP4格式,大小不超过200M,时长1-3分钟,可配300-500字简介。

  • 融合数据中台与动态调度:林剑峰在共享出行智能算法开发中的技术探索

    本文讲述了林剑峰在智能出行领域的十年深耕历程。作为系统工程师,他主导构建了融合数据、算法与规则引擎的智能调度体系,通过动态聚类和路径规划模型显著提升了共享单车调度效率。其创新包括分级围栏模型、嵌入式调度判断模块等专利技术,实现了跨区域精准调度和系统自主运行能力。数据显示,他推动的系统使车辆调度效率提升37.38%,异常识别准确率显著提高。林剑峰的工作体现了"技术+业务"的系统设计理念,为城市智能交通建设提供了可借鉴的技术范式。

  • 微算法科技基于格密码的量子加密技术,融入LSQb算法的信息隐藏与传输过程中,实现抗量子攻击策略强化

    随着量子计算技术的发展,传统加密算法面临被量子计算机破解的风险。微算科技基于格密码的量子加密技术,将LSQb算法与量子图像处理相结合,通过量子图像预处理、信息编码嵌入、格密码加密等步骤,构建抗量子攻击的安全传输系统。该技术利用格密码的数学结构优势,在量子环境下保持高安全性,并通过量子纠错编码确保传输稳定性。相比传统方法,该方案在安全性和可靠性上实现质的飞跃,为敏感信息保护提供重要解决方案,未来将与更多量子信息技术结合形成更完善的量子信息处理系统。

  • 国内MCP服务合集平台去哪看?MCP server资源平台推荐

    ​在当今人工智能技术飞速发展的时代,AI模型与外部工具和服务的交互能力正逐渐成为推动技术进步的关键因素。今天,我们聚焦于一个新兴的、极具潜力的平台——AIbase,它为全球的AI开发者和研究人员提供了一个前所未有的MCP(Model Context Protocol,模型上下文协议)服务器集合平台,助力AI技术的进一步发展。 AIbase平台致力于整合全球优质的MCP服务器资源,为开发者提供�

  • AI驱动全域进化,金仓数据库以“融合”重构数据基座

    7月15日,电科金仓在京举办"融合进化+智领未来"主题产品发布会,推出多款AI时代数据库产品:KES V92025融合数据库具备多语法体系兼容、多集群架构等特性,性能提升30%;KEMCC统一管控平台实现跨云环境数据库管理;云数据库AI版集成高性能硬件与AI大模型;KFS Ultra智能数据集成平台支持百种数据源。中国人民大学教授王珊指出,数据库与AI深度结合已成释放数据价值关�

  • 大鱼半导体破解安防通信堵点,推无线新方案

    南京大鱼半导体在深圳国际安防展上宣布进军安防市场,推出"大鱼安防通信解决方案"。该方案基于自主研发的FishLINK技术,具备三大核心优势:1)100公里超远距离传输,在复杂环境下仍能稳定工作;2)全链路低功耗设计,待机功耗仅2mW;3)创新"一对多"架构,可大幅降低硬件部署成本和运维压力。公司凭借在通信芯片领域的技术积累,致力于解决安防行业长期存在的通信难题,为应急通信等场景提供可靠连接。大鱼半导体定位为"芯片即应用"解决方案提供商,团队汇聚了来自小米、摩托罗拉等企业的技术专家。

  • 硬盘丢失了数据怎么恢复?硬盘数据恢复的6种方法

    文章分析了硬盘数据丢失的常见原因及恢复方法。数据丢失主要源于人为误操作、硬件故障、软件系统问题和环境因素四类。针对不同情况,介绍了6种恢复方法:回收站还原、系统版本回退、备份还原、Mac系统的TimeMachine、命令行操作以及专业数据恢复软件。其中专业软件如转转大师能深度扫描硬盘,支持多种文件格式恢复,操作简便且成功率高。文章强调数据丢失后应避免写入操作,根据实际情况选择合适恢复方式,并建议做好日常备份预防数据丢失。

  • 100万悬赏AI界喜剧之王!北邮、南洋理工等发布「沙雕视频」数据集FunQA:用算法学习人类幽默

    【新智元导读】4千个沙雕视频31万条鉴赏文本,让AI模型学习更准确的视频理解,反常识推理,幽默感,和准确的自由文本生成。人们很容易就能在反直觉视频中获得愉悦感,这吸引力不仅来自于视频对人类的视觉感官刺激,更来自于人类与生俱来的理解和发现快乐的能力,即能够理解并在出乎意料和反直觉的时刻找到乐趣。基于FunQA的算法大赛2023年7月,奖金100万美元的算法大赛FunQAChallenge正式开启报名。

  • 视频播客,还值不值得抖快B红争一争

    这个夏天,B站又主动高调了一回。 “视频播客出圈计划”推出,B站承诺千万流量扶持、AI剪辑工具和城市录播棚支持,旨在将原本属于耳朵的“播客”内容,也呈现在屏幕之前。这不是B站第一次试图改写内容生态,也不会是最后一次。 更耐人寻味的是,它选择的视频播客这一形式,恰恰正处于一种“想被看见”又“尚未被定义”的模糊边界上。 视频播客当然不是什么新物

  • 健合集团与华南理工大学共建研究生联合培养基地,开启产学研合作新篇

    4月29日,健合集团与华南理工大学在广州共建"研究生联合培养基地",标志着校企合作进入新阶段。双方将在母婴营养领域深化产学研合作,目前已共同开展十余个科研项目,攻克多项技术难题,获得11项发明专利和5项国家授权,相关技术已应用于合生元、乳铁蛋白等产品。该基地将整合校企资源,搭建高水平科研平台,加速成果转化,为行业培养创新人才。健合集团将提供实习资源支持,共同探索食品科技突破,推动母婴健康产业高质量发展。此次合作是健合践行PPAE经营模式的重要实践,未来将持续深化产学研协同创新。