首页 > 业界 > 关键词  > 字节跳动最新资讯  > 正文

字节提出新方法GPE AI看视频可自动找“高能时刻”

2024-01-22 09:21 · 稿源:站长之家

要点:

1、字节跳动联合中科院自动化研究所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。

2、字节跳动联合中科院自动化研究所标注了用于域增量学习的美食视频数据集LiveFood,提出了基于原型学习的解决方案。

3、GPE使用高光原型学习的方案,在视频帧级别上做二分类任务,判断视频帧属于高光还是非高光,取得了良好的高光检测性能。

站长之家(ChinaZ.com)1月22日 消息:AI技术在视频领域的应用一直备受关注,通过AI快速检测视频中的高光片段,可以实现观众直接空降到精彩时刻,主播也可以复盘自己的表现。针对视频领域增量学习的困境,字节跳动联合中科院自动化研究所标注了用于域增量学习的美食视频数据集LiveFood,并提出了基于原型学习的解决方案。该方法使用高光原型学习的方案,在视频帧级别上做二分类任务,判断视频帧属于高光还是非高光,并取得了良好的高光检测性能。通过这些努力,AI技术在视频领域应用的前景更加广阔。

image.png

项目地址:https://top.aibase.com/tool/livefood

通过AI快速检测视频中的高光片段,观众可以直接空降到精彩时刻,主播也可以复盘自己的表现。针对视频域增量学习困境,字节跳动联合中科院自动化研究所标注了美食视频数据集LiveFood,并提出基于原型学习的解决方案。

字节跳动联合中科院自动化所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。同时,标注了用于域增量学习的美食视频数据集LiveFood,并提出了基于原型学习的解决方案。AI技术在视频领域的应用前景更加广阔。

字节跳动联合中科院自动化所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。该方法取得了良好的高光检测性能,并对视频领域增量学习问题有重要意义,为AI技术在视频领域的应用打开了新的局面。

举报

  • 相关推荐
  • 外卖持久战:餐饮商家如何找寻营销新方法

    2025年外卖行业迎来了新一轮激战。自京东以"免佣金+骑手社保+百亿补贴"的组合拳高调杀入外卖市场后,淘宝迅速将"小时达"升级为"淘宝闪购",美团宣布千亿投入计划,饿了么跟进百亿补贴……各平台上演了一场贴身肉搏。 如今,这场由京东引发的市场争夺战已逐渐回归理性,平台间的竞争,正逐渐转向更可持续的运营能力比拼。对餐饮连锁品牌而言,

  • 最新AI工具去哪AI产品网站推荐

    AIBase产品库(https://top.aibase.com/)正式推出,旨在通过智能匹配技术,帮助用户快速找到最适合自己的AI产品和网站。AIBase平台提供了一个全面的AI工具和应用推荐库,用户可以根据自己的需求和偏好,轻松找到并使用适合的AI解决方案。

  • 停车位进入“AI时代”,捷停车上线DeepSeek停车助手,一句话匹配服务

    捷停车小程序上线DeepSeek停车助手AI功能,用户可通过自然语言交互实现智能找车位、查询充电服务、购买停车套餐等。该功能基于捷停车覆盖全国5.7万+智慧停车场、2940万+车位的数据库,结合用户习惯和实时数据,提供最优停车方案。AI助手能精准匹配需求,将车位利用率从60%提升至85%以上,并支持多轮追问细化需求。平台还推出"车位优选"套餐和"车位电商"模式,实现供需精准对接。这标志着捷停车"AI+停车"战略落地,推动行业从被动管理向主动服务升级。

  • 即插即用 小巧高能 森海塞尔BTD 700为你带来便捷蓝牙体验

    森海塞尔推出高性能蓝牙适配器BTD 700,重量仅2.2克,支持aptX无损音频解码和24bit/96kHz高解析音质。该产品通过USB-C接口连接设备,可为笔记本、手机等提供无线音频升级,兼容Windows、MacOS等系统。内置蓝牙5.4技术,支持低延迟游戏模式和Auracast广播功能,适用于影音娱乐、会议通话等场景。6月16日正式发售。

  • 中国移动推出AI速记功能:自动将通话转为文字记录

    快科技5月17日消息,在日常生活中,不少人养成了打电话录音的习惯。然而即便有录音,后期想要回顾其中的内容时,往往也会面临诸多不便。针对这一困扰,中国移动推出了极具实用性的AI速记功能。它能够自动将通话内容精准地转化为文字记录,还能贴心地为用户整理出摘要,极大地提高了信息获取的便利性。这项备受瞩目的功能,诞生于最近刚刚召开的移起AI2025年中国移

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • 信锐三大创新方案亮相CHIMA2025,AI重构智慧医疗体验!

    5月9-11日,第29届中国医院信息网络大会(CHIMA2025)在厦门举行,主题为"AI融合医疗 共促高质量发展"。信锐展示了三大创新方案:1)智联星零漫游方案,通过1分64技术实现病房无缝覆盖,解决传统Wi-Fi信号切换问题;2)有线无线一体全光网络方案,突破400米传输距离限制,布线成本降低60%;3)医院物联网解决方案,涵盖机房动环监测和智慧会议系统。这些方案已在北京大学深圳医院等数十家三甲医院成功应用。信锐将持续深化AI与光网络融合,探索物联网、数字孪生在医疗领域的创新应用。

  • AI日报:DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • AI简历教程!用 deepseek 一键生成质量简历

    本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件,过程繁琐。现在通过Deepseek平台,只需输入自然语言指令(如工作经验、技能等关键信息),系统即可自动生成排版精美的HTML版简历,还能转换为PDF格式。操作流程分三步:1.访问官网输入需求指令;2.查看并运行生成的HTML代码;3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历,大幅提升求职效率。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。