首页 > 业界 > 关键词  > 字节跳动最新资讯  > 正文

字节提出新方法GPE AI看视频可自动找“高能时刻”

2024-01-22 09:21 · 稿源:站长之家

要点:

1、字节跳动联合中科院自动化研究所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。

2、字节跳动联合中科院自动化研究所标注了用于域增量学习的美食视频数据集LiveFood,提出了基于原型学习的解决方案。

3、GPE使用高光原型学习的方案,在视频帧级别上做二分类任务,判断视频帧属于高光还是非高光,取得了良好的高光检测性能。

站长之家(ChinaZ.com)1月22日 消息:AI技术在视频领域的应用一直备受关注,通过AI快速检测视频中的高光片段,可以实现观众直接空降到精彩时刻,主播也可以复盘自己的表现。针对视频领域增量学习的困境,字节跳动联合中科院自动化研究所标注了用于域增量学习的美食视频数据集LiveFood,并提出了基于原型学习的解决方案。该方法使用高光原型学习的方案,在视频帧级别上做二分类任务,判断视频帧属于高光还是非高光,并取得了良好的高光检测性能。通过这些努力,AI技术在视频领域应用的前景更加广阔。

image.png

项目地址:https://top.aibase.com/tool/livefood

通过AI快速检测视频中的高光片段,观众可以直接空降到精彩时刻,主播也可以复盘自己的表现。针对视频域增量学习困境,字节跳动联合中科院自动化研究所标注了美食视频数据集LiveFood,并提出基于原型学习的解决方案。

字节跳动联合中科院自动化所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。同时,标注了用于域增量学习的美食视频数据集LiveFood,并提出了基于原型学习的解决方案。AI技术在视频领域的应用前景更加广阔。

字节跳动联合中科院自动化所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。该方法取得了良好的高光检测性能,并对视频领域增量学习问题有重要意义,为AI技术在视频领域的应用打开了新的局面。

举报

  • 相关推荐
  • 外卖持久战:餐饮商家如何找寻营销新方法?

    2025年外卖行业迎来了新一轮激战。自京东以"免佣金+骑手社保+百亿补贴"的组合拳高调杀入外卖市场后,淘宝迅速将"小时达"升级为"淘宝闪购",美团宣布千亿投入计划,饿了么跟进百亿补贴……各平台上演了一场贴身肉搏。 如今,这场由京东引发的市场争夺战已逐渐回归理性,平台间的竞争,正逐渐转向更可持续的运营能力比拼。对餐饮连锁品牌而言,

  • 长视频到了系统性能力重建时刻?

    过去两年,长视频行业整体进入深度调整周期:用户增长趋缓、制作成本居高不下、流量红利逐步衰退,平台之间从“比拼数量”转向“拼内容质量”与运营效率。 与此同时,泛滥的短剧也在进一步侵蚀长视频的基本盘。如何在内容上坚持长期主义,同时在组织与成本控制上实现机制创新,成为所有平台必须面对的现实命题。 在这场变革风暴中,各家平台路径分化——有人从

  • 停车找位进入“AI时代”,捷停车上线DeepSeek停车助手,一句话匹配服务

    捷停车小程序上线DeepSeek停车助手AI功能,用户可通过自然语言交互实现智能找车位、查询充电服务、购买停车套餐等。该功能基于捷停车覆盖全国5.7万+智慧停车场、2940万+车位的数据库,结合用户习惯和实时数据,提供最优停车方案。AI助手能精准匹配需求,将车位利用率从60%提升至85%以上,并支持多轮追问细化需求。平台还推出"车位优选"套餐和"车位电商"模式,实现供需精准对接。这标志着捷停车"AI+停车"战略落地,推动行业从被动管理向主动服务升级。

  • AI语音迎来「特斯拉时刻」,一条工作流「吃掉」全球百亿市场

    OpenAI推出新一代语音模型GPT-4o系列,包括语音转文本和文本转语音功能,开发者可通过API接入。趣丸科技推出的"趣丸千音"平台依托MaskGCT模型,在语音相似度、质量和稳定性上取得突破,实现视频翻译全流程自动化,日处理量超1000分钟,效率提升10倍。该技术已应用于短剧出海、新闻视频多语言分发等场景,使译制周期从30天缩短至3天,海外用户增长300%。AI语音技术正�

  • 考生高考结束现场集体找妈妈 增添几分轻松氛围

    近日,随着多地高考陆续结束,考场外一幕幕温馨又略带诙谐的场景引发社会热议。考试结束铃声响起后,考生们陆续走出考场,其中不乏有考生在人群中焦急寻找家长的身影,甚至有男生因率先出考场却未找到母亲,脱口而出“我找不着我妈了”,这一情景迅速成为网络焦点。 据现场目击者及网络流传视频显示,该男生走出考场后,在人群中四处张望,神色略显焦急,但随

  • 即插即用 小巧高能 森海塞尔BTD 700为你带来便捷蓝牙体验

    森海塞尔推出高性能蓝牙适配器BTD 700,重量仅2.2克,支持aptX无损音频解码和24bit/96kHz高解析音质。该产品通过USB-C接口连接设备,可为笔记本、手机等提供无线音频升级,兼容Windows、MacOS等系统。内置蓝牙5.4技术,支持低延迟游戏模式和Auracast广播功能,适用于影音娱乐、会议通话等场景。6月16日正式发售。

  • 中国移动推出AI速记功能:自动将通话转为文字记录

    快科技5月17日消息,在日常生活中,不少人养成了打电话录音的习惯。然而即便有录音,后期想要回顾其中的内容时,往往也会面临诸多不便。针对这一困扰,中国移动推出了极具实用性的AI速记功能。它能够自动将通话内容精准地转化为文字记录,还能贴心地为用户整理出摘要,极大地提高了信息获取的便利性。这项备受瞩目的功能,诞生于最近刚刚召开的移起AI2025年中国移

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。