首页 > 业界 > 关键词  > 模型最新资讯  > 正文

最长处理2小时,开源视频字幕模型Video ReCap

2024-02-28 08:48 · 稿源: ​AIGC开放社区公众号

随着抖音、快手等平台的火爆出圈,越来越多的用户开始制作大量的短视频内容。但对这些视频进行有效的理解和分析仍面临一些困难。尤其是视频时长超过几分钟、甚至几小时,传统的视频字幕生成技术往往无法满足需求。因此,北卡罗来纳大学和Meta AI的研究人员开源了,视频字幕模型Vid

......

本文由站长之家合作伙伴自媒体作者“​AIGC开放社区公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 卡德克斯参加中国国际模型博览会,以产品生态为基,以沉浸体验为核

    2026年4月17日至19日,全球FPV技术创新与生态构建者CADDX卡德克斯将参加第24届中国国际模型博览会。展会期间,CADDX将重点展示其FPV数字高清系统、影像系统、无人机系列及沉浸式互动体验板块,呈现品牌在第一视角技术与多场景应用生态上的创新成果。核心展品包括WALKSNAIL ASCENT HD与AVATAR HD两大数字高清系统,以及新近发布的AVATAR天空端GT2和Moonlight 4K夜视星光高清图传。此外,还将展示GOFILM 20 FPV无人机等产品,并通过FPV无人机竞速体验区、RC车+FPV眼镜联动沙盘区等沉浸式互动场景,让观众直观感受第一视角技术的操控体验与创新应用。此次参展不仅是CADDX集中展示阶段性成果的重要窗口,也是品牌深化行业交流、拓展市场连接的关键节点。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 腾讯云发布 Token 防刷解决方案,精准狙击大模型黑产

    随着AI编程助手普及,开发者效率提升,但免费Token成为黑产套利目标。黑产通过批量注册、虚拟环境等手段薅取Token,用于倒卖或生成内容牟利。腾讯云天御Token防刷方案从入口验证到全链路风控,通过设备指纹识别批量注册和伪装行为,并对Token发放、流转、消耗全环节布控,确保补贴流向真实用户。该方案支持极简接入,规则秒级热更新,有效打击规模化黑产作业,保护企业营销预算与利润。

  • AI日报:阿里推开放世界模型Happy Oyster;Claude Opus 4.7即将发布;腾讯开源混元3D 世界模型2.0

    本期AI日报聚焦多领域进展:阿里巴巴推出开放世界模型Happy Oyster,支持实时交互;腾讯开源混元3D世界模型2.0,可一键生成可编辑3D资产;谷歌发布Gemini-TTS模型,支持近70种语言,语音更自然;蚂蚁灵波科技开源LingBot-Map,实现单摄像头实时三维重建。同时关注Anthropic即将发布Claude Opus 4.7及AI设计工具,以及湖南广电AI转型成果。安全方面,报告揭示MCP协议漏洞或致超20万台AI服务器面临风险,而OpenAI更新Agents SDK,引入沙箱功能以提升智能代理安全性。

  • 与谷歌Genie 3竞争!阿里发布世界模型HappyOyster

    今日,阿里发布可实时构建和交互的世界模型产品HappyOyster(快乐生蚝),该模型基于原生多模态架构而建,支持多模态理解与音视频联合生成。 目前,HappyOyster可实现漫游(Wander)和导演(Direct)两大核心能力,用户可实时构建可互动、可演绎、可探索的AI数字世界。 用户生成的数字世界不仅能被完整保存,还能开放给其他用户进行二次创作。 据悉,该产品由阿里ATH创新�

  • 3年1亿模型,年收入2.8亿:当AI大佬开始做游戏

    过去一年多,游戏行业对AI的态度渐渐回归理性。最初大家惊叹于各种大模型的生成效果,现在大家往往更关心现实问题:能嵌入开发管线吗?工作流是什么样?成本和效果又如何? Meshy AI创始人兼CEO胡渊鸣在今年GDC上用一组对比强烈的数据作为开场,向大家展示了3D生成工具Meshy(meshy.ai)的生产力: “Meshy拥有超过1000万注册用户,三年内用AI生成了超过1亿个3D模型;相比之下,在整�

  • 阿里通义推出语音识别大模型Fun-ASR1.5:覆盖30种语言 支持汉语七大方言体系

    阿里通义实验室近日正式推出语音识别大模型 Fun-ASR1.5。 该模型基于统一的大模型架构,单模型即可无缝覆盖30种语言、汉语七大方言体系及20余种地方口音,甚至连古诗词吟诵也能精准转写。 测试显示,在典型方言场景下,字错误率(CER)相对下降56.2%。目前已有5种方言的识别准确率突破90%,15种超过80%。

  • GEO大模型引流助手哪个好?市场比较好的GEO搜索优化软件怎么选

    ​在流量成本持续攀升、用户搜索行为从传统引擎向AI对话快速迁移的当下,无数中小企业和站长正面临一个共同的困境:品牌搜不到、曝光上不去、传统SEO周期过长,而单纯投放广告又难以沉淀可持续的品牌资产。如何在新一轮流量变革中抢占先机?答案在于生成式引擎优化——一种以优化内容在AI生成答案中的可见性与引用率为核心的全新营销范式。正是在这一时代背景下,�

  • 腾讯混元3D世界模型2.0发布 一句话生成3D资产

    今日,腾讯正式发布并开源混元3D世界模型2.0(HY-World 2.0)。 官方表示,该模型一句话就能生成3D资产,并直接导入到游戏制作或具身仿真引擎,实现真正的可玩、可用。 具体来说,用户完全不需要懂任何复杂的3D软件,只要像平时说话一样输入一句文字描述,或者直接上传一张图片,模型就能精准解析复杂的语义。 随后,它会一键生成混合了3D高斯泼溅(3DGS)与Mesh表征的�

  • 18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场

    全球首个大规模具身智能真机评测平台RoboChallenge,凭借数万次标准化真机测试与客观权威的评测结果,获得全行业高度认可,成为衡量具身模型物理实操能力的核心标杆。近日,平台完成第二批生态扩容,星动纪元、极佳视界、地平线、光轮智能、生数科技、中移杭研、长虹、算力自由等8家顶尖企业重磅入驻,覆盖算力、仿真、硬件、算法全链条,加速构建开放协同的标准化具身智能产业生态。今年3月,同步升级的Table30V2聚焦真实应用场景,任务难度全面提升,以更高标准推动具身智能技术落地迭代。RoboChallenge打造真实物理考场,推动具身智能突破,其进步不仅来自单点模型能力的提升,更源于评测标准、数据基准与真实本体的共同成熟。平台累计执行的真机测试总量已突破4万次,形成评测闭环,并为深度技术分析筑牢数据根基。除国内开发者外,来自美国、新加坡、日本、阿联酋等多国科研团队和开发者也纷纷入驻参与,国际化生态正蓬勃壮大。

今日大家都在搜的词: