最长处理2小时，开源视频字幕模型Video ReCap

2024-02-28 08:48 · 稿源： AIGC开放社区公众号

随着抖音、快手等平台的火爆出圈，越来越多的用户开始制作大量的短视频内容。但对这些视频进行有效的理解和分析仍面临一些困难。尤其是视频时长超过几分钟、甚至几小时，传统的视频字幕生成技术往往无法满足需求。因此，北卡罗来纳大学和Meta AI的研究人员开源了，视频字幕模型Vid

......

本文由站长之家合作伙伴自媒体作者“AIGC开放社区公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

模型

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
向AI构建能力，用模型产出价值，让金融优质发展

2025年云栖大会在杭州举行，聚焦“云智一体+碳硅共生”主题，展现中国前沿科技生命力。阿里云智能集团副总裁张鹰介绍，“通义点金”平台全新升级，致力于构建金融行业垂直模型，打造具备业务洞察力的“专家级智能体”。核心突破包括：通过飞轮平台实现模型与业务双向螺旋上升，构建可观测、可评测、可迭代能力；赋予模型“自知之明”，精准调用工具并内化人类逻辑思维；建立多层次交叉验证测评体系，确保金融级严谨性。未来将持续推动通用模型与金融专业知识的有机结合，助力金融业务核心效能提升。

云栖大会人工智能大模型
金融行业用好大模型，只有“垂直”一个解

文章探讨大模型在金融等复杂业务场景的落地挑战，指出通用模型难以满足行业对准确性、可解释性及合规性的高要求。垂直模型通过内化行业核心知识与能力，成为解决复杂业务问题的关键路径。实践显示，金融垂直模型已在营销、客服、风控等场景实现显著成效，如提升效率80%、降低风险。未来需通过数据飞轮、深度适配等技术实现模型持续迭代，构建一站式金融垂直模型生产工场。

金融大模型垂直模型 Agentic
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
金蝶征信“金融风控大模型” 摘得AFAC2025大奖

一家社区水果店凭借收款码的36个月交易记录，将银行贷款额度从7万元提升至10万元。这揭示了中国超3亿商户正通过二维码流水数据构建数字信用体系：使用收款码满六个月的商户获贷可能性超60%，三年后跃升至90%。此类高频实时数据正重塑风控逻辑——不看抵押、不看报表，只忠实记录每笔交易背后的经营事实。金蝶征信凭借AI与知识图谱技术，穿透至6层交易链条，构建包含4.45亿交易关系的产业互联网图谱，助力金融机构实现精准信贷匹配。其智能风控系统已推动合作机构放贷额度提升50%，标志着风控模式从“经验驱动”向“数据智能驱动”的转型。

社区水果店贷款额度收款码融资
AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

大模型技术推动人工智能成为生产力核心，但也放大数字风险。专家指出AI安全需构建覆盖模型安全、交互检测、权限管控的智能底座，通过标准化体系实现全生命周期防护。腾讯云等企业正通过网关架构、红队演练等方式提升安全能力，强调需政企学研协同构建开放生态，在创新中守住安全底线。

大模型技术智能体应用人工智能
火山引擎：豆包大模型日均tokens使用量突破30万亿

今日在FORCE LINK AI创新巡展武汉站上，字节跳动旗下火山引擎披露最新大模型token调用数据。火山引擎总裁谭待现场表示，豆包大模型使用量从2024年5月1200亿tokens增长253倍至今年9月的超30万亿tokens。在企业市场，据IDC9月报告，2025年上半年，中国公有云大模型调用量达536.7万亿tokens。

火山引擎豆包大模型 token调用数据
荐AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Gaga AI发布；vivo蓝心3B端侧大模型发布

本文汇总AI领域最新动态：美图通过组织变革推动AI应用RoboNeo月活破百万；vivo发布蓝心3B端侧大模型，性能超越8B模型；Gaga AI实现静态照片生成60秒电影级视频；ChatGPT周活用户突破8亿；Figma引入Gemini模型提升设计效率；印度试点AI聊天机器人购物；Figure AI推出第三代家用机器人Figure 03；谷歌推出Gemini Enterprise自动化工作流平台。显示AI正从工具向创作者跃升，加速渗透各行业。

AI原生美图RoboNeo MAU破百万
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Sora2爆火之后，随之而来的AI视频领域的新产品。来自我的好朋友，曹越老师的Sand.ai。凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

AI视频 GAGA-1 音画同步

今日大家都在搜的词：

热文

3 天
7天

最长处理2小时，开源视频字幕模型Video ReCap

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

向AI构建能力，用模型产出价值，让金融优质发展

金融行业用好大模型，只有“垂直”一个解

DeepSeek开源3B OCR模型：长文本识别达97%精度

金蝶征信“金融风控大模型” 摘得AFAC2025大奖

AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

火山引擎：豆包大模型日均tokens使用量突破30万亿

荐AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Gaga AI发布；vivo蓝心3B端侧大模型发布

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

今日大家都在搜的词：

热文

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

余承东官宣华为路由X3 Pro 采用“日照金山”设计

REDMI K90 Pro Max本周四发布卢伟冰：给4K档一点小小的震撼

REDMI K90 Pro Max搭载小米17同款光影猎人950超大底主摄

火车免费坐？12306今起又上新功能：积分可兑换车票

苹果天猫双11今晚开卖 iPhone17pro天猫官旗首次降价

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

王腾首次回应下一步计划：称在考虑些创业项目

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

知乎崩了上热搜：网页端完全无法进入 App端也未能幸免

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

站长商机