首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

2025-07-03 16:30 · 稿源: aibase

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、字节跳动EX-4D震撼开源:单目视频秒变自由视角4D大片

EX-4D是字节跳动PICO-MR团队推出的4D视频生成框架,能够从单目视频生成高质量、多视角的4D视频序列。该技术通过深度密闭网格(DW-Mesh)和轻量级适配架构,解决了传统视频生成技术在多视角生成中的挑战,并在性能指标上全面领先。

【AiBase提要:】

💡 EX-4D利用深度密闭网格(DW-Mesh)实现单目视频到多视角的高质量生成。

🔍 通过渲染mask和跟踪mask策略,解决多视角数据稀缺问题。

🚀 在FID、FVD和VBench等指标上全面超越现有开源方法,性能表现卓越。

详情链接:https://github.com/tau-yihouxiang/EX-4D

2、Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头

Bilibili宣布其开源动漫视频生成模型AniSora V3迎来重大更新,显著提升了生成质量、动作流畅度和风格多样性。该版本基于CogVideoX-5B和Wan2.1-14B模型,结合强化学习与人类反馈(RLHF)框架,支持多种动漫风格的视频生成,为创作者提供了更强大的工具。

【AiBase提要:】

✨ AniSora V3通过时空掩码模块优化,增强了动画任务的控制能力。

🚀 支持多任务处理,包括单帧图像生成视频、关键帧插值和唇部同步等功能。

📦 开源生态推动社区协作,开发者可通过GitHub获取代码和数据集。

详情链接:https://t.co/I3HPKPvsBV

3、DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B

DeepSWE 是一款基于 Qwen3-32B 模型的开源 AI Agent 系统,通过强化学习进行训练,并在 SWE-Bench-Verified 测试中取得了出色的性能表现。该系统采用 rLLM 框架和改进的 GRPO++ 算法,在软件工程任务中展现出强大的学习能力与应用潜力。

image.png

【AiBase提要:】

🧠 DeepSWE 是基于 Qwen3-32B 模型,完全通过强化学习训练而成,开源信息已全面发布。

🏆 在 SWE-Bench-Verified 测试中,DeepSWE 表现出色,Pass@1准确率达到了59%,成为所有开源代理中的佼佼者。

💡 采用了 rLLM 框架和改进的 GRPO++ 算法,DeepSWE 在实际软件工程任务中展现了其强大的学习能力和应用潜力。

详情链接:https://huggingface.co/agentica-org/DeepSWE-Preview

4、字节跳动开源新模型VINCIE-3B:3亿参数,支持上下文连续图像编辑

字节跳动开源了支持上下文连续图像编辑的VINCIE-3B模型,该模型基于MM-DiT架构开发,能够从视频中学习并实现高效的图像编辑。其技术亮点包括视频驱动训练、块因果扩散变换器以及三重代理任务训练,显著提升了图像编辑的质量和效率。

image.png

【AiBase提要:】

🎥 视频驱动训练:VINCIE-3B利用视频的连续帧,自动提取文本描述与图像序列,构建多模态训练数据。

🧠 块因果扩散变换器:模型采用块因果注意力机制,在文本和图像块之间实现因果注意力,块内则为双向注意力。

🔄 三重代理任务训练:通过下一帧预测、当前帧分割预测和下一帧分割预测三种任务进行训练,增强模型对动态场景和物体关系的理解能力。

详情链接:https://huggingface.co/ByteDance-Seed/VINCIE-3B

5、Stability AI开源Stable Audio Open Small,手机秒变音频创作神器

Stability AI与Arm合作推出Stable Audio Open Small,一款专为移动设备优化的轻量级文本到音频生成模型。该模型在移动端本地运行,支持离线处理,具备高效、低延迟和高质量输出的特点,推动了AI音频生成技术向边缘计算和移动设备的转型。

【AiBase提要:】

📱 轻量化设计:参数量压缩至341M,适合移动端运行。

🔊 高质量音频生成:支持立体声音频生成,无需云端处理。

🌐 开源赋能开发者:遵循社区许可,降低技术门槛,鼓励创意应用。

详情链接:https://huggingface.co/stabilityai/stable-audio-open-small

6、谷歌重磅发布Gemini for Education!免费AI工具席卷全球教育

谷歌推出全新AI工具套件Gemini for Education,基于最新一代Gemini2.5Pro模型和LearnLM学习型大模型,为全球师生提供免费、强大且高效的学习与教学支持。该工具覆盖30多种功能,支持40多种语言,旨在通过AI技术赋能教育工作者和学生,打造更加个性化和高效的学习体验。

【AiBase提要:】

🌍 全球化教育赋能:支持40多种语言,覆盖230多个国家和地区。

📚 免费开放:对所有Google Workspace for Education用户完全免费,推动教育公平。

🔒 安全与隐私:严格遵循隐私条款,确保用户数据安全。

7、Topview Avatar2震撼发布!AI数字人革新电商带货,模特时代终结?

Topview Avatar2通过突破性的功能和逼真的效果,为出海电商和内容创作者带来了革命性的体验。其创新的AI数字人技术能够实现产品与数字人的自然交互,极大提升了视频制作效率和内容质量。

image.png

【AiBase提要:】

🌍 全球首创AI数字人“穿戴”产品,实现更真实的交互效果。

⚙️ 一键生成定制化视频,支持多语言口型同步,提升营销灵活性。

🚀 革新传统UGC视频模式,降低电商拍摄门槛,助力品牌全球化。

详情链接:https://www.topview.ai/ai-product-avatar

8、Perplexity推出Max订阅计划:每月200美元解锁无限AI生产力

Perplexity推出了高端订阅计划Max,定价为每月200美元或每年2000美元,旨在满足高频用户和专业人士的需求。该计划提供无限量访问Labs、优先体验新功能以及最新前沿模型的支持,标志着其在AI生产力工具领域的进一步深耕。

image.png

【AiBase提要:】

🧠 无限Labs查询:满足专业用户对深度研究和复杂项目的需求。

🚀 优先访问前沿模型:确保用户始终站在技术前沿。

🔒 优先支持:提供专用基础设施和更快的客户响应时间。

9、Cursor 大胆挖人!Claude Code 核心人物转投竞争对手

Cursor 挖走 Anthropic 的两位核心人物,标志着 AI 编程市场竞争的加剧。尽管 Anthropic 面临人才流失,但其业务依然强劲,收入和估值显著增长。Anysphere 则借助这些人才进一步提升产品竞争力。

【AiBase提要:】

🧠 Cursor 成功挖走 Anthropic 核心人物,技术实力增强

💼 Boris Cherny 和 Cat Wu 加入 Anysphere,推动产品创新

📈 Anthropic 业务增长迅速,收入和估值均大幅提升

10、OpenAI 声明:Robinh ood 推出的 “OpenAI 代 币” 与我们无关

R obinh ood 在欧洲推出了 OpenAI 和 SpaceX 的代 币化股票,但 OpenAI 明确表示这些代 币并非其股权,且与 Robinh ood 没有合作关系。尽管 Robinh ood 提供了限时优惠吸引用户,但美国用户无法参与。这一事件引发了市场的热烈反响,Robinh ood 股价一度飙升。

【AiBase提要:】

💰 OpenAI 强调“OpenAI 代 币”不是其股权,与 Robinh ood 无合作。

⚠️ Robinh ood 通过代 币化股票吸引投资者,但美国用户无法参与。

📈 Robinh ood 股价因该消息上涨,创下历史新高。

举报

  • 相关推荐
  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • ZEGO AI Agent:支持一张图生成数字人

    即构科技推出AI Agent2.4,用户只需上传一张正面照即可生成1080P高清数字人,支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应,唇形同步准确,支持文本/音频/语音流驱动。适用于教育、客服等场景,提供API灵活定制,实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎,在生成效率、拟真度方面显著提升,带来低门槛、高沉浸的数字人互动体验。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 模型能力卷不过Google、快手,但这家视频生成创企却可能最先赚到钱?

    去年4月,我们曾经在《这个 AI 赛道,一个月内融资4笔,一大半的创始人是华人》选题中观察过 AI 视频赛道,彼时赛道 Top 级玩家还是 Pika、Pixverse、Haiper 等华人创企。

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 闪剪AI:一键生成数字人营销视频,助力商家轻松实现内容获客

    闪剪AI是一款专为营销视频制作设计的智能工具,主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括:1)一键生成数字人视频,支持定制专属形象;2)提供1000+数字人模特素材;3)多语种语音克隆,实现本地化内容;4)内置爆款文案素材库;5)智能成片功能简化制作流程;6)照片数字人让静态图片"开口说话";7)直播切片功能实时引流。该工具