首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

2025-07-03 16:30 · 稿源: aibase

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、字节跳动EX-4D震撼开源:单目视频秒变自由视角4D大片

EX-4D是字节跳动PICO-MR团队推出的4D视频生成框架,能够从单目视频生成高质量、多视角的4D视频序列。该技术通过深度密闭网格(DW-Mesh)和轻量级适配架构,解决了传统视频生成技术在多视角生成中的挑战,并在性能指标上全面领先。

【AiBase提要:】

💡 EX-4D利用深度密闭网格(DW-Mesh)实现单目视频到多视角的高质量生成。

🔍 通过渲染mask和跟踪mask策略,解决多视角数据稀缺问题。

🚀 在FID、FVD和VBench等指标上全面超越现有开源方法,性能表现卓越。

详情链接:https://github.com/tau-yihouxiang/EX-4D

2、Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头

Bilibili宣布其开源动漫视频生成模型AniSora V3迎来重大更新,显著提升了生成质量、动作流畅度和风格多样性。该版本基于CogVideoX-5B和Wan2.1-14B模型,结合强化学习与人类反馈(RLHF)框架,支持多种动漫风格的视频生成,为创作者提供了更强大的工具。

【AiBase提要:】

✨ AniSora V3通过时空掩码模块优化,增强了动画任务的控制能力。

🚀 支持多任务处理,包括单帧图像生成视频、关键帧插值和唇部同步等功能。

📦 开源生态推动社区协作,开发者可通过GitHub获取代码和数据集。

详情链接:https://t.co/I3HPKPvsBV

3、DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B

DeepSWE 是一款基于 Qwen3-32B 模型的开源 AI Agent 系统,通过强化学习进行训练,并在 SWE-Bench-Verified 测试中取得了出色的性能表现。该系统采用 rLLM 框架和改进的 GRPO++ 算法,在软件工程任务中展现出强大的学习能力与应用潜力。

image.png

【AiBase提要:】

🧠 DeepSWE 是基于 Qwen3-32B 模型,完全通过强化学习训练而成,开源信息已全面发布。

🏆 在 SWE-Bench-Verified 测试中,DeepSWE 表现出色,Pass@1准确率达到了59%,成为所有开源代理中的佼佼者。

💡 采用了 rLLM 框架和改进的 GRPO++ 算法,DeepSWE 在实际软件工程任务中展现了其强大的学习能力和应用潜力。

详情链接:https://huggingface.co/agentica-org/DeepSWE-Preview

4、字节跳动开源新模型VINCIE-3B:3亿参数,支持上下文连续图像编辑

字节跳动开源了支持上下文连续图像编辑的VINCIE-3B模型,该模型基于MM-DiT架构开发,能够从视频中学习并实现高效的图像编辑。其技术亮点包括视频驱动训练、块因果扩散变换器以及三重代理任务训练,显著提升了图像编辑的质量和效率。

image.png

【AiBase提要:】

🎥 视频驱动训练:VINCIE-3B利用视频的连续帧,自动提取文本描述与图像序列,构建多模态训练数据。

🧠 块因果扩散变换器:模型采用块因果注意力机制,在文本和图像块之间实现因果注意力,块内则为双向注意力。

🔄 三重代理任务训练:通过下一帧预测、当前帧分割预测和下一帧分割预测三种任务进行训练,增强模型对动态场景和物体关系的理解能力。

详情链接:https://huggingface.co/ByteDance-Seed/VINCIE-3B

5、Stability AI开源Stable Audio Open Small,手机秒变音频创作神器

Stability AI与Arm合作推出Stable Audio Open Small,一款专为移动设备优化的轻量级文本到音频生成模型。该模型在移动端本地运行,支持离线处理,具备高效、低延迟和高质量输出的特点,推动了AI音频生成技术向边缘计算和移动设备的转型。

【AiBase提要:】

📱 轻量化设计:参数量压缩至341M,适合移动端运行。

🔊 高质量音频生成:支持立体声音频生成,无需云端处理。

🌐 开源赋能开发者:遵循社区许可,降低技术门槛,鼓励创意应用。

详情链接:https://huggingface.co/stabilityai/stable-audio-open-small

6、谷歌重磅发布Gemini for Education!免费AI工具席卷全球教育

谷歌推出全新AI工具套件Gemini for Education,基于最新一代Gemini2.5Pro模型和LearnLM学习型大模型,为全球师生提供免费、强大且高效的学习与教学支持。该工具覆盖30多种功能,支持40多种语言,旨在通过AI技术赋能教育工作者和学生,打造更加个性化和高效的学习体验。

【AiBase提要:】

🌍 全球化教育赋能:支持40多种语言,覆盖230多个国家和地区。

📚 免费开放:对所有Google Workspace for Education用户完全免费,推动教育公平。

🔒 安全与隐私:严格遵循隐私条款,确保用户数据安全。

7、Topview Avatar2震撼发布!AI数字人革新电商带货,模特时代终结?

Topview Avatar2通过突破性的功能和逼真的效果,为出海电商和内容创作者带来了革命性的体验。其创新的AI数字人技术能够实现产品与数字人的自然交互,极大提升了视频制作效率和内容质量。

image.png

【AiBase提要:】

🌍 全球首创AI数字人“穿戴”产品,实现更真实的交互效果。

⚙️ 一键生成定制化视频,支持多语言口型同步,提升营销灵活性。

🚀 革新传统UGC视频模式,降低电商拍摄门槛,助力品牌全球化。

详情链接:https://www.topview.ai/ai-product-avatar

8、Perplexity推出Max订阅计划:每月200美元解锁无限AI生产力

Perplexity推出了高端订阅计划Max,定价为每月200美元或每年2000美元,旨在满足高频用户和专业人士的需求。该计划提供无限量访问Labs、优先体验新功能以及最新前沿模型的支持,标志着其在AI生产力工具领域的进一步深耕。

image.png

【AiBase提要:】

🧠 无限Labs查询:满足专业用户对深度研究和复杂项目的需求。

🚀 优先访问前沿模型:确保用户始终站在技术前沿。

🔒 优先支持:提供专用基础设施和更快的客户响应时间。

9、Cursor 大胆挖人!Claude Code 核心人物转投竞争对手

Cursor 挖走 Anthropic 的两位核心人物,标志着 AI 编程市场竞争的加剧。尽管 Anthropic 面临人才流失,但其业务依然强劲,收入和估值显著增长。Anysphere 则借助这些人才进一步提升产品竞争力。

【AiBase提要:】

🧠 Cursor 成功挖走 Anthropic 核心人物,技术实力增强

💼 Boris Cherny 和 Cat Wu 加入 Anysphere,推动产品创新

📈 Anthropic 业务增长迅速,收入和估值均大幅提升

10、OpenAI 声明:Robinh ood 推出的 “OpenAI 代 币” 与我们无关

R obinh ood 在欧洲推出了 OpenAI 和 SpaceX 的代 币化股票,但 OpenAI 明确表示这些代 币并非其股权,且与 Robinh ood 没有合作关系。尽管 Robinh ood 提供了限时优惠吸引用户,但美国用户无法参与。这一事件引发了市场的热烈反响,Robinh ood 股价一度飙升。

【AiBase提要:】

💰 OpenAI 强调“OpenAI 代 币”不是其股权,与 Robinh ood 无合作。

⚠️ Robinh ood 通过代 币化股票吸引投资者,但美国用户无法参与。

📈 Robinh ood 股价因该消息上涨,创下历史新高。

举报

  • 相关推荐
  • 十方融海小智AI:以科技温度诠释“人工智能+”时代的人文关怀

    近日,小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目,更展现了AI技术的情感温度。十方融海团队迅速响应,跨越600公里为女孩送上定制版机器人作为生日礼物,并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵,彰显科技企业的人文关怀与社会担当,成为“技术向善”的生动实践。

  • 微算法科技(NASDAQ:MLGO)开发延迟和隐私感知卷积神经网络分布式推理,助力可靠人工智能系统技术

    微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术,通过创新队列机制和深度强化学习优化CNN推理过程,结合分布式计算与隐私保护机制,在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点,减少数据传输范围,实现高效推理与隐私安全的平衡,为智能医疗、交通等领域提供可靠解决方案。

  • 市值一日暴增近3000亿港元,阿里迈向超级人工智能之路

    9月24日,阿里巴巴股价创下四年新高,单日涨超9%,市值达到约3.32万亿港元,一日增加近3000亿港元。 引爆股价的,是阿里集团每年一度的云栖大会。在会上,阿里释放多条重磅消息,尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后,阿里的股价表现就出现了明显的拉升。

  • “人工智能+”时代,企业做对什么才能抢占先机?

    国务院8月26日发布《关于深入实施“人工智能+”行动的意见》,提出加快AI技术与实体经济深度融合,推动产业智能化升级。到2035年,我国将全面步入智能经济和社会新阶段。金蝶集团作为企业数字化服务商,以“AI优先”为战略,将AI技术深度融入SaaS产品与服务,推出金蝶云·星空EMA平台及多款智能产品,覆盖财务、供应链、差旅等场景,助力企业构建“AI+业务”新能力,实现高效管理与创新发展。

  • 腾讯云安全发布人工智能风险评估框架,助企业构建可信智能体

    9月17日,腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施,系统性应对AI应用全生命周期的安全挑战,包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品,构建覆盖研发、部署、运维的全链路防护体系,助力企业建立可信、稳定的AI服务生态。

  • 长城汽车顺应泛内燃机化趋势,强化Hi4技术竞争力

    在世界新能源汽车大会上,长城汽车作为中国品牌技术标杆受邀出席。其技术中心副总经理王超分享了Hi4技术在泛内燃机化趋势下的实践与展望,展现中国车企的战略布局。长城通过“发动机+双电机”创新架构,在节能、续航、性能、安全等方面实现突破,已形成覆盖多车型的Hi4技术矩阵,并申请专利超827件。未来将持续完善技术体系,推动新能源市场迭代,迈向高质量发展。

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • 2025 VDC游戏技术分会召开,多维技术创新定义游戏新体验

    2025年vivo开发者大会于10月10日在深圳召开,游戏技术分会以“极致·共生”为主题,展示了vivo在游戏领域的最新技术成果与合作案例。大会聚焦移动游戏技术爆发新阶段,强调通过软硬件协同实现性能、触控、图形等关键技术突破,为玩家带来多维一体的极致体验。vivo推出自研电竞芯片Q3及图形SDK,支持超分、超帧与光线追踪技术,并与《王者荣耀》《无限暖暖》等游戏深度合作,优化帧率、触控响应及功耗表现。未来vivo将持续夯实技术底座,通过VGS平台携手开发者共建游戏生态,推动移动游戏产业体验升级。

  • 逗哥配音:以强悍技术团队为引擎,深度驱动用户需求导向的AI创作革新

    在短视频创作激烈竞争中,逗哥配音凭借深厚技术实力成为创作者重要工具。其专业团队深耕AI语音领域七年,构建完整技术闭环,通过自研大模型实现多角色自动切换、情感化配音等突破性功能。平台以用户需求为核心,将反馈高效转化为创新功能,近期推出的"AI分角"功能解决了多人对话场景痛点。团队正从配音服务扩展至全链条创作工具,致力于打造一站式智能创作平台,持续引领行业技术革新。

  • 当贝D7X 和D6X 有啥不一样?这些升级点要知道

    当贝D7X投影仪相比D6X实现全面升级:亮度从720CVIA提升至1100CVIA(增幅近60%),对比度达1600:1,暗场细节更立体;色域覆盖110% BT.2020,色彩呈现更鲜活;搭载8核芯片与64G存储,多任务运行更流畅;新增米家生态联动和语音控制功能。D6X则保留触控屏设计,适合卧室小空间使用。追求画质性能选D7X,注重触控操作选D6X。

今日大家都在搜的词: