首页 > 原创 > 关键词  > AI视频生成最新资讯  > 正文

AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

2025-08-26 15:13 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阿里通义万相预告Wan 2.2-S2V模型:解锁AI视频音频同步生成

阿里通义万相团队在社交媒体平台X上发布了其最新AI模型Wan 2.2-S2V,该模型能够同步生成视频和音频,实现视频与音频的深度融合。这标志着多模态AI生成技术的重要进展,为内容创作者提供了更高效、更具表现力的工具。

image.png

【AiBase提要:】

🔥 Wan2.2-S2V模型具备视频与音频同步生成能力,突破传统视频生成模型的限制。

🎵 模型能生成包含唱歌音频的AI视频,展现多模态AI生成技术的创新性。

🚀 此模型可能重新定义AI视频生成领域的标准,推动沉浸感和真实感内容生成的发展。

2、字节跳动内测全新 3D 模型生成工具 “3D Model Generator”

字节跳动旗下的豆包团队正在研发一款名为“3D Model Generator”的新型3D模型生成工具,旨在为用户提供可控的大规模生成模型功能。该工具支持基于图像生成和结合图像与模型文件的生成方式,降低了3D建模的门槛,尤其在游戏开发领域具有重要意义。

image.png

【AiBase提要:】

🖼️ 支持基于图像生成3D模型,降低3D建模门槛。

⚙️ 提供结合图像和模型文件的生成方式,增强创作灵活性。

🚀 预计对外开放,扩展豆包功能,服务更广泛用户需求。

3、手机也能跑!面壁智能重磅发布MiniCPM-V4.5:4.1亿参数碾压GPT-4.1-mini

面壁智能与清华大学NLP实验室联合推出MiniCPM-V4.5,作为端侧多模态大模型,其性能卓越且部署高效。该模型在多项基准测试中表现优异,支持多语言、视频和高分辨率图像处理,适用于边缘设备,推动了AI技术的普及。

image.png

【AiBase提要:】

🌟 MiniCPM-V4.5以4.1亿参数实现高性能,超越GPT-4.1-mini等模型。

🖼️ 支持多图、视频理解及高分辨率图像处理,OCR性能领先主流模型。

📱 高效部署于边缘设备,适合移动、离线场景,降低开发门槛。

详情链接:https://huggingface.co/openbmb/MiniCPM-V-4_5

4、苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能

苹果公司研究团队提出了一种名为基于清单反馈的强化学习(RLCF)的创新训练方法,通过用具体任务清单替代传统的人工点赞评分机制,大幅提升了大语言模型执行复杂指令的能力。该方法在多个评测基准中表现出色,尤其在处理复杂多步骤任务时效果显著。

【AiBase提要:】

🍎 RLCF方法通过任务清单替代人工评分,提升模型执行复杂指令能力。

📊 在FollowBench、InFoBench等测试中,性能提升显著,最高达8.2%。

⚙️ 使用大规模模型生成检查清单,为小模型提供优化指导,但需强大计算资源支持。

5、微软开源 VibeVoice-1.5B 模型:90 分钟超长语音合成新突破

微软开源了其最新音频模型 VibeVoice-1.5B,该模型在语音合成技术上实现了多项重大突破,包括支持90分钟超长语音合成、四位发言人支持以及3200倍的音频压缩率。同时,其双 tokenizer 架构有效解决了音色与语义不匹配的问题,为语音合成领域带来了新的技术突破。

【AiBase提要:】

🔊 VibeVoice-1.5B 模型可一次性合成90分钟的超长语音,支持最多四位发言人。

💾 该模型实现3200倍的音频压缩率,保持高保真语音效果。

🤖 采用双 tokenizer 架构,解决音色与语义不匹配的问题。

详情链接:https://huggingface.co/microsoft/VibeVoice-1.5B

6、谷歌Imagen 4正式上线 Gemini API 和 Google AI Studio

谷歌公司发布了全新的文本转图像生成模型Imagen4,通过Gemini API和Google AI Studio平台向用户开放。该模型包含三个版本,分别针对不同需求优化,提升了图像生成质量、速度和成本效益,为艺术创作、广告设计等多个行业提供了强大的工具支持。

【AiBase提要:】

🌟 Imagen4标准版提升了整体图像生成质量,特别是在文本渲染准确性方面表现突出。

⚡ Imagen4Fast版本优化了快速图像生成和大批量处理任务,处理速度显著提升,使用成本降至每次生成0.02美元。

🖼️ Imagen4Ultra版本能够生成更精细的图像细节,并能更准确地遵循用户输入的文本提示,确保生成结果的一致性和准确性。

7、字节跳动AI核心人才流失 视觉研究负责人冯佳时正式离职

冯佳时作为字节跳动Seed大模型视觉基础研究团队的核心负责人,其离职对公司的AI研究布局产生了一定影响。他在计算机视觉领域拥有深厚的学术背景和丰富的经验,并在加入字节跳动后取得了显著的成就。

【AiBase提要:】

🔥 冯佳时是字节跳动Seed大模型视觉基础研究团队的负责人,其离职引发广泛关注。

💡 冯佳时拥有中国科学技术大学、中科院自动化研究所和新加坡国立大学的教育背景,具有深厚的学术背景。

🚀 冯佳时在字节跳动期间领导了多模态基础模型和生成模型等前沿技术的研究,为公司技术创新做出了重要贡献。

8、英伟达发布Jetson Thor机器人计算平台

英伟达推出了全新的Jetson Thor机器人计算平台,采用Blackwell GPU架构,AI算力达到2070TFLOPS,较上一代提升7.5倍。该平台配备128GB内存,支持多AI模型运行,并集成了NVIDIA Isaac仿真平台,为开发者提供统一的开发环境。

image.png

【AiBase提要:】

🚀 Jetson Thor采用Blackwell GPU架构,AI算力达到2070TFLOPS,性能提升显著。

🧠 配备128GB超大内存,支持多任务处理和复杂场景下的高效运行。

🌐 集成NVIDIA Isaac仿真平台,提供从云端到边缘的统一开发环境。

9、Genspark推出AIDesigner:一键生成品牌全案,重新定义Al设计新格局

Genspark AI Designer是一款革命性的AI设计工具,能够一键生成完整的品牌设计方案,涵盖Logo、包装、网站设计等多个领域,极大地降低了设计门槛,并受到全球设计界与科技行业的广泛关注。

image.png

【AiBase提要:】

🎨 Genspark AI Designer支持多模态输入,可生成矢量图标、3D渲染和动画视频等多种设计资产。

🌐 该工具通过自然语言指令完成复杂设计任务,实现品牌Logo、包装、网站等全链路创意解决方案。

💡 AI Designer重新定义了品牌设计流程,为创作者和企业提供了高效且经济的解决方案。

详情链接:https://www.genspark.ai/ai_designer

10、豆包正式上线未成年人保护模式

豆包推出未成年人保护模式,旨在帮助家长管理孩子的使用行为。该模式关闭了部分功能,如推荐视频、第三方网页浏览等,但保留了翻译和深入研究等功能。

image.png

【AiBase提要:】

🔒 未成年人保护模式可由家长通过密码开启,限制部分内容的访问。

📺 推荐视频、第三方网页浏览等功能在该模式下默认关闭。

🌐 翻译和深入研究等功能仍可正常使用,确保学习和探索不受影响。

举报

  • 相关推荐
  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • iPhone 16系列将支持Qi 2.2无线快充:最高功率25W

    即将推出的iOS 26将为iPhone 16系列带来Qi 2.2无线快充,除了iPhone 16e,所有iPhone 16系列机型都将支持Qi 2.2,用户可使用任意Qi 2.2充电器进行无线充电,最高功率可达25W。 此前这些设备仅在使用最新款苹果MagSafe充电器时才能实现25W的无线充电速度,使用第三方Qi充电器时,其无线充电功率则被限制在最高15W。 iPhone 16系列更新iOS 26测试版之后即可支持Qi 2.2,按照计划,9月份苹果会�

  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • DTCC2025丨达梦以智算多模与AI创新引领行业变革

    近日,IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第十六届中国数据库技术大会(DTCC2025)在京隆重召开。大会以“智能创新 数赢未来”为主题,汇聚超百位行业专家及上千名嘉宾,聚焦数据库领域前沿技术。达梦数据作为领军企业受邀参会,重点展示了其在多模数据处理与AI+数据库融合方面的突破,推出“智算多模”引擎,实现统一存储与智能查询,为行业智能化发展注入新动能。

  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 华为鸿蒙智行新款智界 S7 车型上市::售价22.98万起

    今日,新款智界S7正式上市,为广大消费者带来了全新的纯电轿车选择。此次新款智界S7共推出三款配置车型,售价区间为22.98-28.98万元,以极具竞争力的价格进入市场。 为了给消费者提供更多实惠,官方同步推出了价值高达5.3万元的上市权益。其中包括极光绿/幻影紫两款特色车漆,让车辆外观更具个性;ADS功能辅助补贴,提升驾驶的便捷性与安全性;1万元选配金,满足消费者�

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • 2025 环球资源十月香港展:前沿科技集结,聚焦电竞、AI与世界杯周边!

    环球资源香港展将于2025年10月11日至30日在香港亚洲国际博览馆举行,分三期举办。展会涵盖游戏、消费电子、电子元件、移动电子、智能家居、安防及家电、家居及厨房用品、品质生活、运动及户外等热门采购类别。聚焦电竞装备、AI应用及2026世界杯趋势,汇聚亚洲及全球买家发掘创新产品,建立商业联系。预计吸引超10万专业买家,展示超34万件产品,打造一站式跨品类采购平台。

今日大家都在搜的词:

热文

  • 3 天
  • 7天