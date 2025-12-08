首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报：阿里Qwen3-TTS上线；可灵 AI上线主体库

2025-12-08

欢迎来到【AI日报】栏目!

1、可灵 AI上线主体库：模型拥有记忆能力 角色“永不变脸”

可灵 AI 发布「主体库」，为 O1 多模态视频模型添加长期记忆能力，实现角色一致性超过 96%，彻底告别 AI 变脸问题。用户可通过上传单张角色图生成 3D 视角补全、多光线变体，并支持跨场景一键调用。

【AiBase提要:】

✨ 主体库三步流程：上传、补全、调用，提升角色一致性

🎨 AI 智能描述功能，自动提取关键词并提升生成成功率

🚀 主体库与 O1 模型统一入口，实现文本-图像-视频无缝衔接

2、开口即角色！阿里 Qwen3-TTS 登场：49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型

阿里巴巴推出Qwen3-TTS，具备零样本、多角色、跨语言特性，显著优于主流商用引擎，适用于教育、直播、客服等场景。

【AiBase提要:】

🎧 49种高品质音色，覆盖多种场景

🌐 支持10种语言和9种中国方言

📉 WER显著优于主流商用模型

详情链接:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

3、406B参数空降！腾讯混元2.0发布，推理性能自称“国内第一梯队”

腾讯发布新一代自研大模型混元2.0，包含Think和Instruct两个版本，具备强大的推理能力和指令遵循能力。该模型在数学、科学和代码等复杂任务中表现优异，并已上线腾讯云API及部分应用。

【AiBase提要:】

🧠 混元2.0采用MoE架构，提升推理速度40%。

📊 Think版在IMO和哈佛-MIT竞赛中准确率分别达83.1%与81.7%。

💰 腾讯云API定价仅为GPT-4o的45%，支持企业私有化部署。

4、美团重磅开源 6B 参数图像生成模型 LongCat-Image，中文文字生成与图像编辑达SOTA水平

美团 LongCat 团队推出的 LongCat-Image 图像生成模型以 6B 参数规模实现了高性能与低门槛的结合，尤其在中文文字生成和图像编辑方面表现出色，达到了开源 SOTA 水平。该模型通过系统性训练策略和数据工程，确保了多样化的指令下仍能保持高效性能和准确性。此外，LongCat 团队希望通过开源构建一个透明、开放、协作的生态系统，鼓励开发者参与模型的使用与共建。

【AiBase提要:】

🧠 LongCat-Image 模型在图像编辑领域达到开源 SOTA 水平，展现了强大的指令遵循和视觉一致性能力。

🖋️ 模型针对中文文字生成进行了优化，能够支持复杂笔画结构汉字的渲染，满足多种场景需求。

🎨 LongCat 团队通过开源方式构建透明、开放的生态系统，鼓励开发者参与模型共建与使用。

详情链接:https://longcat.ai/

5、京东云JoyBuilder支持GR00T N1.5千卡训练，引领具身智能迈向规模化落地

京东云JoyBuilder平台通过全栈优化，成功支持GR00T N1.5千卡级训练，训练效率提升3.5倍，推动具身智能规模化发展。

【AiBase提要:】

🧠 京东云JoyBuilder平台完成关键升级，成功支撑GR00T N1.5千卡级训练。

🚀 平台在训练效率上实现3.5倍提升，显著加速具身智能规模化落地进程。

🌐 支持最新LeRobot训练数据协议，确立行业领先地位。

6、英伟达4B小模型逆袭！单任务成本竟是 GPT-5 Pro 的 1/36

英伟达的4B小模型 NVARC 在最新 ARC-AGI2 评测中以27.64% 的优异成绩击败 GPT-5Pro，展示了其强大的性能和成本优势。NVARC 通过创新的零预训练方法和合成数据生成策略，显著提升了模型的适应能力和效率。

【AiBase提要:】

🧠 NVARC 采用零预训练深度学习方法，避免了传统大规模数据集的领域偏见和数据依赖问题。

💡 NVARC 利用 GPT-OSS-120B 生成高质量合成谜题，降低实时计算资源需求。

🚀 NVARC 的 TTFT 技术使其能够快速适应新任务规则，提升模型效率。

7、微博 CEO 回应 AI 手机能自主发微博仍需确认

微博 CEO 王高飞回应了关于豆包 AI 手机能自主发微博的问题，指出虽然该功能已具备，但仍需用户确认。同时，豆包 AI 手机在主流应用中面临登录问题，引发了对 AI 操作能力的讨论。王高飞提到，部分游戏类应用能检测到 AI 控制，限制了 AI 助手的使用。

【AiBase提要:】

🤖 微博 CEO 王高飞表示，AI 手机能否自行发微博仍需确认，但已有相关能力。

📱 豆包 AI 手机在主流应用中遭遇登录限制，引发对其 AI 操作能力的讨论。

⚙️ 目前，AI 助手仍需手动操作某些应用，显示出技术发展的瓶颈和未来的挑战。

8、微软推出 VibeVoice-Realtime：实时文本转语音新模型，助力互动式应用

微软最新推出的 VibeVoice-Realtime-0.5B 模型是一款轻量级的实时文本转语音（TTS）系统，支持流式输入和长篇语音输出。该模型能够在300毫秒内开始生成语音，适合用于代理式应用和实时数据讲述。其采用交错窗口设计，优化了延迟并提升了语音合成质量，在 LibriSpeech 测试中取得了2.00%的字错误率，表现优越。

【AiBase提要:】

🌟 支持流式文本输入，可在300毫秒内开始输出语音，适合实时交互应用。

🛠️ 使用低延迟的声学标记器，以7.5赫兹的速度生成声学特征，优化长篇语音合成。

📈 在 LibriSpeech 测试中，VibeVoice-Realtime 的字错误率为2.00%，表现优越，适合多种应用场景。

详情链接:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

