首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:阿里Qwen3-TTS上线;可灵 AI上线主体库

2025-12-08 16:54 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、可灵 AI上线主体库:模型拥有记忆能力 角色“永不变脸”

可灵 AI 发布「主体库」,为 O1 多模态视频模型添加长期记忆能力,实现角色一致性超过 96%,彻底告别 AI 变脸问题。用户可通过上传单张角色图生成 3D 视角补全、多光线变体,并支持跨场景一键调用。

image.png

【AiBase提要:】

✨ 主体库三步流程:上传、补全、调用,提升角色一致性

🎨 AI 智能描述功能,自动提取关键词并提升生成成功率

🚀 主体库与 O1 模型统一入口,实现文本-图像-视频无缝衔接

2、开口即角色!阿里 Qwen3-TTS 登场:49 种音色 + 10 语言 9 方言,WER 碾压主流商用模型

阿里巴巴推出Qwen3-TTS,具备零样本、多角色、跨语言特性,显著优于主流商用引擎,适用于教育、直播、客服等场景。

【AiBase提要:】

🎧 49种高品质音色,覆盖多种场景

🌐 支持10种语言和9种中国方言

📉 WER显著优于主流商用模型

详情链接:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

3、406B参数空降!腾讯混元2.0发布,推理性能自称“国内第一梯队”

腾讯发布新一代自研大模型混元2.0,包含Think和Instruct两个版本,具备强大的推理能力和指令遵循能力。该模型在数学、科学和代码等复杂任务中表现优异,并已上线腾讯云API及部分应用。

image.png

【AiBase提要:】

🧠 混元2.0采用MoE架构,提升推理速度40%。

📊 Think版在IMO和哈佛-MIT竞赛中准确率分别达83.1%与81.7%。

💰 腾讯云API定价仅为GPT-4o的45%,支持企业私有化部署。

4、美团重磅开源 6B 参数图像生成模型 LongCat-Image,中文文字生成与图像编辑达SOTA水平

美团 LongCat 团队推出的 LongCat-Image 图像生成模型以 6B 参数规模实现了高性能与低门槛的结合,尤其在中文文字生成和图像编辑方面表现出色,达到了开源 SOTA 水平。该模型通过系统性训练策略和数据工程,确保了多样化的指令下仍能保持高效性能和准确性。此外,LongCat 团队希望通过开源构建一个透明、开放、协作的生态系统,鼓励开发者参与模型的使用与共建。

image.png

【AiBase提要:】

🧠 LongCat-Image 模型在图像编辑领域达到开源 SOTA 水平,展现了强大的指令遵循和视觉一致性能力。

🖋️ 模型针对中文文字生成进行了优化,能够支持复杂笔画结构汉字的渲染,满足多种场景需求。

🎨 LongCat 团队通过开源方式构建透明、开放的生态系统,鼓励开发者参与模型共建与使用。

详情链接:https://longcat.ai/

5、京东云JoyBuilder支持GR00T N1.5千卡训练,引领具身智能迈向规模化落地

京东云JoyBuilder平台通过全栈优化,成功支持GR00T N1.5千卡级训练,训练效率提升3.5倍,推动具身智能规模化发展。

【AiBase提要:】

🧠 京东云JoyBuilder平台完成关键升级,成功支撑GR00T N1.5千卡级训练。

🚀 平台在训练效率上实现3.5倍提升,显著加速具身智能规模化落地进程。

🌐 支持最新LeRobot训练数据协议,确立行业领先地位。

6、英伟达4B小模型逆袭!单任务成本竟是 GPT-5 Pro 的 1/36

英伟达的4B小模型 NVARC 在最新 ARC-AGI2 评测中以27.64% 的优异成绩击败 GPT-5Pro,展示了其强大的性能和成本优势。NVARC 通过创新的零预训练方法和合成数据生成策略,显著提升了模型的适应能力和效率。

image.png

【AiBase提要:】

🧠 NVARC 采用零预训练深度学习方法,避免了传统大规模数据集的领域偏见和数据依赖问题。

💡 NVARC 利用 GPT-OSS-120B 生成高质量合成谜题,降低实时计算资源需求。

🚀 NVARC 的 TTFT 技术使其能够快速适应新任务规则,提升模型效率。

7、微博 CEO 回应 AI 手机能自主发微博仍需确认

微博 CEO 王高飞回应了关于豆包 AI 手机能自主发微博的问题,指出虽然该功能已具备,但仍需用户确认。同时,豆包 AI 手机在主流应用中面临登录问题,引发了对 AI 操作能力的讨论。王高飞提到,部分游戏类应用能检测到 AI 控制,限制了 AI 助手的使用。

【AiBase提要:】

🤖 微博 CEO 王高飞表示,AI 手机能否自行发微博仍需确认,但已有相关能力。

📱 豆包 AI 手机在主流应用中遭遇登录限制,引发对其 AI 操作能力的讨论。

⚙️ 目前,AI 助手仍需手动操作某些应用,显示出技术发展的瓶颈和未来的挑战。

8、微软推出 VibeVoice-Realtime:实时文本转语音新模型,助力互动式应用

微软最新推出的 VibeVoice-Realtime-0.5B 模型是一款轻量级的实时文本转语音(TTS)系统,支持流式输入和长篇语音输出。该模型能够在300毫秒内开始生成语音,适合用于代理式应用和实时数据讲述。其采用交错窗口设计,优化了延迟并提升了语音合成质量,在 LibriSpeech 测试中取得了2.00%的字错误率,表现优越。

【AiBase提要:】

🌟 支持流式文本输入,可在300毫秒内开始输出语音,适合实时交互应用。

🛠️ 使用低延迟的声学标记器,以7.5赫兹的速度生成声学特征,优化长篇语音合成。

📈 在 LibriSpeech 测试中,VibeVoice-Realtime 的字错误率为2.00%,表现优越,适合多种应用场景。

详情链接:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

举报

  • 相关推荐
  • 宜信唐宁乌镇倡议:设首席AI官让人工智能更有温度

    在2025年世界互联网大会乌镇峰会上,宜信公司CEO唐宁前瞻性地呼吁企业设立“首席AI官”,以此推动人工智能从冰冷的效率工具,演进为富有人文温度的协同伙伴。这一主张不仅呼应了峰会“共筑开放合作、安全普惠的数智未来”的主题,更为AI的发展路径注入了“暖心”与“共情”的关键维度,描绘出一幅人机深度协作、效率与温度并重的新图景。在乌镇峰会“前沿人工智能

  • 深耕AI+教育!简知科技入选2025广州市“人工智能+教育”典型案例及“人工智能+”百家案例精选荟

    2025年12月24日,广州举办人工智能算力应用及产业发展联盟年度峰会。简知科技凭借其在“人工智能+教育”领域的实践成果,成功入选2025年广州市“人工智能+教育”典型案例及“人工智能+”百家案例精选。这体现了政府和行业对其推动AI与教育场景融合、建设智能教育服务生态贡献的肯定。其核心自研的“简智AI大模型”已通过国家生成式人工智能服务备案,为教学流程管理、知识体系构建与个性化学习等关键环节提供技术支撑。公司将持续深化AI与教育全场景的融合应用,助力建设更加智能化、个性化的终身学习体系。

  • 百惠金控:人工智能概念股活跃 政策与资本双动力带动行业升温

    百惠金控指出,近期人工智能及人形机器人概念股在香港市场表现持续活跃,市场气氛明显升温。受行业发展红利驱动,包括香港及亚洲科技板块在内的多地市场相关板块均出现正面反应。在港上市的相关企业如MINIMAX-WP、优必选、三花智控及金山云等股价纷纷上扬,反映资本市场正重新评估人工智能大模型及机器人产业的成长空间与潜在商业价值。此外,新上市的诺比人工智能科技首日股价飙升超300%,进一步印证市场对优质AI标的的热烈追捧。政策层面,中国及香港政府均推出多项支持措施,构建从上游核心零部件到下游应用场景的完整政策生态。百惠金控亦积极参与推动行业发展,并在资本市场扮演关键角色,曾协助“人形机器人第一股”优必选在港交所上市。展望未来,香港市场凭借“一国两制”优势、国际金融中心地位与科创生态完善,有望成为汇聚全球资本、技术与企业的区域科创枢纽。

  • 2026高交会人工智能产业链展、机器人产业链展招商正式启动

    第二十八届中国国际高新技术成果交易会(高交会)将于2026年11月26日至28日在深圳举办。本届高交会首次以“双馆并行、各自成链”方式,独立呈现人工智能与机器人两大产业板块,标志AI正从“赋能角色”走向“产业主角”,机器人则迈入以具身智能为核心的系统化发展新阶段。展会旨在全面呈现新一代智能技术对产业体系与社会形态的深刻重塑,打造从算法、算力、数据到载体、场景的完整产业闭环,成为全球最具前瞻性的智能科技展示高地。

  • AI日报:实时世界模型 PixVerse R1发布;Vidu发布AI一键生成MV功能;可灵AI ARR达2.4亿美元

    本期AI日报聚焦多项AI领域突破:爱诗科技发布全球首个通用实时世界模型PixVerse R1,实现虚拟世界实时交互;Vidu推出AI一键生成MV功能,打造“虚拟制片厂”;MiniMax发布编程智能体基准测试OctoCodingBench;快手可灵AI年化收入达2.4亿美元;智谱联合华为开源多模态模型GLM-Image,全链路跑通国产芯片;百川智能发布医疗大模型Baichuan-M3;谷歌重构电商未来,推出Agentic AI购物系统;谷歌开源医疗AI模型MedGemma 1.5与语音识别模型MedASR。

  • 搭载人工智能,数字王国深化全面转型

    数字王国集团发布HANBAO.AI一站式影像创作平台,旨在推动人工智能在文娱和科创领域的场景化应用。该平台聚合AI大模型,提供覆盖文本、图像和音频的集成工具库,赋能创作者高效输出高阶影像。数字王国围绕新工艺、新模态、新场景、新赋能持续探索,并联合十余家标杆企业构建“人工智能+”战略联盟,加速技术迭代与创意提炼在关联产业的部署与运作。

  • AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。

  • AI能成交客户?2026年AI销冠智能体正在颠覆转化效率,快来雇佣AI员工!

    文章探讨了在AI技术快速发展的背景下,2025年作为AI+Agent元年,AI智能体已广泛应用于内容生成、客服等领域。随着技术进步,2026年企业级AI应用将更规模化落地。文章重点介绍了尘锋AI销冠智能体,它能模拟人类销售思维,通过智能对话、自动化触达等方式,深度参与销售环节,帮助企业提高线索跟进、销售转化和客户服务效率。相比传统问答机器人,它能准确识别客户意图,进行个性化响应,在多个场景中提升效率,减轻销售负担,降低培训与管理成本。文章建议企业积极尝试AI应用,以驱动业务增长。

  • AI的下一步是“行动”:YoooTek携首款智能硬件AI ONE亮相智能硬件展

    在1月8日至11日深圳举办的“阿里云通义智能硬件展”上,YoooTek品牌发布了首款AI硬件AI ONE。该产品是一款磁吸于手机背部的智能设备,旨在通过过滤无效通知、记录灵感并快速转化为行动计划,帮助用户实现“专注自由”。创始人肖睿哲在演讲中提出,AI硬件应从“对话”转向“行动”,并联合阿里云无影团队发布了Glass-Box隐私可信计算架构,从技术层面重新定义AI时代的数据安全与个人数字主权。

  • AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。

今日大家都在搜的词: