11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
 腾讯云
12-20
腾讯云
12-20
熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�
SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。
Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。
本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。
本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。
游戏语音头部平台Oopz与声网达成战略合作,聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术,针对复杂多变噪音环境,解决降噪不彻底、过度降噪等痛点,提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向,优化主播端功能,共同打造更稳定流畅的语音解决方案。
云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。
10月16日,火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构,具备深度语义理解能力,实现从文本朗读到情感表达的进化。对话式合成支持多轮交互,声音复刻仅需5秒即可还原音色。针对教育场景优化,复杂公式符号朗读准确率达90%,覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线,为OPPO、Keep等客户提供多场景语音服务。
今日,一则关于iPhone通话降噪的讨论登上微博热搜,多位网友实测称开启特定功能后,即便身处嘈杂环境通话,对方也几乎听不到背景噪音。对此,苹果官方客服回应称,该功能实际为iOS15及以上系统内置的“语音突显”模式,需用户手动开启后方可生效。
微博CEO王高飞反映,iOS 26 Beta 1更新后微信语音通话首次接通无声音,需挂断重拨。多名网友反馈相同问题,甚至怀疑手机故障。微博智搜称,这是Beta系统的兼容性缺陷,已提供临时解决方案。iOS 26.1 Beta新增Apple Intelligence多语言支持及AirPods实时翻译功能,电话应用键盘采用全新液态玻璃设计。