11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。
10月16日,火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构,具备深度语义理解能力,实现从文本朗读到情感表达的进化。对话式合成支持多轮交互,声音复刻仅需5秒即可还原音色。针对教育场景优化,复杂公式符号朗读准确率达90%,覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线,为OPPO、Keep等客户提供多场景语音服务。
逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,
过世的亲人留下的语音记录可以用吗?” 今年5月20日,高德地图推文《本次更新,把家人的声音装进导航》的留言区,这条特殊的提问漾起了意想不到的涟漪。 谁也没料到,在多数人热衷于录制孩子奶音、爱人情话的热闹里,藏着这样一份沉甸甸的思念。 您这个需求很暖,我们跟产品经理反馈一下。”简单的回复背后,是一场跨越生死的技术奔赴。
本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。
快科技2月18日消息,据媒体报道,近日,在电影《哪吒之魔童闹海》中为太乙真人的配音演员张珈铭,在高德地图上线了川普导航语音包。为此,不少太乙真人影迷们纷纷表示终于等到了”,还光速”下单付费8.8元购买了,甚至有用户声称这是自己第一次花钱购买语音包。值得注意的是,有使用该款语音包影迷在社交媒体发文称,该语音包声音很贴近太乙真人,非常有趣”很�
近日,标贝科技语音合成音色库又有新进展。针对智能客服场景,上新两个温和风格音色,适用于服务回访、业务咨询、产品介绍等细分业务场景。加上前不久的两款严肃客服音色,标贝科技已累计上线20多个风格迥异的男女客服发音人,全力加速企业客服中心的智能化转型。此外,本次也同步上线两个泰语女声音色和法语女声音色,以满足更多细分场景的应用需求。大模型驱
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、谷歌推超强多模态模型实验版Gemini1.5Pro,排名领先GPT-4o、Claude-3.5Sonnet谷歌今天推出了Gemini1.5Pro实验版本0801,在人工智能领域取得重大突破。ItiNera系统通过结合空间优化与大型语言模型,提供个性化的城市行程规划服务,为旅行者带来全新的探索城市方式。
字节跳动团队在语音合成技术领域取得了新进展,推出了名为Seed-TTS的新型语音生成模型。该模型基于自回归Transformer架构,能够生成接近人类语音的自然且富有表现力的语音。这项技术的进展不仅提升了语音合成的自然度和表现力预示着未来在相关领域将会有更多的创新应用。
EVI,一款可以识别对话客户情感的人工智能,正式发布了API。自发布以来,它已经生成了大约10万次的对话,平均每次对话时长为10分钟,总计产生了超过300万条消息。EVIAPI的发布,使得AI的对话更加自然、个性化,同时也提供了更多的选择和便利,为用户带来了更好的体验。