11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
 腾讯云
12-20
腾讯云
12-20
本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。
曾经辉煌一时的苹果非官方博客TUAW,在2015年被AOL关闭后,它的域名被新东家WebOrangeLimited接手。这新东家似乎不走寻常路,他们用AI技术复活了TUAW把原博主们的名字挂在了新文章的作者栏上,尽管这些作者们已经离开十多年了。对于那些曾经在科技媒体界留下足迹的人来说,看到自己的名字被如此滥用,无疑是一种难以言说的痛。
马斯克部下跳槽,把人形机器人技术开源了。不少创业公司的估值,一夜被打了骨折。从目前雷米透露的动向来看,他们还会开源一系列工作,比如语音命令控制等,大家可以期待一下。
OpenAI公司最近推出了一项革命性的声音克隆技术VoiceEngine”。VoiceEngine通过文本输入和15秒的音频样本,便能生成与原始说话者声音极为相似、情感丰富且自然逼真的语音。当产品正式推向市场时,公司将设立一个禁止语音列表”,以检测并阻止与名人声音过于相似的人工智能生成声音,从避免潜在的版权和隐私问题。
GPT-SoVITS是一款强大的AI音色克隆软件。通过输入一个5秒的人声样本,用户可以立即体验到文字转语音的功能。产品核心功能:输入5秒的声音样本即可进行文字转语音转换;仅需1分钟的训练数据即可实现模型微调;跨语言支持,包括英语、日语和中文;集成声音伴奏分离、自动训练集分割、中文ASR和文本标注等辅助工具;支持在Windows环境下运行,经过了Python3.9、PyTorch2.0.1和CUDA11的测�
号称是「开源版Midjourney」的StableDiffusionXL0.9的技术报告,新鲜出炉。「加强版」StableDiffusion最新技术报告出炉了!报告地址:https://github.com/Stability-AI/generative-models/blob/main/assets/sdxl_report.pdf在4月开启公测后,StableDiffusionXL受到不少人的青睐,号称「开源版的Midjourney」。StabilityAI的CEO称,马上会上传到arxiv上。
小冰公司宣布推出“0元定制计划”,为10000家符合条件的中小企业、领域达人及个体经营者,免费创建自己的AI数字员工,支持高拟真、低门槛、零成本的形象及声音复刻。小冰小样本AI数字员工只面向企业开放。把创造好的AI数字员工,广泛应用于视频内容生产及场景化交互服务。
驾车出行中,导航用“小猪佩奇”的声音为我播报路况。“声音复刻”又称“声音克隆”,是语音合成技术(TTS)的个性化应用,用户可通过少量的录音进行模型训练,得到与用户本人在音色和发音风格上非常相似的声音模型,快速“复刻”个性化声音,该“复刻”声音可使用在讲故事、播天气、读小说、导航播报等功能场景。TTS行业发展最早可追溯到 1779 年,机械式语音合成器诞生了。伴随中国语音合成产品从初步发展走向成熟,实现差异化才能
如今,“黑科技”是一个流行词,各式各样新技术应用不断刷新人们的认知世界。 11 月中旬,由科大讯飞打造的全国首家语音黑科技线下快闪店——声音实验室,现身安徽合肥万象城,并有语音“黑科技”组团亮相,展示出科大讯飞在人工智能和智能语音应用领域的布局。 此次活动面向合肥市民,进入声音实验室将获得语音黑科技的沉浸式体验,让市民不必远赴北上广,在家门口就能体验这场“黑科技”盛宴。随着消费不断迭代,人们对于阅读?