11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio,拥有12亿参数,在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力,通过创新预训练架构和超一亿小时训练数据,成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构,支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本,并在Github开源Tokenizer模型,为研究者和开发者提供完整工具链。
不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。
今日,华为官方正式宣布,将于9月24日举办穿戴音频新品发布会,届时备受期待的华为WATCH GT6系列智能手表与华为FreeClip2耳夹耳机二代将同台登场,引发科技圈与消费者的高度关注。 作为本次发布会的重头戏,华为WATCH GT6系列将成为GT系列首款支持星闪技术的智能手表。据透露,该系列预计推出WATCH GT6和WATCH GT6Pro两款机型,覆盖41mm至46mm表盘尺寸,满足不同用户需求。其中,�
2025年9月5日,倍思与Bose联合发布Inspire系列三款旗舰音频新品:全球首款圈铁双单元耳夹耳机XC1、真无线降噪耳机XP1及头戴式降噪蓝牙耳机XH1。新品融合Bose声学技术,支持Hi-Res认证、LDAC高清解码,主打专业音质与舒适佩戴。价格亲民(XC1补后764元,XH1补后849元,XP1补后679元),旨在打破高端音频价格壁垒,让专业音质走进大众生活。即日起开启预售,9月12日正式发售。
今晚,阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V,并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程,仅需提供一张静态图片和一段音频,模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。 支持分钟级长视频稳定生成,不止嘴动,手势、表情、姿态都能动。
三星电子于2025年8月18日发布新款智能耳机Galaxy Buds3 FE,主打亲民价格与高端性能。新品延续标志性刀锋设计,配备升级版主动降噪(ANC)和Galaxy AI功能,支持跨设备无缝切换和语音交互。通过增强型扬声器实现三频均衡音效,超宽频通话技术确保清晰沟通。耳机采用哑光双色半透明设计,支持与三星生态设备联动,提供智能翻译等AI功能。将于9月5日上市,提供银雾灰、暗羽黑两种配色,进一步扩展三星Galaxy生态体验。
AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�
索尼在BilibiliWorld展会上打造沉浸式音乐体验,以"为音乐而生"理念呈现专业音频设备组合。现场设置录音棚体验区,观众可使用C-80麦克风和MDR-M1监听耳机感受专业录音效果。同时展出旗舰降噪耳机WH-1000XM6等产品,展现索尼70年音频技术积淀。活动还推出"索尼原创音浪季"赛事,邀请B站UP主某幻君等音乐人现场表演,通过前沿科技支持音乐创作。索尼中国高管现场
【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�
【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin