11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
这场传闻已久的收购终于尘埃落定。 6月10日,腾讯音乐宣布拟收购喜马拉雅,交易对价包括12.6亿美元现金,外加5.1986%的A类普通股,以及为创始股东准备的不超过0.37%的A类普通股激励。以6月10日港股腾讯音乐290亿美元的市值估算,交易总对价约28亿美元,约合200亿,相较于喜马拉雅2021年最高点时50亿美元的估值,相当于打了五六折。考虑到眼下的市场环境,已经算是不坏的结�
5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。
2025年5月14日,国产音频品牌BOYA博雅发布两款创新产品:旗舰级真AI无线麦克风BOYAMIC2和纽扣式无线麦克风BOYALINK3。两款产品均搭载自主研发的"AI深度降噪3.0"技术,具备-40dB行业顶尖降噪能力,基于70万+噪声样本数据库和毫秒级实时处理能力,重新定义了无线麦克风性能标准。BOYAMIC2采用6mm电容麦,支持32-bit浮点内录;BOYALINK3仅重9克,支持动态降噪和EQ调音。此次发布标志着音频行业从硬件堆砌迈入AI驱动新时代,BOYA以技术创新引领行业升级,产品畅销全球132个国家,服务超3000万用户。
索尼中国发布三款音频新品:ULT FIELD系列便携蓝牙音箱(ULT FIELD 3和5)及真无线降噪耳机WF-C710N。新品延续"为音乐而生"理念,ULT FIELD系列主打"广阔声场×便携设计×硬核防护",采用X-Balanced扬声器单元和双单元配置,支持ULT低音增强模式;WF-C710N配备双反馈麦克风+AI智能降噪,20级环境声调节,DSEE音质提升技术,续航达40小时。三款产品均支持智能声场优化,ULT FIELD 5新增氛围灯效,具备IP67防护等级。价格方面:ULT FIELD 3售价1,399元(5月7日发售),ULT FIELD 5售价2,299元(5月13日发售),WF-C710N冰透蓝款899元(5月7日预售)。
4月27日,#当苹果闹钟遇上调休#话题登上微博热搜。网友吐槽苹果闹钟无法自动识别调休日,导致很多人可能迟到。安卓厂商多年前就已解决该问题,OPPO高管表示用户反馈后已支持该功能。苹果客服回应称用户需手动设置闹钟周期,但该问题长期未获公司重视。此次事件凸显智能手机在日常管理中的重要性,提醒厂商应更注重用户体验和实际需求,满足不同场景下的使用习惯。
本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。
Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。
复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码
多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一,国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期,上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列,相比上一代InternVL2. 5 模型,该模型展现出卓越的多模态感知和推理能力,同时进一步扩展了其工具使用、GUI代理、工业图像分析等
快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�