语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款
语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款
AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。
OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�
AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。
日前,广州有网友发布视频称,自家狗子爱上了捡瓶子,25天就收入1300多元。 主人介绍称,狗子前几年捡瓶子玩的时候,被外面拾荒的人用一块肉换下瓶子,尝到美味之后,它一直以为捡瓶子能换到肉吃,于是每天一出门,停车场先找瓶子,还要到人家档口房间里找,这么多年来,每天风雨无阻的捡瓶子。 主人近日发布视频称,昨天捡的瓶加上今天上午捡的瓶子,收拾完拉�
腾讯混元翻译模型Hunyuan-MT-7B登顶Hugging Face趋势榜首位,并在ACL WMT2025比赛中以30项第一的成绩领先。该模型支持33种语言,包括5种汉语言方言互译,在Flores200评测中表现卓越,超越同尺寸模型,与超大模型效果相当。腾讯提出完整训练范式,覆盖预训练到强化学习全链条,实现业界最优翻译效果。
本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。
腾讯开源的跨端开发框架Kuikly基于Kotlin Multiplatform技术,新增Web版支持H5和微信小程序。相比主流跨端方案,Kuikly Web版采用DOM渲染,包体积仅463KB,加载速度快,兼容性好,支持SEO优化。已在腾讯多款业务中应用,日活用户超5亿。未来将持续优化性能,探索WASM技术,并计划开源Electron适配版本。
回森AI美音黑科技亮相“回森音乐·成都制噪局”活动,8月30日至31日在成都东郊记忆举办。活动融合音乐街区、K歌互动、弹幕合唱等创新玩法,邀请傅如乔、刘莉旻等音乐人现场助阵。回森通过技术降低创作门槛,提供AI美音、一键修音等功能,打造便捷有趣的音乐社交生态,致力于实现“人人皆可唱歌”的梦想。
也有线上体验地址:https://longcat.ai 我自己去体验了一下,整体模型能力,中规中矩,但是快,是真的快,能把560B的模型,在推理的时候搞得这么快,是真的有点牛逼的。 我直接录了个屏给大家看一下。 这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度,他俩都是MoE架构,而且总参数量差不太多。 为了更公平的竞争,用了同一个问题,并关闭了联网搜索来避免搜索干扰�
逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,