12月5日,火山引擎正式推出其新一代语音识别系统——豆包语音识别模型2.0。新版本在核心架构与技术能力上实现了显著升级。
据悉,该2.0版本大幅提升了系统的推理与理解能力。通过深度分析对话的上下文语境,其整体关键词的准确捕捉率较以往提升了20%。这意味着系统能够更精准地把握用户表达的真实意图。
此次升级的另一大亮点是引入了多模态识别技术。新系统不仅能处理音频信息,还能结合单张或多张图片等视觉信息进行综合判断,从而实现“既听声音,也看内容”的识别效果,进一步提高了文字转写的准确性。
豆包语音识别模型2.0支持多模态识别
在语种支持方面,新版模型的服务范围进一步扩大,新增了对日语、韩语、德语、法语等共计13种外语的精准识别能力,以满足更广泛的国际化应用需求。
模型支持13种外语识别
针对日常识别中的难点,2.0版本进行了专项优化。系统在处理专有名词、人名、地名、品牌名称以及容易混淆的多音字时,表现出更强的鲁棒性和准确性。
以一个具体场景为例:在讨论历史人物生平时,若用户提到“苏辙贬谪地筠(yún)州”,传统识别技术可能因同音字问题误判为“云州”或“郓州”。而新一代系统能够依据对话中关于“苏轼、苏辙”的背景信息进行逻辑推理,即使前文未出现“筠州”,也能准确锁定这一特定历史地名,实现精准识别。
- 相关推荐
-
荐AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布
本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。
-
荐不露脸,只出声,语音厅怎么就成了300亿黑马?
不露脸,只出声,直播日均流水超200万元,一款周边爆卖20.6万元。 当团播还在卷生卷死的时候,纯靠声音的语音厅却悄悄拿下了一个300亿的市场,并捧出了“𝑇.赵太阳”“控”等拥有百万粉丝的语音圈顶流。 不久前,“𝑇.赵太阳”还以听潮阁传媒总裁的身份参与录制了抖音、湖北卫视联合呈现的综艺《我被有趣的工作包围了》。
-
英国一边牧能识别220个单词:获封最聪明狗狗称号
《每日邮报》报道,英国7岁边境牧羊犬哈维能记住220个玩具的名字,并按指令准确找回对应物品,被称为英国最聪明的狗狗”。 研究人员称,全球仅约10只狗具备类似能力,目前哈维已受到布达佩斯、朴次茅斯等多家天才犬”研究机构关注。 哈维的主人、52岁的艾琳休
-
英国一只7岁边牧能识别220个玩具 主人回应
,近日,英国7岁边境牧羊犬能记住220个玩具的名字引发热议。 据狗狗主人艾琳介绍,它能按指令准确找回对应物品,还被称为英国最聪明的狗狗”。 研究人员称,全球仅约10只狗具备类似能力,目前它已受到布达佩斯、朴次茅斯等多家天才犬”研究机构关注。 艾琳表示,从幼犬时期起,她就以游戏方式训练它识别单词。
-
荐AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型
阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。
-
小米MIX 5来了!真全面屏回归:支持屏下3D人脸识别
小米MIX系列即将回归,依然主打真全面屏设计。 发布时间会比iPhone 18系列更早一些,也就是在9月之前,抢先一步实现屏下3D人脸识别。 从时间段来看,小米MIX 5有望在明年举行的雷军年度演讲上正式亮相。 回顾小米MIX系列,自2021年8月小米MIX 4发布以来,该系列已有较长时间未进行更新。 小米MIX 4搭载了高通骁龙888 Plus芯片,并首次引入了屏下摄像头技术,实现了正面无开�
-
豆包输入法iOS版升级:双拼键盘上线
豆包输入法iOS版迎来0.9.3版本更新,核心是双拼键盘上线,支持小鹤、自然码等主流方案,提升输入效率。新增公式计算结果推荐、优化英文键盘反斜杠输入问题、数字后全角冒号自动转半角等功能。交互上,删除键支持长按分层清空内容,键盘阴影、候选项背景等细节也得到优化。
-
荐手机厂靠拢豆包
努比亚 M153的三万台还没有卖光,豆包的手机端合作版图,有望进一步扩大。 近日,界面新闻报道称,字节跳动正推进与 vivo、联想、传音等硬件厂商开展 AI 手机合作,为其设备预装 AIGC 插件;多位 vivo 员工向媒体证实双方已确认合作、正在讨论细节。 不过,仅凭这条消息模糊的表述,尚无法确认这些“合作”的具体性质,是否和此前字节与中兴的合作方案划等号。此前,�
-
荐豆包狂飙,字节AI再亮剑
中国AI领域的竞争,依旧体现在互联网巨头们的一举一动中。临近年末,各大厂也在密集总结成绩,并放出新的大招。 “豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍。” 12月18日,火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布的这一数据引发行业关注。截至今年12月,已有超过100家企业客户累计token使用量超过一万亿。 这意味着,字节跳动正式加入�
-
荐豆包“包圆”互联网
豆包手机才发布半个多月,字节就发布了通用agent模型豆包1.8。这是一个能在真实世界中“做事”的多模态大模型。 豆包1.8可以直接操作你的手机、电脑和浏览器。它能看懂屏幕上的按钮和界面,然后像人一样点击、滑动,帮你完成各种任务。 这是字节一次非常大胆的尝试。要知道,在12月1号的时候,字节才发布了豆包手机。通用agent大模型的推出,让豆包的领地从手机一
