首页 > 业界 > 关键词  > 国产大模型最新资讯  > 正文

DeepSeek-R1联网搜索能力首测:腾讯元宝

2025-03-11 20:12 · 稿源: 快科技

快科技3月11日消息,国产大模型DeepSeek-R1爆火后,许多第三方平台陆续接入了该模型,比如腾讯、阶跃星辰、蚂蚁集团、百度、字节跳动等等。

今日,中文大模型测评基准SuperCLUE发布DeepSeek-R1联网搜索能力首测,公布了10家第三方平台测评结果。

从结果来看,腾讯元宝是本次测评中唯一一个超过80分的第三方平台,以80.61分领跑联网搜索测评榜单,腾讯元宝在总分、基础检索能力和分析推理能力三个关键指标上均位列第一。

阶跃AI以74.49分的总分位居第二,支付宝百宝箱以73.47分位居第三,而其他平台在本次测评中则处于不同的梯队,性能存在一定的差异。

DeepSeek-R1联网搜索能力首测:腾讯元宝第一

各个第三方平台在基础检索能力上平均得分为95.45,而在分析推理能力上的平均得分仅有35.35,相差近60分。

同一平台在基础检索能力和分析推理能力两大维度上的表现也同样差异明显,所有平台的分析推理能力得分都明显低于基础检索能力。

SuperCLUE表示,这反映出在更高级的认知任务,例如理解、分析、推理和解决复杂问题方面,仍有很大的进步空间。

回复率上,飞书知识问答、阶跃AI、腾讯元宝和支付宝百宝箱在联网搜索回复率方面表现优秀,完整回复率均为 100%,截断率和无回复率均为零,成为第一梯队。

秘塔AI搜索、纳米AI搜索和天工AI紧随其后,构成第二梯队,其他平台也均有超过85%的完整回复率,都表现出了较强的稳定性。

耗时方面,总平均耗时从最少的字节火山引擎(17.12秒/题)到最多的MiniMax(73.51秒/题),差距非常显著。

整体来看,耗时分布范围较广,不同平台之间的搜索效率差异较大。

另外,所有平台在分析推理能力上平均耗时都明显高于基础检索能力。

DeepSeek-R1联网搜索能力首测:腾讯元宝第一

DeepSeek-R1联网搜索能力首测:腾讯元宝第一

DeepSeek-R1联网搜索能力首测:腾讯元宝第一

DeepSeek-R1联网搜索能力首测:腾讯元宝第一

举报

  • 相关推荐
  • 免费使用!腾讯地图已接入DeepSeek-V3.1

    DeepSeek V3.1于2025年8月21日发布并开源,腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升:思考效率更高,响应更快;上下文理解更强,支持多轮连贯对话;智能体调用更精准,尤其在中文网页理解和跨领域搜索方面表现突出。依托升级,AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务,让导航升级为全程智能生活陪伴。

  • 豆包未成年人保护模式上线:推荐视频、浏览第三方网页等默认关闭

    豆包今日正式上线未成年人保护模式。未成年人模式是为家长提供的工具,以方便关闭部分功能,防止小朋友拿到设备后可能的不适当使用。 家长输入密码开启该模式后,推荐视频、浏览第三方网页、和豆包以外的智能体对话、AI创作功能将被默认关闭。翻译、深入研究等功能仍能正常使用。 近日,多位家长反映豆包App存在隐蔽的短视频入口:孩子在豆包内提问时,答案下�

  • 腾讯元宝上线AI口语陪练,人人都能免费练英语了

    腾讯元宝8月29日上线AI口语陪练功能,提供24小时在线英语陪练,支持中英对照、口语评测、跟读等模式,帮助用户随时随地提升口语能力。该功能免费开放,支持实时字幕和中文提问,还能根据用户水平自适应调整难度,并支持角色扮演进行场景化练习。腾讯表示将持续迭代,为用户提供免费好用的AI工具。

  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

  • 腾讯会议打通腾讯元宝,“AI纪要”实现开会边开边总结

    腾讯会议8月25日上线“AI纪要”功能,可实时生成会议摘要,每2分钟自动同步,并支持会后跳转至元宝进行提问和追溯。该功能聚焦核心内容,剔除冗余信息,提升会议效率,同时打通腾讯元宝,支持混元、DeepSeek双模型切换,优化信息检索。未来还将拓展面试助手、法律顾问等垂直场景,持续探索AI与协作的深度融合。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

  • AI大模型选型决策指南:10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

    本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个,但选型面临三大难题:单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法:1)场景刚需筛选80%选项;2)验证核心性能;3)评估边际效益。以Gemini和DeepSeek为例,前者适合常规FAQ场景年省$16,000,后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系,将3小时选型会议压缩至18分钟,错误率下降40%。核心观点:选型应从参数争论转向场景验证,通过自动化工具为工程师节省时间,聚焦提示词优化而非参数对比。

今日大家都在搜的词: