首页 > 传媒 > 关键词  > 大模型评测最新资讯  > 正文

火山引擎分享Data Agent评测体系,提出“评估驱动开发”新范式

2025-12-03 11:57 · 稿源: 站长之家用户

近日,在AICon全球人工智能开发与应用大会上,字节跳动数据平台大模型评测技术负责人系统分享了其团队在Data Agent(数据智能体)自动化评测领域的技术创新与实践。面对大模型在数据行业应用日益广泛但效果评估标准不一的挑战,字节跳动数据平台提出了一套覆盖技术选型、研发迭代至业务效果验证的“三层评测框架”,并倡导以“评估驱动开发”(EDD)的新范式,以推动大模型在数据分析、商业智能等领域的深度赋能与可靠落地。

随着大模型技术不断成熟,其在数仓开发、ChatBI问答及深度分析Agent等场景的应用显著提升了数据处理效率。然而,如何科学、客观地评估这些应用的实际效果,避免“线上表现与线下评测脱节”,已成为行业关注的焦点。据相关负责人介绍,传统软件测试的用例执行方法难以适用于大模型,评测需综合考量效果(如事实性、有用性、无害性)、性能(如响应速度、时延)与稳健性(如容错与抗干扰能力)等多方面指标。

为解决上述问题,字节跳动数据平台团队构建了一套分层评测体系。底层为“基础能力评测”,通过引入多个业界公认的基准测试集,为不同模型设立准入门槛,确保进入实验阶段的模型具备扎实的工具调用、代码生成与复杂指令理解能力。中间层为“组件评测”,将复杂的Agent任务拆解为召回、规划、执行、总结等单元模块,进行精细化评估,以快速定位问题、推动高效迭代。顶层为“端到端业务效果评测”,通过构建贴近真实场景的评测集,并建立“数据飞轮”机制,持续将线上实际案例转化为评测数据,确保评估结果真实反映用户体验。

在Text-to-SQL这一数据领域核心任务的评测中,该团队创新提出基于“语义等价”的自动化评测方法。传统方法依赖执行结果正确性或文本相似度,易因数据不完备或语法差异导致误判。字节跳动数据平台采用Apache Calcite将SQL转换为抽象语法树(AST)与执行层语法表示(RelNode),结合图匹配网络(GMN)计算逻辑层面的相似度。相关方法在多项基准测试中表现优于传统手段,显著提升了SQL准确性评估的可靠性。

面对“深度研究”类Data Agent产品带来的复杂挑战,字节跳动数据平台还探索了“以Agent评测Agent”的前沿路径。基于“挑错易、复盘可行”等原则,评测Agent通过自我反思、多Agent协作及代码复算等方式,对分析报告的深度、准确性、可读性与稳定性进行多维度自动化校验。

分享中谈到,未来自动化评测将更注重线上线下一致性、多模态能力覆盖及与模型训练的深度结合。通过将评估更紧密融入Agent架构,有望实现从“测试驱动”到“评估驱动”的范式转变,最终推动大模型应用更精准、高效地创造业务价值。


推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 20+大模型与70+智能体调度!李未可AI眼镜定义群体智能新范式

    文章以丹尼尔·卡尼曼的“快与慢”思维系统理论为引,介绍了李未可AI智能眼镜如何将AI融入人类最自然的“看、听、说”交互中。该产品通过“超能李未可”系统,结合自研大模型与多智能体协同的“群体智能”模式,实现了从快速直觉响应到深度理性思考的无缝衔接。它能高效处理实时翻译、信息查询等日常任务,并在需要时启动多专家智能体进行复杂规划与创意生成,致力于成为用户随身、随思、随需的“第二大脑”,让技术回归增强人类感知与创造能力的本质。

  • 从“看家”到“懂家”:海雀大模型摄像头,重塑家庭主动智能新范式

    1月8日至11日,海雀科技在阿里云通义千问智能硬件展上发布搭载AI大模型的海雀摄像头。该产品不仅是家用智能摄像头首次在设备端直接使用大模型,更标志着摄像头从被动记录工具向主动服务的AI伙伴转变。海雀摄像头能看、会听、会思考、会执行指令,深入家庭场景,为育儿家庭提供“全能陪聊搭子”与“安心守护者”,为有老人的家庭提供“可对话的养生助手”,并成为所有家庭的“智能管家”。通过千万用户数据,海雀精准切入需求,以“主动智能”引领行业,为AI硬件赛道提供了从技术堆砌到场景融合的参考范本。

  • 苹果谷歌官宣合作:新一代Siri选定使用Gemini大模型

    苹果公司宣布将与谷歌展开深度合作,借助谷歌的人工智能技术为今年晚些时候推出的产品功能,尤其是Siri,提供强大的AI支持。 根据合作内容,谷歌将通过其先进的Gemini模型和成熟的云技术,为苹果未来的基础模型注入核心动力。苹果在官方声明中明确表示,经过审慎评估,谷歌的技术为苹果基础模型奠定了最为坚实的基础,公司对即将为用户带来的创新体验充满期待。

  • 苹果新一代Siri要来了!选定谷歌Gemini大模型提供支持

    苹果将与谷歌合作,为今年晚些时候推出的产品功能(如Siri)提供人工智能支持。 谷歌将通过Gemini模型和云技术,为苹果未来的基础模型提供动力。 苹果在声明中表示:经过仔细评估,我们认为谷歌的技术为苹果基础模型提供了最强大的基础,我们对它将为用户带来的创新体验感到兴奋。” 据悉,苹果拟每年支付谷歌约10亿美元,获取定制化Gemini模型使用权,核心版本为1.

  • 从Meta收购Manus看行业趋势 MasterAgent立国产智能体新标杆

    2025年12月30日,全球AI行业迎来重磅变局!美国科技巨头Meta宣布收购AI智能体产品Manus,创下Meta成立以来第三大收购纪录。就在这一国际智能体赛道格局重塑的关键节点,国产力量同步亮剑——深元人工智能研发的全球首个L4级智能体母体系统MasterAgent宣布正式全面开放,以全栈自主研发的核心优势直面国际竞争,树立国产智能体新标杆,为中国AI智能体赛道的全球博弈注入关键动

  • 花3000元让AI改口,大模型的尽头是广告?

    大模型界的翘楚OpenAI,面对每年数十亿美元的研发成本,正迎来一个艰难的决定:其员工正在琢磨如何让 ChatGPT 在用户提出相关问题时,优先显示赞助内容。 也就是说,当用户让大模型推荐一家眼镜店、一款工业传感器、一家民宿时,很可能大模型给出的是企业的软广。但大模型本身可能并不知道答案被“精心设计”过,它依然兢兢业业,会根据各个指标筛选出你想要的产品�

  • 国产全球最强医疗大模型Baichuan-M3发布:已超越GPT-5.2与人类医生

    AI大模型今年会向更专业的方向发起猛攻,除了AI编程之外,AI医疗也成为一大重点,OpenAI刚收购了一个医疗初创公司,Cluade也推出了AI医疗助手。 今天还有一家国产大模型新品也将目光瞄准了医疗,那就是Baichuan-M3,这是知名大佬王小川投资成立的百川智能发布的AI医疗大模型,号称全球最强。 据百川智能介绍,Baichuan-M3 专为医疗场景深度优化,融合海量医学文献、临床指南�

  • 昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大模型高效适配 MLA

    北京大学张牧涵团队提出TransMLA转化框架,实现无需重训即可将主流大模型(如LLaMA、Qwen)从GQA架构迁移至MLA架构。该框架通过四大核心技术模块解决迁移痛点:结构映射、RoRoPE位置编码适配、频率折叠融合及KV矩阵均衡化,在昇腾算力支持下,成功在LLaMA-2-7B上裁剪68.75%的KV缓存,仅轻微性能损失。昇腾硬件的高效并行架构与存储优化体系为技术落地提供关键支撑,推动TransMLA集成至高性能推理框架生态,大幅降低企业升级成本,为长上下文推理提供自主算力解决方案。

  • 硬核实力获国家级认证!金融壹账通数据智能风控成行业标杆案例

    国家数据局近日公示2025年“数据要素×”大赛全国总决赛获奖名单。由平安保险、金融壹账通、平安科技、深圳市大湾金融研究院联合申报的“数字化风控项目”从全国2.2万个参赛项目中脱颖而出,荣获全国金融服务赛道总决赛二等奖,实现历史性突破。该项目构建了行业首个“数据-风控-生态”数字化风控体系,依托平安集团强大的数据底座与分布式计算能力,整合超370个权威数据源,形成首个合规数据融合模式与理赔知识工程体系。在智能化方面,项目基于万亿级保险语料和亿级理赔数据,构建可解释的知识图谱与智能推理链条,显著提升风险识别精度与风控效率。目前,该项目已通过普惠金融开放平台向行业持续输出能力,赋能20余家保险机构,带来经济与社会效益超百亿元。此次获奖是平安集团科技创新与生态协同的集中展示,更是其以数据要素驱动智能金融发展的系统实力写照。

  • 智能座舱新战事:大模型不是答案,只是起点

    文章指出,2026年的智能座舱可能正处在类似2007年iPhone问世前的变革时刻。当前汽车行业面临范式瓶颈,而大模型被视为关键变量,将重构人车交互,赋予汽车理解、预测和自主行动能力。智能座舱的决胜点在于L4级智能驾驶的实现,届时车辆将转变为移动的“生活或工作空间”。然而,其发展面临从底层架构到应用生态的多层挑战,非单一企业能独立完成。文章强调,大模型只是入场券,真正的差距在于能否构建持续产生价值和粘性的生态能力。未来的竞争将围绕打造懂用户、能协同、会成长的智能空间展开。

今日大家都在搜的词: