首页 > 传媒 > 关键词  > 汽车行业最新资讯  > 正文

易慧智能发布汽车行业大模型评测集,并重磅推出模型路由技术方案

2024-10-28 11:22 · 稿源: 站长之家用户

10 月 25 日,汽车行业AI产品和业务解决方案提供商易慧智能发布了汽车行业头个大模型评测集。此次评测旨在全面评估市面上主流大模型在汽车行业中的实际应用效果,特别关注于汽车营销场景的应用评估。在此基础上,易慧智能重磅推出创新的模型路由技术方案——基于多模型的YiAgent群体智能技术框架。

此技术框架不仅融合了大模型路由技术,还巧妙地将大模型库、汽车行业大模型评测集以及YiAgent群体智能平台这三个子系统整合为一个有机整体。在这个创新的技术框架中,大模型路由依据汽车大模型评测的效果,为YiAgent群体智能平台中的每个Agent所负责的技能挑选出效果理想的模型,从而实现技能的特出化配置和效用比较大化。技术框架为企业客户提供以多个大模型驱动的群体智能协同工作平台,全力支持企业客户实现智能化转型。

应对复杂场景需求多模型成为主流

鉴于当下大模型使用场景的多样性、任务复杂度的提升,以及垂直行业专业需求的特殊性,当前无论是通用大模型还是垂直大模型,均展现出各自的局限性和不足。以内容创作为例,此领域涵盖了写作、翻译、知识问答、代码辅助、逻辑推理等多个维度,对于不同任务,各大模型表现差异较大,没有一家大模型可在所有任务上均达到特出。这一现状也为混合大模型的兴起提供了契机。

混合大模型旨在将市场中的主流大模型进行有机融合,针对特定任务需求,准确调用表现特出的模型,以实现准确解决特定问题的目标。通过“专业分工,协同合作”的理念,混合大模型致力于比较大化各项任务的处理效能。近期, 360 公司推出的AI助手便是一个典型例证,该助手集成了国内 15 家先进大模型,构建了CoE专家网络模型,通过规模化的资源整合,集中各模型之优势,最终实现了更为卓越的性能与效率提升。

在汽车行业的营销领域,其核心能力与任务包含行业知识的深度掌握、内容创作的准确定位、有效对话能力的展现、数据分析的精细处理以及智能体支持的全面覆盖等多个维度。这些综合且复杂的需求,对大模型的能力提出了很高的挑战,也使得当前市场上的单一模型在应对此类复杂场景与任务时显得力不从心。而混合大模型方案的提出,则为解决这一系列难题提供了最为优化和可行的思路。

汽车营销领域头个垂直行业大模型评测集

据悉,易慧智能作为聚焦汽车行业的AI产品和业务解决方案提供商,拥有海量的用户行为数据和车型数据,在汽车行业数字营销、数字化转型方面拥有企业级的深刻理解和丰富的应用场景。易慧智能此次重磅发布汽车行业大模型评测集,并同步推出模型路由技术方案——基于多模型的YiAgent群体智能技术框架,这一举措深刻体现了其在技术创新领域的领导地位,同时也是其坚定践行以客户为中心发展理念的重要里程碑。

作为汽车营销领域头个大模型评测集,易慧智能选择了国内外具有代表性的 8 个闭源/开源的模型以及自研大模型共 9 个模型。针对汽车营销领域行业知识、内容创作、对话能力、数据分析、智能体支持等 5 大核心能力和超过 20 个子任务能力进行严格评测,并对每个评测类别制定独特的评测标准和方法,原创评测题目超过 1000 道。

在评测过程中,易慧智能重点关注大模型在汽车营销关键领域的表现。首先,就行业知识而言,评估大模型对汽车行业基础知识的掌握深度,以及其在看车、选车、购车、使用等全流程中展现出的专业知识理解和应用能力。

其次,在内容创作方面,考察大模型汽车领域内容生成能力,特别是其在撰写汽车种草图文、汽车短视频文案等方面的表现。特别关注大模型在营销内容创作上的多样性、准确性,以及其对字数、人设、场景等维度要求的指令遵循能力。

此外,在对话能力方面,测试大模型与用户进行自然语言交流的能力,包括但不限于语义理解、情绪识别、实体识别、对话推理等对话场景中的核心能力。

同时,数据分析也是评测的重要环节。易慧智能将考察大模型在处理和分析汽车行业相关数据方面的能力,如销售数据、用户行为数据等,并评估其在营销决策支持中的应用效果。具体的能力维度包括text2sql、指标计算、图表推荐以及报告撰写等。

最后,在智能体支持方面,易慧智能将评估大模型在支持智能体进行任务规划、流程推理、工具检索、参数理解以及工具使用等方面的能力,特别是在营销自动化和个性化推荐中的实际应用效果。

经过此次严格评测,结果显示无一模型能在所有能力上均排名靠前。其中,在汽车知识与对话能力方面,自主研发的大模型以82. 17 与80. 62 的高分脱颖而出。值得注意的是,尽管GPT-4o仍保持其领先地位,但国内大模型正迅速追赶,差距正在逐步缩小。

此次评测结果还反映出通用大模型在应对具有行业特性的任务时显现出明显的局限性。无论其源自国内还是国外,相较于专为汽车领域定制的自研大模型,在汽车领域知识掌握及对话交互能力的核心指标上,得分普遍较低。这一发现也揭示出当前通用大模型在处理行业专属任务时遭遇的瓶颈,尤其是在需要深度专业知识与准确上下文解析的场景中更为凸显。相比之下,行业大模型由于拥有针对性的训练与优化,能够更为准确地捕捉并处理特定领域的专业知识与对话内容。因此,针对专业性要求很高的行业应用场景而言,选择垂直大模型无疑是更为合理且有效的决策。

易慧智能CTO叶明登表示,易慧智能此次评测的目标是提供一个全面、客观的评估框架,帮助汽车行业的决策者和技术开发者更好地理解和利用大模型技术,以实现汽车行业的智能化升级。特别是在营销场景下,我们的评测集能够更准确地衡量大模型在实际商业环境中的表现和价值。

易慧智能CTO叶明登

在此次评测中表现优异的自研大模型负责人同时也是易车副总裁张磊表示,自研大模型基于易车在汽车行业多年的深耕与积累,结合比较新的人工智能技术,5T+的PT数据,万级SFT(Supervised Fine-Tuning,监督微调)数据,DPO(Direct Preference Optimization,是一种用于对齐大模型与人类偏好的方法)安全对齐,实现了大模型在汽车领域的全场景支持、汽车知识及时更新、效果领跑,全面赋能汽车行业。此次评测结果的发布不仅揭示了大模型在汽车行业的应用现状,还突显了行业大模型相较于通用大模型在指导技术决策、推动技术创新、促进行业定制化、提升应用效能、推动私有化部署等垂直领域的独特优势。

易车副总裁张磊

模型路由技术方案切实提升群体智能协同平台工作效能

此次易慧智能重磅推出的模型路由技术方案——基于多模型的YiAgent群体智能技术框架,作为一个有机系统,包含了大模型库、汽车行业大模型评测集、YiAgent群体智能平台三个子系统。

子系统一——大模型库优选当前主流大模型,通过定期的换入换出机制,紧跟当前业内比较新技术动态进展。大模型库中的所有大模型都会在大模型路由中进行注册,并统一访问接口。为了满足不同企业客户对不同场景的业务需要,该大模型库中覆盖了各个维度的大模型,包括国内模型和国外模型、商业模型和开源模型、Saas模型和可私有化部署模型、通用模型和行业模型,未来将持续增加更多的优秀模型补充进来。

考虑到各个外部模型的持续更新迭代,易慧智能会定期对大模型进行升级迭代,尤其是微调参数量较小的模型,不断提升模型效果,降低成本。

子系统二——汽车行业大模型评测集覆盖行业最全面的基础知识和营销核心场景能力,可根据真实应用场景实时更新评测数据,定期刷新大模型库中所有模型的评测结果,并将评测结果同步至大模型路由。

子系统三——YiAgent群体智能平台可以根据任务动态选择某个单体agent(数字员工)或者群体agent(数字员工团队)。Agent路由作为用户需求的总入口,执行“CEO”的角色。

单体agent(数字员工)完成任务所需不同技能可通过大模型路由动态选择特出大模型。

在YiAgent群体智能平台子系统中,大模型路由模块承担着为各项技能准确匹配特出大模型的重任。鉴于各大模型在专长领域上的差异,系统依据评测结果,为每项技能分配表现最为出色的模型。在模型表现相近的情况下,系统秉持成本效益原则,优先选用参数量较少的模型,以实现资源的特出化配置。此外,大模型路由模块还兼具负载均衡功能,当某一模型负载达到阈值时,能够智能地将部分请求引导至次优模型,确保服务的连续性与稳定性,有效规避服务中断的风险。

据业内佼佼者人士分析指出,模型路由技术方案的发布,为大模型在汽车营销领域的实际部署与效能提升,开辟了一条相当价值的参考途径。此举不仅强化了易慧智能在汽车AI产品与服务解决方案领域的优势地位,更将实质性地推动AI技术在汽车行业内的创新步伐,实现行业整体效率与客户竞争力的显著提升。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 行业首家!易鑫正式开源Agentic大模型,定义汽车金融AI新范式

    易鑫宣布开源自主Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于Qwen3-14B,参数规模140亿,通过多阶段训练体系深度优化,在智能体协作、函数调用、推理等能力上可比肩参数200B以上的商用大模型。多项专业评测显示,其在金融专业知识理解方面显著优于DeepSeek V3.1、Kimi-K2等主流模型,并在智能体工具使用任务中同样表现卓越,位居同尺寸模型性能测试首位。该模型既展现出强劲的专业理解力与协作推理能力,又兼具高实用性与经济效益,将为汽车金融及各类专业场景提供高效、可靠的智能引擎。易鑫以技术创新为核心驱动力,持续引领行业迈向智能化转型。

  • 易鑫开源汽车金融业首个Agentic大模型,加速AI生态共建

    易鑫集团(02858.HK)宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化,具备卓越推理、复杂任务处理及多方协作的智能体能力,在多项性能测试中位列榜首,推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集,覆盖语音交互、车辆评估、风控、欺诈识别等功能,形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式,通过提供低代码私有化模板,帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵,填补了汽车金融领域专业开源AI工具链的空白。

  • 中兴路由器斩获京东金榜品质金奖,全场景品类矩阵成就家用路由标杆

    2025年12月9日,中兴路由器在京东金榜颁奖礼上荣获“年度路由器品质金奖”。这体现了其在销量、口碑、品牌力等硬指标上的综合实力。中兴已构建多型号产品矩阵,覆盖全场景需求:问天系列以WiFi7旗舰性能满足高速率、低延迟、广覆盖需求;巡天系列搭载自研芯片,推动“百元级+WiFi7”普及;星云系列聚焦全屋组网,简化安装流程。此次获奖是对其市场表现与产品品质的强力认证。未来,中兴将持续以通信技术赋能家用产品,深化路由器技术迭代,加速多场景布局,让更多家庭享受高速、稳定、智能的网络服务。

  • 通用医学影像大模型iMedImage赋能临床多场景应用

    第五届全国医院智能化建设大会将于2025年11月在成都召开,聚焦智慧护理、智能数据中心等方向。德适生物协办的医学影像AI分论坛上,宋宁教授发布通用医学影像大模型iMedImage™,实现从图像到决策的一体化闭环,覆盖筛查—诊断—治疗全周期管理。其应用案例显示:染色体核型分析系统准确率达99.86%,宫颈超声早产风险评估等前沿领域成效显著。模型可扩展至26个专科、4000种疾病场景,助力精准诊疗。国家政策提出2030年二级以上医院普及影像AI辅助诊断,德适生物将持续推动多模态数据融合与临床创新。

  • 翟学魂:物流 AI「蝴蝶结模型」如何让行业效率翻十倍?

    在2025年中国物流学术年会,G7易流创始人翟学魂提出“物流蝴蝶结模型”,系统拆解物流AI核心方法论。模型以“感知-决策-执行”闭环为核心,通过AI连接数据采集、管理决策和一线作业,形成完整循环。该模型强调软硬一体与场景优先,需实时物理数据支撑,并聚焦一线具体作业场景。其价值在于重新定义行业竞争逻辑与人才方向,未来物流从业者应转向“AI智能体设计师”,企业核心竞争力将从传统KPI管理转向AI智能体的设计能力。

  • 延锋国际 X 阿里云:全栈AI加速汽车产业智能升级!

    近日,延锋国际与阿里云签署全栈AI合作协议。双方将基于阿里云全栈AI能力与延锋在汽车行业的深厚经验,深化全球战略合作。合作聚焦三大领域:产品创新方面,依托通义千问大模型探索新一代智能座舱AI解决方案;制造领域,应用全栈云技术打造高效数字化生产体系,助力全球工厂提质增效;管理运营方面,携手提升数字化服务能力,构建一体化可扩展的数字组织体系。此次合作标志着双方共同迈入“AI+制造”融合发展新阶段。

  • AI火花集|阿里云携手心智互动,为视障群体打开娱乐场景

    文章探讨了视障群体在数字娱乐中的困境与解决方案。全球超22亿人存在视力障碍,其中中国有1700万视障人士,他们同样渴望高质量的游戏和社交体验。心智互动公司秉持“科技有爱,信息无碍”理念,开发了《听游江湖》等语音驱动游戏,通过声音构建沉浸式武侠世界,并借助阿里云RTC等技术保障低延迟、高质量的实时语音交互。AI技术进一步赋能,推出“星光AI伴读”等产品,实现智能问答与情感化语音合成。文章强调,视障用户的核心需求与普通人无异,追求平等、便捷的信息获取与娱乐社交。未来,心智互动将与阿里云携手,通过AI、多语言支持等技术,为视障人群打造更包容、智能的数字体验,助力中国无障碍游戏走向全球市场。

  • Testin XAgent 智能测试系统:首款通过信通院泰尔实验室认证的AI测试平台

    我国正处于信创深化与数字基础设施重塑的关键时期,软件质量保障面临传统自动化测试维护成本高、稳定性低的痛点。Testin云测自主研发的AI测试平台XAgent通过三大技术突破:融合领域知识的RAG技术提升业务贴合度,基于意图的测试生成降低使用门槛,结合视觉大模型的智能自愈将脚本稳定性从70%提升至95%以上。该平台已获中国信通院泰尔实验室权威认证,标志着AI测试从技术探索迈向规模化应用,为信创产业提供高效可靠的质量保障新范式。

  • 火山引擎分享Data Agent评测体系,提出“评估驱动开发”新范式

    字节跳动数据平台在AICon大会上分享了其Data Agent自动化评测技术。面对大模型在数据行业应用广泛但评估标准不一的挑战,团队提出覆盖技术选型、研发迭代至业务验证的“三层评测框架”,并倡导以“评估驱动开发”新范式推动大模型在数据分析等领域的深度赋能。针对Text-to-SQL等核心任务,团队创新采用基于“语义等价”的自动化评测方法,通过Apache Calcite将SQL转换为抽象语法树,结合图匹配网络计算逻辑相似度,显著提升评估可靠性。未来自动化评测将更注重线上线下一致性、多模态能力覆盖及与模型训练的深度结合,推动大模型应用更精准高效地创造业务价值。

  • AI不再健忘!红熊AI发布“记忆熊”,给大模型装上“海马体”

    当前大模型虽能力惊人,却普遍存在“记忆缺失”问题,制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”,旨在突破这一瓶颈。它基于认知科学原理,构建了包含存储层、编排层和应用层的三层架构,模拟人类记忆的感知、提炼、关联与遗忘全周期,为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率,降低了幻觉生成,更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善,将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级,开启人机协作的新时代。

今日大家都在搜的词: