阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

2025-04-08 15:40 · 稿源：站长之家用户

3 月 28 日，由机器视觉产业联盟(CMVU)主办、慕尼黑展览(上海)有限公司承办的VisionChina2025(上海)机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场，围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题，发表了精彩演讲。

尊敬的各位来宾，我是嘉悦，来自北京阿丘科技。今天，我将与大家分享《大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化》。

在探讨大模型之前，让我们简单回顾一下工业AI视觉的发展历程。 2019 年被视为工业AI视觉的元年，当时以CNN为主流的小模型路线开始在早期客户中落地。后续一直到 2024 年，工业AI视觉处于一个跨越鸿沟的阶段，AI开始逐渐在各个细分领域和市场中普及，从头部客户到腰部客户，甚至在某些细分行业已经成为标配。到了 2025 年可以说，我们已经基本跨越了这个鸿沟，表现为大部分客户已经认可AI在工业领域的实用性，认可AI在工业检测中的落地能力。

然而这几年虽然认知是变化了，但AI检测应用的增长速度并不算快，呈现出较为线性的增长趋势，远未达到爆发状态，没有形成质变。原因在于小模型技术路线存在一些长期困扰行业的问题:样本收集周期长、模型迭代周期长以及模型泛化能力差。

样本收集方面，工业缺陷样本稀缺，收集周期漫长。模型迭代过程中，非专业工程师在调优模型时常常面临不收敛的问题，导致AI落地周期延长。此外，小模型的泛化能力不足，对于未见过的样本，模型往往无法准确识别，这又回到了样本收集的难题上。这些问题成为了制约AI检测落地和增长的关键因素。

为了解决这些问题，阿丘科技这几年一直在探索和尝试。令人兴奋的是，在去年AI领域出现了一个非常大的技术变量，通用大模型爆发式涌现了。从大家熟悉的OpenAI的ChatGPT，到后来的豆包、Kimi，再到春节期间爆火的DeepSeek， 3 月出现的Manus智能体，这些大模型引发了广泛讨论。我们可以看到，通用AI智能的能力水平正在以惊人的速度提升，可能已经超越了许多普通人的智力和知识水平。虽然通用大模型不直接影响AI检测，但它标志着AI技术已经来到了一个突破点，预示着即将迎来突破性的影响。

回归到工业检测本身，大模型技术的变迁会产生哪些影响呢?对于大模型在工业检测中的应用，存在两种不同的声音。一种较为保守的观点认为，大模型与工业检测无关，它更像一个聊天机器人，可以辅助一些文书类工作，无法适应工业场景的严格的准确性要求。在工业检测中无法发挥作用。另一种较为激进的观点则认为，大模型的能力极其强大，很快就可以直接接入工厂，一步到位实现自动化质检。

而阿丘科技，一直对大模型技术发展进行了长期关注，我们的观点是，大模型确实会加速AI检测范式的转变，但它并不是一个非此即彼的替代关系，我们认为，大模型将进入工业检测领域，并与小模型形成协同关系。

一、什么是大模型、小模型、智能体

接下来，我想简单科普一下什么是大模型、小模型、智能体。

小模型通常指的是传统的深度学习网络，如CNN等，其参数规模较小，通常在万级。小模型在数据处理能力上存在一定限制，对数据量和数据多样性要求较高，对数据质量和一致性的要求也较为严格。这也就是为什么在工业检测中，我们要求标注必须准确无误，否则模型会产生混淆。小模型的知识模态通常是单模态，要么是文本，要么是图像、视频等。其泛化性能相对较差，因为它们只学习了特定的、局部的知识。例如，一个用于车牌识别的小模型，只能进行车牌识别，无法识别其他物体。

相比之下，大模型采用了Transformer等架构，解决了小模型在长时间和远距离依赖问题上的不足。这种架构允许我们通过堆叠海量数据和参数来提升模型能力，参数规模通常达到数十亿甚至上百亿。大模型能够接收批量规模的文本、图像、音频等多模态数据，并对其进行处理。它对数据中的噪声和不一致性具有较强的鲁棒性，即使数据中存在一些错误，也不会对模型产生太大影响。大模型通常是多模态的，如视觉语言模型、听觉语言模型等，具有出色的泛化性能，能够在未见过的数据和新任务上表现出较好的适应性和举一反三的能力。

智能体可以简单理解为大模型应用的一种包装形式，它可以自主完成一系列动作以达成目标，类似于一个辅助人类的小助理。智能体并不是一个单独的模型分类，而是大模型在特定应用方式下的体现。

接下来，我们简单了解一下这些模型是如何训练出来的，这有助于我们理解模型为何具有这样的能力。

首先，无论是小模型还是大模型，都需要经过预处理阶段。在这个阶段，所有的非数字类信息都会被转化为数字信息，以便计算机进行处理。

其次是训练过程。对于小模型来说，训练过程主要是对专业知识的学习，可以采用监督学习或非监督学习的方式，在工业检测领域，监督学习的应用较为广泛。

而对于大模型，其训练过程则有所不同，通常分为两个阶段。首先是预训练阶段。在这个阶段，模型通过大量的互联网信息，以自监督的方式学习通用知识。这个过程通常需要消耗大量资金、算力和时间，因此，当人们提到做大模型烧钱时，通常指的是这个预训练阶段。预训练之后，还有一个关键步骤叫做微调。由于互联网数据可能存在信息不全或不准确，需要通过微调来提升模型的专业度。微调的其中一种方式是人工标注，类似于我们在工业检测中对缺陷进行标注一样，人工标注会告诉模型正确答案，然后模型会根据这些标注数据进行学习。此外，还有一种新兴的方式是强化学习，即通过给模型的答案打分，让模型不断尝试，直到达到较高的分数，从而确定最终答案。这两种方法在实际应用中都有所采用。

前面我们所讨论的大模型概念，通常指的是我们日常接触的一些应用场景，然而，当大模型真正应用于企业时，它可以细分为多个层次。

除了通用大模型，适用于多种任务和生活场景的模型之外，还有行业大模型，这类模型是为特定行业量身定制的，具备该行业的专业性。例如，在煤矿领域的大模型需要了解煤矿行业的各种专业知识;在医疗领域，大模型可以作为医生的助理，具备一定的专业辅助能力。

再往下细分，还有场景大模型，这类模型针对特定的应用场景进行设计，具有更强的专业性。例如，用于磁材检测的大模型、烟草检测的大模型，或者针对某种工艺缺陷检测的大模型等。

最后是场景小模型，这是我们目前应用的主流。它专注于特定场景中的特定任务，在该任务上具有很强的专业性。例如，专门用于检测某一产品某一缺陷项的模型，它可能无法检测其他产品或其他缺陷项，这种场景小模型在日常应用中非常普遍。另外，按技术类型划分，还可以分为单模态和多模态模型。多模态模型结合了多种不同类型的数据，如文本、图像、视频等，具有更强大的理解和生成能力。

在企业应用大模型时，一个关键点是要准确匹配企业自己的实际问题和需求，然后选择合适的模型。我们不能仅仅凭借感觉或偏好来选择模型，不同模型的效果和训练开销存在很大差异，我们要避免“杀鸡用牛刀”或“杀牛用鸡刀”的情况。

二、工业视觉如何运用大小模型?

回到工业视觉领域，要探讨如何合理运用大小模型，我们可以来列举和分析一下它们与工业检测的匹配度。

首先，通用AI大模型是通过大量互联网数据训练出来的，然而，工业数据在互联网上相对较少，尤其是工业质量数据。因此，这类通用大模型在工业检测中的准确度通常较差，直接应用于工业检测的效果并不理想。

相比之下，我们有机会构建专门的工业检测大模型，这类模型类似于行业大模型的层次。通过大量工业数据、文本和图像进行训练，能够学习到各行各业、各种制造领域中不同产品的各种缺陷知识，因此在工业检测领域具有很强的泛化能力。然而，它的准确度和比较准确度存在一定的上限，推理速度也相对较慢。工业检测大模型类似于企业中的综合性人才，对于常见的任务和稍微专业一些的工作，它可以胜任。例如，今天检测一种产品，明天换到另一个车间检测另一种产品，它都能很快适应。这种模型适合于工业场景中典型的工艺，以及对检测指标和速度要求不是特别严格的场景，能够实现即插即用的效果。

接下来是场景大模型，这类模型学习了一定规模的特定范围内的知识，因此在准确度、处理速度和泛化能力方面表现出色。在特定场景内，它可以实现即插即用，应用性非常好。就像直接聘请一位本领域的佼佼者专家，他来了就能直接上手工作。这种模型适用于工艺具有一定代表性、积累了大量同场景不同产品数据的情况，同时待检产品型号较多，需要一定的泛化能力。

然后是小模型，它专注于学习特定的知识，优势在于准确度高和推理速度快。由于它只专注于一个任务，延展能力有限，类似于聘请了一位小学生，专门训练他完成一项任务，他可以将这项任务完成得非常好，而且成本较低。小模型适用于工艺独特、数据较少的场景，或者对检测指标要求较高的情况，以及产品品类有限、不追求泛化能力的场景。

最后是智能体，智能体在工业检测领域可以作为一个自主模型训练的小助手。目前，许多员工在重复性的工作中投入了大量时间，而引入智能体可以大幅降低模型迭代的难度和时间成本。

综合来看，工业市场是一个高度碎片化的市场，各种场景、缺陷类型和指标要求都存在。这意味着在工业检测中，大小模型的协同是一个必然趋势，没有哪一种模型能够完全取代其他模型覆盖所有场景。

同时，协同并不意味着是一种固定的模式，相反，随着技术的快速进步，这一过程一定是动态的。例如，在 2024 年，可能95%以上的应用都是小模型，只有少数企业开始落地场景大模型，并取得了不错的效果。到了今年，大模型的应用正在快速增长，工业检测大模型可能迎来其头个落地场景。预计在未来的2026、2027、 2028 年，大模型系统将处于快速增加的状态，但五年后可能会趋于平稳，三种模型的应用场景分工将逐渐明确和固定下来。此外，模型训练智能体有望在未来一年左右时间内出现在市场上。

三、阿丘科技AI模型产品布局

沿着这些思路，阿丘科技正在布局自己的AI产品序列。首先，我们仍然保留小模型方向的产品，因为在未来几年内，小模型仍将在应用中占据较大比重。我们为这一领域的场景提供开发工具套件，如大家熟悉的AIDI等软件工具型产品，它们追求高精度、高准确度和高速性能。

对于场景大模型类产品，我们直接提供面向特定场景的端到端即插即用模型。除了去年分享过的PCB领域的大模型应用，今年我们还尝试了在磁材、烟草、金属和塑料表面等场景的模型落地，并取得了良好的效果，将落地周期从几个月缩短到了一周左右。

工业检测大模型产品也是我们今年研发的重点。我们称之为AQ-VLM，即阿丘的视觉语言模型，它是基于我们之前积累的所有工业图像数据资产构建的一个智能的基座模型。这个大模型分为两个部分，一个是用于缺陷检测的工业视觉大模型，这个大模型能够在一些常见的通用工业检测场景中实现即插即用。同时，我们还开放了模型微调窗口，只需原来小模型所需数据量的1%左右，就可以快速微调模型，以适应新的领域。

另一个分支是通用缺陷生成模型，同样基于我们积累的高质量工业数据进行训练，并支持提示和参考图结合的方式进行生成。由于工业图像数据对质量要求较高，我们通过文本编码器和图像编码器相结合的方式进行生成，以确保生成的数据能够满足模型训练的要求。

这是一个正在研发中的产品，我们制作了一个小型demo在展台供大家分享。例如您可以导入任意一张图片，然后给它一个指令，比如“请帮我检测这张图像中的脏污”，它能够理解您的意思并框出缺陷的位置。同样，对于缺陷生成模型，您可以输入产品图样，并要求生成某种特定的缺陷，如“请帮我这张图像的右下角生成一个凹陷”。

接下来是智能体的部分。智能体不会作为我们的一个单独的产品品类存在，而是更多地集成到我们的模型训练开发平台中。它的使用模式是将原本许多人工重复性的工作，包括一些需要专业知识的重复性工作，转变为由智能体完成。我们的目标是让人工只需负责保障标准的正确性，其余工作都交由智能体处理。所以智能体可能嵌入在AIDI或阿丘的其他训练平台中。我们相信，未来智能体将成为小模型和大模型训练过程中的核心“人员”。

四、实践案例

最后，我想分享一个实践案例，以帮助大家更好地理解大小模型协同的概念。

我们最近在几个不同的客户中在尝试金属结构件检测的场景。这些客户都已经非常认可AI技术，但仍被一些问题所困扰，如周期过长、模型不收敛等。于是，我们尝试通过VLM和小模型协同的方案，看看是否能够实现模型的复用，从而解决这些问题。

具体来说，我们针对不同的缺陷类型采取了不同的策略。对于明显的缺陷，我们可以直接使用大模型进行检测。例如，金属表面上的压伤是一种非常典型的缺陷类型，大模型此前已经经过充分学习，我们可以直接输入指令，如“帮我检测一下压伤”，模型就能直接识别出压伤，无需额外训练。

对于不那么明显但相对常见的缺陷，如果我有一些样本数据，我们可以采用VLM加上微调的方法来实现检测。例如，划伤也是一种常见缺陷，但在某些场景中，划伤可能很轻，看起来对比度很低，模型之前没有学习过如此轻微的划伤。我们可以通过微调，将这些对比度很低的划伤样本数据额外输入模型，使其能够顺利识别出这种划伤。

第三种情况是缺陷既不明显又较为罕见，几乎没有通用性。针对这种情况，我们采用生成式AI结合小模型和智能体的方法来解决。我们可以给生成模型输入一张良品图，再结合真实的缺陷参考图，然后输入一个指令，如“帮我生成一个类似的缺陷”，模型会理解您的意思，并生成一个形态不同但看起来较为真实的缺陷图像。然后，我们将这些真实图和生成图作为训练数据集输入到AIDI中进行训练，这个过程可以利用智能体来辅助。最终，我们可以在场景中实现实现对缺陷的良好识别。

总结来说，对于明显的缺陷，我们全部使用大模型VLM解决;对于不明显但常见的缺陷，我们使用VLM加微调的方法;对于不明显且罕见的缺陷，我们采用生成大模型+小模型+智能体的方式。当然，这些模型的能力边界是动态变化的，因此，我们的方案也保持一定的开放性，例如也许对明显且长尾的缺陷可以采用非监督小模型，这些都有很多可能性，这些也是我们会持续关注的方向。

最后总结一下，去年展会演讲时，我们老板说过一句话:“不会用AI的将会被用AI的淘汰。”今年，在这个快速变化的时代，我要补充一句:“AI工业视觉的格局正在加速变革，不会用大模型的将会被善用大模型的人淘汰。”

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5，实现秒级高质量视频生成，支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升，覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手，降低使用门槛，用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用，加速行业落地。

AI视频生成 PixVerse V5
AI大模型费用计算器：新手如何避开工具选择的三大坑

文章指出AI初学者常陷入三个陷阱：盲目选择昂贵工具、被华丽宣传迷惑、忽视隐藏成本。建议使用AIbase.cn等专业平台进行系统化评估，通过费用计算器对比主流模型成本，基于实际需求而非营销话术做决策。关键是要先对比分析再试用，找到真正契合业务需求的解决方案，避免资源浪费。
将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

AI项目规模化应用面临不可预测的运营成本挑战，尤其是大模型API调用费用难以精准预测，导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移，在项目可行性分析阶段引入AIbase等成本计算工具，实现成本可视化，支持技术选型和预算建模，从被动应对转向主动管理，提升AI应用的经济性和可持续竞争力。

数字化转型人工智能运营成本
百度第一！百度智能云一见领跑视觉大模型赛道

IDC最新报告显示，百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型，在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著，已服务餐饮、钢铁、电力等20多个行业，帮助数百家企业实现生产全环节的数字化管理。典型案例包括：为风电集团构建安全管控系统，巡检效率提升6-10倍；与中钢研合作金相分析模型，检测准确率达95%；助力连锁餐饮实现全国1000+门店服务质量量化管理，订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构，在保障精度的同时大幅降低应用成本，推动专业级视觉AI应用普及。

视觉大模型 IDC报告百度智能云
AI大模型费用计算器：新手如何不再为选择工具而头疼

文章探讨了AI工具选择困境，推荐使用AIbase.cn导航站。该站通过分类筛选、标签过滤和对比功能，帮助用户快速找到合适工具，避免信息过载。强调技术应服务于人，好的工具应降低使用门槛，而非增加困惑。
汪喵灵灵亮相亚宠论坛，AI大模型破解异宠医疗资源困局

2025年亚洲宠物展“亚洲小宠生态论坛”近日举办，汪喵灵灵创始人Luke受邀出席，分享AI宠物医疗大模型如何解决行业资源短缺、推动服务普惠化。该平台覆盖20多种宠物诊疗，通过解析海量文献建立健康档案系统，提供免费问诊与科学养护建议，降低养宠门槛。2024年已通过国家算法备案，成为业内首个合规认证的宠物健康大模型，致力于让每只宠物享有平等医疗关怀。

宠物AI医疗亚洲宠物展览会小宠生态论坛
AI应用太烧钱？我们用一款精准的AI大模型费用计算器做出了清晰预算

初创团队“智询未来”在开发AI问答应用时面临核心模型选择困境：GPT-4-turbo能力强但价高，Claude-3长文本处理优，Llama-3成本低但性能稍弱。通过AIbase成本计算器精准测算，发现Claude-3-Sonnet性价比最优，每月可省近4000元，还能通过优化提示词进一步降本15%。数据驱动的决策让团队将节省预算投入数据安全和提示词优化，凸显成本测算对初创企业技术选型的重要性。
最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

在最近与科隆国际游戏展同期举办的Devcom开发者大会上，AI再次赚足了脸面。微软、腾讯、谷歌、Meta等国际巨头带来超过20场AI相关议题，“AI如何提升游戏美术生产效率”、“AI工具如何与传统工作流无缝集成”、“AI在动画生成、场景构建等具体环节的应用案例”成为开发者们探讨的重点内容。近年来，游戏美术对精细度的要求呈现指数级增长。随之而来的是几何级增长的

AI 游戏美术生产效率
宜人智科携“智语大模型”惊艳WAIC，展示AI赋能千行百业新成果

宜人智科作为AI驱动的数智化科技服务商，近期在世博中心展区展示多项前沿成果，全面呈现其在人工智能领域的创新实力与应用突破。公司CEO唐宁出席行业论坛，分享AI技术助力企业智能化转型的实践路径，展望AI在企业数智化进程中的新方向。宜人智科重点构建超级智能体平台，打造高效“硅基同事”，并推广“人人皆可AI”文化，通过自研工具提升工作效率。其自主研发的

人工智能数智化 AI技术
如何精准计算AI大模型调用成本？复杂参数太多，预算总超支怎么办？

文章探讨了AI模型调用成本管理的痛点，包括GPT-4等模型复杂的计费规则（如Token分级、上下文溢价、多模态叠加收费）导致实际成本常超预算40%。提出AIbase计算器三步解决方案：自动匹配场景参数、实时联动报价、明细成本拆解。通过跨境电商客服和高校实验室案例验证工具有效性，强调数据溯源、用量预警和预算缓冲功能，帮助开发者实现精准成本控制，告别手动制表与定�

AI模型成本 GPT-4定价 Claude3降价

今日大家都在搜的词：

热文

3 天
7天

阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

AI大模型费用计算器：新手如何避开工具选择的三大坑

将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

百度第一！百度智能云一见领跑视觉大模型赛道

AI大模型费用计算器：新手如何不再为选择工具而头疼

汪喵灵灵亮相亚宠论坛，AI大模型破解异宠医疗资源困局

AI应用太烧钱？我们用一款精准的AI大模型费用计算器做出了清晰预算

最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

宜人智科携“智语大模型”惊艳WAIC，展示AI赋能千行百业新成果

如何精准计算AI大模型调用成本？复杂参数太多，预算总超支怎么办？

今日大家都在搜的词：

热文

华为MatePad Mini官宣9月4日发布

今日七夕节微信 520 元大额红包限时上线

史上最大Mate！华为智慧屏MateTV将于9月4日发布

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为上半年营收4270亿元同比增长3.95%：净利润371.95亿元

小米回应升级Beta后手机很烫：系统编译致短期功耗增加

迷你LABUBU开售后卖爆多平台已售罄：电商平台销量破百万

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

站长商机