首页 > 传媒 > 关键词  > 机器视觉最新资讯  > 正文

阿丘科技李嘉悦:大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

2025-04-08 15:40 · 稿源: 站长之家用户

3 月 28 日,由机器视觉产业联盟(CMVU)主办、慕尼黑展览(上海)有限公司承办的VisionChina2025(上海)机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题,发表了精彩演讲。

尊敬的各位来宾,我是嘉悦,来自北京阿丘科技。今天,我将与大家分享《大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化》。

在探讨大模型之前,让我们简单回顾一下工业AI视觉的发展历程。 2019 年被视为工业AI视觉的元年,当时以CNN为主流的小模型路线开始在早期客户中落地。后续一直到 2024 年,工业AI视觉处于一个跨越鸿沟的阶段,AI开始逐渐在各个细分领域和市场中普及,从头部客户到腰部客户,甚至在某些细分行业已经成为标配。到了 2025 年可以说,我们已经基本跨越了这个鸿沟,表现为大部分客户已经认可AI在工业领域的实用性,认可AI在工业检测中的落地能力。

然而这几年虽然认知是变化了,但AI检测应用的增长速度并不算快,呈现出较为线性的增长趋势,远未达到爆发状态,没有形成质变。原因在于小模型技术路线存在一些长期困扰行业的问题:样本收集周期长、模型迭代周期长以及模型泛化能力差。

样本收集方面,工业缺陷样本稀缺,收集周期漫长。模型迭代过程中,非专业工程师在调优模型时常常面临不收敛的问题,导致AI落地周期延长。此外,小模型的泛化能力不足,对于未见过的样本,模型往往无法准确识别,这又回到了样本收集的难题上。这些问题成为了制约AI检测落地和增长的关键因素。

为了解决这些问题,阿丘科技这几年一直在探索和尝试。令人兴奋的是,在去年AI领域出现了一个非常大的技术变量,通用大模型爆发式涌现了。从大家熟悉的OpenAI的ChatGPT,到后来的豆包、Kimi,再到春节期间爆火的DeepSeek, 3 月出现的Manus智能体,这些大模型引发了广泛讨论。我们可以看到,通用AI智能的能力水平正在以惊人的速度提升,可能已经超越了许多普通人的智力和知识水平。虽然通用大模型不直接影响AI检测,但它标志着AI技术已经来到了一个突破点,预示着即将迎来突破性的影响。

回归到工业检测本身,大模型技术的变迁会产生哪些影响呢?对于大模型在工业检测中的应用,存在两种不同的声音。一种较为保守的观点认为,大模型与工业检测无关,它更像一个聊天机器人,可以辅助一些文书类工作,无法适应工业场景的严格的准确性要求。在工业检测中无法发挥作用。另一种较为激进的观点则认为,大模型的能力极其强大,很快就可以直接接入工厂,一步到位实现自动化质检。

而阿丘科技,一直对大模型技术发展进行了长期关注,我们的观点是,大模型确实会加速AI检测范式的转变,但它并不是一个非此即彼的替代关系,我们认为,大模型将进入工业检测领域,并与小模型形成协同关系。

一、什么是大模型、小模型、智能体

接下来,我想简单科普一下什么是大模型、小模型、智能体。

小模型通常指的是传统的深度学习网络,如CNN等,其参数规模较小,通常在万级。小模型在数据处理能力上存在一定限制,对数据量和数据多样性要求较高,对数据质量和一致性的要求也较为严格。这也就是为什么在工业检测中,我们要求标注必须准确无误,否则模型会产生混淆。小模型的知识模态通常是单模态,要么是文本,要么是图像、视频等。其泛化性能相对较差,因为它们只学习了特定的、局部的知识。例如,一个用于车牌识别的小模型,只能进行车牌识别,无法识别其他物体。

相比之下,大模型采用了Transformer等架构,解决了小模型在长时间和远距离依赖问题上的不足。这种架构允许我们通过堆叠海量数据和参数来提升模型能力,参数规模通常达到数十亿甚至上百亿。大模型能够接收批量规模的文本、图像、音频等多模态数据,并对其进行处理。它对数据中的噪声和不一致性具有较强的鲁棒性,即使数据中存在一些错误,也不会对模型产生太大影响。大模型通常是多模态的,如视觉语言模型、听觉语言模型等,具有出色的泛化性能,能够在未见过的数据和新任务上表现出较好的适应性和举一反三的能力。

智能体可以简单理解为大模型应用的一种包装形式,它可以自主完成一系列动作以达成目标,类似于一个辅助人类的小助理。智能体并不是一个单独的模型分类,而是大模型在特定应用方式下的体现。

接下来,我们简单了解一下这些模型是如何训练出来的,这有助于我们理解模型为何具有这样的能力。

首先,无论是小模型还是大模型,都需要经过预处理阶段。在这个阶段,所有的非数字类信息都会被转化为数字信息,以便计算机进行处理。

其次是训练过程。对于小模型来说,训练过程主要是对专业知识的学习,可以采用监督学习或非监督学习的方式,在工业检测领域,监督学习的应用较为广泛。

而对于大模型,其训练过程则有所不同,通常分为两个阶段。首先是预训练阶段。在这个阶段,模型通过大量的互联网信息,以自监督的方式学习通用知识。这个过程通常需要消耗大量资金、算力和时间,因此,当人们提到做大模型烧钱时,通常指的是这个预训练阶段。预训练之后,还有一个关键步骤叫做微调。由于互联网数据可能存在信息不全或不准确,需要通过微调来提升模型的专业度。微调的其中一种方式是人工标注,类似于我们在工业检测中对缺陷进行标注一样,人工标注会告诉模型正确答案,然后模型会根据这些标注数据进行学习。此外,还有一种新兴的方式是强化学习,即通过给模型的答案打分,让模型不断尝试,直到达到较高的分数,从而确定最终答案。这两种方法在实际应用中都有所采用。

前面我们所讨论的大模型概念,通常指的是我们日常接触的一些应用场景,然而,当大模型真正应用于企业时,它可以细分为多个层次。

除了通用大模型,适用于多种任务和生活场景的模型之外,还有行业大模型,这类模型是为特定行业量身定制的,具备该行业的专业性。例如,在煤矿领域的大模型需要了解煤矿行业的各种专业知识;在医疗领域,大模型可以作为医生的助理,具备一定的专业辅助能力。

再往下细分,还有场景大模型,这类模型针对特定的应用场景进行设计,具有更强的专业性。例如,用于磁材检测的大模型、烟草检测的大模型,或者针对某种工艺缺陷检测的大模型等。

最后是场景小模型,这是我们目前应用的主流。它专注于特定场景中的特定任务,在该任务上具有很强的专业性。例如,专门用于检测某一产品某一缺陷项的模型,它可能无法检测其他产品或其他缺陷项,这种场景小模型在日常应用中非常普遍。另外,按技术类型划分,还可以分为单模态和多模态模型。多模态模型结合了多种不同类型的数据,如文本、图像、视频等,具有更强大的理解和生成能力。

在企业应用大模型时,一个关键点是要准确匹配企业自己的实际问题和需求,然后选择合适的模型。我们不能仅仅凭借感觉或偏好来选择模型,不同模型的效果和训练开销存在很大差异,我们要避免“杀鸡用牛刀”或“杀牛用鸡刀”的情况。

二、工业视觉如何运用大小模型?

回到工业视觉领域,要探讨如何合理运用大小模型,我们可以来列举和分析一下它们与工业检测的匹配度。

首先,通用AI大模型是通过大量互联网数据训练出来的,然而,工业数据在互联网上相对较少,尤其是工业质量数据。因此,这类通用大模型在工业检测中的准确度通常较差,直接应用于工业检测的效果并不理想。

相比之下,我们有机会构建专门的工业检测大模型,这类模型类似于行业大模型的层次。通过大量工业数据、文本和图像进行训练,能够学习到各行各业、各种制造领域中不同产品的各种缺陷知识,因此在工业检测领域具有很强的泛化能力。然而,它的准确度和比较准确度存在一定的上限,推理速度也相对较慢。工业检测大模型类似于企业中的综合性人才,对于常见的任务和稍微专业一些的工作,它可以胜任。例如,今天检测一种产品,明天换到另一个车间检测另一种产品,它都能很快适应。这种模型适合于工业场景中典型的工艺,以及对检测指标和速度要求不是特别严格的场景,能够实现即插即用的效果。

接下来是场景大模型,这类模型学习了一定规模的特定范围内的知识,因此在准确度、处理速度和泛化能力方面表现出色。在特定场景内,它可以实现即插即用,应用性非常好。就像直接聘请一位本领域的佼佼者专家,他来了就能直接上手工作。这种模型适用于工艺具有一定代表性、积累了大量同场景不同产品数据的情况,同时待检产品型号较多,需要一定的泛化能力。

然后是小模型,它专注于学习特定的知识,优势在于准确度高和推理速度快。由于它只专注于一个任务,延展能力有限,类似于聘请了一位小学生,专门训练他完成一项任务,他可以将这项任务完成得非常好,而且成本较低。小模型适用于工艺独特、数据较少的场景,或者对检测指标要求较高的情况,以及产品品类有限、不追求泛化能力的场景。

最后是智能体,智能体在工业检测领域可以作为一个自主模型训练的小助手。目前,许多员工在重复性的工作中投入了大量时间,而引入智能体可以大幅降低模型迭代的难度和时间成本。

综合来看,工业市场是一个高度碎片化的市场,各种场景、缺陷类型和指标要求都存在。这意味着在工业检测中,大小模型的协同是一个必然趋势,没有哪一种模型能够完全取代其他模型覆盖所有场景。

同时,协同并不意味着是一种固定的模式,相反,随着技术的快速进步,这一过程一定是动态的。例如,在 2024 年,可能95%以上的应用都是小模型,只有少数企业开始落地场景大模型,并取得了不错的效果。到了今年,大模型的应用正在快速增长,工业检测大模型可能迎来其头个落地场景。预计在未来的2026、2027、 2028 年,大模型系统将处于快速增加的状态,但五年后可能会趋于平稳,三种模型的应用场景分工将逐渐明确和固定下来。此外,模型训练智能体有望在未来一年左右时间内出现在市场上。

三、阿丘科技AI模型产品布局

沿着这些思路,阿丘科技正在布局自己的AI产品序列。首先,我们仍然保留小模型方向的产品,因为在未来几年内,小模型仍将在应用中占据较大比重。我们为这一领域的场景提供开发工具套件,如大家熟悉的AIDI等软件工具型产品,它们追求高精度、高准确度和高速性能。

对于场景大模型类产品,我们直接提供面向特定场景的端到端即插即用模型。除了去年分享过的PCB领域的大模型应用,今年我们还尝试了在磁材、烟草、金属和塑料表面等场景的模型落地,并取得了良好的效果,将落地周期从几个月缩短到了一周左右。

工业检测大模型产品也是我们今年研发的重点。我们称之为AQ-VLM,即阿丘的视觉语言模型,它是基于我们之前积累的所有工业图像数据资产构建的一个智能的基座模型。这个大模型分为两个部分,一个是用于缺陷检测的工业视觉大模型,这个大模型能够在一些常见的通用工业检测场景中实现即插即用。同时,我们还开放了模型微调窗口,只需原来小模型所需数据量的1%左右,就可以快速微调模型,以适应新的领域。

另一个分支是通用缺陷生成模型,同样基于我们积累的高质量工业数据进行训练,并支持提示和参考图结合的方式进行生成。由于工业图像数据对质量要求较高,我们通过文本编码器和图像编码器相结合的方式进行生成,以确保生成的数据能够满足模型训练的要求。

这是一个正在研发中的产品,我们制作了一个小型demo在展台供大家分享。例如您可以导入任意一张图片,然后给它一个指令,比如“请帮我检测这张图像中的脏污”,它能够理解您的意思并框出缺陷的位置。同样,对于缺陷生成模型,您可以输入产品图样,并要求生成某种特定的缺陷,如“请帮我这张图像的右下角生成一个凹陷”。

接下来是智能体的部分。智能体不会作为我们的一个单独的产品品类存在,而是更多地集成到我们的模型训练开发平台中。它的使用模式是将原本许多人工重复性的工作,包括一些需要专业知识的重复性工作,转变为由智能体完成。我们的目标是让人工只需负责保障标准的正确性,其余工作都交由智能体处理。所以智能体可能嵌入在AIDI或阿丘的其他训练平台中。我们相信,未来智能体将成为小模型和大模型训练过程中的核心“人员”。

四、实践案例

最后,我想分享一个实践案例,以帮助大家更好地理解大小模型协同的概念。

我们最近在几个不同的客户中在尝试金属结构件检测的场景。这些客户都已经非常认可AI技术,但仍被一些问题所困扰,如周期过长、模型不收敛等。于是,我们尝试通过VLM和小模型协同的方案,看看是否能够实现模型的复用,从而解决这些问题。

具体来说,我们针对不同的缺陷类型采取了不同的策略。对于明显的缺陷,我们可以直接使用大模型进行检测。例如,金属表面上的压伤是一种非常典型的缺陷类型,大模型此前已经经过充分学习,我们可以直接输入指令,如“帮我检测一下压伤”,模型就能直接识别出压伤,无需额外训练。

对于不那么明显但相对常见的缺陷,如果我有一些样本数据,我们可以采用VLM加上微调的方法来实现检测。例如,划伤也是一种常见缺陷,但在某些场景中,划伤可能很轻,看起来对比度很低,模型之前没有学习过如此轻微的划伤。我们可以通过微调,将这些对比度很低的划伤样本数据额外输入模型,使其能够顺利识别出这种划伤。

第三种情况是缺陷既不明显又较为罕见,几乎没有通用性。针对这种情况,我们采用生成式AI结合小模型和智能体的方法来解决。我们可以给生成模型输入一张良品图,再结合真实的缺陷参考图,然后输入一个指令,如“帮我生成一个类似的缺陷”,模型会理解您的意思,并生成一个形态不同但看起来较为真实的缺陷图像。然后,我们将这些真实图和生成图作为训练数据集输入到AIDI中进行训练,这个过程可以利用智能体来辅助。最终,我们可以在场景中实现实现对缺陷的良好识别。

总结来说,对于明显的缺陷,我们全部使用大模型VLM解决;对于不明显但常见的缺陷,我们使用VLM加微调的方法;对于不明显且罕见的缺陷,我们采用生成大模型+小模型+智能体的方式。当然,这些模型的能力边界是动态变化的,因此,我们的方案也保持一定的开放性,例如也许对明显且长尾的缺陷可以采用非监督小模型,这些都有很多可能性,这些也是我们会持续关注的方向。

最后总结一下,去年展会演讲时,我们老板说过一句话:“不会用AI的将会被用AI的淘汰。”今年,在这个快速变化的时代,我要补充一句:“AI工业视觉的格局正在加速变革,不会用大模型的将会被善用大模型的人淘汰。”

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 腾讯大模型战略首次全景亮相!智能体平台重磅上线,从“落地可用”到“智能协同”

    ​智能体的开发门槛,又又又被打下来了! 昨天,腾讯云在他们的AI产业应用峰会上,正式上线了全新的智能体开发平台,率先在行业内实现零代码配置多智能体协同构建。 除了上线智能体开发平台,腾讯云也对从AI Infra到模型到应用的整个体系来了波全面升级。 包括混元系列大模型,也迎来了重磅更新。 腾讯云副总裁吴永坚对量子位表示:“腾讯云在智能体领域的产品布局

  • 九四智能亮相大阪,AI大模型驱动全球企业实现智能化转型

    2025年5月28-29日,九四智能(94AI)将携自主研发的"大模型联络中心"解决方案亮相大阪"2025呼叫中心CRM演示和会议"。该方案通过AI Agent技术实现从用户触达、需求挖掘到服务闭环的全流程自动化,助力企业重构客户服务与运营效率。作为智能语音领域领军企业,九四智能已在金融、电商、保险等行业积累创新实践,其解决方案支持多语种与文化适配,满足GDPR等全球合规要求。会议重点探讨了数字化转型背景下AI与CRM系统的深度融合,展示了AI在跨境场景中的语言、文化及合规优势。未来,九四智能将持续推动全球企业智能化转型。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • 大模型联络中心+混合云,九四智能重塑银行用户运营新范式

    文章探讨了银行业在数字化转型中面临的运营难题:个性化需求增长与私有云资源不足的矛盾。传统运营模式在信用卡营销、理财服务等场景面临效率瓶颈,而私有云架构响应慢、扩展能力受限。解决方案提出"大模型联络中心+混合云"的智能运营体系:1)AI大模型电话可处理80%标准化场景,降低人工压力;2)混合云部署实现数据安全与弹性资源调配;3)智能风控系统通过�

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 大模型时代:内容产业智变新浪潮

    腾讯研究院院长司晓在第15届中国(深圳)国际文化产业博览交易会上发表演讲,指出大模型技术正推动文化内容生产从"专业主导"转向"全民共创"。大模型已从工具赋能升级为生态重构,显著提升内容生产效率和质量,如腾讯混元模型支持实时图像生成与调整。AI技术加速影视、音乐等内容创作,如上海民族乐团与腾讯音乐合作的AI音乐会《零·壹 | 中国色》。同时,大模型在理解与交互能力上取得突破,如GPT-4o能准确识别物体细节。腾讯通过"探元计划"推动科技与文化融合,如"云游敦煌"等项目。未来,AI将实现"智力即服务",大幅提升创作效率和质量,推动文化内容产业进入"千人千面"新时代。

  • 超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

  • 东风汽车奕派007接入豆包大模型

    东风汽车旗下电动品牌奕派推出2025款奕派007,全面接入豆包大模型,实现三大智能化创新:1)毫秒级响应的全场景语音交互,支持10个高频指令同时处理;2)"情绪管家"模式可主动提供娱乐内容调节驾乘情绪;3)结合AIGC技术实现旅途画面一键艺术化创作分享。该车型通过智能决策能力和个性化服务重构人车关系,定位为Z世代"AI搭子"。未来将与火山引擎合作探索更多智能出行场景,构建差异化竞争力。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。