首页 > 传媒 > 关键词  > 智能客服机器人最新资讯  > 正文

Sobot 智齿科技:AIGC给「构建企业知识库」带来的改变

2023-06-13 14:35 · 稿源: 站长之家用户

智能客服机器人的核心是企业知识,而企业知识获取的核心步骤,是企业知识库的构建。

构建逻辑是:结构化企业数据,存入企业问答知识库。之后,根据知识库进行线上的FAQ问答(基于常见问答对的)、MRC问答(基于机器阅读的)等,对应构建形成 {问题:答案}、{文档}等知识库。

过往,这种企业知识库的构建,都是离线的、耗时的、需要人工反复校验的。尤其是上线后,为了提高机器人的问答准确率,就需要运营人员基于具体业务去持续做优化,如用户关键词抽取、实体抽取、同义词理解等等,耗时很多。

在AIGC时代,这一切都将改变。

构建知识库的速度和问答准确率,都将极大提升。主要是因为数据来源更容易无限扩展,不再局限于结构化、半结构化的企业文档,说明书,文字、语音、图片、视频等都可以被快速提取出有效信息,输入给大型预训练语言模型理解后问答,或者直接存储到知识库中,搜索后推出,也可二者结合。

1. FAQ文本知识库

FAQ(Frequently Asked Questions),即常见问题解答,是指整理和归纳常见问题及其对应答案的文档或资源集合。这些问题通常是某个业务场景下,客户会经常遇到的问题,可以帮助客服机器人快速、准确地解决常见问题,提升客户满意度。

FAQ文本知识库的创建、扩写对运营岗位的消耗较大。举个简单的例子:

query: “工作过多个城市,现在如何查询自己的公积金是属于哪个公积金中心?”。

我们需要对这个query扩展相似问,自动生成多个相似问。通过这种方式快速丰富知识库问题,同时提高实际线上问答的语义搜索结果可靠性。

就在这个过程中,扩展生成的相似问,需要经过多步自动化校验,包括答案一致性校验、口语化校验、相似性校验、属性分类校验等等。

答案一致性校验是指“从扩展的相似问题中,那些与原始query的标准答案相关,且该标准答案能对其进行解答的问题”。这样,它们有可能组成标准问题-相似问题对,答案也相同。

下面是通过答案一致性校验的相似问:

通过答案一致性校验后,还是会有很多问题。例如:

很多问题是有效问题,却不是该业务下的常见表述,简单来说就是不够口语化。这些问题,不仅会增加知识库的冗余,还会影响其他业务的搜索结果。针对这类问题还需要进行口语化校验,校验后保留如下:

经过上述校验的问答对,往往还会存在一个问题,就是相似性过高。这些问题,往往只是简单换了个词汇,存储知识库的必要性低。因此,我们还需要做一轮相似性校验,具体来说,就是根据业务特性设定去除和保留比例,通过聚类、相似度计算去除冗余部分。校验后保留如下:

可以看到,经过系列校验后,保留下来的相似问已经有很高的质量了。

在知识库的的构建方面,除了标准问、相似问的生成,还必须关注业务覆盖率这个指标,一般来说,业务覆盖率越高,知识库的质量也越高。

例如,“公积金”查询会涉及地点、时间、金额、查询方式、缴费方式等问题维度,维度越多,覆盖率就越高。

举个例子:可对“公积金归属地查询”这个原始问题拓展出的所有相似问题,进行分类,进一步发现更多有价值的句子。从下面分类结果看到,其中的类别 1 和原始问题答案相同,其他类别下的问题,是“公积金”相关的其他维度的业务问题,只是答案和原始问题的可能不同。那么,这些句子如果能加入知识库,就拓展了“公积金”相关的业务覆盖率。

对上面初始拓展的 39 个问题,分类如下:

类别1:公积金归属地的基本查询。

询问如何查询公积金的归属地,包括城市、地区、省份、县、区等,关注点寻找基本的位置信息。

分类结果包含:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 16, 18, 19, 21, 22, 24, 25, 27, 28, 30, 31, 33, 34, 37。

类别2:公积金归属地查询的具体步骤和流程

关注查询公积金归属地的步骤、流程,关注点是更详细的查询指导。

分类结果包含:11, 23。

类别3:公积金归属地查询的工具和平台

询问关于查询公积金归属地的工具、软件、系统、平台、网址等,关注点是查询工具和平台的选择。

分类结果包含:14, 17, 20, 26, 29, 32, 35, 38。

类别4:公积金归属地的详细信息查询

询问如何查询公积金归属地的具体地址、邮编、电话号码、邮寄地址等详细信息,关注点获取更具体的信息。

分类结果包含:15, 24, 27, 30, 33, 36, 39。

上面分类后的类别2、类别3、类别4,是经过答案一致性校验后,被排除的。查询知识库如果有相似query或答案,可进入到下一轮的自动化校验,对符合条件的可人工校验入库。另外,新增的这些问题,还可做预测性的FAQ  (PFAQ),预测用户可能会遇到的问题,并提前提供问答。

2. MRC文本知识库

MRC问答,也就是机器阅读理解(Machine Reading Comprehension)的问答,系统通过阅读和理解自然语言文本,并根据这些文本回答给定的问题。在我们的机器人中,是将query和与它最相关的文本块给与LLM,输出answer。

通过文档上传,文档切片分块,向量化存储后,即可语义搜索。问答时,根据文档搜索结果和query一起加入Prompt,输入LLM理解后回答。

受限于语言模型的理解能力,过往的MRC的问答效果一般。现在,结合LLM模型, 文档理解和问答的准确性,已经能解决常见问题。

在智能问答客服机器人中,为进一步提高问答效果,对于分块文档,还可增加问答对的抽取。一方面结合原始的分块文档,可以提高query理解的准确性,另一方面,对于文档切片后引起的块内知识不完全,是个很好的补充。

常用的tricks,比如在原有的文档切片的基础上,提取摘要、关键词、关键句等信息,作为补充,也可提取问答对作为补充。

问答对的提取如下,例如分块后的文档如下:

进行问答对抽取,得到如下:

通过对切片后的文档进行问答对抽取,可以快速完成多源数据的知识库构建。

更重要的是,这种文档的直接切片分块,知识构建,在文档上传后,即可进行智能问答。好处是,快速更新的企业知识,也能够快速应用在业务中。

以上方法构建的企业知识库,生成校验极快。并且在机器人的问答准确性上,结合模型强大的理解能力,语义搜索后的多个潜在答案通过LLM进一步加工,答案准确性非常高。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • AIGC智能体生态大会聚焦AI融合,微美全息(WIMI.US)构建多维AIGC+赋能产业创新

    第二届AIGC与人工智能体生态大会在上海召开,主题为"智链万物·共生无界"。大会汇聚100+国内外顶尖企业和300+行业决策者,聚焦生成式AI与智能体的协同创新,探讨多模态大模型、智能体决策框架等核心技术。微美全息(WIMI.US)展示了AIGC+AI战略布局,构建跨模态内容生产平台,应用于教育、直播等领域。会议指出AIGC技术正从工具向生产力引擎进化,推动行业智能化转型�

  • 直击企业痛点 全球制造链+科技巨头聚焦GPTBots.ai

    在2025深圳国际人工智能展上,极光旗下企业级AI Agent平台GPTBots成为焦点。该平台展示了在制造业智能化升级中的解决方案,包括构建企业知识搜索引擎、自动化办公流程及跨境商务沟通等应用场景。展会期间,平台吸引了苹果等科技巨头及多国企业代表关注,探讨了AI在供应链管理、项目监控等领域的落地实践。GPTBots凭借模块化架构和安全部署能力,已服务金融、制造等十余个行业客户,助力企业实现降本增效和智能化转型。

  • 极氪接入通义千问3,知识库问答命中率达98%

    极氪汽车接入通义千问3大模型,打造专属知识库"极氪知道",问答准确率达98%。基于阿里云平台调用Qwen3-235B-A22B大模型,构建图文视三位一体的知识呈现系统,可提供标准化文本介绍及多媒体资源。通义千问3的快慢思考融合架构能提供更富逻辑性的车辆对比介绍,提升客户决策体验。极氪车联网、APP等核心业务已运行在阿里云平台。

  • 网上垃圾信息太多了!马斯克刚刚宣布一件大事:Grok 4将重写人类所有知识库

    马斯克宣布将用新一代AI模型Grok 3.5/4重写人类知识库,修正错误内容并补充缺失信息,再基于"纯净版"知识库重新训练模型。他认为当前AI模型训练数据存在太多"垃圾",Grok将充当人类知识的审核员和补充者,具备识别知识库错误的高级推理能力。文章指出AI存在虚构细节的问题,这些虚假内容可能被重新训练进模型,导致真假难辨。这反映了当下AI发展面临的核心矛盾:技术进步与内容真实性的博弈。

  • AI设计工具是设计师的梦魇还是福音?家居AIGC平台「暗壳科技」希望引发效率革命

    暗壳科技推出的家居AIGC平台引发行业热议。该平台基于深度学习技术,能在几分钟内根据用户需求生成多套高质量设计方案,支持3D效果图实时渲染,将传统设计流程从数周缩短至几分钟。平台提供"AI辅助协作"功能,设计师可快速调整机器生成的草图,将方案修改时间从几小时压缩至几分钟。有工作室反馈使用后客户提案通过率提升40%。争议焦点在于:AI会取代设计师�

  • YY 直播首部 AIGC 真人短剧上线!实现了制作效率与成本控制的双重突破

    YY直播旗下短剧厂牌麦芬推出首部AIGC真人短剧《权谋之帝王心术》,取材于平台主播真实故事,联合百度AIGC技术实现剧本创作与视觉制作的智能化。该剧制作成本较传统模式降低58%,周期缩短53%,通过多平台分发扩大传播范围。作为"生态短剧"创新尝试,既展现YY在内容领域的深耕,也验证了AIGC技术在影视制作中的降本增效能力,为行业探索"真实生态+智能技术"的内容生产新模式提供了实践样本。

  • 2025MWC | 途鸽科技发布全球eSIM IoT解决方案,助力中国IoT企业扬帆全球

    途鸽科技在2025 MWC大会上发布全球一站式eSIM IoT解决方案,助力中国企业全球化布局。该方案无需实体SIM卡,支持全球350+运营商资源覆盖200+国家,实现智能选网、远程管理和统一平台运维。CEO张衡表示,eSIM技术将重构物联网连接生态,预计2026年60%物联网设备将采用eSIM。方案已应用于智能穿戴、车载通信等领域,推动中国制造企业出海。途鸽将持续深化eSIM技术投入,构建全球�

  • 全民共创、内容出圈,海艺AI回归重塑AIGC娱乐生态格局

    曾登顶全球AI图片生成榜首的海艺AI(SeaArt)正式回归国内市场。该平台不仅带来全球领先的AI生成技术,更创新提出"娱乐化创作"新范式:免费、好玩、零门槛,让AI创作从专业领域走向全民狂欢。平台拥有80万+模型,覆盖写实、二次元、插画等全风格创作场景,其自研模型SeaArt Film擅长图文融合设计,Infinity模型全球调用量超8300万次。海艺还构建了300+AI应用模板的泛娱乐创作社区,用户平均出图时间<8秒。平台创新推出数字人系统,兼具工具型助手和陪伴型聊天功能,让AI不仅是工具,更成为灵感加速器。海艺致力于打造免费好玩的娱乐型创作社区,让AI创作变成人人都能享受的快乐。

  • YY直播首部AIGC短剧上线:借助百度技术优势 强化生态短剧概念

    YY直播旗下短剧厂牌麦穗上线首部AIGC短剧《权谋之帝王心术》,该剧基于YY主播真实生态故事改编,以主播为人物原型,百度AIGC参与剧本创作并完成视觉呈现,制作成本和周期较真人短剧下降超50%。作为直播行业首部AIGC真人短剧,YY借助百度技术优势参与"百剧计划"重点项目。该剧共4部,首部6月17日上线,用户可通过YY等平台观看。麦穗厂牌主打生态短剧概念,已上线多部原创作品,深度植入YY生态故事并由主播出演主角。通过AIGC技术,该剧制作成本降低58%,周期缩短53%,避免了档期、场地等传统制作难题。未来YY将持续深化"生态故事+AIGC+多平台分发"的特色短剧运营模式。

  • 女生拔智齿拔出极少见的四牙根智齿 医生:可作医学标本

    ​近日,山东烟台一位女生在接受记者采访时,分享了一段令人称奇的拔智齿经历。据她描述,自己口腔内一颗长期存在且已被虫蛀的智齿,在拔除过程中给医生带来了不小的挑战。这颗智齿的牙根异常结实,医生接连更换了好几个专业钳子,才最终将其成功拔出。 令人意想不到的是,这颗看似普通的智齿,在拔出后竟展现出不同寻常的一面——它竟然拥有四个牙根。这一发