AI聊天机器人WikiChat：通过检索维基数据终结LLM幻觉对话准确率比GPT-4高55%

2024-01-09 11:17 · 稿源：站长之家

**划重点:**
1. 🚀 WikiChat通过维基百科检索数据，有效阻止大型语言模型的幻觉。
2. 🌐 项目使用ColBERT进行信息检索，并通过七阶段流程确保响应准确。
3. 🌐WikiChat 在与人类用户就最新话题进行对话时达到了97.9% 的事实准确率，比 GPT- 4 高55%

站长之家（ChinaZ.com）1月9日消息:WikiChat是一项通过从维基百科检索数据来阻止大型语言模型的幻觉的AI聊天机器人。在当今大语言模型如ChatGPT和GPT-4经常在处理最新信息或者有关较不流行话题的信息时时出现错误的情况下，WikiChat采用维基百科和七阶段流程，确保其响应是基于事实的。

WikiChat几乎从不产生幻觉，并且具有高对话性和低延迟。WikiChat以英语维基百科为基础，英语维基百科是最大的精选自由文本语料库。

WikiChat 仅LLM保留有根据的事实，并将它们与从语料库中检索到的其他信息相结合，以形成事实和引人入胜的响应。我们将基于 GPT-4的 WikiChat 提炼成7B 参数的 LLaMA 模型，质量损失最小，以显着改善其延迟、成本和隐私，并促进研究和部署。

研究人员使用一种新颖的混合人类和LLM评估方法，使得该系统系统在模拟对话中实现了97.3% 的事实准确率。与 GPT-4相比，它明显优于所有基于检索和基于检索的基线，在头部、尾部和LLM最新知识方面分别高出3.9%、38.6% 和51.0%。与以前最先进的基于检索的聊天机器人相比，WikiChat的信息量和吸引力也明显更高，就像一个LLM。

在测试中，WikiChat 在与人类用户就最新话题进行对话时达到了97.9% 的事实准确率，比 GPT-4高55.0%，同时获得了更高的用户评分和更有利的评论。

通过WikiChat，我们有望有效应对大型语言模型的幻觉问题，使得这些模型在提供信息时更加可靠和准确。

项目网址:https://top.aibase.com/tool/wikichat

论文网址:https://arxiv.org/abs/2305.14292v2

（举报）

相关推荐

关键词：

荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

传统SEO追求"谷歌首页排名"，生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法，更像黑箱，使内容创作者困惑。GEO优化的核心是让内容具备"可引用性"：权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率"，分析引用语境、竞争差距，调整内容结构以提升AI引用倾向。SEO优化机器如何找到你，GEO则优化AI如何引用你。

SEO优化 AI引用内容权威性
如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

本文探讨AI搜索时代品牌面临的"隐身危机"，指出AI搜索用户年增538.7%，但品牌在AI回答中提及率不足20%。提出三大核心策略：1）构建权威背书矩阵，通过知乎等高权重平台获取自然提及；2）优化AI友好内容，采用对话式标题和结构化数据；3）建立数据监测闭环，通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现，避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

文章搜索核心标签 SEO优化
华为WATCH Ultimate 2非凡探索版明日开启预售

华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能，具备海豚声呐通信技术，可在水下30米实现手表间信息传输，60米内一键SOS求救。同时搭载北斗卫星语音消息功能，无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕，峰值亮度达3500nit，支持20ATM防水与IP68/9防尘。省电模式下续航达11天，常规使用达4.5天。该手表海外售价799英镑（约7443元人民币），国内价格尚未公布。

华为WATCH Ultimate2 智能手表
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
GEO如何改变ChatGPT搜索和Perplexity的游戏规则

本文对比ChatGPT与Perplexity两大AI搜索平台：ChatGPT作为全能型助手，整合搜索与多任务处理，但存在信息时效性不足；Perplexity专注垂直搜索，强调引用透明与权威来源。针对AI搜索优化（GEO），提出差异化策略：面向ChatGPT需构建结构化知识库、强化品牌实体识别；面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具，通过曝光率等指标量化内容在AI生态中的可见度，并给出可落地的优化行动方案。
vivo WATCH GT 2已支持开通移动/联通eSIM服务

vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务，提供一号双终端和独立终端两种模式，售价699元。配备2.07英寸大屏、2400nits峰值亮度，续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式，搭载自研蓝河操作系统3.0与智能助手，可跨设备连接vivo和iPhone，实现双机通知同步。

vivo WATCH GT2
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

三星Galaxy Watch8推出革命性抗氧化指数功能，通过手腕实时测量类胡萝卜素水平。该技术将实验室级传感器微型化，用户仅需5秒扫描即可获得精准数据，将日常饮食转化为可量化指标。类胡萝卜素作为关键抗氧化物质，能有效反映果蔬摄入量，帮助用户追踪长期营养状况。结合睡眠、压力等综合数据，该功能为健康老龄化提供全面洞察，重新定义可穿戴设备在预防性医疗中的角色。

抗氧化指数营养追踪健康生活
双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

双十一选购智能手表时，三星Galaxy Watch系列提供多样选择：Galaxy Watch8设计轻盈简约，适合日常佩戴；Watch8 Classic采用经典旋转表圈，风格优雅百搭；Watch Ultra则主打坚固耐用，专为户外运动设计。三款均搭载全面健康监测功能，包括睡眠分析、跑步教练指导及身体成分测量，帮助用户提升生活质量。根据个人审美与需求，可轻松挑选心仪款式。

智能手表三星Galaxy Watch

今日大家都在搜的词：

热文

3 天
7天

AI聊天机器人WikiChat：通过检索维基数据终结LLM幻觉对话准确率比GPT-4高55%

荐谁能成为中国的ChatGPT？夸克抢先交卷

如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

华为WATCH Ultimate 2非凡探索版明日开启预售

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

GEO如何改变ChatGPT搜索和Perplexity的游戏规则

vivo WATCH GT 2已支持开通移动/联通eSIM服务

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

站长商机

AI聊天机器人WikiChat：通过检索维基数据终结LLM幻觉 对话准确率比GPT-4高55%

今日大家都在搜的词：

热文

站长商机

AI聊天机器人WikiChat：通过检索维基数据终结LLM幻觉对话准确率比GPT-4高55%