维基百科+大模型打败幻觉！斯坦福WikiChat性能领先GPT-4

2024-01-04 09:36 · 稿源：站长之家

要点:
1. 维基百科+大模型打败幻觉，斯坦福WikiChat在事实准确性和其他指标上表现优秀。
2. 斯坦福研究人员利用维基百科数据训练大模型WikiChat，成功减轻了幻觉问题，并在事实准确性和对话性方面超过了其他模型。
3. 通过优化和改进，WikiChat在各个方面的性能都显著领先，尤其在事实准确性方面达到了97.3%。

站长之家（ChinaZ.com）1月4日消息:斯坦福大学的研究人员利用维基百科数据训练了一个大模型，命名为WikiChat，通过优化和改进，成功解决了大模型的幻觉问题，并在事实准确性和其他指标上表现优秀。他们的最佳模型在新的基准测试中获得了97.3%的事实准确性，远远超过了GPT-4的66.1%。此外，WikiChat还在相关性、信息性、自然性、非重复性和时间正确性方面领先其他模型。

论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf

项目代码:https://top.aibase.com/tool/wikichat

为了解决幻觉问题，研究人员采用了检索增强生成（RAG）的方法，并添加了几个重要步骤来进一步减轻幻觉，并改进对话性指标。通过这些优化，WikiChat在事实准确性方面比微调后的SOTA RAG模型Atlas高出8.5%。此外，研究人员还将基于GPT-4的WikiChat提炼成7B参数的LLaMA模型，这个模型在事实准确性方面能达到91.1%的高分，并且运行速度提高了6.5倍，能效更好，可以本地部署。

然而，解决大模型的幻觉问题并不容易。一般情况下，当检索不到相关信息或知识库中没有相关信息时，大模型会产生幻觉来填补空白。为了解决这个问题，WikiChat通过汇总和过滤检索到的信息，而不是直接生成响应。同时，研究人员还教导了LLM理解时间背景，以及在必要时让系统说「我不知道」。

通过结合大模型和维基百科数据，研究人员成功地提高了聊天机器人的性能。WikiChat的成功表明，维基百科数据在大模型训练中发挥了重要作用，通过检索增强生成的方法，可以有效解决大模型的幻觉问题，提高模型的事实准确性和对话性能。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

GPT-4o被谷歌新模型超越了!历时一周，超1，2000人匿名投票，Gemini1.5Pro代表谷歌首次夺得lmsys竞技场第一。且这次还是双冠王，除了总榜，在视觉排行榜上也是第一。面对谷歌最新取得的一系列新排名，竞技场榜单权威性再次受到大家质疑。

GPT-4o GPT-4o
荐一直爆料OpenAI「草莓」的账号，竟然是个智能体？斯坦福系创企「炒作」AgentQ

当炒作出了「泼天的流量」，已经没人关心产品厉不厉害了。OpenAI的秘密项目「Q*」一直受到了圈内人士的广泛关注。更多技术细节和评估结果请参阅原论文。

OpenAI
荐AI日报：媲美GPT-4！智谱AI发布最新模型GLM-4-Plus；阿里重磅开源超强AI模型Qwen2-VL；国产AI神器NotePin在国外火了

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、智谱AI震撼发布GLM-4-Plus：媲美GPT-4，首创C端视频通话功能智谱AI最新发布的GLM-4-Plus模型展示了与OpenAIGPT-4媲美的强大视觉能力，即将开放使用。数百个开源LLM服务器泄露企业和健

智谱AI
荐秒杀GPT-4、Devin，全球最强AI程序员来啦！

今年3月，AI初创公司Cognition发布的首个AI程序员Devin引起巨大轰动，它可以像人一样实现端到端的部署、调试、优化代码，几乎与编程相关的任务都能自动化完成。Cosine发布了同类产品Genie，但在权威测试平台SWE-Bench上的评分达到惊人的30.08%，断崖式领先Devin的13.8%和Swe-agentGPT-4的12.47%，成为目前全球最强的AI程序员。Genie已经开放申请试用。

AI程序员
荐超9000颗星，优于GPT-4V！国内开源多模态大模型

国内著名开源社区OpenBMB发布了最新开源多模态大模型——MiniCPM-V2.6。MiniCPM-V2.6一共有80亿参数，在单图像、多图像和视频理解方面超越了GPT-4V;在单图像理解方面优于GPT-4omini、Gemini1.5Pro和Claude3.5Sonnet。易用扩展性强:可以通过多种方式轻松使用，包括llama.cpp和ollama支持在本地设备上进行高效的CPU推理，提供int4和GGUF格式的量化模型，支持vLLM进行高吞吐量和内存高效的推理，支持在新领域和任务上进行微调目前，MiniCPM-V2.6在Github的评分超过9000颗星，是开源多模态中性能非常好用的一款模型。

MiniCPM-V2.6
荐ToB Or ToC，大模型不做“选择题”

在AI大模型的商业化道路上，“ToBorToC”一直是两难的选择。不过，AI业内有一个共识，创业公司在C端更容易找到机会互联网大厂则更能通过B端获得规模优势。如果最终只有30家大模型能够留下，那么活下来的大模型，不一定是名头最响的，但一定是最实用的。

AI商业化企业级API 大模型发展
ChatGPT有多全能，女生用ChatGPT测网恋对象是否谎报身高，误差只有2厘米

【新智元导读】担心相亲对象谎报身高怎么办?交给ChatGPT!最近小编学到了一组男性身高公式:过5减4，低5取0。一位男性在相亲信息中报身高174，则他的实际身高是170;如果一位男性在相亲信息中报身高179——这个世界上没有179的男生，179一定会报180，他的真实身高应该是175左右。很多投资分析手段技术门槛和专业知识要求非常高，有个AI工具之后，散户们可以通过工具更好地检验

ChatGPT
中国开源大模型、论文、专利的数量，领先美国

8月26日，美国著名非营利科技智库ITIF在官网发布了，一份名为《中国在AI领域的创新程度如何?》的深度调查报告。其实这份报告更像是一份成绩单，主要揭示了中国在大模型、生成式AI领域的发展现状，包括开源模型的能力、论文/专利数量、科研机构、顶级AI公司、投资水平等维度，并与美国进行了横向对比。ITIF的研究成果对关键政策领域，如宽带互联网普及、人工智能发展、网络安全、隐私保护和数字贸易等都有深远影响。

中国 AI 创新
荐阿里开源新模型：超GPT-4o，数学能力全球第一！

阿里巴巴开源了最新数学模型Qwen2-Math，一共有基础和指令微调两种版本，包括1.5B、7B和72B三种参数。根据阿里在主流数学基准测试显示，Qwen2-Math-72B指令微调版本的性能超过了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名闭源模型，就连Meta最新开源的超强模型Llama-3.1-405B也照样拿下。Qwen2-Math模型仅支持英文，但阿里表示会很快推出中英双语版本，帮助更多的用户开发生成式AI应用。

GPT-4o
荐ChatGPT后，人工智能的终极里程碑却倒了

大模型的拟人行为，在让我们产生恐怖谷效应。「图灵测试是一个糟糕的测试标准，因为对话能力和推理完全是两码事。这可能就是我们能够获得的最好结果。

ChatGPT

BNA:多功能AI超级应用，涵盖社交、电商、娱乐和教育。

BNA AI Super App是一款集成了多种智能服务的超级应用，它不仅提供社交功能，如分享帖子、写博客、聊天和视频通话，还涵盖了AI电商和娱乐服务。此外，该应用还提供40种语言的AI教学服务，帮助用户学习不同的语言。BNA AI Super App以其强大的AI功能和多语言支持，满足了不同用户群体的需求。

AI 多语言学习社交

Elisi:高效能自主层级式计划助手

Elisi 是一款旨在帮助用户实现个人成长的终极组织者和指南。它通过直观的设计和用户友好的说明，帮助用户将梦想转化为清晰的结果，分解成可实现的里程碑，并通过AI技术理解并适应用户的个人需求，确保每一天都更有条理和高效。Elisi 致力于提供便捷服务，主要功能套件完全免费。

个人成长时间管理目标设定

Omi AI:个性化AI助手，记录每一刻，与AI对话获取反馈。

OMI APP是一个任务驱动的个性化AI助手，旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本，提供提醒、建议等功能，同时注重用户隐私。

AI助手语音转录隐私保护

MeowMail:高送达率的AI电子邮件营销工具

MeowMail是一款集成在Shopify后台的电子邮件营销应用，利用AI技术自动选择最佳发送时间，提高邮件的送达率至98%以上。它支持拖放编辑、从Klaviyo导入邮件列表、使用Beefree编辑器创建新邮件，并通过设定支出限制来管理邮件营销活动。MeowMail还提供企业级支持和自动翻译文本功能，帮助商家以低成本实现高效的邮件营销。

邮件营销 AI技术 Shopify应用

Maia 100:微软定制AI加速器，专为大规模AI工作负载设计。

Maia 100是微软为Azure设计的首款定制AI加速器，专为大规模AI工作负载而打造，通过软硬件的协同优化，实现了性能、可扩展性和灵活性的最大化。它采用了TSMC N5工艺和COWOS-S互连技术，具备高达1.8TB/s的带宽和64GB的容量，支持高达700W的热设计功耗(TDP)，但以500W运行，确保了高效的能效比。Maia 100集成了高速张量单元、向量处理器、DMA引擎和硬件信号量，支持多种数据类型和张量切分方案，并通过以太网互连支持大规模AI模型。此外，Maia SDK提供了丰富的组件，支持快速部署PyTorch和Triton模型，并通过双编程模型确保高效的数据处理和同步。

AI加速器 Azure 大规模计算

LTM:超长上下文模型，革新软件开发

Magic团队开发的超长上下文模型（LTM）能够处理高达100M tokens的上下文信息，这在AI领域是一个重大突破。该技术主要针对软件开发领域，通过在推理过程中提供大量代码、文档和库的上下文，极大地提升了代码合成的质量和效率。与传统的循环神经网络和状态空间模型相比，LTM模型在存储和检索大量信息方面具有明显优势，能够构建更复杂的逻辑电路。此外，Magic团队还与Google Cloud合作，利用NVIDIA GB200 NVL72构建下一代AI超级计算机，进一步推动模型的推理和训练效率。

AI 软件开发上下文推理

EZ-work AI文档翻译:智能AI翻译，高效文档语言转换助手。

EZ-work AI文档翻译是一款专注于文档翻译的在线服务，支持多种语言的翻译，包括中文、英语、日语、俄语、阿拉伯语和西班牙语等。它使用先进的AI技术，如gpt-4o-mini和deepseek-chat模型，为用户提供快速、准确的翻译服务。该产品适用于需要文档翻译的个人和企业，尤其在国际交流和学术研究领域尤为重要。

翻译 AI 文档处理

Watson AI:会议助手，自动记录并总结会议要点。

Watson AI是一款会议助手应用程序，它通过录制系统音频和麦克风来转录和总结会议内容，自动提取行动项和会议摘要，帮助用户更高效地进行会议记录和回顾。

会议助手自动记录效率工具

PicTech AI: 免费在线AI图片翻译助力跨境电商

PicTech AI是由学以致用科技旗下的智能图像工具品牌，专注于为跨境电商提供AI驱动的图片翻译服务。该产品利用人工智能技术，实现高准确率和高清晰度的图片翻译，支持中文、英语到日语、韩语等多国语言的翻译。PicTech AI的智能抠图功能，能够准确检测图片主体边缘，一键去除背景，无需专业编辑。产品背景信息显示，其团队由来自百度、网易、阿里巴巴等行业巨头的顶尖高科技人才组成，具备强大的技术实力和产品能力。该产品定位于帮助跨境电商从业者简化工作流程，提高效率，无需懂外语或图像处理技能即可使用。

AI翻译跨境电商智能抠图

AnythingLLM:一站式AI应用，支持多种文档和模型。

AnythingLLM是一个多功能的桌面客户端，支持多种语言模型（LLM）和文档类型，提供完全私密的使用体验。用户可以根据自己的需求选择企业级模型、自定义模型或开源模型，如GPT-4、Llama、Mistral等。产品支持一键安装，本地运行，无需互联网连接，保护用户隐私。

AI 文档处理隐私保护

林哥的大模型野榜:更适合中国宝宝体质的大模型产品排行榜

林哥的大模型野榜是一个专注于中国用户需求的大模型产品排行榜，提供了多维度的评估和排名，帮助用户更好地了解和选择适合的大模型产品。

大模型排行榜多维度评估

Fluximg.com:AI文本到图像生成器，支持多尺寸和自动翻译。

Fluximg.com是一个基于Flux模型的AI图像生成网站，提供从文本到图像的转换服务。它支持多种语言，包括中文和英文，并且具有用户友好的界面。网站提供免费和专业版本，使用户能够根据自己的需求选择不同的服务级别。

AI图像生成多尺寸自动翻译

现代文转古文:将现代汉语转化为古汉语，提升文采。

现代文转古文是一款能够将现代汉语自动转换为古汉语的模型，它通过先进的自然语言处理技术，使得用户可以轻松地将现代文本转换成具有古典韵味的古文。这种转换不仅能够增加文本的文学价值，还能在教育、文学创作、文化传承等方面发挥重要作用。

古文文学转换

Zamba2-mini:先进的小型语言模型，专为设备端应用设计。

Zamba2-mini是由Zyphra Technologies Inc.发布的小型语言模型，专为设备端应用设计。它在保持极小的内存占用(<700MB)的同时，实现了与更大模型相媲美的评估分数和性能。该模型采用了4bit量化技术，具有7倍参数下降的同时保持相同性能的特点。Zamba2-mini在推理效率上表现出色，与Phi3-3.8B等更大模型相比，具有更快的首令牌生成时间、更低的内存开销和更低的生成延迟。此外，该模型的权重已开源发布(Apache 2.0)，允许研究人员、开发者和公司利用其能力，推动高效基础模型的边界。

维基百科+大模型打败幻觉！斯坦福WikiChat性能领先GPT-4

今日大家都在搜的词：

热文

站长商机