哈工大团队发表50页综述梳理LLM幻觉问题

2023-11-15 14:07 · 稿源：站长之家

要点:
尽管在通用领域表现卓越，通用型LLMs由于在广泛的公开数据集上训练，缺乏专业领域知识，导致在专业领域中表现出幻觉问题。
LLM幻觉的分类，包括事实型和忠实度幻觉。研究人员指出，数据问题是产生幻觉的主要原因，包括错误信息、偏见，以及知识边界的限制。
数据源中的错误信息和固有偏差，以及模型在处理特定领域知识和复杂推理场景中的困难。为解决这些问题，需要提高数据质量，增强模型学习和回忆事实知识的能力。

站长之家（ChinaZ.com）11月15日消息:近期，哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综述，深入梳理了通用型LLMs在专业领域中存在的幻觉问题。虽然这些模型在通用领域任务中表现出色，但由于主要在广泛的公开数据集上进行训练，它们在专业领域的专业知识方面受到了内在限制。文章围绕LLM的幻觉问题进行了分类，包括事实型和忠实度幻觉。

论文地址：https://arxiv.org/pdf/2311.05232.pdf

综述指出，数据问题是导致幻觉的主要原因之一。这包括错误信息和偏见，特别是在对大规模语料库进行启发式数据收集时，可能会引入错误信息和社会偏见。

同时还详细解释了由于重复信息和社会偏见引起的幻觉，以及数据分布差异可能导致的问题。研究人员还指出，LLMs通常存在知识边界，尤其是在特定领域和最新事实知识方面，模型表现出明显的幻觉。

在解决这些问题方面，综述提到了数据质量的重要性，强调了增强模型对事实知识学习和回忆的能力的紧迫性。此外，文章还讨论了LLM在训练阶段的挑战，包括预训练阶段和通用表征学习。研究人员呼吁改善数据质量，以便更有效地学习和回忆事实知识，从而减轻专业领域中的幻觉问题。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Tara：一款可以将LLM接入Comfy UI的插件

一款名为Tara的新插件引起了大家的关注。这款插件可以将大型语言模型接入到ComfyUI中支持通过简单的设置API，将节点用于优化提示词等工作。TaraDaisyChainNode:这个节点通过使输出能够串联进后续的提示中，使得复杂的工作流程得以实现，从方便进行清单创建、验证、执行、评估和优化等一系列复杂操作。

Tara ComfyUI AI头条
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
Hugging Face 发布医疗任务评估基准Open Medical-LLM

HuggingFace发布了一项名为OpenMedical-LLM的新基准测试，旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。

HuggingFace AI头条
综述｜专家认为日本5G发展不充分可能影响其6G发展

为摆脱在4G和5G移动通信技术发展方面的被动局面，日本政府近几年大力推动6G技术发展。日本通信运营商也不断有所行动，都科摩通信公司等4家企业日前宣布，合作研发了适用于亚太赫兹频段的100吉赫兹和300吉赫兹频段的无线设备，并在这两个频段实现了每秒100吉比特的超高速传输。不过专家认为，日本5G基础设施整体依然比较落后，运营商也没有推出具有吸引力的5G服务，在这样的情况下，6G的发展可能受到影响。
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
荐国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

【新智元导读】大模型混战究竟谁才是实力选手?清华对国内外14个LLM做了最全面的综合能力测评，其中GPT-4、Cluade3是当之无愧的王牌在国内GLM-4、文心4.0已然闯入了第一梯队。在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的;有些是通用的，有些则是行业特定的。●偏见歧视:文心一言4.0继续排名榜首，领先GPT-4系�

GLM-4
荐开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

GPT-4又又又被超越了!近日，LLM竞技场更新了战报，人们震惊地发现:居然有一个开源模型干掉了GPT-4!这就是Cohere在一周多前才发布的CommandR。排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard截至小编码字的这个时间，竞技场排行榜更新到了4月11号，CommandR拿到了2.3万的投票，综合得分超越了早期版本的GPT-4，和GPT-4-0314版本并列第7位，——它可是一个开源模型。2024年，在开源和闭源两条道路上，LLM都发展迅猛。

Cohere CommandR+ 人工智能
荐Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

【新智元导读】Anthropic发布最新研究，发现Claude3Opus的说服力与人类大致相当，该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示，他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。

Claude3
世界读书日是哪天？一站式阅读和知识梳理工具来了！

又一年世界读书日即将来临，平常没有特别留意这个日子的朋友，可能还在纳闷:世界读书日是哪天?世界读书日是几月几日?今年是第几个世界读书日?……就着这些疑问，我们逐一来回答，同时也给大家带来一款好用的一站式阅读和知识梳理工具——boardmix，它支持嵌入各大电子书平台的链接，在软件内边阅读边摘录，同时可使用内置的AI工具「boardmixAI」，对摘录内容进行处理，如AI提炼内容一键生成思维导图、读书笔记PPT等，用一款软件实现一站式阅读和知识梳理!*一站式阅读&知识梳理工具boardmix01世界读书日是哪天?世界读书日是几月几日?世界读书日，全称为“世界图书与版权日”，它的时间是固定的，为每年的4月23日，方便起见，也有人将它简称为423世界读书日。这个简称包含了三个连续的数字，因此叫起来朗朗上口，也比较好记。屏幕前的你如果也是一名热爱阅读的朋友，那就千万不要错过本文介绍的一站式阅读&知识梳理工具boardmix，它必将成为你阅读路上的得力助手，有boardmix相伴，阅读之旅不再孤单!世界读书日即将来临，让阅读不止于世界读书日。

今日大家都在搜的词：

热文

3 天
7天

哈工大团队发表50页综述 梳理LLM幻觉问题

今日大家都在搜的词：

热文

站长商机

哈工大团队发表50页综述梳理LLM幻觉问题