哈工大团队发表50页综述梳理LLM幻觉问题

2023-11-15 14:07 · 稿源：站长之家

要点:
尽管在通用领域表现卓越，通用型LLMs由于在广泛的公开数据集上训练，缺乏专业领域知识，导致在专业领域中表现出幻觉问题。
LLM幻觉的分类，包括事实型和忠实度幻觉。研究人员指出，数据问题是产生幻觉的主要原因，包括错误信息、偏见，以及知识边界的限制。
数据源中的错误信息和固有偏差，以及模型在处理特定领域知识和复杂推理场景中的困难。为解决这些问题，需要提高数据质量，增强模型学习和回忆事实知识的能力。

站长之家（ChinaZ.com）11月15日消息:近期，哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综述，深入梳理了通用型LLMs在专业领域中存在的幻觉问题。虽然这些模型在通用领域任务中表现出色，但由于主要在广泛的公开数据集上进行训练，它们在专业领域的专业知识方面受到了内在限制。文章围绕LLM的幻觉问题进行了分类，包括事实型和忠实度幻觉。

论文地址：https://arxiv.org/pdf/2311.05232.pdf

综述指出，数据问题是导致幻觉的主要原因之一。这包括错误信息和偏见，特别是在对大规模语料库进行启发式数据收集时，可能会引入错误信息和社会偏见。

同时还详细解释了由于重复信息和社会偏见引起的幻觉，以及数据分布差异可能导致的问题。研究人员还指出，LLMs通常存在知识边界，尤其是在特定领域和最新事实知识方面，模型表现出明显的幻觉。

在解决这些问题方面，综述提到了数据质量的重要性，强调了增强模型对事实知识学习和回忆的能力的紧迫性。此外，文章还讨论了LLM在训练阶段的挑战，包括预训练阶段和通用表征学习。研究人员呼吁改善数据质量，以便更有效地学习和回忆事实知识，从而减轻专业领域中的幻觉问题。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Tara：一款可以将LLM接入Comfy UI的插件

一款名为Tara的新插件引起了大家的关注。这款插件可以将大型语言模型接入到ComfyUI中支持通过简单的设置API，将节点用于优化提示词等工作。TaraDaisyChainNode:这个节点通过使输出能够串联进后续的提示中，使得复杂的工作流程得以实现，从方便进行清单创建、验证、执行、评估和优化等一系列复杂操作。

Tara ComfyUI AI头条
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

InternVL家族的开源套件提供了一种商用多模态模型的可行开源替代方案。最新发布的InternVL-Chat-V1.5模型在多个基准测试上取得了接近GPT-4V和GeminiPro的性能，这使得InternVL家族成为了当前最接近GPT-4V表现的可商用开源模型之一。InternVL家族的开源套件为多模态模型领域的发展注入了新的活力。

InternVL InternVL1.5 AI头条
荐LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

大型语言模型往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值等问题，目前模型的上下文窗口大多不超过128k个token最近，MicrosoftResearch的研究人员提出了一个新模型LongRoPE，首次将预训练LLM的上下文窗口扩展到了2048k个token，在256k的训练长度下只需要1000个微调步骤即可，同时还能保持原始短上下文窗口的性能。论文链接:https://arxiv

LLM
Hugging Face 发布医疗任务评估基准Open Medical-LLM

HuggingFace发布了一项名为OpenMedical-LLM的新基准测试，旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。

HuggingFace AI头条
微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

微软研究人员提出的LongRoPE方法首次将预训练的大型语言模型的上下文窗口扩展至2048k个token，实现了8倍的扩展同时保持原始短上下文窗口的性能无需进行架构变化和复杂微调。该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供更好的初始化，并在非微调情况下实现了8倍扩展;引入了渐进扩展策略，首先微调256k长度的LLM，然后在微调扩�

LongRoP LLM AI头条
综述｜专家认为日本5G发展不充分可能影响其6G发展

为摆脱在4G和5G移动通信技术发展方面的被动局面，日本政府近几年大力推动6G技术发展。日本通信运营商也不断有所行动，都科摩通信公司等4家企业日前宣布，合作研发了适用于亚太赫兹频段的100吉赫兹和300吉赫兹频段的无线设备，并在这两个频段实现了每秒100吉比特的超高速传输。不过专家认为，日本5G基础设施整体依然比较落后，运营商也没有推出具有吸引力的5G服务，在这样的情况下，6G的发展可能受到影响。
荐国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

【新智元导读】大模型混战究竟谁才是实力选手?清华对国内外14个LLM做了最全面的综合能力测评，其中GPT-4、Cluade3是当之无愧的王牌在国内GLM-4、文心4.0已然闯入了第一梯队。在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的;有些是通用的，有些则是行业特定的。●偏见歧视:文心一言4.0继续排名榜首，领先GPT-4系�

GLM-4
WebLlama：基于Llama-3-8B的智能网页浏览代理

WebLlama是一款基于Llama-3-8B模型的智能代理，它通过对话与用户互动，执行网页浏览相关的任务。这款工具能够处理连续的对话，理解并执行用户的指令，自动完成网上搜索、导航和信息检索等操作。随着技术的不断进步和优化，WebLlama有望在自动化网页浏览和信息收集方面发挥更大的作用。

WebLlama AI头条

今日大家都在搜的词：

热文

3 天
7天

哈工大团队发表50页综述 梳理LLM幻觉问题

今日大家都在搜的词：

热文

站长商机

哈工大团队发表50页综述梳理LLM幻觉问题