斯坦福大学研究：通过自动偏好排名和NLP进展，降低大语言模型错误率

2023-11-22 10:43 · 稿源：站长之家

**划重点:**
1. 🚀 斯坦福大学和UNC Chapel Hill的研究人员通过自动偏好排序和NLP进展解决了大语言模型（LLMs）产生的虚构性错误的问题。
2. 🔄 采用新颖的方法，研究人员通过对LLMs进行微调，在无人工标记的情况下提高在开放式生成环境中的事实准确性。
3. 📈 他们利用NLP的最新创新，通过与外部知识库的一致性评估事实性，并使用直接偏好优化算法进行微调，显著提高了Llama-2的事实性。

站长之家（ChinaZ.com）11月22日消息:研究人员从斯坦福大学和UNC Chapel Hill共同努力解决了大语言模型（LLMs）产生的事实性错误的问题，这些错误被称为“幻觉”。在没有人工标记的情况下，研究人员通过微调LLMs，采用新颖的方法，以在开放式生成环境中提高事实准确性。利用自然语言处理(NLP)领域的最新创新，他们通过评估与外部知识库的一致性来判断事实性，并采用直接偏好优化算法进行微调。这一方法显著提高了Llama-2的事实性，在7B规模下大幅降低了传记和医学问题响应的事实错误率。

AI机器人打游戏

图源备注：图片由AI生成，图片授权服务商Midjourney

为减少语言模型的事实错误，研究人员采用了各种策略，包括提示，内部表示扰动和基于检索的方法。随着模型规模的增加，解决冲突和事实性维护方面存在挑战。FactScore变体在训练期间采用检索来解决推理时间复杂性。通过微调的偏好学习有效地减少了不正确的事实。该研究引入了一种无参考方法，利用语言模型的不确定性来估计真实性。从自动生成的偏好对中学习事实性成为一种经济有效的方法，展示了在无人工干预的情况下潜在的改进。

着眼于开放式生成环境，该研究提出在不进行人工标记的情况下微调语言模型以提高事实性。他们利用最新的NLP创新，包括通过外部知识库判断事实性和使用直接偏好优化算法。该方法涉及从自动生成的事实性偏好排序中学习，相比其他策略在基准数据集上生成传记和回答医学问题时显著降低了事实错误率。

该研究通过一致性评估外部知识库或模型置信度来判断事实性。采用直接偏好优化算法进行微调，关注超越监督模仿的目标。该研究建议通过现有检索系统或新颖的无检索方法学习从自动生成的事实性偏好排序中学到的方法。评估包括FactScore等自动化指标，人工评估者，以及与推理时间干预和对比层解码等方法的比较。

该方法展示了从自动生成的事实性偏好排序中学习在提高语言模型事实性方面的有效性。微调的Llama-2模型在传记的事实错误率上降低了58%，在医学问题上降低了40%，相比RLHF或解码策略。人工评估者评价FactTune-FS模型显著高于SFT模型。GPT-4的评估和FactScore评级显示高度相关，表明FactTune-FS在减少事实错误方面取得成功。

该研究提出了增强语言模型事实性的有效策略，强调了长篇生成。探讨了两种方法:使用外部知识的基于参考的真实性估计和使用模型不确定性的无参考估计。通过任一方法微调语言模型都能一致减少不正确的事实。无参考方法为事实性改进提供了一种可扩展的自我监督策略，无需黄金参考语料库。实验结果指出了未来研究的有望方向，建议探索联合事实性调谐方法，并将该方法扩展到更大的模型，如GPT-4。

未来的研究建议探索将事实性调谐与现有方法结合，例如事实性调谐DOLA实验。建议进一步研究将事实性增强的解码技术与事实性调谐过程相结合，以增强事实性。评估结合不同方法，如事实性调谐和推理时间干预，可以提供有关互补机制的见解。对提取原子事实的简化方法进行调查，并将事实性调谐方法扩展到更大的模型，如GPT-4，提出了进一步探讨的建议。

论文网址：https://arxiv.org/abs/2311.08401

（举报）

相关推荐

关键词：

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

随着AI大模型成为用户获取信息的主要入口，AIBase推出GEO排名查询工具，帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示，可精准分析品牌是否被推荐、出现频次及具体场景，为制定AI大模型排名优化策略提供数据支撑。在GEO时代，抢占AI回答推荐位意味着获得全新流量入口。

AI大模型 GEO排名查询生成引擎优化
32岁男子体内抽出“牛奶血”：日常以奶茶可乐为主偏好炸鸡火锅

宁波一位32岁的陈师傅（化姓）近日因突发剧烈腹痛被送入急诊重症监护室（EICU），而这一切的起因，竟是连续几天聚餐中多吃的几串五花肉、多喝的那瓶冰啤酒。陈师傅是一名厨师，平时酷爱美食。国庆期间连续聚餐，让他大饱口福，却也为健康埋下隐患。一天深夜，他突然感到腹部不适，随后疼痛从左下腹迅速蔓延至整个腹部及腰背部，痛感强烈，只能在床上翻滚。家人

突发腹痛胰腺炎高血脂
京东双11今晚开启：现货开卖官方直降低至一折

京东11.11大促于10月9日晚8点正式启动，主打“官方直降至1折”的简单低价模式，消费者无需等待预售即可享受现货开卖。活动推出最高2111元官方补贴券包，并覆盖月黑风高、直播特惠等多元优惠频道。今年升级八大主题惊喜日，针对不同消费群体兴趣，覆盖电玩、家装等品类。张艺兴、雷佳音等明星担任代言人，通过简化流程、深化场景营销，为消费者打造兼具实惠与趣味的购物盛宴。
破解海外旅游语言困境，时空壶新T1以端侧模型开启全球畅行

国庆假期临近，海外旅游热度攀升，语言沟通成为游客面临的主要障碍。网络不稳定更使依赖在线翻译工具的旅行者陷入困境。时空壶新T1翻译机通过端侧AI模型，实现无网或弱网环境下的流畅翻译，支持31种语言互译，覆盖全球98%主流旅游地。其离线翻译准确率达90%，响应迅速，并具备拍照翻译和降噪功能，有效解决机场、餐厅等嘈杂场所的沟通难题。新T1助力游客跨越语言壁垒，尽享无忧旅程，真正实现“无网也能畅行全球”。

海外旅游语言沟通翻译机
从品牌咨询到语言培训：小鹅通如何助力花花语言艺术实现培训产品数字化落地

文章介绍小鹅通平台助力语言培训品牌“花花语言艺术”实现数字化转型的案例。创始人任瑞丽从品牌咨询转型，创立“母语应用式”培训体系，通过小鹅通完成产品数字化、私域运营等全链路升级，服务超1万用户。该案例体现了小鹅通以工具赋能为核心理念，帮助培训从业者实现业务可持续增长，未来将继续深化合作，完善表达训练体系并拓展文化传播领域。

语言培训母语应用式表达小鹅通
GEO排名查询工具完全指南：AI搜索时代的排名优化实战

随着ChatGPT等AI搜索引擎崛起，传统SEO正经历革命性变革。GEO应运而生，成为内容创作者必备新技能。AI搜索直接生成答案而非链接列表，这意味着：内容需被AI引用才能获得曝光；排名机制重构，更看重内容权威性和相关性；需同时优化多个AI平台表现。专业GEO工具能批量监控多平台表现，追踪内容在AI中的引用情况，通过历史数据分析排名趋势，帮助制定有效优化策略。

GEO AI搜索引擎排名优化
AI排名监控工具实战必备：掌握GEO优化效果，提升品牌AI搜索排名

随着AI大模型和智能搜索的快速发展，用户搜索习惯正从传统搜索引擎转向直接向AI平台提问。品牌能否被AI“推荐”已成为新的竞争力。AIBase推出的GEO排名查询工具，专为监测品牌在AI对话中的曝光率、推荐次数及呈现方式而设计。它支持多平台同步检测，提供可视化数据分析和历史记录对比，帮助团队优化AI搜索排名。该工具不仅统计曝光量，还能还原AI对话细节，为品牌形象提升提供数据支持，是布局AI流量的重要利器。

AI搜索排名 GEO排名查询 AI平台曝光率
AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

随着ChatGPT等AI搜索引擎普及，传统SEO正经历深刻变革。文章指出，超60%用户开始使用AI搜索，而AI直接给出答案而非展示链接，导致品牌面临可见度危机。为此提出GEO（生成引擎优化）概念，强调需通过专业工具监测AI排名，并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程：建立监测基准、分析排名差异、针对性内容优化、持续迭代，帮助品牌在AI时代建立竞争优势。

GEO AI搜索引擎 SEO变革
按摩椅品牌排名 2025权威按摩椅排名盘点看过来

本文针对当前按摩椅市场品牌繁多、选购困难的问题，基于市场认可度和用户口碑，解析2025年按摩椅品牌排行榜前十名，为消费者提供参考。重点推荐行业领军品牌iRest艾力斯特，该品牌凭借22年专业积淀，在研发创新、专利技术与售后服务上全面领先。明星产品V5Pro专注护脊护腰，搭载4D+3D双机芯系统；M6则创新六感摩享助眠体验，针对助眠场景深度优化。两款产品分别成为久坐办公与改善睡眠的热门选择，帮助消费者精准选购适合的按摩椅，提升生活品质。

按摩椅品牌 2025排行榜 iRest艾力斯特

今日大家都在搜的词：

热文

3 天
7天

斯坦福大学研究：通过自动偏好排名和NLP进展，降低大语言模型错误率

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

32岁男子体内抽出“牛奶血”：日常以奶茶可乐为主偏好炸鸡火锅

京东双11今晚开启：现货开卖官方直降低至一折

破解海外旅游语言困境，时空壶新T1以端侧模型开启全球畅行

从品牌咨询到语言培训：小鹅通如何助力花花语言艺术实现培训产品数字化落地

GEO排名查询工具完全指南：AI搜索时代的排名优化实战

AI排名监控工具实战必备：掌握GEO优化效果，提升品牌AI搜索排名

AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

按摩椅品牌排名 2025权威按摩椅排名盘点看过来

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

新款智界R7/S7上市44天大定破38000台

京东双11今晚开启：现货开卖官方直降低至一折

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

比特币价格突破12.5万美元刷新历史最高纪录

雷军：小米17系列首销权益延续至10月31日

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

站长商机