多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大

2023-10-30 20:50 · 稿源：量子位公众号

还在用指令微调解决多模态大模型的“幻觉”问题吗?比如下图中模型将橙色柯基错认为“红狗”，还指出周围还有几条。现在，中科大的一项研究想到了一个全新办法:一个免重训、即插即用的通用架构，直接从模型给出的错误文本下手，“倒推”出可能出现“幻觉”之处，然后与图片确定事实

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

多模态LLM

荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，结合火山引擎与豆包大模型技术，支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景，提供图文、语音、视频等多种输入输出形式，实现秒级响应与沉浸式交互体验，成为用户“口袋里的万能管家”。

荣耀Magic8系列 MagicOS10操作系统 YOYO助理
荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试，成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构，覆盖数据管理、模型接入、插件开发等八大能力域，具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平，可为企业提供低门槛智能体落地解决方案，已在制造、政务、医疗等领域深度应用，助力企业数字化转型。

智能体平台低代码开发企业数字化
音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频

一个名为SALMONN的新型框架引起了广泛关注，旨在将大型语言模型的能力扩展到通用听觉领域。这个由语音、音频事件和音乐构成的通用音频输入是人工智能在真实环境中的关键组成部分。其多模型架构和激活调整阶段的引入使其在音频和语音任务中取得了显著的竞争性性能，为大型语言模型的通用听觉能力提供了新的可能性。

SALMONN LLM
LeCun曝多模态LLM重大缺陷提出Interleaved-MoF显著增强视觉理解能力

近期来自纽约大学和UC伯克利的研究团队在多模态大语言模型领域取得了重要突破，成功捕捉到了其在视觉理解方面存在的重大缺陷。研究人员发现，当前的MLLM在特定场景下，甚至在一些人类容易识别的图像问题上，表现不如随机猜测。这不仅对AI领域的研究有着积极的推动作用，也为未来开发更强大、全面的多模态大模型奠定了基础。

LLM
图像伪造照妖镜！北大发布多模态LLM图像篡改检测定位框架FakeShield

【新智元导读】北京大学的研究人员开发了一种新型多模态框架FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能的迅猛发展，图像编辑与合成技术变得愈加成熟与普及。表3:FakeShield与主流IFDL方法的定位性能比较另外，图4的主观结果对比也表明，FakeShield能够生成更加�

LLM
开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

InternVL家族的开源套件提供了一种商用多模态模型的可行开源替代方案。最新发布的InternVL-Chat-V1.5模型在多个基准测试上取得了接近GPT-4V和GeminiPro的性能，这使得InternVL家族成为了当前最接近GPT-4V表现的可商用开源模型之一。InternVL家族的开源套件为多模态模型领域的发展注入了新的活力。

InternVL InternVL1.5 AI头条
Design2Code：提供设计图，让多模态LLM自动生成前端代码

生成AI在多模态理解和代码生成方面取得了显著进展，为前端开发带来了全新的范式。研究人员开展了对视觉设计转换为代码实现任务的系统研究。详细的细分指标表明，开源模型在从输入网页中召回视觉元素和生成正确布局设计方面大多落后在文本内容和着色方面则可以通过适当的微调得到显著改进。

Design2Code AI头条
金融分析多模态LLM FinTral:基于Mistral-7B模型得分接近GPT-4

来自不列颠哥伦比亚大学和InvertibleAI的研究人员推出了一款具有突破性的大型语言模型——FinTral，专为金融领域量身定制。FinTral采用了多模态方法，能够处理文本、数字、表格和视觉数据，以应对金融文件的复杂性。研究人员承认了研究中存在的限制和风险因素，并对未来发展充满乐观。

Mistral-7B FinTral AI头条

今日大家都在搜的词：

热文

3 天
7天

多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大

荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频

LeCun曝多模态LLM重大缺陷提出Interleaved-MoF显著增强视觉理解能力

图像伪造照妖镜！北大发布多模态LLM图像篡改检测定位框架FakeShield

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

Design2Code：提供设计图，让多模态LLM自动生成前端代码

金融分析多模态LLM FinTral:基于Mistral-7B模型得分接近GPT-4

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

站长商机