首页 > 业界 > 关键词  > ToG最新资讯  > 正文

IDEA提出ToG思维图谱 大模型性能提升214%!

2023-11-27 14:16 · 稿源:站长之家

要点:

  • 由IDEA研究院、微软亚洲研究院、香港科技大学等研究团队推出的Think-on-Graph技术,通过大模型与知识图谱的深度融合,实现在多个基准数据集上的性能提升,引领深度推理领域。

  • 在解决大模型在金融、法律、医疗等领域幻觉问题的挑战中,Think-on-Graph通过紧耦合的方式将大模型(LLM)作为“跑腿”,与知识图谱(KG)相互协作,提供更条理清晰、可追溯的推理链条。

  • Think-on-Graph借鉴了Transformer的beam-search算法思路,通过搜索剪枝和推理决策两个任务的迭代过程,有效提升了大模型推理的可解释性,同时在多个任务上刷新性能榜单。

站长之家(ChinaZ.com)11月27日 消息:近期,由IDEA研究院、微软亚洲研究院、香港科技大学等多方研究团队合作推出的Think-on-Graph技术,在深度推理领域掀起了一场革新。这一技术通过紧耦合大模型(LLM)与知识图谱(KG),成功弥补了大模型在金融、法律、医疗等领域幻觉问题上的能力短板。Think-on-Graph被证明在多个基准数据集上实现了巨大的性能提升,刷新了相关领域的性能榜单。

为了解决大模型在幻觉问题上的挑战,Think-on-Graph采用了紧耦合的新范式,将大模型作为“跑腿”与知识图谱相互协作。这一方法不仅使推理过程更加清晰有序,还提供了可追溯的推理链条。通过一个具体的例子,对比了传统大模型在推理问题上的表现与Think-on-Graph的方式,突显了其在逻辑分析和推理透明度方面的优势。

image.png

论文地址:https://arxiv.org/pdf/2307.07697.pdf

代码链接:https://github.com/IDEA-FinAI/ToG

Think-on-Graph的紧耦合范式不仅提高了大模型推理的效率,还在可解释性上有所突破。采用了Transformer的beam-search算法思路,实现了搜索剪枝和推理决策的迭代过程,有效提升了大模型推理的可解释性。此外,通过人工反馈和大模型的推理能力,Think-on-Graph还能够发现并修正知识图谱中的错误信息,弥补了大模型训练时间长、知识更新慢的缺点。

最终,在四类知识密集型任务的共9个数据集上,Think-on-Graph不仅刷新了7个性能榜单,而且在Zeroshot-RE数据集上的表现更是显著超过了传统大模型。这一研究成果为深度推理领域的发展带来了新的思路和方法,为实现大模型在各领域应用中更可靠、可解释的推理能力提供了有力支持。

举报

  • 相关推荐
  • 如何正确理解Token经济学?

    去年5月,当大模型厂商卷起价格战时,Tokens大概率是出镜率最高的英文单词。 简单来说,Tokens是大语言模型(LLM)用来切割自然语言文本的基本单位,可以直观的理解为“字”或“词”。 就像工业时代用“千瓦时”度量电力消耗,互联网时代用“GB”度量数据流量,AI时代用“Token”来度量模型的工作量。一个Token可以理解为一个词或词片段(中文里可能是一个字或词语)。

  • 女子用ChatGPT选号中百万大奖 全部捐出帮助有需要的人

    美国弗吉尼亚州女子卡丽爱德华为非经常购彩者,近日通过手机向ChatGPT询问彩票号码建议,AI提供几组数字供参考。她购买后幸运中得15万美元(约106万元人民币)大奖。领奖时她当场宣布将全部奖金捐出,帮助有需要的人,并表示自己已足够幸运,希望以此鼓励其他中奖者回馈社会。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • HUAWEI WATCH GT 6系列全新发布: 驭风而行 实力进阶

    9月24日,华为发布HUAWEI WATCH GT 6智能手表,主打“驭风而行”理念,兼顾运动健康与时尚设计。新品搭载全新高硅叠片异形电池,续航大幅提升,Pro版最长可达21天。升级版向日葵定位系统提升定位精度20%,新增骑行模拟功率功能,适配越野跑、滑雪等户外场景。健康管理全面升级,支持12种情绪识别及房颤负荷统计功能。设计上,Pro版采用立式计时表圈,46mm款灵感源自骑行,41mm款更小巧轻盈。售价1488元起,9月29日正式开售。

  • 小米15T/15T Pro发布:小米最强天玑旗舰 5400元起

    9月25日,小米在海外正式发布15T和15T Pro两款旗舰手机。15T起售价650欧元(约5400元),15T Pro起售价800欧元(约6700元),均为12GB+256GB起步。两款机型设计基本一致,主要差异在核心配置:15T Pro搭载天玑9400+处理器、144Hz刷新率屏幕、90W有线+50W无线充电,后置三摄支持8K视频录制;15T采用天玑8400-Ultra、120Hz屏幕、67W有线快充。两者均配备6.83英寸OLED屏、5500mAh电池及相似影像系统。

  • 2025 TikTok for Business 出海电商营销峰会:从产品到策略,抢抓生意增长 5 大机遇

    全球电商持续增长,TikTok凭借庞大用户基础、高粘性社群和全链路营销能力,已成为中国品牌出海首选平台。TikTok for Business通过“2025SHOPNOW品牌电商出海营销峰会”分享智能营销策略,提出扩题材、扩人群、扩渠道、扩市场、抓节点的五大抓手,助力商家实现闭环与开环场景协同增长。平台推出GMV Max、Smart+ Catalog Ads等工具,优化直播与内容种草效率,并通过AI技术提升创意制作能力。针对节点营销,建议提前蓄水、精准投流,把握全球市场机遇,实现品牌长效增长。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • 华为WATCH GT 6/Pro系列手表发布 售价1488元起

    华为于9月24日正式发布WATCH GT6系列智能手表,起售价1488元。该系列提供41mm和46mm两种尺寸,搭载OLED屏幕,续航最长可达21天,支持5ATM防水和IP69防尘。GT6 Pro新增跌倒检测、ECG心电图分析及专业运动模式,并配备蓝宝石玻璃表镜。全系采用高硅叠片电池技术,能量密度提升37%,支持无线快充。此外,首次应用骑行模拟功率功能,并搭载TruSense技术,精准监测心率、血氧等健康指标。GT6 Pro起售价2488元,进一步满足专业用户需求。

  • IT 资产变动难察觉?贝锐向日葵自动记录 + 及时通知

    许多企业引入远程控制方案,旨在为员工提供高效稳定的远程办公工具。向日葵企业远程控制方案不仅满足远程办公需求,还通过三大IT资产管理模块实现统一管理:硬件信息自动记录资产变动,硬件告警提前处理潜在风险,软件进程监测防止未授权软件运行。该方案帮助企业降本增效,优化设备管理流程,确保数据一致性。作为成熟技术,远程控制兼顾办公与IT管理双重需求,值得推荐。

  • “无人测试”新趋势:2025服贸会公布领先AI测试平台——Testin XAgent

    在数字化浪潮下,软件质量成为企业核心竞争力。传统测试依赖人工,面临效率瓶颈、覆盖局限和技术门槛三大痛点。AI技术正推动测试从自动化向智能化变革。Testin云测发布新一代AI智能测试系统Testin+XAgent,融合大语言模型和智能体技术,实现自然语言驱动测试、高精度视觉识别、全自动API测试和自主探索式测试,重塑测试流程。该系统代表软件测试向“无人测试”升级,助力中国技术出海,彰显AI+测试的全球竞争力。

今日大家都在搜的词: