首页 > 业界 > 关键词  > GPT最新资讯  > 正文

研究发现,GPT 和其他 AI 模型无法分析 SEC 备案文件

2023-12-20 14:23 · 稿源:站长之家

划重点:

- 📌 大型语言模型在分析 SEC 备案文件方面存在困难,常常无法正确回答问题。

- 📌 AI 模型经常会产生虚构的数字和事实,或者拒绝回答问题。

- 📌 AI 模型的性能必须更高才能在金融等受监管行业的大公司中实际应用。

站长之家(ChinaZ.com) 12月20日 消息:一家名为 Patronus AI 的初创公司的研究人员发现,大型语言模型在分析美国证券交易委员会(SEC)备案文件时经常无法正确回答问题。即使是表现最佳的人工智能模型配置 OpenAI 的 GPT-4-Turbo,当给予几乎整个备案文件的阅读能力和相关问题时,仅有79% 的问题回答正确。Patronus AI 的创始人告诉 CNBC,这些所谓的大型语言模型有时会拒绝回答问题,或者会 “产生幻觉”,出现备案文件中不存在的数字和事实。

Patronus AI 的联合创始人 Anand Kannappan 表示:“这种性能水平完全不能接受。要想实现自动化和投入生产使用,性能必须更高。” 这些发现凸显了 AI 模型在大公司中应用的一些挑战,尤其是在金融等受监管行业。这些公司希望将先进技术应用于客户服务或研究,但 AI 模型面临一些困难。

机器人阅读读书

图源备注:图片由AI生成,图片授权服务商Midjourney

快速提取重要数字并对财务陈述进行分析被认为是聊天机器人最有前景的应用之一,自去年底发布 ChatGPT 以来一直备受关注。SEC 备案文件中充满着重要的数据,如果一个机器人能够准确地概括这些文件或快速回答相关问题,它可以使用户在竞争激烈的金融行业中占据优势。

在过去的一年里,彭博社开发了自己的金融数据 AI 模型,商学院教授研究了 ChatGPT 是否可以解析财经头条新闻,摩根大通正在开发一个基于 AI 的自动投资工具。根据 CNBC 之前的报道,生成式 AI 预计每年可以为银行业带来数万亿美元的收益。

然而,GPT 进入该行业并不顺利。微软首次推出使用 OpenAI 的 GPT 的必应聊天时,其主要示例之一是使用聊天机器人快速概述盈利新闻稿。观察人员很快就意识到微软示例中的数字是错误的,一些数字完全是虚构的。

Patronus AI 的联合创始人表示,将大型语言模型应用于实际产品的挑战之一是,它们是非确定性的,不能保证每次给出相同的输出。这意味着公司需要进行更严格的测试,以确保它们的模型运行正确,不会偏离主题,并提供可靠的结果。

该公司的创始人在 Facebook 的母公司 Meta 公司相识,他们在该公司从事与理解模型生成答案的问题以及使其更加 “负责任” 方面的 AI 问题。他们成立了 Patronus AI,该公司已从 Lightspeed Venture Partners 获得种子资金,旨在通过软件实现对大型语言模型的自动化测试,以便公司可以确保其 AI 机器人不会以离题或错误的答案令客户或员工感到惊讶。

Patronus AI 致力于编写一套由主要上市公司的 SEC 备案文件中提取的10,000多个问题和答案,该数据集被称为 FinanceBench。数据集包括正确答案,以及在任何给定备案文件中准确查找答案的位置。并非所有答案都可以直接从文本中提取,有些问题需要轻微的数学或推理。

Patronus AI 测试了四个语言模型:OpenAI 的 GPT-4和 GPT-4-Turbo,Anthropic 的 Claude2和 Meta 的 Llama2,使用该公司生成的150个问题的子集进行测试。他们还测试了不同的配置和提示方式,例如将 OpenAI 模型在问题中给出与答案相关的确切源文本的 “Oracle” 模式。在其他测试中,模型被告知底层 SEC 文件存储的位置,或者在提示中包含 “长上下文”,即几乎完整的 SEC 备案文件与问题一起提供。

GPT-4-Turbo 在该公司的 “闭卷” 测试中失败,该测试不允许其访问任何 SEC 源文件。它在被问到的150个问题中,未能回答88% 的问题,只有14次给出了正确答案。当获得对底层备案文件的访问权限时,其性能有了显著改善。在 “Oracle” 模式下,GPT-4-Turbo 在85% 的情况下正确回答问题,但仍然在15% 的情况下给出了错误答案。然而,这种测试方式并不现实,因为它需要人工输入以找到备案文件中确切的相关位置,而这正是许多人希望语言模型能够解决的问题。

Meta 开发的开源 AI 模型 Llama2在获得各种底层文件的访问权限时,产生了一些最糟糕的 “幻觉”,错误回答的比例高达70%,仅有19% 的回答正确。Anthropic 的 Claude2在提供 “长上下文” 的情况下表现良好,可以回答75% 的问题,21% 的回答错误,仅有3% 的问题未能回答。GPT-4-Turbo 在长上下文测试中表现也不错,79% 的问题回答正确,17% 的回答错误。

在进行测试后,Patronus AI 的创始人对模型的表现感到惊讶,即使在指导答案所在位置的情况下,它们的表现仍然很差。“即使答案在上下文中,模型拒绝回答的频率也非常高,而人类是可以回答的。”Qian 说道。然而,即使模型表现良好,仍然不够好,Patronus AI 发现。“即使模型在20次中回答错误1次,这个错误率对于受监管的行业来说仍然不可接受。”Qian 说道。

然而,Patronus AI 的创始人认为,像 GPT 这样的语言模型在金融行业中有巨大的潜力,无论是分析师还是投资者,如果 AI 技术继续改进。“我们确实认为结果可能非常有希望。”Kannappan 表示,“随着时间的推移,模型将会变得更好。我们非常有希望在长期内,很多工作可以实现自动化。但是现在,你肯定需要至少一个人参与来支持和引导你的工作流程。”

举报

  • 相关推荐
  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

  • AI模型库哪个好?2025年主流AI模型选型指南与API成本对比推荐

    AI时代企业核心挑战已从“能否做AI”转向“如何高效集成AI能力”。AI模型库通过聚合全球主流模型,提供透明化成本与能力信息,帮助企业实现快速原型验证、精准选型和成本优化。这种基础设施降低技术门槛,使非技术背景决策者也能深度参与技术选型,加速创新迭代并降低试错成本。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • AI日报:字节OmniHuman-1.5发布;PixVerse V5模型上线;​腾讯开源智能体框架Youtu-agent

    本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 当GPT-5遇上Gemini 2.5,谁更适合你的业务?这份对比报告说了算

    某跨境电商CTO复盘会上展示:GPT-5 Standard处理百万级商品描述时,费用比Gemini 2.5 Flash-Lite高35%,响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试,提供透明价格拆解和性能雷达图,帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%,而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价,生成定制化决策报告,用数据替代经验主义,提升技术选型效率。

  • MCP模型库深度解析:AI智能体工具调用生态的多元化与规模化发展

    AIbase旗下MCP模型库收录服务数量突破12万,标志着AI智能体生态迈向成熟。MCP协议为AI工具调用提供标准化蓝图,其成功取决于生态规模与活力。平台覆盖工具、知识库、数据源、控制系统等多元领域,展现高度多样性。一站式整合平台降低开发成本,助力企业快速构建复杂应用,成为感知AI技术风向的重要窗口。

今日大家都在搜的词: